clip分类检索 | 今天在干嘛

本质是将搜索匹配任务转化为分类任务

在视频内容相似性分析中，经常遇到用户输入关键词与视频内容相近度无法有效区分的问题。通过引入负文本标签的概念，结合标签对比算法，提高对视频内容的准确描述和相似性计算，更准确地获取符合需求的视频内容。

原始检索匹配

对每一个视频进行clip视频理解，每一个视频都会输出一个特征向量代表该视频的内容

在检索时，当用户输入一个文本(“dog”)，将该文本转换为向量，遍历所有的clip并计算相似度，视频内容的相似性分数可能十分接近，难以区分具体描述。在这种情况下不能很好的区分

如果用户输入cat，可能得到相似的结果，相似性分数差别不大

简单来说就是一个视频与dog和cat的相似性分数相近，无法区分到底属于哪一个描述

引入预设的9个标签 vocabulary，选择与用户输入最不相近的2个标签作为负文本，结合用户输入标签进行相似性计算。

在这9个标签中选出与用户输入最不相近的2个标签，称为负文本。再将这3个标签与所有clip的特征向量进行比较，此时由于有负文本的参与，假设dog与9个标签中最不相似的标签是a photo of yoga和a photo of reading book，三个标签的相似性分别为(0.25, 0.248, 0.242)，再经过softMax扩大数值，那么如果这个视频真的存在dog，最终dog的相似性将会显著提高(80%以上)
1. 标签选择： 根据用户输入的关键词，选择最不相近的2个标签作为负文本。
2. 相似性计算： 将用户输入标签、负文本标签与所有视频 clip 的特征向量进行比较。
3. 相似性度量： 通过 SoftMax 扩大数值，计算三个标签的相似性分数。
4. 结果分析： 若视频内容描述与用户输入标签相似，相似性分数将显著提高，帮助区分视频内容。