clip分类检索
MoMo Lv5

本质是将搜索匹配任务转化为分类任务

在视频内容相似性分析中,经常遇到用户输入关键词与视频内容相近度无法有效区分的问题。通过引入负文本标签的概念,结合标签对比算法,提高对视频内容的准确描述和相似性计算,更准确地获取符合需求的视频内容。

原始检索匹配

对每一个视频进行clip视频理解,每一个视频都会输出一个特征向量代表该视频的内容

在检索时,当用户输入一个文本(“dog”),将该文本转换为向量,遍历所有的clip并计算相似度,视频内容的相似性分数可能十分接近,难以区分具体描述。在这种情况下不能很好的区分

如果用户输入cat,可能得到相似的结果,相似性分数差别不大

简单来说就是一个视频与dog和cat的相似性分数相近,无法区分到底属于哪一个描述

image

分类任务

引入预设的9个标签 vocabulary,选择与用户输入最不相近的2个标签作为负文本,结合用户输入标签进行相似性计算。

  1. 在APP中预设了9个标签vocabulary

    • a photo of doing housework with broom or mop

    • a photo of taking care of baby

    • a photo of eating or dining

    • a photo of doing push-up

    • a photo of running on treadmill

    • a photo of squatting using barbell

    • a photo of yoga

    • a photo of blowing out candles

    • a photo of reading book

  1. 在这9个标签中选出与用户输入最不相近的2个标签,称为负文本。再将这3个标签与所有clip的特征向量进行比较,此时由于有负文本的参与,假设dog与9个标签中最不相似的标签是a photo of yoga和a photo of reading book,三个标签的相似性分别为(0.25, 0.248, 0.242),再经过softMax扩大数值,那么如果这个视频真的存在dog,最终dog的相似性将会显著提高(80%以上)
    1. 标签选择: 根据用户输入的关键词,选择最不相近的2个标签作为负文本。
    2. 相似性计算: 将用户输入标签、负文本标签与所有视频 clip 的特征向量进行比较。
    3. 相似性度量: 通过 SoftMax 扩大数值,计算三个标签的相似性分数。
    4. 结果分析: 若视频内容描述与用户输入标签相似,相似性分数将显著提高,帮助区分视频内容。
  1. 如果对于同一个视频三者的相似度依然不明显,但其余两个已经是与输入的文本最不相似的一个了,说明并不能很好的认为这个视频描述了用户的输入
image
Powered by Hexo & Theme Keep
Unique Visitor Page View