ICLR:单卡训练一天搞定 长视频噪声关联学习本文口头报告2024年
编号:11200 分类:互联网资讯 阅读: 时间:2024-03-05

2024世界经济论坛的一次会谈中,图灵奖得主YannLeCun提出用来处理视频的模型应该学会在抽象的表征空间中进行预测,而不是具体的像素空间 <sup> [1] 。借助文本信息的多模态视频表征学习可抽取利于视频理解或内容生成的特征,正是促进该过程的关键技术。当下视频与文本描述间广泛存在的噪声关联现象严重阻碍了视频表征学习。因此本文中,研究者基于传输理论,提出鲁棒的学习方案以应对该挑战。被机器学习顶会ICLR2024接收为了Oral。

背景与挑战视频表征学习是多模态研究中最热门的问题之一。大规模视频-语言预训练已在多种视频理解任务中取得显著效果,例如视频检索、视觉问答、片段分割与定位等。目前大部分视频-语言预训练工作主要面向短视频的片段理解,忽略了长视频中存在的长时关联与依赖。

如下图1所示,长视频学习核心难点是如何去编码视频中的时序动态,目前的方案主要集中于设计定制化的视频网络编码器去捕捉长时依赖 [2] ,但通常面临很大的资源开销。该视频中包含了复杂的故事情节和丰富的时序动态。每个句子只能描述一个简短的片段,理解整个视频需要具有长时关联推理能力。由于长视频通常采用自动语言识别(ASR)得到相应的文本字幕,整个视频所对应的文本段落(Paragraph)可根据ASR文本时间戳切分为多个短的文本标题(Caption),同时长视频(Video)可相应切分为多个视频片段(Clip)。

对视频片段与标题进行后期融合或对齐的策略相比直接编码整个视频更为高效,是长时时序关联学习的一种优选方案。视频片段与文本句子间广泛存在噪声关联现象(Noisycorrespondence[3-4],NC),即视频内容与>

如下图2所示,视频与文本间。该示例中视频内容根据文本标题切分为6块。(左图) 绿色时间线指示该文本可与视频内容对齐,红色时间线则指示该文本无法与整个视频中的内容对齐。t5中的绿色文本表示与视频内容v5有关联的部分。(右图) 虚线表示原本给定的对齐关系,红色指示原本对齐中错误的对齐关系,绿色则指示真实的对齐关系。实线表示通过DynamicTimeWraping算法进行重新对齐的结果,其也未能很好地处理噪声关联挑战。

方法本文提出噪声鲁棒的时序传输(NOiseRobustTemporalOptimaltransport,Norton),通过视频-段落级对比学习与片段-标题级对比学习,以后期融合的方式从多个粒度学习视频表征,显著节省了训练时间开销。图3视频-段落对比算法框架图。1)视频-段落对比。如图3所示,研究者以fine-to-coarse的策略进行多粒度关联学习。首先利用帧-词间相关性得到片段-标题间相关性,并进一步聚集得到视频-段落间相关性,最终通过视频级对比学习捕捉长时序关联。针对多粒度噪声关联挑战,具体应对如下:其中为均匀分布给予每个片段、标题同等权重,为传输指派或重对齐矩,可通过Sinkhorn算法求解。通过传输来度量序列距离,而非直接对长视频进行建模,可显著减少计算量。最终视频-段落损失函数如下,其中表示第个长视频与第个文本段落间的相似性矩阵。2)片段-标题对比。该损失确保视频-段落对比中片段与标题对齐的准确性。由于自监督对比学习会将语义相似的样本错误地作为负样本优化,我们利用传输识别并矫正潜在的假阴性样本:其中代表训练批次中的所有视频片段和标题个数,单位矩阵代表对比学习交叉熵损失中的标准对齐目标,代表融入传输矫正目标后的重对齐目标,为权重系数。

实验本文旨在克服噪声关联以提升模型对长视频的理解能力。我们通过视频检索、问答、动作分割等具体任务进行验证,部分实验结果如下。1)长视频检索该任务目标为给定文本段落,检索对应

网址推荐 网址推荐