近年来,文本-视频检索的进展主要得益于对比学习框架。然而,现有方法忽视了模态差距(Modality Gap)的影响。这种差距常常导致锚点表征在优化过程中出现“原地踏步”现象,即正负样本的冲突梯度相互抵消,从而限制对齐能力上限。同时,数据集中存在大量困难负样本阻碍模型的语义学习。为此,我们提出GARE(Gap-Aware Retrieval),一个引入可学习、样本对特定的增量 Δ_ij 的框架,用于在文本 t_i 与视频 v_j 之间重新分配梯度,从而卸载锚点上的优化张力,同时使困难负样本的噪音梯度一部分转嫁到 Δ_ij 上以缓解噪音对锚点表征的语义学习,最终缓解模态差距导致的表征原地优化现象,突破模态对齐的天花板。
2025年12月将在美国圣地亚哥举行的国际人工智能顶会--第39届神经信息处理系统大会(NeurIPS, NIPS)中,本重点实验室2023级硕士研究生肖剑的论文被接受为poster论文。该项工作由肖剑同学独立完成,肖剑是论文第一作者,本重点实验室胡珍珍教授和李佳副教授为通讯作者。
论文简介:
论文标题:
Rebalancing Contrastive Alignment with Learnable Semantic Gaps in Text-Video Retrieval
论文作者:
Jian Xiao, Zijie Song, Jialong Hu, Hao Cheng, Jia Li, Zhenzhen Hu, Richang Hong.
论文链接:
https://arxiv.org/abs/2505.12499v3
图(a):优化张力的存在以及困难负样本的噪音梯度;图(b):引入Δ来缓解优化张力和困难负样本噪音的影响
该研究首先通过在信任域约束下对 InfoNCE 损失进行多变量一阶泰勒展开,推导出 Δ_ij 的近似形式,表明其在引导更新沿局部一致下降方向方面的作用。为了在跨 batch 的层面上耦合这些增量,我们通过一个轻量级神经模块实现 Δ_ij ,并以语义差距作为先验条件来得到增量Δ的变分近似后验,使其具备结构感知的修正能力。进一步地,为了稳定训练并为 Δ_ij 表征施加结构化约束,我们将 Δ_ij 视为变分信息瓶颈(VIB)中的潜变量,并对压缩项进行上界松弛,从而更强地正则化视频侧。在此 VIB 目标之上,我们额外引入两个正则项:信任域约束以限制增量更新幅度,以及方向多样性约束以扩展增量语义覆盖范围。四个基准上的实验结果表明,GARE 能够持续提升对齐精度与鲁棒性,从而验证了基于模态差距感知的张力缓解策略的有效性。
NeurIPS会议被中国计算机学会列为人工智能领域A类会议,并与ICML、ICLR并称为人工智能领域三大顶级会议。会议早期论文主题涵盖工程问题与生物神经元系统计算机模型,后逐步转向机器学习、人工智能和统计学研究。今年 NeurIPS 主会(Main Track)共收到 21575 篇有效论文投稿,程序委员会共接收了 5290 篇论文(接受率 24.52%),其中包括 4525 篇海报(poster)、688 篇亮点报告(spotlight)和 77 篇口头报告(oral)。
情感计算与先进智能机器安徽省重点实验室
2025年9月26日