实验室1篇关于鲁棒学习框架的论文被CVPR录用为口头论文-情感计算与先进智能机器安徽省重点实验室

联合能量模型为统一分类与生成提供了极具吸引力的框架，但其鲁棒性瓶颈始终限制着实际应用；而对抗训练虽然鲁棒，却往往牺牲精度为代价，且难以兼顾生成能力。面对三者难以兼得的长期困境，本文聚焦一个关键问题：是否可以通过单一模型，同时实现高精度分类、强对抗鲁棒性与可用生成能力？

为了解决上述问题，重点实验室师生提出一种统一的生成—判别—鲁棒学习框架，即基于能量的联合分布对抗训练方法（Energy-based Joint Distribution Adversarial Training, EB-JDAT）。该方法通过最大化干净分布与对抗分布的联合概率，实现对模型的统一优化。在此基础上，EB-JDAT 进一步引入一种新的极小极大能量优化机制，用于显式对齐干净样本、对抗样本和生成样本之间的能量关系。该项工作由合工大牵头合作完成，被计算机视觉三大顶会之一CVPR 2026正式录用。第一作者为重点实验室2022级本科生姜凯超，指导教师为洪日昌教授和刁云峰副教授，其中刁云峰副教授为通讯作者，伦敦大学学院的王鹤教授、华中师范大学的杨秀隆老师、小米汽车的郝孝帅研究员、中科院自动化所的刘阿建副研究员，中国科学技术大学的储琪副教授为共同作者。CVPR会议全称为IEEE/CVF Conference on Computer Vision and Pattern Recognition，是计算机视觉与模式识别领域最具影响力的国际顶级学术会议之一，长期引领图像理解、视觉识别、场景解析、三维视觉、视频分析以及视觉与人工智能交叉方向的发展，其录用论文代表了当前计算机视觉领域的前沿研究水平与重要创新成果。

论文简介：

论文标题：Your Classifier Can Do More: Towards Balancing the Gaps in Classification, Robustness, and Generation

论文作者：Kaichao Jiang, He Wang, Xiaoshuai Hao, Xiulong Yang, Ajian Liu, Qi Chu, Yunfeng Diao, Richang Hong

论文链接：https://arxiv.org/abs/2505.19459

代码链接：https://github.com/yujkc/EB-JDAT

论文概述：

图1：CIFAR-10数据集上干净样本、对抗样本（PGD-20）与生成样本的能量分布对比

为探究上述问题，本文从能量分布视角出发，系统分析了对抗训练（AT）与联合能量模型（JEMs）在分类性能、生成能力及鲁棒性方面差异的内在来源，并对干净样本、对抗样本和生成样本的能量分布进行了对比分析，结果如图1所示。结果表明，AT更倾向于缩小干净样本与对抗样本之间的能量间隔，从而提升模型鲁棒性；而JEMs更倾向于缩小干净样本与生成样本之间的能量间隔，因此在生成性能和标准分类精度方面表现更优。基于这一观察，本文提出一个关键认识：若能够在训练过程中实现干净样本、对抗样本与生成样本三类数据的能量分布对齐，便有望统一AT与JEMs的优势，进而缓解分类、生成与鲁棒性之间的“三难困境”。受此启发，本文对干净样本、对抗样本和生成样本的能量分布进行统一建模，显式缩小三类样本之间的能量差距，并在此基础上进一步设计了一个min-max优化框架，以刻画更完整的对抗分布。大量实验表明，EB-JDAT在保持接近原始分类精度的同时，实现了当前领先的鲁棒性表现（图2），并具备与JEMs相当的生成质量（表1），从而有效推动了分类准确率、鲁棒性与生成能力三者之间的性能边界。

图2：CIFAR-10数据集上基于AT的代表性方法在分类精度与AutoAttack鲁棒精度上的对比。所提方法在保持有竞争力干净精度的同时取得了更优鲁棒性

表1：CIFAR-10上不同混合模型性能比较（IF：informative initialization，加粗为最优）

CVPR是计算机视觉领域顶级国际学术会议（CCF A类）。本届CVPR共收到了16092份投稿，中稿率仅25.42%，体现了入选论文较高的学术水平和国际认可度。

情感计算与先进智能机器安徽省重点实验室

2026年5月8日

下一篇：实验室1篇关于多模态大语言模型的论文被SIGIR录用为口头论文