近日,复旦大学工程与应用技术研究院(简称“工研院”)集群机器人系统实验室( Multi-AGent robotIC systems Lab ,简称‘ MAGIC Lab’ )在国际人工智能联合会议( International Joint Conference on Artificial Intelligence ,简称‘ IJCAI’ )上发表对抗学习领域的最新研究成果。题为《 Adversarial Amendment is the Only Force Capable of Transforming an Enemy into a Friend 》的学术论文被人工智能领域顶会 IJCAI-2023 录用,工研院 2021 级博士生余翀为第一作者,陈涛研究员和甘中学教授为通讯作者。


论文简介:

对抗攻击因为具有能够误导神经网络的特性,通常被认为是对人工神经网络模型的巨大威胁。本文提出了一个相反的观点:如果能够按照正确的方式修正,对抗攻击转而可以用来改善人工神经网络模型。与传统的对抗防御或对抗训练方案旨在提高对抗鲁棒性所不同,本文提出的对抗修正( AdvAmd )方法旨在提高人工神经网络模型在良性样本上的精度水平。

文章深入解析了良性样本和对抗样本之间的确存在分布不匹配的特性。这种分布不匹配,以及现有对抗防御策略中采用的具有相同学习率的互学习机制是导致传统方法在提高对抗鲁棒性的同时带来良性样本上准确率下降的主要原因。本文设计的对抗修正( AdvAmd )方法被证明可以稳定地修复物体分类、目标检测和分割任务中良性样本准确率下降的现象,甚至在大多数情况下,可以使得修正后的人工神经网络模型在良性样本上的准确率高于原始的基准神经网络模型。

对抗修正( AdvAmd )方法的有效性由三个关键部分组成:一是引入 中介样本 ,通过细粒度修正样本标签,来减少分布不匹配带来的负面影响。二是添加 辅助批处理规范化通路 ,用来解耦互学习机制带来的过于平滑的判断面问题。三是设计新的 对抗修正( AdvAmd )损失函数项 ,根据样本易受攻击程度的不同,来动态调整相应的学习率。


本文主要工作:

首先,我们选取了当前最先进和最具代表性的三种对抗防御策略: Adv-Train Def-Distill MagNet ,测试了这些防御策略在典型的目标检测网络上的效果,如表 1 所示。

1. 传统对抗防御策略在典型的目标检测网络上的有效性测试

从表 1 所示的结果中,我们可以得出两个结论。首先, 目前已有的对抗防御策略的确有效地提高了对抗鲁棒性 ,即人工神经网络模型在对抗样本集上的准确率得到了明显的恢复。另一方面, 已有的对抗防御策略带来的良性样本集上的准确率下降对于各种目标检测模型都是广泛存在的 。我们看到,使用传统的对抗防御方法“增强”的检测模型在良性样本集上的准确率低于其基线模型。此外,如果对抗样本集受到更强的攻击,并且产生了更多的扰动,那么在通过对抗防御策略的“增强”后,在良性样本集上准确率的下降将更加明显。

考虑到目前已有的对抗防御策略对于良性样本集准确率带来的负面作用,我们进一步结合图 1 ,给出对抗攻击和对抗防御对于检测边界的影响。

1. 对抗攻击和对抗防御对于检测边界影响的定性解释

通过对比图 1 a )和( b ),当对抗攻击作用时,对抗样本和良性样本分布发生偏移,目标检测错误区域显著增大,这就解释了为什么人工神经网络模型会被对抗样本误导。通过对比图 1 b )和( c ),当对抗防御作用时,对抗样本标签进行了修正,但是对抗样本和良性样本之间的分布差异并没有消除,防御模型从修正的对抗样本和良性样本中进行互学习,产生更加平滑的判断面,以此来减小目标检测错误区域,这就解释了为什么防御模型对对抗样本具有更好的对抗鲁棒性。通过对比图 1 a )和( c ),当对抗防御作用时,由于产生了过于平滑的判断面,以此来目标检测的正确区域也相应的缩小了,这就解释了为什么防御模型会导致良性样本的准确率下降。

基于以上的分析,本文设计了全新的对抗修正( AdvAmd )策略。


相关实验结果:

如图 2 所示,与现有的对抗性防御方法相比,现有策略只会带来良性数据集上准确率的负增长,只有对抗修正( AdvAmd )方法解决了良性数据集上的准确率下降问题。如图 3 所示,在这三种对抗攻击扰动下,对抗修正( AdvAmd )方法,仍然保有较好的对抗鲁棒性。

2. 对比对抗防御和对抗修正方法在物体分类任务 ImageNet 良性数据集上的效果

3. 对比对抗防御和对抗修正方法在物体分类任务 ImageNet 对抗数据集上的效果

4 5 所示,为对抗修正( AdvAmd )方法在目标检测任务上的实验结果,结论与图 2 3 类似。

4. 对比对抗防御和对抗修正方法在目标检测任务 COCO 良性数据集上的效果

5. 对比对抗防御和对抗修正方法在目标检测任务 COCO 对抗数据集上的效果


原文链接:

https://arxiv.org/abs/2305.10766


延伸阅读:

IJCAI 会议内容主要围绕人工智能相关理论及应用,是人工智能领域中最主要的学术会议之一,是全球学术界以及企业界人工智能研究人员和实践者的顶级国际聚会。中国计算机学会( CCF )推荐国际学术会议目录将 IJCAI 列为人工智能领域 A 类会议。

MAGIC Lab ,是复旦大学工研院智能机器人研究院和智能机器人教育部工程研究中心的主要研究团队之一,复旦大学工研院副院长、智能机器人研究院院长甘中学教授为实验室首席 PI MAGIC Lab 主要依托上海市人工智能市级重大专项,面向国家《新一代人工智能发展规划》中的群体智能理论、自主协同控制与优化决策理论、群体智能关键技术等重要科学方向,融合非线性动力学、模式识别、计算神经科学、强化学习、集群智能等多领域的理论与方法,重点探究人机物协同与智能融合的科学原理,突破异构群体行为协作与动态演变的关键技术,构建智慧交通与智能制造等场景下的异构集群交互系统。