论文地址: https://arxiv.org/abs/2308.10741
On the Adversarial Robustness of Multi-Modal Foundation Models
Abstract
Flamingo
Motivation
Adversarial attack on OpenFlamingo
Untargeted attack
Targeted attack
Experiments
这篇文章是对结合视觉和语言的多模态基础模型的鲁棒性研究,它主要是研究对Flamingo这个多模态大语言模型的攻击。
结合视觉和语言模型的多模态基础模型,如Flamingo或GPT-4,最近获得了极大的兴趣。基础模型的对齐用于防止模型提供有毒或有害的输出。虽然恶意用户已经成功地尝试越狱基础模型,但一个同样重要的问题是,诚实的用户是否会受到恶意第三方内容的伤害。在本文中,我们证明了为了改变多模态基础模型的标题输出而对图像进行的不可感知攻击(ε∞= 1/255)可以被恶意内容提供者用来伤害诚实用户,例如通过引导他们到恶意网站或广播虚假信息。这表明任何部署的多模态基础模型都应该使用对抗性攻击的对策。注:本文包含虚假信息,以说明我们攻击的结果。这并不反映作者的观点。
Flamingo这个多模态大语言模型利用了两个互补的预训练好的模型:一个可以感知视觉场景的视觉模型和一个执行基本推理的大型语言模型。
Flamingo模型共包含4个部分:预训练好的LM和Vision Encoder,以及新引入的感知器重采样器Perceiver Resampler和门交叉注意力密集层GATED XATTN-DENSE layers,训练过程前两个部分是冻结的,只有后两个模块是训练的。
模型将交错的图像和文本组成作为提示输入,然后来预测下一个文本输出。 首先是对输入的图片处理,输入到vision encoder中得到视觉特征。 然后引入了一个Perceiver Resampler模块,它将Vision Encoder提取的特征和预定义固定长度的latent queries作为输入,通过attention来得到固定长度的视觉特征。这样做的好处就是能把原来不同长度的视觉特征输出为统一长度,并且能降低后续计算的复杂度(KV:学习到的潜在向量与视觉特征的拼接)。然后利用GATED XATTN-DENSE layers来将视觉特征嵌入语言模型中,还是利用attention机制,视觉特征当作K和V,把文本当作Q。此外gated cross-attention dense模块使用了tanh-gating机制,用tanh(a)乘以文本和视觉模态cross-attention后的输出。a初始化为0。因此,在初始化时,模型输出与预训练LM的输出一致,提高了训练稳定性和最终性能。
最终给定图像x的标题文本y的可能性建模为上式这种最大似然估计的形式。 其中yl为输入的第l个文本标记,x<l和y<l分别为背景图像和背景文本。
任务演示:
Flamingo 可以完成一些视觉语言任务,比如图像字幕任务和视觉问答任务
在Flamingo实现的这些任务中,如果攻击者对图片添加难以察觉的扰动,那么模型就可能输出攻击者想要的结果,散布虚假信息或有害内容。
给定模型的输入条件包括背景图片c和背景文本z(输出),一个查询图像q和真实标题y(输入),无目标攻击旨在最大化真实标题y的负对数似然,也就是使输出真实标题y的概率最小化。δq是对查询图像的扰动,δc是对上下文图像的扰动。ε是扰动限制。m是给定的上下文个数。
因为是白盒攻击,所以可以通过梯度反向传播,利用PGD攻击对图像添加扰动让它远离正确输出y 。 在进行实验攻击时可以只攻击查询图像不攻击上下文图像,也就是只对δq进行优化,把上下文图像的扰动限制εc设为 0。
对查询图像添加扰动,最小负化对数似然,希望输出目标token的概率最大化。
表一展示了攻击迭代次数与攻击效果的关系。CIDEr得分衡量真实标题和输出标题之间相似度(得分越低,攻击性越好)。 可以看到,对非目标攻击来说,迭代到100/500时效果就挺好了 而目标攻击则需要大量的迭代。
表二展示了对CoCo图像的目标攻击,分别对0次样本和4次样本设置下进行了实验(零样本:不提供任何上下文图像,而只提供描述一些假设图像的上下文文本)。 BLEU4得分衡量目标和输出标题之间相似度(得分越高,越接近目标,目标攻击越好)。