【论文阅读】ICCV 2023 || On the Adversarial Robustness of Multi-Modal Foundation Models

论文地址： https://arxiv.org/abs/2308.10741

Abstract

Flamingo

Motivation

Adversarial attack on OpenFlamingo

Untargeted attack

Targeted attack

Experiments

这篇文章是对结合视觉和语言的多模态基础模型的鲁棒性研究，它主要是研究对Flamingo这个多模态大语言模型的攻击。

Abstract

结合视觉和语言模型的多模态基础模型，如Flamingo或GPT-4，最近获得了极大的兴趣。基础模型的对齐用于防止模型提供有毒或有害的输出。虽然恶意用户已经成功地尝试越狱基础模型，但一个同样重要的问题是，诚实的用户是否会受到恶意第三方内容的伤害。在本文中，我们证明了为了改变多模态基础模型的标题输出而对图像进行的不可感知攻击(ε∞= 1/255)可以被恶意内容提供者用来伤害诚实用户，例如通过引导他们到恶意网站或广播虚假信息。这表明任何部署的多模态基础模型都应该使用对抗性攻击的对策。注:本文包含虚假信息，以说明我们攻击的结果。这并不反映作者的观点。

Flamingo

Flamingo这个多模态大语言模型利用了两个互补的预训练好的模型:一个可以感知视觉场景的视觉模型和一个执行基本推理的大型语言模型。

Flamingo模型共包含4个部分：预训练好的LM和Vision Encoder，以及新引入的感知器重采样器Perceiver Resampler和门交叉注意力密集层GATED XATTN-DENSE layers，训练过程前两个部分是冻结的，只有后两个模块是训练的。

模型将交错的图像和文本组成作为提示输入，然后来预测下一个文本输出。首先是对输入的图片处理，输入到vision encoder中得到视觉特征。然后引入了一个Perceiver Resampler模块，它将Vision Encoder提取的特征和预定义固定长度的latent queries作为输入，通过attention来得到固定长度的视觉特征。这样做的好处就是能把原来不同长度的视觉特征输出为统一长度，并且能降低后续计算的复杂度（KV：学习到的潜在向量与视觉特征的拼接）。然后利用GATED XATTN-DENSE layers来将视觉特征嵌入语言模型中，还是利用attention机制，视觉特征当作K和V，把文本当作Q。此外gated cross-attention dense模块使用了tanh-gating机制，用tanh(a)乘以文本和视觉模态cross-attention后的输出。a初始化为0。因此，在初始化时，模型输出与预训练LM的输出一致，提高了训练稳定性和最终性能。

最终给定图像x的标题文本y的可能性建模为上式这种最大似然估计的形式。其中yl为输入的第l个文本标记，x＜l和y＜l分别为背景图像和背景文本。

任务演示：

Flamingo 可以完成一些视觉语言任务，比如图像字幕任务和视觉问答任务

OpenFlamingo可以通过提供上下文图像和文本来对给定图像执行少样本推理。
也可以通过不提供任何上下文图像，而只提供描述一些假设图像的上下文文本，执行零样本推理。

Motivation

在Flamingo实现的这些任务中，如果攻击者对图片添加难以察觉的扰动，那么模型就可能输出攻击者想要的结果，散布虚假信息或有害内容。

Adversarial attack on OpenFlamingo

Untargeted attack

给定模型的输入条件包括背景图片c和背景文本z（输出），一个查询图像q和真实标题y（输入）,无目标攻击旨在最大化真实标题y的负对数似然，也就是使输出真实标题y的概率最小化。δq是对查询图像的扰动，δc是对上下文图像的扰动。ε是扰动限制。m是给定的上下文个数。

因为是白盒攻击，所以可以通过梯度反向传播，利用PGD攻击对图像添加扰动让它远离正确输出y 。在进行实验攻击时可以只攻击查询图像不攻击上下文图像，也就是只对δq进行优化，把上下文图像的扰动限制εc设为 0。

Targeted attack

对查询图像添加扰动，最小负化对数似然，希望输出目标token的概率最大化。

Experiments

表一展示了攻击迭代次数与攻击效果的关系。CIDEr得分衡量真实标题和输出标题之间相似度（得分越低，攻击性越好）。可以看到，对非目标攻击来说，迭代到100/500时效果就挺好了而目标攻击则需要大量的迭代。

表二展示了对CoCo图像的目标攻击，分别对0次样本和4次样本设置下进行了实验（零样本：不提供任何上下文图像，而只提供描述一些假设图像的上下文文本）。 BLEU4得分衡量目标和输出标题之间相似度（得分越高，越接近目标，目标攻击越好）。

可以看到对目标攻击来说，需要更大的扰动限制才能达到比较好的攻击效果。
在4次样本设置下，当仅针对查询图像时，成功率明显较低，BLEU4得分也较小，当上下文图像也受到攻击时，效果更明好很多。
相对第一个目标来说，第二个目标一更长、更具挑战性，在扰动限制为1/255时攻击成功率和得分效果都很差。然而，使用ε = 4/255的扰动限制时，攻击再次变得更加有效。说明攻击的效果与目标的难度也有关。

结合视觉和语言模型的多模态基础模型，如Flamingo或GPT-4，最近获得了极大的兴趣。基础模型的对齐用于防止模型提供有毒或有害的输出。虽然恶意用户已经成功地尝试越狱基础模型，但一个同样重要的问题是，诚实的用户是否会受到恶意第三方内容的伤害。在本文中，我们证明了为了改变多模态基础模型的标题输出而对图像进行的不可感知攻击(ε∞= 1/255)可以被恶意内容提供者用来伤害诚实用户，例如通过引导他们到恶意网站或广播虚假信息。这表明任何部署的多模态基础模型都应该使用对抗性攻击的对策。【论文阅读】ICCV 2023 || Set-level Guidance Attack: Boosting Adversarial Transferability of VLP Modles weixin_52065789: 作者，您好，请问这篇代码您跑通了吗，我想请教一下【论文阅读】Diffusion Models for Imperceptible and Transferable Adversarial Attack weixin_44272447: 有人将实验复现了吗【论文阅读】Diffusion Models for Imperceptible and Transferable Adversarial Attack 吃一口AC摇摇乐: 好像是ICLR2024 【论文阅读】JAILBREAK IN PIECES: COMPOSITIONAL ADVERSARIALATTACKS ON MULTI-MODAL LANGUAGE MODELS 【论文阅读】FIGSTEP: JAILBREAKING LARGE VISION-LANGUAGE MODELS VIA TYPOGRAPHIC VISUAL PROMPTS 【论文阅读】JAILBREAK IN PIECES: COMPOSITIONAL ADVERSARIALATTACKS ON MULTI-MODAL LANGUAGE MODELS 【论文阅读】FIGSTEP: JAILBREAKING LARGE VISION-LANGUAGE MODELS VIA TYPOGRAPHIC VISUAL PROMPTS