Vision-and-language multi-modal pretraining and fine-tuning have shown great
success in visual question answering (VQA). Compared to general domain VQA, the
performance of biomedical VQA suffers from limited data. In this paper, we
propose a retrieval-augmented pretrain-and-finetune paradigm named RAMM for
biomedical VQA to overcome the data limitation issue. Specifically, we collect
a new biomedical dataset named PMCPM which offers patient-based image-text
pairs containing diverse patient situations from PubMed. Then, we pretrain the
biomedical multi-modal model to learn visual and textual representation for
image-text pairs and align these representations with image-text contrastive
objective (ITC). Finally, we propose a retrieval-augmented method to better use
the limited data. We propose to retrieve similar image-text pairs based on ITC
from pretraining datasets and introduce a novel retrieval-attention module to
fuse the representation of the image and the question with the retrieved images
and texts. Experiments demonstrate that our retrieval-augmented
pretrain-and-finetune paradigm obtains state-of-the-art performance on
Med-VQA2019, Med-VQA2021, VQARAD, and SLAKE datasets. Further analysis shows
that the proposed RAMM and PMCPM can enhance biomedical VQA performance
compared with previous resources and methods. We will open-source our dataset,
codes, and pretrained model.
中文翻译:
视觉和语言多模态预训练和微调在视觉问答(VQA)方面取得了巨大成功。与一般领域 VQA 相比,生物医学 VQA 的性能受到数据有限的影响。在本文中,我们提出了一种名为 RAMM 的检索增强预训练和微调范例,用于生物医学 VQA 以克服数据限制问题。具体来说,我们收集了一个名为 PMCPM 的新生物医学数据集,它提供基于患者的图像文本对,其中包含来自 PubMed 的不同患者情况。然后,我们预训练生物医学多模态模型以学习图像-文本对的视觉和文本表示,并将这些表示与图像-文本对比目标 (ITC) 对齐。最后,我们提出了一种增强检索的方法来更好地利用有限的数据。我们建议从预训练数据集中检索基于 ITC 的相似图像文本对,并引入一种新颖的检索注意模块,以将图像和问题的表示与检索到的图像和文本融合。实验表明,我们的检索增强预训练和微调范式在 Med-VQA2019、Med-VQA2021、VQARAD 和 SLAKE 数据集上获得了最先进的性能。进一步的分析表明,与以前的资源和方法相比,所提出的 RAMM 和 PMCPM 可以提高生物医学 VQA 性能。我们将开源我们的数据集、代码和预训练模型。实验表明,我们的检索增强预训练和微调范式在 Med-VQA2019、Med-VQA2021、VQARAD 和 SLAKE 数据集上获得了最先进的性能。进一步的分析表明,与以前的资源和方法相比,所提出的 RAMM 和 PMCPM 可以提高生物医学 VQA 性能。我们将开源我们的数据集、代码和预训练模型。实验表明,我们的检索增强预训练和微调范式在 Med-VQA2019、Med-VQA2021、VQARAD 和 SLAKE 数据集上获得了最先进的性能。进一步的分析表明,与以前的资源和方法相比,所提出的 RAMM 和 PMCPM 可以提高生物医学 VQA 性能。我们将开源我们的数据集、代码和预训练模型。