5分钟理解什么是多模态 - CSDN博客

1、什么是多模态

简单来说，多模态指的是数据或者信息的多种表现形式。

比如，我想把"我有一个苹果"这个信息传递给你，我可以用文字写出来，也可以用语言说出来，也可以用图片画出来，甚至我还可以拍成视频告诉你。

这就是典型的一种信息，多种存在形式上的多模态。

Photo by AI

我们可以这么理解，文本是一种模态，图像也是一种模态，甚至两种不同的语言，比如中文和英文，也各是一种不同的模态。

之所以相同的信息有那么多模态，是因为人类有多种感官来处理信息：比如听觉、嗅觉、视觉、触觉、味觉等，它们都可以获取并且处理不同形式的信息。

AI 如果真的想要模拟人类，实现通用人工智能(AGI)，最重要的就是要实现对多模态的支持。

也就说，对于一个人工智能模型而言，它需要既可以处理文本，也可以处理图像，又可以处理语音，还可以处理其他任务等。

Photo by AI

2、深度学习中的多模态

在目前的人工智能任务中，我们所说的多模态更多的指对于 3V 任务的支持，也即 Verbal(文本)、Vocal(语音) 和 Visual(视觉)。

深度学习中有很多经典的任务，都是基于这三种任务之间互相转换的。

比如图像生成任务(Image Generation from Text)，根据文本描述生成图像。

再比如反过来的图像描述任务(Image Captioning)，根据图像来生成文本，就像是我们小学学的看图作文一样。

当然除了图像和文本之间的跨模态深度学习之外，还有文本和语音的跨模态，如微信支持的语音转文字功能。

还有语音转图片，如给一段话，按照话语中的描述转换为一张图片。

这种组合可以有很多种，就像是人一样，不同感官获取到了不同形式的信息，统一都会送给大脑来处理，处理完之后，以另一种形式表现出来。

人看到了图像，会用语言描述出来，AI 也需要具备这样的能力。

正因为如此，一旦大模型支持了多模态，就可以十分轻松地完成多种数据之间的转换，也就使得大模型在表现上离通用人工智能更近了一步。

很多同学在看了我的文章后，加我微信探讨如何入门深度学习。我最近也总结了自己之前学习的经验，开发一个计算机视觉从零入门的学习小册子专栏：计算机视觉入门与调优-CSDN博客

欢迎查阅。

什么是 多模态 ？ 多模态 指的是多种模态的信息，包括：文本、图像、视频、音频等。顾名思义， 多模态 研究的就是这些不同类型的数据的融合的问题。目前大多数工作中，只处理图像和文本形式的数据，即把视频数据转为图像，把音频数据转为文本格式。这就涉及到图像和文本领域的内容。《 多模态 AI的界定标准与核心挑战》摘要：本文系统梳理了 多模态 AI的核心概念与判定标准。严格定义 多模态 需满足三个条件：1)输入/输出涉及≥2种模态；2)不同模态信息在推理中实质融合；3)融合对任务性能有实质贡献。文章区分了 多模态 任务（理解 /检索/生成/交互）、模型（双塔/编解码/ 多模态 LLM/统一生成）与系统的本质差异，指出 多模态 模型需在内部表示空间实现联合建模。同时揭示了 多模态 AI面临的四大核心挑战：语义鸿沟、信息密度差异、时空结构复杂性及数据成本。判断 多模态 的关键在于信息依赖的必要性和内部建模的融合程多模式 深度学习 是一个子领域，旨在训练 人工智能 模型来处理和发现不同类型数据（模式）之间的关系——通常是图像、视频、音频和文本。通过结合不同的模态， 深度学习 模型可以更普遍地理解其环境，因为某些线索仅存在于某些模态中。想象一下情绪识别的任务。它不仅仅是看一张人脸（视觉模态）。一个人的声音（音频模态）的音调和音高编码了大量关于他们情绪状态的信息，这些信息可能无法通过他们的面部表情看到，即使他们经常是同步的。模态指的是数据或者信息的表现形式，如文本、图像、音频、视频等 多模态 指的是数据或者信息的多种表现形式，一个信息，它可以存在多种表现形式。为什么会有 多模态 呢？因为人类有多种感官来处理信息：比如听觉、嗅觉、视觉、触觉、味觉等，它们都可以获取并且处理不同形式的信息。为了让计算机具备分析互联网数据的能力、模拟人类的认知方式，同时处理多个模态数据的 多模态 信息处理技术应运而生。最近这一两周看到不少互联网公司都已经开始秋招发放Offer。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。。更多实战和面试交流，文末加入我们。简单来说，所谓的 多模态 大模型就是一种能够理解和处理多种类型的 机器学习 模型——而类型也被叫做模态，包括文本，图片，音频，视频等。这种模型可以融合多种不同模态的信息，执行更复杂和智能的任务；如视觉问答(AI面试官)，图文生成，语音识别与合成等。‍‍‍‍‍‍‍‍‍。 CLIP作者提出了一种基于对比学习的 多模态 预训练模型CLIP，该模型打破了传统视觉模型只能在预定义的标签列表中识别这一范式，是一个zero-shot的视觉分类模型，并且预训练的模型在没有微调的情况下，可以在下游任务上取得很好的迁移效果。什么是 多模态 ？简单来说，所谓的 多模态 大模型就是一种能够理解和处理多种类型的 机器学习 模型——而类型也被叫做模态，包括文本，图片，音频，视频等。这种模型可以融合多种不同模态的信息，执行更复杂和智能的任务；如视觉问答(AI面试官)，图文生成，语音识别与合成等。‍‍‍‍‍‍‍‍‍关键技术_‍ 多模态 大模型要远比单模态模型要复杂，主要体现在以下几个方面：‍‍‍‍数据对齐：确保不同模态的数据在时间和内容上的一致性‍‍‍‍‍‍‍数据融合：将 多模态 数据整合在一起，以充分利用各模态的信息‍‍‍‍‍‍‍。 多模态 学习（Multimodal Learning）是一种利用来自不同感官或交互方式的数据进行学习的方法，这些数据模态可能包括文本、图像、音频、视频等。 多模态 学习通过融合多种数据模态来训练模型，从而提高模型的感知与理解能力，实现跨模态的信息交互与融合。 1. 多模态 数据：不同的存在形式或信息来源均可被称之为一种模态。由两种或两种以上模态组成的数据称之为 多模态 数据（ 多模态 用来表示不同形态的数据形式，或者同种形态不同的格式，一般表示文本、图片、音频、视频、混合数据）。 多模态 数据是指对于同一个描述对象，通过不同领域或视角获取到的数据，并且把描述这些数据的每一个领域或视角叫做一个模态。 2. 多模态 数据融合：主要是指利用计算机进行 多模态 数据的综合处理，负责融合各个模态的信息来执行目标预测。 多模态 数据融合负责将多个模态的信息进行有效的整合，汲取不同模态的优点