本周6看了CCF-AI走进高校系列报告,在看 天津大学张长青副教 授做多视图学习报告时。在提问环节,其中有一个有意思的问题。多视图与多模态有什么区别?传统的机器学习一般而言基于单视图建模分析,也有学者称 多视图 多模态。下面说一下笔者自己的理解,仅当了解,无论对错。

先看一下大佬的回答:

这个问题是 深圳大学王熙照教授 提出的。王老师以一个 深圳大学 博士生毕业生答案进行侧面回答:多个传感器获取到的数据是多模态,而单个传感器在不同位置获取到的数据是多视图的。

张老师的回答:多视图包含多模态,多视图更接近机器学习,更抽象。多模态更接近于应用,与实际的某一个应用结合。

自己理解:

一般而言,它们之间是没有很大的区别,在很多地方都可以互换,如多视图多聚类,多视图多示例多标记学习或者多模态多示例多标记学习。如果要争一个高低,我更偏向于张老师这边答案,但和而不同。

最近在调研表示学习,我从这个角度解释二者区别,大家理解起来可能会更深入一点。在表示学习中,Graph embeding 和Network embeding (既图嵌入和网络嵌入)很多时候也被大家所混用,正如多视图与多模态。思考一个问题,为什么在学习计算机专业课程《数据结构》时,介绍了Graph结构而没有network结构? 因为Graph是对实际的抽象,是一种抽象。而我们在谈网络时,一般都会说XX网络,如社交网络,引文网络等等。然后用图这种抽象结构或者说技术对实际的网络进行建模分析。

接着说Graph embeding 和Network embeding 的区别。Graph embeding目的在于降维,学习到的低维嵌入能够重构,既恢复到原来的’数据形式‘。而Network embeding要求不仅能重构,还能做一些推断任务,如节点分类,链接预测,社区发现等等。

那么如何运用Graph embeding 和Network embeding的思维分析多视图与多模态的区别呢? 多视图更偏向于‘数据结构’,既更抽象,更方便建模分析,既面向数据结构,是一种机器学习范式。而多模态更偏向于解决方案,实际应用,既面向求解,是一种具体的求解方案。

上述仅为一家之言,如有理解不当地方,多多包含(图侵,联系删)。

在跨 学习领域,最初的研究主要关注文字和图像之间的映射,例如通过文字描述来生成图像,或者通过图像来生成文字描述。然而,随着技术的进步,跨 学习已经被应用到了许多其他领域,例如音频和视频之间的映射,3D 型和2D图片之间的映射等。例如,如何有效地处理 间的数据不匹配问题,如何处理 间的数据不完整问题,如何设计更有效的特征映射和信息融合算法等。虽然跨 学习和多 学习的研究仍然面临许多挑战,但随着深度学习和大数据技术的发展,我们有理由相信这两个领域的研究将取得更大的进展。是我们希望学习的目标信息。 多 :例如A在看视频,B在听声音,C在看字幕,将ABC不同性质的数据放在一起叫做多 ; 多 视图 :A在近处正对着看,B在远处看,C在左边看,D在右边看,ABCD接收的相同性质的信息放在一起叫做多 视图 。 主要是看各路数据的本质形 是否存在区别。例如采用不同网络或者特征提取器处理过的原始输入得到的结果也会称为多 数据。 关注公众号,发现CV技术之美本篇文章介绍 ACM MM 2023 论文Beyond First Impressions: Integrating Joint Multi-modal Cues for Comprehensive 3D Representation,3D和图文 的碰撞,多视角多 的统一表征。具体信息如下:论文地址:https://arxiv.org/abs/2308.02982代... 简单来说 multiview一般指同一个对象不同的表现形式。比如一个3D物体不同角度或者不同频谱下的成像图像。 multimodality指不同 ,它们所表现的可能是不同的对象,但之间有联系。比如文本和对应的音视频。这两者之间最关键的区别是后者可能不是描述完全一样的物体或对象,所以往往需要有个预对齐或者建立两者间的对应关系,既correspondence 以看电视为例,A在看视频,B在听声音,C在看字幕,ABC接收的数据放在一起叫做多 ; A在近处正对着看,B在远处看,C在左边看,D在右边看,ABCD接 多 医学图像融合的主要目的: 将多个来源的图像融合为一个单一的图像,每个来源的图像的都包含重要的特征, 互补数据的融合提高了多 医学图像的准确性,降低了整体的不确定性。 多源图像融合 多源图像融合通常是指针对某个场景,结合不同种类的传感器采集的图像, 利用计算机对不同图像进行处理融合,从而得到一个信息量丰富的图像[1]。 Reference: [1]冀鲸宇,王长龙,李永科,张玉华.多源图像融合 多 输出multi-modal outputs与多 视图 学习multi-view theorymulti-modalmulti-view总结 multi-modal multi-view 多 视图 包含多 ,多 视图 更接近机器学习 深度学习中集成学习Success的原因是: 因为(图像)数据存在多 视图 一、多 概念 所谓“ ”,英文是modality,用通俗的话说,就是“感官”,多 即将多种感官融合。 目前的人机智能交互比如语言控制不如屏幕控制那么精准,很多时候会误判指令和错误唤醒,比较语言充满了不确定性;再比如,语音交互的物联网设备还是缺乏主动服务的能力,只是换了操作方式而已,用户体验没有本质提升。 假如我们把“ ”通俗地理解为感官,那么智能音箱就是只具备听觉 的物联网设备,而加载A... 《Multi-View 3D Object Detection Network for Autonomous Driving》 2017,Xiaozhi Chen, Huimin Ma et al. MV3D 在这篇文章,作者提出了一个多视角(Multi-View)的3D物体识别网络(MV3D),采用多 的数据作为输入和预测3D空间的目标。 1.网络结构: 使用RGB图像、雷达鸟瞰图、雷达... 对于多 视图 数据的特征融合,一种简单的解决方案是将这些异构类型的多 视图 特征一次拼接起来,将多 视图 特征转化为一个高维的单 视图 特征。然而这种处理方法具有如下两个不足:1)忽略了不同 视图 特征之间的存在的关联性,也无法充分利用不同时间存在的互补信息;2)特征之间可能存在一些信息冗余,直接拼接起来,不仅增加了信息的冗余,而且更严重的是会导致数据表达能力的减弱,从而降低算法识别准确率。... 多 视图 学习(multi-view learning) 前期吹牛:今天这一章我们就是来吹牛的,刚开始老板在和我说什么叫多 视图 学习的时候,我的脑海中是这么理解的:我们在欣赏妹子福利照片的时候,不能只看45度角的吧,要不那样岂不是都是美女了,这还得了。所以我们要看各个角度的照片,打击盗版美女,给大家创建一个真诚的少点欺骗的和谐世界。所以说,多 视图 学习就是360度,全方位无死角的欣赏(学习)然后得到最接... 《Improving a Deep Learning based RGB-D Object Recognition Model by Ensemble Learning》 2017,Andreas Aakerberg et al. Ensemble Learning集成学习 1.引言: 增加RGB图像同深度信息是一种众所周知的方法,来有效地提升物体识别 型的准确率。 另外一种提升视觉识别 型表... 本文来自网易云社区。近日,网易云易盾实验室AI算法研究员的一篇论文《MULTI-VIEW AUTOENCODER FOR IMAGE FEATURE LEARNING WITH STRUCTURED NONNEGATIVE LOW RANK》提出了一种对多视角多 特征信息进行有效融合的自编码器神经网络,在准确率、NMI、Purity、ARI等各项性能指标上再创新高,较当下多项国际先进的多视角多 ...