近日,电子科技大学计算机学院大媒体计算中心徐行博士在国际顶级期刊IEEE Transactions on Image Processing(TIP)上发表题为《Learning Discriminative Binary Codes for Large-scale Cross-modal Retrieval》的研究论文。大媒体计算中心讲师徐行博士为论文第一作者,沈复民副教授为通讯作者,电子科技大学计算机学院/大媒体计算中心为第一单位和通讯单位。

多媒体检索一直是计算机视觉领域的研究重点和难点,传统的多媒体检索方法往往关注于单一模态内的数据检索,如文本检索和图像检索。近年来,随着不同类型的多媒体数据(如文本 、图片、视频、音频、传感器数据等)的增加,如何实现不同模态间的数据检索已经成为多媒体检索领域的研究热点。跨模态哈希(Cross-Modal Hashing)技术通过构造哈希函数,将不同模态数据的高维特征映射成低维的二进制哈希编码,并在汉明空间中保持了高维特征的空间结构,具有存储所需空间小和检索速度快的优点,在跨模检索领域得到广泛的关注。

论文中提出的基于线性判别分类的统一哈希表示学习框架

传统的跨模态检索方法,尤其以哈希算法为主的检索方法,通常需要较高的时间复杂度来获取相关的哈希码字和相关的编码函数。在对比与分析传统的跨模态哈希算法的基础上,本论文提出了一种基于线性判别分类的统一哈希表示学习框架,创新性地将不同模态的哈希函数、统一哈希表示以及线性分类器进行联合学习。在维基百科等多模态数据集的搜索验证性实验中,提出的方法能以更快的训练速度得到非常令人满意的跨模态检索性能,而且采用统一的哈希码表示,能更有效地节省多模态数据的存储空间。因此,该方法可以很好地应用于异构数据搜索等实际问题中。

IEEE Transactions on Image Processing(TIP)属于中国计算机学会认可的A类期刊(CCFA),是图像处理及计算机视觉领域公认的国际顶级期刊,侧重图像处理的前沿理论与方法,需要非常强的创新性,2016年影响因子为3.735。

徐行,博士,计算机学院大媒体研究中心讲师。主要研究方向涵盖多媒体内容分析等方面,具体在大规模图像数据集的自动语义标注以及跨媒体信息检索等前沿方向展开技术研究和系统实现。作为主要成员参与日本学术振兴会基础课题研究及产学研合作研究。近五年以第一作者身份累计发表学术论文十余篇。多次参加多媒体和模式识别领域的重要国际会议,如ACM MM、ICME、ACCV、ICIAP等, 并在会议中进行口头发表。

大媒体计算中心成立于2014年,致力于计算机科学与技术学科在智能信息处理方向的学科建设、团队建设、人才培养、科学研究与技术应用。团队主要从事多媒体、模式识别、计算机视觉、信息检索、机器学习、数据挖掘与数据库等领域的国际一流研究。自中心成立以来,已经在ACM MM、CVPR、ICCV、AAAI、IEEE TIP、IEEE TKDE、IEEE TMM等CCF A类/中科院JCR二区以上的会议和期刊上发表论文近八十篇,相关论文在多媒体、模式识别、计算机视觉、数据挖掘等研究方向产生了较大的国际影响力。团队目前承担1项国家自然基金重点项目,2项国家自然科学基金面上项目和5项国家自然科学基金青年项目。

清水河校区: 成都市高新区(西区)西源大道2006号 邮编: 611731

沙河校区: 成都市成华区建设北路二段4号 邮编: 610054

九里堤校区: 成都市金牛区九里堤西路8号 邮编: 610031

Email: xwzx@uestc.edu.cn