假设你是一个给图片打标签的人,你会给这张图片打上什么样的标签?「猫」、「橘猫」、「动物」都是可能的答案。但如果扩展一下角度,你还可以给它打上「春天」、「户外」这些代表时间、环境的标签,旁边还有「小草」、「土壤」和「积雪」。以此类推,你 很难用有限的标签来概括一张图片蕴含的所有信息 。但是,当前大部分手机都是依靠这些标签来完成搜索,所以搜出的内容很难精准匹配。

百度网盘是怎么「搜」的?

为了克服「标签搜索」无法全面描述图片内容和特征的局限,百度网盘 用「基于向量的语义搜索」取代了「标签搜索」

这种搜索方式的机制如下图所示:首先,网盘中的所有照片会被编码为一组特征向量(可以理解为一组数值序列,序列中的每个元素代表图片的某种特征或属性)。在搜索时,你输入的文本信息也会被转换为一组特征向量。接下来,这两组向量会被映射到同一语义向量空间进行比较:图片向量和文本向量之间的距离越近,图片和文本的相似度就越高,该图片就越可能是你想找的那张。

不过,语义向量也有自己的能力边界,比如无法精准地判断时间、地点、人物等信息,需要用其他方式补充搜索。

时间和地点信息可以从照片自身携带的原信息中提取,其中包含的经纬度可以被转换成实际的街道名、场所名称。人物信息可以通过智能分类聚合出来,然后打上标签。最后,这些信息的搜索可以用范围查询或者关键词查询来实现。

通过这样的组合搜索,你就得到了想要的结果。为了让照片(而不是文档)排在搜索结果前面,技术人员还增加了对用户搜索意图的理解。如果识别出来是用户想要找的照片,系统会把照片的返回结果放在最上面,解决照片位置靠后的问题。

相比之下,视频的搜索要更难一些,算力消耗也大得多,因此百度网盘采用了搜索封面图的策略(因为视频的封面图往往比较有代表性),把视频转换成图片来做搜索,在成本和搜索准确性方面达到一种平衡。

怎么把搜索速度提上去?

「我一输入完,它啪一下就把结果返回来了,很快啊!」这是很多人使用百度网盘搜图时的共同感受。这背后其实涉及三个方面的优化。

三是 开发一套异构算力调度系统 。这套系统能够统一管理 CPU、GPU 等异构资源的调度,充分利用闲置资源,从而尽可能快地覆盖更多搜索人群。

长期以来,由于图片、视频搜索成本太高,效率太低,很多相册 APP 并没有把这种功能开放给用户。但通过以上这些举措,百度网盘很好地平衡了成本和效率,因此开创性地将其开放了出来,在保证搜索体验的前提下也能控制好成本。

网盘≠网络硬盘

网盘是一个诞生已经接近二十年的产品类型,百度网盘也已经走过了 11 个年头,但很长一段时间以来,人们只是把网盘当成一种存储工具来用,形成了「网盘 = 网络硬盘」的刻板印象。随着一些智能化功能的出现,这种印象正在被打破,百度网盘就是最好的例子。

除了以上提到的文本搜图外,百度网盘其实还支持「 OCR 识图 」和「 以图搜图 」,并且能自动关联百科信息甚至全网信息,极大地扩展了信息检索的维度,让你能够更深入地了解图片背后的故事,这远远超出了一个传统存储工具所能做的事情。

在体验这些功能时,你能深刻地体会到百度网盘多年以来积累的优势:它支持多端同时关联同一账号,形成了一个 天然的全端数据中心 ,把你近十年来用不同设备记录的生活片段构建成了一个个人影像馆、图书馆,然后在你搜索时不经意地将其中一些展示出来,让你恍然大悟:「原来我还有这么一张照片、这么一段记忆」。

生活之外,也有越来越多的人将百度网盘当成一个生产力工具,借助它提供的搜图等功能管理视觉素材以及发票等多模态文件。据统计,图搜功能在百度网盘和一刻相册(百度网盘团队出品的云相册 App)已经覆盖千万级用户,一年累计图片搜索服务超过 2.5 亿次。

更值得一提的是,在图片、视频量如此巨大的情况下,百度网盘始终将用户的数据安全与隐私保护放在首位。以存储安全为例,百度网盘依托百度云计算(阳泉)中心,数据可靠性高达 99.9999999999%(12 个 9),极大提升了用户数据稳定性和可靠性。同时,也持续通过三项 ISO 安全认证的年度审核,全方位保障每位用户的数据安全。

究其根本,这些应用场景的集中爆发是因为百度网盘正在有意识地参与到一场变革中,也就是今年 AI 大模型所带来的 人机交互方式的变革 。在这场变革中,人们正在越来越多地用自然语言跟计算机交互,以文搜图只是其中的一种表现。

在今年 5 月份的「万象大会」上,百度网盘还推出了基于文心大模型的「 云一朵 」智能助理,把文件和视频的快速搜索、知识总结、文档翻译、智能创作都变成了「一句话的事」,未来还将实现多模态创作,并通过 IoT 设备实现网盘内容的万物互联。

三是通过 IoT 设备将网盘的内容在多类智能硬件上互联互通,比如用网盘的语音转写、视频转音频等能力赋能智能音箱、阅读器、听力机、词典笔等硬件,打破之前各类硬件工具使用时的割裂感,让网盘带来的智能体验无处不在。

当然,这种交互方式对于算力和大模型的能力都有着很高的要求。不过,这也正是百度网盘的优势所在:丰富的云端资源让他们可以采用足够强大的自研 AI 大模型,获取足够丰富的语义特征。此外,自研的大模型在迭代方面也更加灵活高效。

可以看到,在百度网盘不断进行智能化升级的今天,这一曾被打上「网络硬盘」烙印的工具正在朝着「 第二大脑 」的方向逐渐演变。基于大模型的处理能力,它正在帮助更多人构建与数字世界的连接,成为一款真正的生产力工具。