很多 AI 科学家都发现,其实让 AI 在图灵测试里取得更好成绩,要做的很简单,只是让计算机给出的答案尽量像人的答案就行了。比如在回答时插入停顿,优化语法等等。
正如刚才提到的,计算机的长处就是快速计算和信息查询。这些毫无难度的问题,计算机不到一秒钟就已计算出或者查到答案。只是回答的如果慢一点,甚至故意答错,也许就通过测试了……Prasad 认为,图灵测试所追求的,并非对 AI 长处的最佳利用。AI 明明可以被用来做更多的事情去帮助人类,为何还要限制自己,去强行追求和人无差别呢?
以及,图灵测试在这么多年里都是基于文本的,而机器学习各领域的技术进步已经让 AI 在视觉、听觉、多传感器融合、决策规划等诸多方面取得了长足发展。一个最经典的例子就是以 AlphaGo 为代表的,足以在各种高难度博弈项目上击败最顶级人类选手的AI。
这些重大进展,很难在一成不变的图灵测试当中得到体现。
新的衡量标准应该如何设计?
有了前面这些铺垫,Prasad 进一步指出,新的衡量标准应该体现机器在效率上的优势,比如计算、搜索、代人完成任务等等,综合评价 AI 对人类智能带来的帮助,而不是执迷于抹平 AI 和人的区别。
比如亚马逊举办的 Alexa 大奖赛,该奖项考察的是参选者(社交机器人)在一些社会层面热门话题上和人类进行连贯、有价值对话的能力。一个社交机器人的对话连贯性、自然程度越高,让人类评委接下来更愿意继续对话,得到的分数就越高。在所有的评判标准中,如果 AI 能够表现出同理心和幽默,那么可能会得到加分;但不论如何,AI 都不需要假装成人类。
另一个例子是机器学习算法平台 Kaggle 的“抽象和推理挑战”,它考察的是参赛算法解决前所未有的推理任务的能力,也体现了 AI 在知识储备、学习、决策推理等方面的长处。
当然,每年都会召开的众多 AI 领域学术会议,特别是这些会议的奖项,也可以帮助人们评价一篇论文的优劣。
Prasad 指出,以 Alexa 为例,作为一个虚拟助手,它正在超越对话式的基础,朝着环境 AI (ambient AI) 的方向前进。当需要时,AI 可以回答人类的请求,当不需要时,AI 可以消失在背景当中,但仍在主动地工作着,完成一些人类可能意识到或者意识不到的重要任务,比如基于多传感器融合的安防监控等等。
在众多科幻电影的烘托下,人们向往着更加强大的“通用人工智能”。不过随着 AI 技术进步和更多被应用到现实生活中,人们一边对 AI 改善自己生活有了更多的期待,另一边又对 AI 的使用甚至滥用所造成的道德困境提高了警惕。
正因为此,新的 AI 衡量标准,也应该在道德、公平层面有所顾及。毕竟,如果固化地遵从图灵测试的标准的话,那么 DeepFake 可能是全世界最优秀的 AI 了。