配备人工智能的应用程序和设备可以看到并识别物体。它们可以理解人类的语言并做出回应;可以从新的信息和经验中学习;可以向用户和专家提出详细的建议;可以独立行动,取代对人类智能或人工干预的需求(自动驾驶汽车就是一个人工智能设备典型的例子)。
但在 2024 年,大多数人工智能研究人员和从业者——以及大多数与人工智能相关的头条新闻——都聚焦于
生成式人工智能
的突破,这种技术可以创建原创文本、图像、视频和其他内容。要充分了解生成式人工智能,首先要了解构建生成式人工智能工具的技术:
机器学习
(ML) 和
深度学习
。
AI 的正下方是机器学习,它涉及通过训练算法来创建
模型
,以根据数据做出预测或决策。它涵盖了一系列广泛的技术,让计算机能够从数据中学习并做出推理,而无需针对特定任务进行明确的编程。
机器学习技术或算法有很多种,包括
线性回归
、
逻辑回归
、
决策树
、
随机森林
、
支持向量机
(SVM)
、
k-最近邻 (KNN)
、
聚类
等。其中每种方法都适用于不同类型的问题和数据。
但是,最流行的机器学习算法类型之一称为
神经网络
(或人工神经网络)。神经网络是模仿人类大脑的结构和功能建立的。神经网络由相互连接的节点层(类似于神经元)组成,这些节点能协同处理和分析复杂数据。神经网络非常适合在大量数据中识别复杂模式和关系的任务。
机器学习最简单的形式称为
监督学习
,涉及使用标记数据集来训练算法,以准确进行数据分类或结果预测。在监督学习中,人类将每个训练示例与一个输出标签配对。目标是让模型学习训练数据中输入和输出之间的映射,以便可以预测新的、未见过的数据的标签。
深度学习是机器学习的一个子集,采用多层神经网络(称为深度神经网络)来更深入地模拟人脑的复杂决策能力。
深度神经网络包括一个输入层、至少三个但通常有数百个隐藏层,以及一个输出层,而经典机器学习模型中使用的神经网络通常只有一个或两个隐藏层。
这些多层级结构可实现
无监督学习
:它们可以自动从大型、未标记和非结构化数据集中提取特征,并对数据所代表的内容做出自己的预测。
深度学习不需要人工干预,因此可以实现大规模的机器学习。它非常适合
自然语言处理 (NLP)
、
计算机视觉
和其他涉及在大量数据中快速、准确地识别复杂模式和关系的任务。如今我们生活中的大多数人工智能 (AI) 应用程序都或多或少得到了深度学习的支持。
-
半监督学习
,使用标记和未标记的数据来训练 AI 模型以执行分类和回归任务,从而将监督学习和无监督学习相结合。
-
自我监督学习
,从非结构化数据生成隐式标签,而不是依赖标记的数据集来获取监督信号。
-
强化学习
,通过试错和奖励函数学习,而不是从隐藏模式中提取信息。
-
迁移学习
,利用通过一项任务或数据集获得的知识来改善其他相关任务或不同数据集的模型性能。
生成式 AI
是指能够根据用户的提示或请求创建复杂的原创内容(如长篇文本、高质量图像、逼真的视频或音频等)的深度学习模型。
在较高的层次上,生成式模型对所用训练数据的简化表示进行编码,然后从该表示中提取内容来创建与原始数据类似但并不完全相同的新作品。
多年来,统计学中一直使用生成式模型来分析数值数据。但在过去十年中,它们已经发展到可以分析和生成更复杂的数据类型。这种演变与三种复杂的深度学习模型类型的出现相吻合:
-
变分自编码器
(VAE) 于 2013 年推出,让模型能够根据提示或指令生成内容的多种变体。
-
扩散模型最早出现于 2014 年,可在图像上添加“噪声”直到其无法识别,然后再消除噪声以根据提示生成原始图像。
-
转换器
(也称为转换器模型),在序列数据上进行训练,以生成扩展的内容序列(例如句子中的单词、图像中的形状、视频的帧或软件代码中的命令)。转换器是当今大多数热门生成式 AI 工具(包括 ChatGPT 和 GPT-4、Copilot、BERT、Bard 和 Midjourney)的核心。
生成式 AI 从“基础模型”开始;这是一个深度学习模型,是多种不同类型的生成式 AI 应用程序的基础。
当今最常见的基础模型是
大语言模型 (LLM)
,专为文本生成应用程序而创建。但也有用于图像、视频、声音或音乐生成的基础模型,以及支持多种内容的多模态基础模型。
为了创建基础模型,从业人员需要对海量相关的原始、非结构化、无标记数据(如来自互联网的 TB 或 PB 级的数据文本、图像或视频)进行深度学习算法训练。通过训练可以生成一个由数十亿个参数组成的
神经网络
(这些
参数
是数据中实体、模式和关系的编码表示),它可以根据提示自主生成内容。这就是基础模型。
此训练过程需要大量计算,耗时且成本高昂。它需要数千个集群图形处理器 (GPU) 和数周的处理时间,所有这些通常需花费数百万美元。开源基础模型项目,如 Meta 的 Llama-2,使生成式 AI 开发人员能够避免这一步骤及其成本。
接下来,模型必须针对特定的内容生成任务进行调整。这可以通过多种方式实现,包括:
-
微调,涉及向模型馈送特定于应用程序的标签数据——应用程序可能收到的问题或提示,以及所需格式的相应正确答案。
-
带有人类反馈的强化学习 (RLHF),其中人类用户评估模型输出的准确性或相关性,以便模型能够自我改进。这可以很简单,比如让人们通过打字或回话来纠正聊天机器人或虚拟助理的错误。
开发人员和用户定期评估其生成式 AI 应用程序的输出,并进一步调整模型(甚至达到每周一次)以提高准确性或相关性。相比之下,基础模型自身的更新频率要低得多,可能每年或每 18 个月更新一次。
提高生成式 AI 应用程序性能的另一个选择是检索增强生成
(RAG),这是一种扩展基础模型的技术,使用训练数据之外的相关来源来完善参数,以获得更高的准确性或相关性。
AI 可以通过各种方式减少人为错误,包括指导相关人员完成流程的正确步骤,在潜在错误发生之前将其标记出来,以及无需人工干预即可实现流程完全自动化。这在医疗保健等行业尤其重要,例如 AI 引导的手术机器人可以实现始终如一的精度。
随着机器学习算法接触更多的数据并从经验中“学习”,它们可以不断提高准确性并进一步减少错误。
企业可以采用 AI 驱动的聊天机器人和虚拟助理来处理客户咨询、支持请求等。这些工具使用
自然语言处理
(NLP) 和生成式 AI 功能来了解和回应客户有关订单状态、产品详情和退货政策的问题。
聊天机器人和虚拟助理可以提供始终在线的支持,更快地解答常见问题 (FAQ),从而让人工客服可以专注于更高级别的任务,并为客户提供更快捷、更一致的服务。
AI 伦理
是一个多学科领域,研究如何优化 AI 的有益影响,同时降低风险和不良后果。AI 伦理原则通过
AI 治理
体系得到应用,该体系由有助于确保 AI 工具和系统保持安全并合乎道德的防护措施组成。
AI 治理包括应对风险的监督机制。以符合道德规范的方法进行 AI 治理需要各种利益相关者的参与,包括开发人员、用户、政策制定者和伦理学家,有助于确保 AI 相关系统的开发和使用符合社会价值观。
以下是与 AI 伦理和
负责任的 AI
相关的共同价值观:
为了在不同复杂度和精细度的层面上对 AI 的使用进行情境化,研究人员根据精细度水平定义了几种 AI 类型:
弱 AI
:也称为“狭义 AI”,定义旨在执行一项或一组特定任务的 AI 系统。例如,“智能”语音助手应用程序,如 Amazon 的 Alexa、Apple 的 Siri、社交媒体聊天机器人或 Tesla 承诺的自动驾驶汽车。
强 AI
:又称“通用人工智能”(AGI) 或“通用 AI”,具有理解、学习和应用各种任务知识的能力,其水平相当于或
超过人类智能
。目前,这一级别的 AI 还处于理论研究阶段,尚无已知的 AI 系统能够达到这一复杂程度。研究人员认为,如果 AGI 真的有可能实现,那么就需要大幅提高计算能力。尽管 AI 领域最近取得了显著进展,但科幻作品中所描绘的具有自我意识的 AI 系统仍然只存在于虚构世界中。
“会思考的机器”的概念可以追溯到古希腊。但是,自从电子计算出现(并与本文讨论的一些主题相关)以来,AI 发展历程中的重要事件和里程碑包括:
1950 年
艾伦·图灵 (Alan Turing) 发表了
《计算机器与智能》
(Computing Machinery and Intelligence)。在这篇论文中,因在二战期间破解德国 ENIGMA 密码而闻名,并常被称为“计算机科学之父”的图灵提出了以下问题:“机器能思考吗?”
为了回答这个问题,他提供了一个测试,这就是著名的“图灵测试”,在此测试中,人类询问者将尝试区分哪些文本响应是计算机做出的,哪些是人类做出的。虽然这项测试自发布以来经过了大量审查,但它仍然是 AI 历史的重要组成部分,也是哲学中一个不断发展的概念,因为它利用了有关语言学的想法。
1956 年
约翰·麦卡锡 (John McCarthy) 在达特茅斯学院举行的第一届 AI 会议上首创“人工智能”一词。(麦卡锡后来发明了 Lisp 语言。)同年晚些时候,Allen Newell、JC Shaw 和 Herbert Simon 共同创建了第一个运行的 AI 计算机程序——Logic Theorist。
1967 年
弗兰克·罗森布拉特 (Frank Rosenblatt) 建造了 Mark 1 Perceptron,这是第一台基于神经网络的计算机,可以通过反复试错来“学习”。仅仅一年后,Marvin Minsky 和 Seymour Papert 就出版了一本名为《感知器》 (Perceptrons) 的书,该书成为神经网络的里程碑式著作,至少在一段时间内成为反对未来神经网络研究项目的论据。
1980 年
使用反向传播算法进行自身训练的神经网络在 AI 应用中得到了广泛使用。
1995 年
斯图尔特·罗素 (Stuart Russell) 和彼得·诺维格 (Peter Norvig) 出版了
《人工智能:一种现代方法》
(Artificial Intelligence: A Modern Approach),成为 AI 研究领域的领先教科书之一。在这本书中,他们深入研究了 AI 的四个潜在目标或定义,这些目标或定义根据理性和思考与行动来区分计算机系统:
1997 年
IBM 的“深蓝”在一场国际象棋比赛(以及复赛)中击败了当时的世界象棋冠军 Garry Kasparov。
2004 年
约翰·麦卡锡 (John McCarthy) 撰写了一篇名为
《什么是人工智能?》
(What Is Artificial Intelligence?) 的论文,并提出了一个经常被引用的 AI 定义。此时,大数据和云计算时代已经到来,这使组织能够管理越来越大的数据资产,这些数据资产未来将用于训练 AI 模型。
2011 年
IBM Watson 在 Jeopardy! 比赛中击败冠军 Ken Jennings 和 Brad Rutter!同时,大约在这个时候,数据科学开始成为一门受欢迎的学科。
2015 年
百度的 Minwa 超级计算机使用一种称为卷积神经网络的特殊深度神经网络来识别和分类图像,准确率超越普通人。
2016 年
DeepMind 的 AlphaGo 程序,由深度神经网络支持,在一场五局比赛中击败了围棋世界冠军李世石 (Lee Sodol)。由于棋局中可能出现大量棋步(四手之后就有超过 14.5 万亿个可能棋步!),因此,这场胜利意义重大。后来,据报道,Google 作价 4 亿美元收购了 DeepMind。
2022 年
大语言模型
(LLM)(例如 OpenAI 的 ChatGPT)的兴起为 AI 的性能带来了显著变化,并增强其为企业创造价值的能力。借助这些新一代的生成式 AI 技术,深度学习模型能够在海量数据上进行预训练。
2024 年
最新的
AI 趋势
表明 AI 的复兴势头仍在持续。多模态模型可以接受多种类型的数据作为输入,提供了更丰富、更强大的体验。这些模型将
计算机视觉
中的图像识别和 NLP 语音识别功能结合在一起。在大规模模型收益递减、参数数量庞大的时代,小型模型也在不断进步。
企业如何通过生成式 AI 实现效率提升?
生成式 AI 能够帮助企业自动生成内容、提升生产效率、优化客户体验。例如,营销团队可以利用生成式 AI 自动撰写推广文案和邮件内容,技术团队可以通过代码生成器提高开发效率,客服团队则可部署 AI 虚拟助手实现 24/7 响应。
IBM Watsonx 平台结合了大语言模型与企业数据能力,帮助企业快速构建可控、可落地的生成式 AI 应用,提升内容生成、客户支持、文档撰写等流程的智能化水平。
了解更多:
生成式 AI 如何赋能企业创新
什么是 AI 智能体?它与传统 AI 有何不同?
AI 智能体是具备感知、决策和行动能力的自主系统,可以根据环境变化独立作出反应并完成任务。与传统 AI 工具相比,智能体不仅仅是“回答问题”,而是能主动执行操作、组合多个任务,甚至与其他智能体协作。
IBM Watsonx Orchestrate 等工具正基于智能体架构,帮助企业构建由多个 AI 能力模块组成的“AI 员工”,以更灵活、自动化的方式完成业务工作流。
了解更多:
AI 智能体编排简介
AI 为什么会出现“幻觉”?企业该如何应对?
所谓“幻觉”是指生成式人工智能输出内容中出现虚假、编造、与事实不符的信息。这是因为模型基于概率预测文本,而非真正“理解”语义。为确保生成内容的准确性,企业应采用检索增强生成(RAG)、微调模型(fine-tuning)或接入可信数据源。同时,可利用人类反馈强化学习(RLHF)持续优化输出质量。
IBM 提供完整的
AI 风险管理
工具链,帮助企业构建透明、可解释、可信赖的 AI 系统,降低幻觉带来的决策误导风险。
什么是 AI 智能体编排?它能为企业带来什么?
AI 智能体编排(Agent Orchestration)是指多个智能体协同完成复杂任务的过程。与单一模型执行一个任务不同,编排系统可以将“提取数据 → 撰写报告 → 发送邮件”等流程打包,让 AI 像一个真实员工一样跨系统工作。
例如,IBM Watsonx Orchestrate 允许非技术人员通过简单指令调用多个智能体,从 HR 自动入职流程,到财务报表生成,极大提升效率。
了解更多:
了解 AI 智能体如何重塑企业工作流
生成式人工智能能够帮助企业自动生成内容、提升生产效率、优化客户体验。
例如,营销团队可以利用生成式 AI 自动撰写推广文案和邮件内容,技术团队可以通过代码生成器提高开发效率,客服团队则可部署 AI 虚拟助手实现 24/7 响应。
IBM Watsonx 平台结合了大语言模型与企业数据能力,帮助企业快速构建可控、可落地的生成式 AI 应用,提升内容生成、客户支持、文档撰写等流程的智能化水平。
了解更多:
生成式人工智能如何赋能企业创新
什么是 AI 智能体?它与传统 AI 有何不同?
AI 智能体是具备感知、决策和行动能力的自主系统,可以根据环境变化独立作出反应并完成任务。与传统 AI 工具相比,智能体不仅仅是“回答问题”,而是能主动执行操作、组合多个任务,甚至与其他智能体协作。
IBM Watsonx Orchestrate 等工具正基于智能体架构,帮助企业构建由多个 AI 能力模块组成的“AI 员工”,以更灵活、自动化的方式完成业务工作流。
了解更多:
AI 智能体编排简介
AI 为什么会出现“幻觉”?企业该如何应对?
所谓“幻觉”是指生成式人工智能输出内容中出现虚假、编造、与事实不符的信息。这是因为模型基于概率预测文本,而非真正“理解”语义。为确保生成内容的准确性,企业应采用检索增强生成(RAG)、微调模型(fine-tuning)或接入可信数据源。同时,可利用人类反馈强化学习(RLHF)持续优化输出质量。
IBM 提供完整的
AI 风险管理
工具链,帮助企业构建透明、可解释、可信赖的 AI 系统,降低幻觉带来的决策误导风险。
什么是 AI 智能体编排?它能为企业带来什么?
AI 智能体编排(Agent Orchestration)是指多个智能体协同完成复杂任务的过程。
与单一模型执行一个任务不同,编排系统可以将“提取数据 → 撰写报告 → 发送邮件”等流程打包,让 AI 像一个真实员工一样跨系统工作。
例如,IBM Watsonx Orchestrate 允许非技术人员通过简单指令调用多个智能体,从 HR 自动入职流程,到财务报表生成,极大提升效率。
了解更多:
了解 AI 智能体如何重塑企业工作流