相关文章推荐
捣蛋的骆驼  ·  自动驾驶十年风云:寒冬过后,曙光初现| 湮灭与新生·  2 月前    · 
捣蛋的骆驼  ·  于骞·  2 月前    · 
飞奔的生姜  ·  超越填鴨式AI學習:中文寫作能力與人文思維在 ...·  1 月前    · 
怕老婆的匕首  ·  无声世界的突破!让手语“DeepSeek”成 ...·  1 月前    · 
烦恼的上铺  ·  如果iPhone 8 ...·  1 月前    · 
小百科  ›  【AIGC】1、爆火的 AIGC 到底是什么 | 全面介绍_呆呆的猫的博客
文本分析 模态分析 文本分类 人工智能
怕考试的木耳
2 年前
  • 一、AIGC 的简要介绍
  • 二、AIGC 的发展历程
  • 三、AIGC 的基石
    • 3.1 基本模型
    • 3.2 基于人类反馈的强化学习
    • 3.3 算力支持
  • 四、生成式 AI(Generative AI)
    • 4.1 单模态
      • 4.1.1 生成式语言模型(Generative Language Models,GLM)
      • 4.1.2 生成式视觉模型(Generative Vision Models)
    • 4.2 多模态
      • 4.2.1 视觉语言生成
      • 4.2.2 文本音频生成
      • 4.2.3 文本图形生成
      • 4.2.4 文本代码生成
    • 五、AIGC 的应用场景
      • 5.1 ChatBot
      • 5.2 Art
      • 5.3 Music
      • 5.4 Code
      • 5.5 Education

      参考论文: A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT

      发布时间:2023.03

      AIGC:AI Generated Content,AI 生成内容,即使用人工智能生成内容,可以生成文字、图像、音频、视频、代码等。

      一、AIGC 的简要介绍

      AIGC 是使用 Generative AI (GAI,生成式 AI) 的方式,能够模拟人类的方式,在很短的时间内创作大量的内容。比如现在很火的如下两个模型:

      • ChatGPT:一个语言模型,能够很快的理解并回复人类的问题
      • DALL-E-2:能够在根据文字创作一幅对应的高质量图像,如图 1 所示

      生成式 AI 需要做什么事情:

      • 从人类的描述中提取信息
      • 根据提取到的信息生成对应的内容

      现在的 AIGC 和之前的工作相比有哪些优势:

      • 之前的工作:没有大量的数据和硬件支撑
      • AIGC:有大量的数据、优秀的基础模型、强有力的硬件计算资源,
      • 比如语言模型: GPT-3 的预训练数据为 570G,基础模型尺寸为 175B,而前一版的 GPT-2 预训练数据只有 38G,基础模型尺寸为 1.5B,故 GPT-3 比 GPT-2 有更强的能力。而且 GPT-3 引入了强化学习来学习人类的反馈
      • 比如图像模型:stable diffusion,同样在 2022 年提出,且拥有很强的图像生成能力

      二、AIGC 的发展历程

      • 1950s,隐马尔科夫模型(HMMs)和高斯混合模型(GMMs),可以生成序列数据,如台词或时间序列

      • 2017 年之前,NLP 和 CV 的发展也分了两条道路:

        • NLP:最初是使用 N-gram language modeling 通过学习单词的分布来生成句子,但又不能处理很长的句子,于是就引入了 RNN,后面又有了 LSTM 和 GRU。
        • CV:2014 年 GAN 被提出,后面又有 VAE 和 diffusion 模型,用于生成高质量图像
      • 2017 年之后,NLP 和 CV 的一部分工作重心逐渐有了合并于 Transformer 的趋势:

        • 2017 年,Transformer 被提出并用于 NLP,如 BERT 和 GPT,都有了完胜之前 LSTM 和 GRU 的效果
        • 2020 年,ViT 首次将 Transformer 用于图像分类人并取得了很好的效果,之后又有很多如 DETR、Swin、PVT 等基于 Transformer 的方法在图像领域的不同任务上同样取得了很好的效果
      • 不仅如此,Transformer 也能够通过整合不同领域的信息来实现多模态任务

        • CLIP 就是一个联合使用 vision-languange 的模型,通过将 transformer 的结构和视觉组件的结合,允许其在大量的文本和图像数据上训练。也正是由于其在预训练的时候整合了图像和语言信息,故能够作为图像编码器进行生成。

      三、AIGC 的基石

      3.1 基本模型

      1、Transformer

      Transformer 可以作为 backbone 或网络结构来实现多种不同模型的 SOTA,如 GPT-3[9]、DALL-E-2[5]、Codex[2] 和 Gopher[39]。

      Transformer 结构大多是基于自注意力机制的 Encoder-Decoder 结构,Encoder 结构用于提取输入内容的隐式表达,Decoder 用于从隐式表达中生成输出。

      Transformer 中的自注意力机制用于提取输入序列中不同 word 或 patch 的之间的关系。

      Transformer 的另外一个优势在于其弱偏置归纳性,即引入的归纳偏置少,模型不容易很轻易的到达上限,故此使用大数据集进行预训练的 Transformer 能够达到很好的效果,并用于下游任务。

      2、预训练的语言模型

      Transformer 的结构目前已经成为语言模型的首选结构,也可以将不同方法分为两类:

      • autoregressive language modeling(decoder):自回归式语言模型,BERT、RoBERTa、XL-Net
      • Masked language modeling(encoder):掩码式语言模型,GPT-3、OPT
      • encoder-decoder 模型

      3.2 基于人类反馈的强化学习

      尽管使用了大量的训练数据,AIGC 也可能并不能总是很好的理解人类的意图,比如实用性和真实性。

      为了让 AIGC 的输出更接近于人类的偏好,从人类的反馈中不断进行强化学习也很重要, reinforcement learning from human feedback
      (RLHF),比如 Sparrow、InstructGPT、ChatGPT 都使用了强化学习。

      RLHF 的整个过程包括三个步骤:

      • 其一,是一个基于大量数据预训练得到的语言模型
      • 其二,训练一个奖励模型来对人类多种复杂的偏好进行编码
      • 其三,对第一步得到的语言模型

        4.1 单模态

        单模态生成模型,就是模型只能接收单一类型的输入,如文本或图像,然后产生对应类型的输出。

        • 生成式语言模型:GPT-3、BART、T5 等
        • 生成式视觉模型:GAN、VAE、normalizing flow 等

        4.1.1 生成式语言模型(Generative Language Models,GLM)

        生成式语言模型是 NLP 模型的一种,该模型所要实现的就是经过训练后能够根据其之前所接触过的模式和结构,生成可读的人类语言。

        可以用于对话系统、翻译、问答系统等。

        现有的 SOTA 预训练语言模型可以分为:

        • masked language model(encoder):一般用于分类任务
        • autoregressive language model(decoder):一般用于文本生成
        • encoder-decoder language:可以利用上下文信息和自回归属性来提高各种任务的性能

        1、Decoder models

        现有表现较好的基于 decoder 的自回归语言模型是 GPT[61],是使用 self-attention 的 Transformer 模型。还有 BERT、T5、InstructGPT 等。

        2、Encoder-Decoder models:

        现有的表现较好的是 Text-to-Text Transfer Transformer(T5)[56],同时使用了基于 Transformer 的 Encoder 和 Decoder 来进行预训练。

        还有例如 Switch Transformer、ExT5、HELM 等

        4.1.2 生成式视觉模型(Generative Vision Models)

        1、GAN,Generative Adversarial Networks(GANs)

        GAN 是图像生成领域很流行的一个模型,包括两个模块:

        • 生成模型,学习如何生成新的数据
        • 判别模型,判断数据是真实的还是生成的假数据

        典型方法有:

        • LAPGAN
        • DCGANs
        • Progressive GAN
        • SAGAN
        • BigGAN
        • StyleGAN
        • D2GAN
        • GMAN
        • MGAN
        • MAD-GAN
        • CoGAN

        2、VAE,Variational AutoEncoders

        VAE 是生成模型,其原理是尝试学习数据的概率分布并学习如何重建数据使得其更接近原始输入数据。

        3、Flow

        Normalizing Flow 是一种基于分布变换的方式,使用一系列可逆和可微的映射将简单分布变成复杂分布

        4、Diffusion

        Diffusion model 是由通过逐步向输入图像中添加高斯噪声的前向扩散,和逐步恢复原图的逆向去噪组成的,是目前 SOTA 的方法。

        • DDPM 使用两个马尔科夫链来逐步进行高斯加噪和反向去噪
        • SGM(Score-based generative model)
        • NCSN
        • Score SDE

        4.2 多模态

        多模态生成的目标是学习一个模型,通过学习从数据中获得的多模态连接和交互来生成原始的模态。

        不同模态的连接和交互是非常复杂的,这也使得多模态表示空间比单模态表示空间更难学习。

        下面会涉及到各类 SOTA 多模态模型:

        • 视觉语言生成
        • 文本语音生成
        • 文本图形生成
        • 文本代码生成

        4.2.1 视觉语言生成

        Encoder-decoder 结构会经常被用于解决计算机视觉和自然语言处理的多模态生成问题

        • Encoder:学习输入数据的复杂特征表达
        • Decoder:生成反应跨模态交互、结构、一致性的原始模态表达

        视觉语言 Encoder,多模态的结合可以直观的想象通过将两个不同模态的预训练模型结合起来即可,主要有两种:

        • concatenated encoder
        • cross-aligned encoder

        Concatenated Encoder:

        • 将两个不同模态的模型 concat 起来,比如最早的 VisualBERT,使用 BERT 作为 text encoder,CNN 作为 image encoder,来自 image encoder 的编码被直接合并到 BERT 的输入编码中,让模型隐式地学习表达。
        • VL-BERT,使用 Faster R-CNN 来抽取 RoI,将抽取到的 RoI 信息作为图像区域的编码
        • UNITER

        Cross-aligned Encoder:

        • 该结构一般使用 tow-tower 结构,分别使用单个 tower 学习每个模态对应的特征,然后使用 cross-modality encoder 对两个模态的特征学习联合表达。
        • LXMERT 使用 Transformer 来抽取图像特征和文本特征,然后使用了一个多模态 cross-attention 模块来进行协同学习,输出编码是视觉编码、语言编码、多模态编码
        • ViLBERT 使用 cross-transformer 模型来对齐两个不同的模态,每个模态输入的 key 和 value 会被输入另外一个模态的 attention module 来生成一个合成的 attention 编码
        • CLIP 使用点乘的方式来融合 cross layer,比上面的使用 self-attention 计算量更少

        视觉语言模型 Decoder,能够通过给 encoder 得到的编码表达来生成特定模态的表达,主要包括:

        • to-text
        • to-image

        To-text decoders,通常从 encoder 中接收文本上下文表达,并解码为一个句子,主要有如下两种模型,随着大型语言模型的出现,现在很多结构都使用冻结语言 decoder 的方式。

        • jointly-trained models,联合训练解码器是指在解码表示时需要完整的交叉模态训练的解码器
        • frozen models,冻结大语言模型,值训练 image decoder

        To-image decoders,表示给定一条指令,生成对应的图像。用的较多的同样是 encoder-decoder 结构,encoder 用于学习语言信息,decoder 用于合成图像。一般有 GAN-based 和 diffusion-based 方法。

        4.2.2 文本音频生成

        文本音频生成

        文本音乐生成

        4.2.3 文本图形生成

        4.2.4 文本代码生成

        Text Code Generation 可以根据输入的语言描述来说自动的生成可用的代码

        • CodeBERT
        • CuBERT
        • CodeT5
        • AST

        五、AIGC 的应用场景

        5.1 ChatBot

        可以和使用者进行基于文本的对话交互,一般使用语言模型来理解并根据问题进行语言的回答。

        如微软小冰 Xiaoice,谷歌 Meena,微软 ChatGPT。

        5.2 Art

        AI 艺术生成是创作艺术品,一般都使用大型数据集在现有的艺术品上进行学习,学习到一定的规则后,模仿相关创作规则来产生新的艺术品。

        如 OpenAI 的 DALL-E 系列,Stability.ai 的 DreamStudio,谷歌的 Imagen 等。

        5.3 Music

        音乐生成是指使用学习到的相关音乐创作规则,产生新的音乐创作。

        如 OpenAI 的 Jukebox

        5.4 Code

        基于 AI 的编程系统包括生成完整的代码、源码和伪代码等

        OpenAI 的 CodeGPT 是一个开源的基于 Transformer 结构的模型,还有 CodeParrot、Codex 等。

        5.5 Education

        还可以用于教育方面,比如生成教学视频、学术论文等。

        2022年是 AIGC (Al-Generated Content, 人工智能 生成内容〉 爆火 出圈的一年,不仅被消费者追捧,而且备受投资界关注,更是被技术和产业界竞相追逐。9月23日,红杉美国发表文章《生成式Al:一个创造性的新世界》,认为 AIGC 会代表新一轮范式转移的开始。2022年10月,Stability Al获得约1亿美元融资,估值高达10亿美元,跻身独角兽行列。Stability Al 发布的开源模型Stable Diffusion,可以根据用户输入的文字描述(称为提示词,prompts)自动生成图像,即文生图(Text-to-lmage,T2I)。Stable Diffusion、DALL-E 2、MidJourney等可以生成图片的AlGC模型引爆了AlI作画领域,Al作画风行一时,标志 人工智能 向艺术领域渗透。2022年12月, OpenAl的大型语言生成模型ChatGPT刷爆网络,它能胜任刷高情商对话、生成代码、构思剧本和小说等多个场景,将人机对话推向新的高度,让网友们不禁怀疑ChatGPT是否已经具有人类智能。全球各大科技企业都在积极拥抱 AIGC ,不断推出相关的技术、平台和
        为应对数字经济中数字智能的挑战, 人工智能 生成内容(artificial intelligence-generated content, AIGC )应运而生。 AIGC 通过根据用户输入的关键字或需求生成内容,使用 人工智能 来辅助或取代人工内容生成。大型模型算法的发展大大增强了 AIGC 的能力,这使得 AIGC 产品成为一种很有前途的生成工具,也为我们的生活增添了便利。 AIGC 作为一种上游技术,在支持下游应用方面具有无限的潜力。重要的是要分析 AIGC 当前的功能和缺点,以了解如何在未来的应用中最好地利用它。因此,本文对 AIGC 的定义、基本条件、前沿功能和高级特性进行了较为 全面 的综述。此外,还讨论了大规模预训练模型的优势和 AIGC 的产业链。此外,文章还探讨了 AIGC 中辅助生成和自动生成之间的区别,并提供了文本生成的示例。本文还探讨了 AIGC 与元宇宙的潜在集成。最后指出了存在的问题和未来的发展方向。
        TE认为,目前国内至少46.5%的企业具备了应用 AIGC 的基础环境。 国内数字化市场历经8年发展,企业上云意识进入高认同阶段,超过50%的企业将业务或路上或已经部署在云端,这其中又有超过90%的企业开始了数字化转型的设计规划,这意味着数字资产、数据驱动、业务数字原生程度大幅加深, AIGC 可成活的土壤越牢固。 因此在AI飞速生根落地的今天,生成式 人工智能 技术的落地进程,已经远远超出了商业化的进程。 在此背景下哪些玩家已经掌握了AI财富密码?哪些场景将是培育AI继续高速生长的温床?现有的市场玩家的发展路径又该如何复刻?
        内容概要:2023 AIGC 人才趋势报告是一份关于 人工智能 领域人才需求与发展趋势的报告,旨在预测未来几年内 人工智能 产业对各类人才的需求及其分布特征,以科普简介的形式呈现。 适用人群:本文适合对 人工智能 产业和相关人才发展感兴趣的从业者、学生、职场人员等人群。 使用场景及目标:2023 AIGC 人才趋势报告主要面向 人工智能 领域相关从业者和招聘方,旨在为人才培训、人才选拔和企业战略决策提供参考。 本文将 介绍 2023 AIGC 人才趋势报告的内容: 人工智能 领域的就业前景:随着 人工智能 技术的快速发展, 人工智能 领域的就业前景将持续看好。预计到2023年, 人工智能 相关行业的就业比例将进一步提高。 各项技能需求的变化:数据分析、机器学习、自然语言处理等技能在 人工智能 领域中的应用越来越广泛,这些技能在未来几年内将继续保持高需求。此外, 人工智能 领域还将对跨学科和交叉领域的人才需求增加。 人工智能 领域人才的分布特征:预计到2023年,亚太地区将成为 人工智能 领域最大的工作市场之一。同时,女性在 人工智能 领域中的比例将逐渐提高,多元化的团队构成也将成为一个趋势。
        2022年是 AIGC (Al-Generated Content, 人工智能 生成内容) 爆火 出圈的一年,不仅被消费者追捧,而且备受投资界关注,更是被技术和产业界竞相追逐。9月23日,红杉美国发表文章《生成式Al:一个创造性的新世界》,认为 AIGC 会代表新一轮范式转移的开始。2022年10月,Stability Al获得约1亿美元融资,估值高达10亿美元,跻身独角兽行列。Stability Al发布的开源模型Stable Diffusion,可以根据用户输入的文字描述(称为提示词,prompts)自动生成图像,即文生图(Text-to-lmage,T2l)。Stable Diffusion、DALL-E 2、MidJourney 等可以生成图片的AlIGC模型引爆了Al作画领域,Al作画风行一时,标志 人工智能 向艺术领域渗透。2022年12月,OpenAl的大型语言生成模型ChatGPT刷爆网络,它能胜任刷高情商对话、生成代码、构思剧本和小说等多个场景,将人机对话推向新的高度,让网友们不禁怀疑ChatGPT是否已经具有人类智能。全球各大科技企业都在积极拥抱AlGC,不断推出相关的技术、平台和
 
推荐文章
捣蛋的骆驼  ·  自动驾驶十年风云:寒冬过后,曙光初现| 湮灭与新生
2 月前
捣蛋的骆驼  ·  于骞
2 月前
飞奔的生姜  ·  超越填鴨式AI學習:中文寫作能力與人文思維在生成式AI時代的革命性 ...
1 月前
怕老婆的匕首  ·  无声世界的突破!让手语“DeepSeek”成为可能! - Xi'an Jiaotong ...
1 月前
烦恼的上铺  ·  如果iPhone 8 搭载了“苹果神经引擎”,你猜Siri 会变得多聪明? | 爱范儿
1 月前
今天看啥   ·   Py中国   ·   codingpro   ·   小百科   ·   link之家   ·   卧龙AI搜索
删除内容请联系邮箱 2879853325@qq.com
小百科 - 百科知识指南
© 2024 ~ 沪ICP备11025650号