NLP(自然语言处理)

NLP(自然语言处理)是一项致力于让计算机能够理解、解释、操作人类语言的技术。它涉及文本分析、语音识别、语义理解等领域,其发展对人机交互、信息检索、智能客服等领域有着深远影响。

NLP技术在 机器翻译、情感分析、智能问答 等方面应用比较广泛。例如,机器翻译系统如Google Translate已经能够达到人类水平甚至更高水平。情感分析可以帮助企业了解用户情绪,智能问答系统则可以提供高效准确的信息检索服务。

ChatGPT等大模型技术

后文用ChatGPT泛指大模型相关技术,国内外现有的大模型数不胜数,比如:ChatGPT-3.5、GPT-4、LLaMA、PaLM 2、Claude、文心一言、百川、Minimax、通义千问、讯飞星火等。

ChatGPT是由OpenAI开发的一种基于深度学习的自然语言处理技术,它是建立在GPT(生成式预训练模型)系列之上的。 GPT模型以Transformer结构为基础,采用了大规模的无监督学习,通过大量的文本数据进行预训练,然后可以通过微调或者fine-tuning来适应特定的任务或者应用场景。

ChatGPT专注于对话系统和自然语言生成任务,能够生成自然流畅、连贯的文本响应,使得与人类进行对话的体验更加自然和智能化。它可以用于智能客服、聊天机器人、虚拟助手等应用场景,也可以用于生成文章、答题、写作等任务。

ChatGPT的一个关键特点是其能够理解上下文,并根据上下文信息进行语言生成,从而实现更加准确、贴近人类的对话。随着深度学习技术的不断进步,ChatGPT也在不断优化和演进,为人机交互和自然语言处理领域带来更多可能性。

ChatGPT对NLP产业、以及NLPer们的影响

ChatGPT应该会颠覆以往的 NLP 行业的生态,对NLP产业进行降维打击。

但也不用悲观,在这个信息时代,发展极快, 互联网的起起伏伏,人工智能行业的起起落落 ,也不只是一两次了。NLP 业态的改变不是一朝一夕的,接下来几年,让我们逐步见证 NLP手工业 NLP工业 的变迁。

以前的NLPer

泛指2022年前,以ChatGPT出现时间分割。

NLP工程师们

绝大多数的 NLP 工程师们所做的工程项目,主要是针对 某些特定任务 提出一个 具体的模型 ,进行 有针对性的数据标注 ,然后再制作模型。简而言之,就是 以 NLP 子任务独立进行研究开发 。比如分词、实体识别、文本分类、相似度判别、机器翻译、文摘系统、事件抽取等。

比如,一个公司需要做一套舆情监控系统,那么 NLP 工程师需要做的工作包括文本分类、关键词(短语)抽取、实体识别、事件抽取、文本聚类、相似度判别等等模型或模块。

这些任务,要么以小模型如 fasttext 完成;要么以 预训练+finetune 模式完成;而对于一些数据过于稀疏,本身过于小众的任务,就直接采用 规则和解析 的方式来做。

需要指出的是,NLP 的任务, 除了前述的若干传统研究方向以外,还包括大量的十分小众的任务 ,比如根据下面的一段话,模型需要返回应当几点通知用户参会:

我今天比较累了,想9点睡觉,然后明天的会议吧,早上大概9点一刻叫我一声,我上线,大概到中午能开完。

针对这种小众任务,传统 NLP 手段处理这种问题是比较困难的。

另一方面,NLP 的工作还 以数据领域进行了区分 ,比如,针对医疗文本领域需要定制一套实体识别系统,用于识别药物、疾病、诊疗日期等实体类型;而针对法律领域,则需要定制另一套实体识别系统,用于识别所犯罪行、量刑年限、罪犯名称、原告、被告等信息。 两个模型完成的功能相似,但却并不能互通使用

也就是说, NLP 产业界实际上处于一种手工业模式 ,你干你的,我干我的,针对不同的企业、不同的需求,需要不断地定制模型、定制数据来完成工作。每一个定制需求都需要人力,从而涌现出大量的 NLP 公司和从业者。

另外,NLP 中,还有一部分内容: 知识图谱 。知识图谱这个概念专门用来记录现实世界中的客观存在的事务的关联关系,对于 NLP 任务也极为重要。更准确地讲,应当叫做 领域知识图谱 ,几乎没有哪个机构可以做出一个通泛的图谱来供应用。

知识谱图 属于 有多少人工,就有多少智能 的最典型代表,据我所了解,在各个互联网大中小厂的一些落地应用中,几乎找不到正面典型,反而各种失败的尝试不可计数。

NLP科研人员们

过去很多国内外的头部、非头部科研机构发表了大量的论文,在过去几年 AI 行业暴发式增长的前提下,相关的论文发表数量呈现出井喷式增长。下图只是顶级期刊会议论文的数量,你懂的。

之所以国内外涌现出数量庞大的NLP或AI科研机构,关键原因是因为: 以往的模型不需要消耗太多的 GPU,不需要花费太多的钱 ,科研经费还能养活的起。

相信不少研究生也都了解,为了毕业、找工作,导师为了业绩、评职称,被迫写出了许多水平参差不齐的论文。

绝大多数论文,还停留在针对 NLP 特定任务,优化改进策略上。但已经被头部的科研机构甩开了好远。 科研院校 很大程度上已经跟不上 NLP 领域最先进的技术了。

ChatGPT等带来了什么?

ChatGPT的功能强大,大家应该有目共睹。它几乎洗刷了原先 NLP 产业界手工作坊式的生态。

以前很多传统的NLP任务处理,现在基本只需要一个prompt就可以搞定,比如:时间实体抽取、分词、文本摘要、机器翻译等等,示例:

这个效果基本上已经将传统 NLP 任务卷下马了。试问还有多少传统 NLP 任务能够超越 ChatGPT?用过最新GPT4的同学会感叹大模型的进步之快。

ChatGPT如何影响NLP工程师们?

可能有些人会说,ChatGPT不是万能的,很多问题解决不了,甚至回答都是错误的,捏造事实的场景不在少数。

当然了,ChatGPT 并不是一个完美优质的 LLM 模型。但可以得出结论, ChatGPT 已经完全抹去了传统 NLP 业态中,需要分不同子任务、分不同领域数据场景的手工业模式 ,而是直接采用大模型,以对话形式,直接形成了大一统,进入了 机器时代

ChatGPT 对 NLP 业态的改变, 类似于传统的手工纺织女工,完全由机器替代了 。 当然,会有很多纺织女工(NLP 工程师)表示,ChatGPT 造价昂贵,成本高昂,中小公司用不起,很难形成规模应用。 蒸汽机刚诞生时,价格也是十分高昂的,但是生产力的发展从来都不会因价格而停滞。

随着时间的推移 ,这个购买价格会逐渐趋于一个稳态 :购买接口的价格要大幅度低于雇佣 NLP 工程师,但 OpenAI 或谷歌等巨头依然能够获得巨额垄断利润。

想想20年前一辆汽车的价格,再看看现在,很多事物的发展都是类似的过程。

用蒸汽机替代纺织女工,但并非100%的女工都被替代,还是会留下一些被雇佣来操作机器的。新行业会诞生新的岗位需求,也需要一定时间演进。

当然,调用接口意味着暴露数据,存在数据安全性问题,这会给 NLPer 们留下不多的生存空间。

ChatGPT如何影响 NLP科研人员们?

ChatGPT 的算法原理十分高深复杂吗?貌似并不是, 但这样的模型很难做出来

制作这样的一个模型,OpenAI 、微软、谷歌都已经通过 公开的论文 ,教会了我们,至少在目前看起来, 参数超级庞大达数千亿,GPU 显卡集群超级庞大达数千块,文本数据量多达上万亿 。甚至今后的发展还要更大。这些统统都需要钱。

换句话讲,目前看,NLP 领域的科研就是需要 有钱,有钱,还是有钱 。这个门槛死死地卡住了绝大多数(甚至说是几乎所有)的科研院校的师生, 大家只能紧紧跟上最新的技术发展,而无法真正参与其中

人工智能领域的比拼,从来都不是在比谁的算法更优,论文更多,论文发表的期刊更牛。真正比拼的就是投入的钱,GPU显卡支撑的算力、互联网带来的高质量的数据

论文 ,包括高水平论文,从来都不是人工智能领域真正卡脖子的关键节点, 算力和数据 才是。否则,最高精尖的论文根本不可能公开发表,让全世界看到。

更何况,深度学习科研一直都被诟病,模型假设过于特殊,黑盒模型始终不可解释。很多论文发表出来,更像是一篇宣传稿,而不像是一篇有深度的学术报告。

人工智能的发展,会结束过去科研机构遍地开花,不论什么高校都要开设几个NLP、CV 实验室的时代;进而开启一个 巨头垄断 的时代。它的发展会像 Nvidia、台积电、ASML、日本高精钢铁一样,全世界仅此一家,独门生意,别无分号。你想开设分店,需要前期投入百亿、千亿、甚至万亿的巨额财富。

好在,科研机构是受到国家保护的,教授、副教授们即便技术能力已经被淘汰,但是国家依然会养着,这是体制的巨大能量。那些不被体制保护的研究者们,将直接面对风雨。

数据瓶颈问题突出

算法的训练依赖数据,我遇见过某些算法工程师、科研人员对处理数据、分析数据是极其厌恶的,认为这是 dirty work。但 ChatGPT 告诉我们,大规模的数据,高质量的标注数据是极其重要的。

国内近些年,内容平台被逐渐分流至其它互联网平台上,各个垂直领域的互联网平台仅仅占据了某些数据,事实上 很难形成一个大而全面的数据合集 。这也会影响国内 NLP 行业的发展。

同样地, 标注数据 的质量不足也是十分突出的问题。在绝大多数 NLP 从业者的印象里,不论是否承认数据的重要性,标注数据就是 dirty work,是招聘几个中专、初中学历的外包、临时工来完成的工作。

而 ChatGPT/InstructGPT 告诉了我们,标注数据,非研究生、工程师干不了。 数据标注被提到了一个极高的高度

总之,系统化地获取 高质量数据 的成本也是非常高昂的,这同样意味着一般性的企业和科研机构无法触及到这部分数据。

NLP 的科研将变成一小撮人从事的工作,其他人都会随着时间被甩开。

NLPer们该怎么办?

瞄准 ChatGPT 的缺陷

ChatGPT绝不是完美的,也称不上强人工智能。我们能做的,就是朝着接下来的演进方向继续前进。到底有哪些研究方向。

这个工作就要交给全世界的互联网巨头和科技巨头来完成了。如何 让大型对话语言模型能够融合自家的数据 ,形成有效的生产力。

如果OpenAI搞技术封锁,或者自身的业务 对数据安全性有极高的需求 ,这依然是突破内卷的好方式。复制不管用,那就得自己重新造另外一个 ChatGPT 模型了。

数据的重要性可以说十分重要,但凡制作大模型,都需要依赖海量的数据,如果能够掌握数据入口,掌握内容和流量,依然是个非常稳固的靠岸基地。

数据,实际上就是互联网一直在玩的东西,谁掌握了数据,谁就掌握了内容,掌握了流量,掌握了互联网。

prompt 工程

有的人会想到,充分利用模型来实现功能,需要有优质的 prompt 来进行引导。但我个人感觉,这个工作确实重要,但它实在很难成为 NLP 工程师和从业人员们的一个从业门槛。

对于业界,之前NLP被诟病最多就是 无法落地、需求不足, ChatGPT证明了大模型可以把流畅度推到一个非常靠谱的地步,这就给落地带来了希望。

回归初心,我们到底想解决什么场景的什么问题?大模型本身是没有价值的,基于大模型基础上的应用才是有价值的。NLPer们在这方面有先天的优势。

大模型技术的发展,NLP行业短期可能会受强烈冲击,但长期来看未必是坏事,机遇与挑战一直是共存的。不局限于某个领域和技术,事实上一旦我们选择了技术岗,就意味着必须选择做一个终身学习者。

GitHub - dongrixinyu/JioNLP: 中文 NLP 预处理、解析工具包,准确、高效、易用 A Chinese NLP Preprocessing & Parsing Package www.jionlp.com

ChatGPT这么强,会影响NLPer的就业环境吗 - 知乎

NLP .TM】本人有关自然 语言 处理和文本挖掘方面的学习和笔记,欢迎大家关注。这篇文章来自我的一份 知乎 的回答,搬运过来给大家一起看看。往期回顾: NLP .TM[22] | 如何修正 NLP 问... 来源:专知‍‍近期发布的 Chat GPT GPT -4 等大型 语言 模型 , 不仅能高质量完成自然 语言 生成任务, 生 成流畅通顺, 贴合人类需求的 语言 , 而且具备以生成式框架完成各种开放域自然 语言 理解任务的能 力. 在少样本, 零样本场景下, 大 模型 可取得接近乃至达到传统监督学习方法的性能, 且具有较强的 领域泛化性, 从而对传统自然 语言 核心任务产生了巨大的冲击和影响.本文就大 模型 对自然 语言 处理的... 从 Chat GPT 到新近的 GPT -4, GPT 模型 的发展表明,AI正在向着“类⼈化”⽅向迅速发展。 GPT -4具备深度阅读和识图能⼒,能够出⾊地通过专业考试并完成复杂指令,向⼈类引以为傲的“创造⼒”发起挑战。现有的就业结构即将发⽣重⼤变化,社会⽣产⼒的快速提升将催⽣新的⾏业和岗位机会。如何与⼈⼯智能协同⼯作,利⽤AI辅助办公已经成为各⾏ 从业者 的必修课。脉脉创始⼈兼CEO林凡认为,从“⼈⼯智障”向“⼈⼯智能”的进化节点,。这必将引发新的产业⾰命,也将带来超越互联⽹和移动互联⽹的产业机遇。 周末看到 知乎 的一个问题,有点意思,值得 NLP er 思考,选取几个回答,欢迎留言。问题: Chat GPT 的诞生意味着 模型 大一统的可行性,这会对未来5年的 NLP 算法 从业者 带来怎样的冲击?我个人从 Chat GPT 上看到了很多可能性,也对未来职业生涯更加悲观,或许纳米酱说得对,薅资本主义羊毛,攒够几百万回家考公务员才是正道。链接:https://www.zhihu.com/question/575391861作... Chat GPT 真的太火了!作为 NLP 的终结者, Chat GPT 又会与 NLP 发生怎么样的碰撞?大 模型 可以替代小 模型 吗? NLP 又将何去何从?今天给大家推荐一本好书:《基于 NLP 的内容理解》! NLP 自然 语言 作为 人工智能 的核心技术之一,近几年由于AI技术的深入发展已经获得了极大的突破。因此,我们可以看到 NLP 自然 语言 在各个领域的广泛应用, NLP 工程师也渐渐走到了大众的面前。相信许多人对于这个高薪的岗位还有许多疑问, NLP 工程师是干什么的?工作内容是什么?下面我们来简单认识一下 NLP 自然 语言 ,同时了解一下 NLP 工程师的具体工作内容和发展 前景 吧!1、认识 NLP 自然 语言 首先,我们简单了解一下 NLP 自然 语言 的概念。 NLP 是一个交叉性的学科,它和计算机科学, 人工智能 ,计算 语言 学这三门都有交叉,是一门对综合要 自然 语言 处理好找工作吗? NLP 就业困难?先说结论,当前技术发展阶段,无论是就业还是学术研究, nlp 都很有钱/前途。有个前提是毕业后是走技术路线。如果你以后工作不打算走技术路线的话,那这个讨论就没有啥价值了。自然 语言 处理好找工作吗? Nlp 是一个很大的类,里面细分了很多具体应用,比如搜索,推荐,问答,机器机器阅读理解,情感分析,文本挖掘, 机器翻译 等等等等。基本上凡是涉及到 语言 ,文字的地方都会有 nlp 的用武之地,甚至语音识别里面也有language model。就业面,就业 前景 当然是非常的广的。只是在产品落地中存 现在 NLP 很有前途,毋庸置疑,原因很简单,哪里都有 nlp 的影子,涉及到文字和语音都离不开这些 nlp 技术。那么自然 语言 处理可以做什么? NLP 就业 方向 有哪些?自然 语言 处理可以做什么?目前好就业的 方向 是搜索,推荐,知识图谱。机器人也是一个不错的 方向 ,实用性很广泛,我就是搞机器人 方向 的。入这行你要时刻保持一颗学习的心,至于顶会发表论文,你有这实力确实能帮你进入不错的大厂,没有这实力学好了一样能找到不错的公司,如果你一开始铁了心想进大厂,那更要努力,第一步学历要提起来,知识的深度和广度也要抓起来。有了不错的学历,你还 来自:DataFunTalk进 NLP 群—>加入 NLP 交流群导读本期分享者赵宇——北京大学博士,加州大学洛杉矶分校访问学者。就职于京东零售-搜推算法部,负责搜索生态 方向 ,设计研发了京东大促流量调控系统(登月计划)、新品激励系统、营销联动激励系统,参与设计京东百亿补贴、春晓计划等核心算法模块,带来显著业务价值。曾就职于阿里妈妈精准定向团队,负责转化率预估校准、点击合约工作。发表高水平论文3篇,... 这本实用书籍向医疗保健领导者、研究人员、数据科学家和AI工程师展示了LLMs和生成式AI今天以及将来的潜力,使用故事讲述和医疗保健中的示例用例。谷歌医疗保健和生命科学行业团队的K er rie Holley和Manish Mathur帮助您探索这些技术在医疗保健中的实际应用,从个性化患者护理和药物发现到增强的医学成像和机器人辅助手术。大 模型 时代,企业对人才的需求变了,AIGC相关岗位人才难求,薪资持续走高,AI运营薪资平均值约。理解LLMs和生成式AI在医疗保健中的潜在用途,以及它们在近期及未来的 前景