2021年NLP入门书籍推荐|理论&实践
对于初学者来说,最系统的入门方法就是买一本好书。相比网络上的内容,书籍是反复审核修改过的,条理上也更加清晰,可以帮大家建立起更完备的知识体系。
今天rumor就从理论和实践两方面梳理一个 中文NLP入门书单 ,帮大家快速入门。趁着新年的折扣季可以买起来了,薄的垫垫茶壶,保护桌子,厚的垫垫显示器,保护颈椎,还可以用来练习量子波动速读。
注:文末附NLP学习路线资料、学习群进入的方式~
理论
理论方面主要还是从统计机器学习和深度学习出发,先打牢基础,NLP很多时候只是把输入输出改变而已。目前神经网络在NLP领域的效果已大大领先,所以先推荐两本这方面的书籍。
《神经网络与深度学习》
首推邱锡鹏老师的这本书,一方面是出版时间很新(20年5月),另一方面是书相对较小,不会给初学者造成太大压力。
《深度学习》
其次必须推荐花书,花书不是一次就能读完读透的,已经有基础的同学可以当作工具书来用,在碰到难题或者面试前都可以翻翻。没有基础的同学最好先看上一本。
除了深度学习之外,经典的统计方法也是需要了解的,业界也有一些应用场景,像 分词 这样对速度要求高的任务不必要上神经网络,经典方法足矣。
《自然语言处理入门》
这本是HanLP的作者何晗出品的,HanLP是Github上一个21k的项目,基于Java高效地实现了分词、词性标注等通用句法、语义任务,虽然不是研究层面的,但在工业界应用十分广泛,很多公司的分词基础组件都是基于HanLP改的。当年我优化分词模块的时候也拜读了源码,十分佩服作者的功底和学习能力。何晗大佬的这本书主要从统计算法角度讲解,侧重于句法分析任务的理论和实践。
《统计自然语言处理》
也是很经典的一本,但出版时间是2013年,很多方法都过时了。不太适合初学者用来入门现在的NLP,但用来了解统计方法是很好的。
《数学之美》
数学之美是吴军老师很经典的科普读物,用易懂的语言和故事带我们了解一个个NLP应用。书不厚,适合闲暇时间阅读。强烈推荐。
介绍完一些基础理论书籍后,也推荐些各个任务上的应用书籍。其实深入某个子任务最好的办法是去找近一年的综述文献,但找不到、或者没时间阅读大量英文文献的话也可以借助中文书籍过渡。
《知识图谱与深度学习》
刘知远老师、韩旭博士和孙茂松教授20年中出品的书,系统地介绍了知识图谱相关模型及应用,还有各模型的实验测评。
《智能问答》+《机器翻译》+《知识图谱》
这三本18年底出版的系列书籍是周明、李沐、赵军三位大佬分别署名的,主要是对该领域进行体系化地分类,再介绍历任模型、数据集等,可以当综述看。
《文本情感分析》
由中科院靳小龙团队在19年11月出版,比较新,系统地介绍了情感分析领域。
《机器阅读理解》
斯坦福博士、微软研究员朱晨光20年初的书,除了阅读理解外还介绍了NLP基础,并讲到了最新的BERT,同时配有阅读理解模型代码,适合初入该领域的同学。
《百面系列》
Hulu团队出品,基本是面试必备了。虽然基础都学了,但面试时总会发现有知识点遗漏,这两本可以帮忙迅速补救。
实践
实战的书选起来没有理论书那么纠结,现在框架都封装得很好了,如果明白原理且有一定编程基础,再看下代码就差不多懂了,甚至不买书直接去找源码也是可以的。书的好处是代码更加规范,配有一定注释且风格一致,选取自己倾向的一门语言去看即可,难度上 Keras<Pytorch<Tensorflow。
《动手深度学习》
李沐在19年中出版的实战书,虽然使用了MXNet这个框架,但概念的讲解和Python实现都不错,适合快速上手。目前的深度学习框架都差不多,蹭别人源码时用pytorch和tensorflow都有可能,不用太拘泥,初入门主要学习模型的逻辑。
《自然语言处理实战》
如果不想看MXNet,可以参考这本比较新的书,20年底出版,配有Keras代码,比其他深度学习框架都容易些。
《TensorFlow自然语言处理》
19年7月出版,从词向量到文本生成都有讲,还不错。
买书和学习
现在书籍的数量越来越多了,上述列表只是我个人筛选的结果,有些同样经典但较老的书籍就没有推荐,如有遗漏欢迎补充。同学们自己找的话,建议选择出版时间近两年、由知名业内大佬出版的图书,同时也可以看下京东、当当上的评论,避免踩坑。看书的时候,不必要求自己一口气看完,可以参考这篇 NLP学习路线 ,先刷一遍重要的知识点,再辅以实践去慢慢深入。
遗憾的是,上述书籍都没有涉及太多BERT之后的进展。所以书籍只是入门的辅助,帮大家打牢基础、建立知识体系,真正深入前沿还需要阅读更多的英文论文,读起来困难的话可以参考中文博客和知乎。
2021年了,要继续保持学习的心态鸭 (ง •̀_•́)ง
---
欢迎初入NLP领域的小伙伴们加入rumor建立的「 NLP卷王养成群 」一起学习,添加微信「 leerumorrr」 备注 知乎+NLP 即可,群里的讨论氛围非常好~
---
入门路线和各任务详解都在这里下载啦~
推荐阅读: