中文自然语言处理开放平台

由中国科学院计算技术研究所·数字化室&软件室创立一个研究自然语言处理的一个平台,里面包含有大量的训练测试语料。
语料库: http://www.nlp.org.cn/docs/doclist.php?cat_id=9&type=15
文本语料库: http://www.nlp.org.cn/docs/doclist.php?cat_id=16&type=15

sogou文本分类语料库

文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档。
地址: http://www.sogou.com/labs/dl/c.html

中文Web信息检索论坛

中文Web信息检索论坛 (Chinese Web Information Retrieval Forum,简称CWIRF)是由北京大学网络实验室从2004年6月起建立并维护的以大规模中文Web信息为测试集的信息检索研究论坛。

CWT(Chinese Web Test collection, 中文Web测试集):

ComPaper10th
Computer Paper collection with more than 10 thousand papers
CWT70th
Chinese Web Test collection with 70 thousand pages
CWT70th顺序读取程序
CWT200g
Chinese Web Test collection with 200 GB web pages.
CWT20g_of_200g
CWT200g样例下载
CWT200g顺序读取程序

CWT相关工具

中文网页分类训练集

CCT2006
2006年3月中文网页分类训练集CCT2006, 编号YQ-CCT-2006-03. 根据常见的新闻类别而设定的分类体系,从新闻网站上抓取得到对应 类别的新闻网页作为训练集页面。它包括960个训练网页和240个测试网页, 分布在8个类别中。 下载
CCT2002-v1.1

2002年中文网页分类训练集CCT2002-v1.1, 编号YQ-WEBBENCH-V1.1, 说明 。 是在CCT2002-v1.0 的基础上对类别进行了部分修正. 是2002年秋天北京大学网络与分布式实验室天网小组通过动员不同专业的几十个学生, 人工选取形成了一个全新的基于层次模型的大规模中文网页样本集。 它包括11678个训练网页实例和3630个测试网页实例,分布在11个大类别中。 下载

-----------------------

一、语料库链接

下面提供一些网上能下载到的中文的好语料,供研究人员学习使用。
(1). 中科院自动化所的中英文新闻语料库 http://www.datatang.com/data/13484
中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。英语新闻分类语料库为Reuters-21578的ModApte版本。


(2). 搜狗的中文新闻语料库 http://www.sogou.com/labs/dl/c.html
包括搜狐的大量新闻语料与对应的分类信息。有不同大小的版本可以下载。


(3). 李荣陆老师的中文语料库 http://www.datatang.com/data/11968
压缩后有240M大小


(4). 谭松波老师的中文文本分类语料 http://www.datatang.com/data/11970
不仅包含大的分类,例如经济、运动等等,每个大类下面还包含具体的小类,例如运动包含篮球、足球等等。能够作为层次分类的语料库,非常实用。这个网址免积分(谭松波老师的主页):http://www.searchforum.org.cn/tansongbo/corpus1.php

(5). 网易分类文本数据 http://www.datatang.com/data/11965
包含运动、汽车等六大类的4000条文本数据。

(6). 中文文本分类语料 http://www.datatang.com/data/11963
包含Arts、Literature等类别的语料文本。

(7). 更全的搜狗文本分类语料 http://www.sogou.com/labs/dl/c.html
搜狗实验室发布的文本分类语料,有不同大小的数据版本供免费下载

(8) .2002年中文网页分类训练集 http://www.datatang.com/data/15021
2002年秋天北京大学网络与分布式实验室天网小组通过动员不同专业的几十个学生,人工选取形成了一个全新的基于层次模型的大规模中文网页样本集。它包括11678个训练网页实例和3630个测试网页实例,分布在11个大类别中。

————————————————————————————————————————————————

二、有效的分词工具

将预料库进行分词并去掉停用词,可以使用的分词工具有:
StandardAnalyzer(中英文)、ChineseAnalyzer(中文)、CJKAnalyzer(中英文)、IKAnalyzer(中英文,兼容韩文,日文)、paoding(中文)、MMAnalyzer(中英文)、MMSeg4j(中英文)、imdict(中英文)、NLTK(中英文)、Jieba(中英文),这几种分词工具的区别,可以参加:http://blog.csdn.net/wauwa/article/details/7865526。

“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。 点这里可以跳转到教程 。”

中文自然语言处理开放平台由中国科学院计算技术研究所·数字化室&软件室创立一个研究自然语言处理的一个平台,里面包含有大量的训练测试语料。语料库:http://www.nlp.org.cn/docs/doclist.php?cat_id=9&type=15文本语料库:http://www.nlp.org.cn/docs/doclist.php?cat_id=16&amp... 1国家语委现代汉语 语料库 http://www.cncorpus.org/ 现代汉语通用平衡 语料库 现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语 语料库 在线提供免费检索的语料约2000万字,为分词和词性标注语料。 2古代汉语 语料库 http://www.cncorpus.org/login.aspx 网站现在还增加了一亿字的古... 语料库 可分为生 语料库 和标注 语料库 。 标注 语料库 ,如分词库,分词与词性标注库,树库,命题库,篇章树库。 中文 分词库的目的是训练和测试汉语的自动分词系统,其他库的目的类似。 树库以句法结构信息为主要标注内容。 命题库以谓词-论元结构信息为主要标注内容。 篇章树库以篇章结构信息为主要内容。 也有 语料库 可用于文本分类,主题检测(如搜狗文本分类 语料库 )。 文本挖掘(Text Mining)是从一个非机构化文本信息中获取用户感兴趣或者有用的模式过程。文本挖掘的 7 个主要领域如下: 搜索和信息检索:存储和文本文档的检索,包括搜索引擎和文档的检索。 文本聚类:使用聚类方法,对词汇、片段、段落或文件进行分组或分类。 文本分类:对片段、段落或文件进行分组和归类,在使用数据挖掘分类的方法基础上,经过训练地标记示例模型。 Web 挖...
前文已经提及,汉语的语法和句型不同于英语,在进行分析之前需要进行分词。首先我们需要的是一个 中文 语料库 ,本文使用的是维基百科的 中文 语料库 ,大小约为1.57GB,下载之后从中提取 中文 语料库 。再使用opencc将 语料库 繁简体转化之后,使用jieba分词将 语料库 中的段落、句子进行分词得到最终用于模型训练的 中文 语料库 中文 语料库 本文使用的 中文 语料库 为维基百科的 中文 语料库 。通过以下链接...
### 回答1: PythonAIML 中文 语料库 是一个包含了大量 中文 对话语料的数据集合。它的目的是提供给AIML机器人开发者一个强大的资源来训练和改进机器人的自然语言处理能力。此 语料库 是由许多 中文 句子和语言模式组成,经过整理、清理和分类后形成的数据集合。 这个 语料库 包括了许多不同的主题和领域,如餐厅美食、旅游、购物、医疗、科技等。每个主题下都有大量的句子和对话模式,这些句子和模式按照语义和结构分为不同的类别。每个类别都有相应的问答对或语言模式,可以用来训练机器人的语言理解和生成能力以及关系性推断算法。 PythonAIML 中文 语料库 的使用非常灵活,用户可以根据自己的需求和特定应用场景,选择所需的句子和模式进行训练和测试。因此,它在各种语言处理应用中,如聊天机器人、智能客服、问题解答等方面,具有广泛的应用前景。 ### 回答2: Python AIML是一个基于Python的机器人开发工具,可用于创建聊天机器人、语音助手等应用程序。其中, 中文 语料库 是Python AIML中非常重要的组成部分之一。 中文 语料库 是用于训练聊天机器人或语音助手的语言数据集合,其包含了大量的 中文 语句和对应回答。通过对 中文 语料库 进行分析、处理,机器人可以理解及回答用户提出的问题。 Python AIML中自带了一些 中文 语料库 ,但如果想提高机器人的回答质量和丰富性,可以自行丰富和更新 语料库 。在构建 中文 语料库 时,需要遵循一些基本的原则: 1. 句子必须清晰、明确,不含歧义和多义词。 2. 回答要简单明了,不能使用太多复杂的词汇。 3. 尽可能涵盖各种话题,包括学习、娱乐、生活等。 4. 应尽量考虑能够让机器人提出一些问答后写出回答的方法。 总之, 中文 语料库 是Python AIML中非常重要的一部分,建立好的 语料库 能够让机器人和用户之间的交互变得更加自然流畅,提高用户的满意度和使用体验。