【上中课程】词云Word Cloud（标签云、词频分析、文本分析）的 ...

基本操作步骤如下：

1.构建预料库

2.语料库文件读取

3.中文分词
分词包：jiebe.cut(content)
.content:需要分词的句子
.返回segment：分词的词组
(词库可到搜狗下载，然后用深蓝词库转换工具转成无拼音的文本格式)

jieba.add_word(w) 向分词词典增加新词w

4.词频统计--分组统计各词组数量

5.移除停用词

6.绘制词云图

下面是我在jupyter上运行的代码部分：

import numpy as np
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import jieba
from scipy.misc import imread
import imageio
from PIL import Image
from os import path
#open("abc.txt",encoding="gbk").read()
def grey_color_func(word,font_size,position,orientation,random_state=None,**kwargs):
    return "hsl(0,0%%,%d%%)"%random.randint(60,100)

#对文本进行读取
txt=open("huozhe.txt",encoding="utf-8").read()
#对添加新的中文分词（如人名等）
#对文本进行分词处理
words = jieba.lcut(txt,cut_all = False)
#cut_all:是否采用全模式
#HMM：是否采用HMM模型

#读取停用词，创建停用词表
stopwords = [line.strip() for line in open("CS.txt").readlines()]
#stopwords.add("浩介")
    print("{0:<10}{1:>5}".format(word,count))

text = open("huozhe.txt",encoding="utf-8").read()  
#结巴分词  
mytext = jieba.cut(text,cut_all=False)  #采用精准模式，true为全模式
wt = " /".join(mytext)  
bg_image = imageio.imread('demo2.jpg')
print("图片加载成功")
#设置词云相关参数
wc = WordCloud( #设置背景颜色
               background_color = "white",
                #设置最大显示的字数
               max_words = 200,
                #设置背景图片
               mask = bg_image,
                #此处添加停用词库——需要上门导入
               stopwords = stopwords,
                #设置中文字体，词云默认字体是“DroidSansMono.ttf字体库”，不支持中文
               font_path = "simsun.ttf",
                #设置字体最大值
               max_font_size = 500,
                #设置有多少种随机生成状态，即有多少种配色方案
               random_state = 30,
                #轮廓线宽度
               contour_width=3,
                #轮廓线颜色
               contour_color = 'steelblue',
mycloud= wc.generate(wt)#生成词云  
#设置生成图片的标题
plt.title("Jie_You")
#展示词云图  
plt.imshow(mycloud)  
#设置是否显示 X、Y 轴的下标。
plt.axis("off")  
plt.show()
#保存所生成的词云图
#mycloud.to_file('test.jpg')

mycloud.to_file('test.jpg')

注：1.上图是我用于生成词云图的样图。2.预料库为余华的短篇小说《活着》。3.停用词为CS.txt，下载自网络。另外自己又添加了部分停用词。

中文分词详细介绍【 https://blog.csdn.net/jiajikang_jjk/article/details/83744936 】

词云，又称文字云、标签云，是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现，形成关键词的渲染形成类似云一样的彩色图片，从而一眼就可以领略文本数据的主要表达意思。常见于博客、微博、文章分析等。基本概念：1.语料库：预料库是我们要分析的所有文档的集合2.中文分词：指的是将一个汉字序列切成一个一个单独的词3.停用词：数据处理的时候，自动过滤掉某些字或词...

1.在python官网上下载python并安装，详见： https://www.cnblogs.com/wyqzh/p/11791388.html 2.安装jupyter notebook:打开命令行，输入按下回车就可以安装了。1.安装 word cloud 库打开网站：https://www.lfd.uci.edu/~gohlke/pythonlibs/ 在安装包位置打开命令行，输入： 2.安装 jieba 库在命令行中输入： 3.安装pandas 库：在命令行中输入：...

安装时非常顺利，但是在jupyter notebook里想要引入 word cloud 时出现了问题： ——ModuleNotFoundError: No module named ' word cloud ' 也就是没有找到 word cloud 这个包。百度了一下说可能是因为安装路径为电脑默认路径，需要改在Python的安装目录下这里记录一下检查Python安装路径的方式：

<h3>回答1：</h3><br/>使用 word cloud 库可以将词频分析的结果以词云的形式展现出来。词云是一种可视化工具，可以将文本中出现频率较高的词汇以较大的字体显示，而出现频率较低的词汇则以较小的字体显示。这样可以直观地展示文本中的重点内容和关键词。具体操作步骤如下： 1. 首先需要将文本数据进行处理，去除停用词、标点符号等干扰因素，只保留关键词。 2. 使用Python中的 word cloud 库，导入需要展示的文本数据。 3. 设置词云的参数，包括字体、背景颜色、词云形状等。 4. 调用 word cloud 库中的generate()函数，生成词云图像。 5. 使用matplotlib 库将词云图像展示出来。通过以上步骤，就可以将词频分析的结果以词云的形式展现出来，让人们更加直观地了解文本中的重点内容和关键词。 <h3>回答2：</h3><br/> Word Cloud 是一个基于Python的词云生成库。它可以将一段文本中出现频率较高的单词生成为一幅带有颜色的词云形式，直观地展现出文本中单词出现的频率。使用 Word Cloud 对词频分析的结果以词云的形式展现出来，可以更直观地看到哪些单词出现的频率更高，从而进行更深入的分析。使用 Word Cloud 进行词云生成需要安装相关的库和模块，包括matplotlib、numpy和 word cloud 等。首先需要导入所需的模块，然后使用Python的文件输入操作读取文本数据文件，将其存储为字符串格式，接着设置 Word Cloud 的相关参数，如字体、文字颜色、背景颜色、图片宽高等，然后使用 Word Cloud 的generate_from_frequencies()方法生成词云。词云生成的过程中，我们可以通过设置不同的参数控制词云的形态和颜色。比如，可以设置词云的形状为心形、圆形等，也可以为单词添加颜色渐变效果，更能够吸引用户的关注。在生成词云之后，我们还可以采用各种方式将词云保存为图片格式，方便后续的使用和共享。使用 Word Cloud 对词频分析的结果进行词云展示，不仅可以加深我们对文本内容的理解，更可以作为思考和研究的起点，帮助我们发现文本中隐藏的规律和趋势。因此，词云生成技术在 文本分析 、自然语言处理等领域得到了广泛的应用。 <h3>回答3：</h3><br/> word cloud 库是一种用于生成词云的Python 库，它可以将文本中频率较高的单词以词云的形式呈现出来。词云通常用于数据可视化和信息展示，可以有效地传达信息，帮助人们更好地了解数据和信息。通过使用 word cloud 库，我们可以对文本数据进行词频分析，并以词云的形式展现出分析结果。使用 word cloud 库进行词频分析的过程大致分为以下几步： 1.导入 word cloud 库和相应的数据分析库，如 jieba 、numpy、matplotlib等。 2.读取需要进行词频分析的文本数据，并进行数据清洗和预处理，包括去除标点符号、停用词等。 3.使用 jieba 库对文本进行分词，并统计每个词汇出现的频率。 4.根据统计结果使用 word cloud 库生成词云，可以指定词云的大小、形状、颜色等参数，以及调整字体、背景等样式。 5.展现词云并进行可视化操作，如保存为图像、调整布局、添加标题等。在展现词云时，需要注意以下几点： 1. 词云展现的内容必须符合数据分析的需求，不能出现夹带私人情感、误导观众等不良因素。 2. 词云的样式必须美观、简洁、易读，尽可能地使观众感受到数据背后的信息。 3. 词云的呈现方式可以采用动态或静态的方式，也可以结合导航、交互等方式使观众更好地体验数据分析过程。 4. 词云的展示时间和场合必须合理，不能逾越数据分析的范围和主题。