2009
年的中国语言生活,呈现出和谐有序、健康稳健、生机勃勃的发展态势。
语言文字工作亮点突出,成效显著,引起社会广泛关注。
民族语文工作多方面开展,
新闻出版、广播电视领域进一步加强了对语言使用的管理,
汉语国际传播规模稳步扩大,
海外华文教育迎来难得的发展机遇
。
年度语言热点不断涌现,语言生活出现
新领域和新动向。
二、领域语言
(一)语言文字工作
语言文字应用管理工作不断拓展
截至
2009
年年底,城市语言文字工作评估通过认定而达到标准的二类城市有
32
个,
一二类城市全部达标的省份
1
个,三类城市
88
个。已认定的省、市级语言文字规范化示范学校
累计近
1.3
万所,教育部、国家语委认定的国家级语言文字规范化示范学校
426
所。
开展公务员普通话水平测试的城市
173
个,开展窗口行业普通话测试的城市达
176
个、
219 607
人次,
参加
汉字应用水平试点测试的达
25 577
人,参加“中华诵·经典诵读”大赛的超过
840
余万人。
教育部语言文字应用管理司在
全国
8
个省(自治区)
共举办少数民族教师普通话培班
11
期,培训教师
964
人
。
据国家语委组织的全国
16
个城市的外文使用情况调查数据显示:全国外文平均使用率达
31%
,英语使用占全部外语语种的
82.77%
。
语言文字信息管理工作深入推进
2009
年
发布了《汉字部首表》《
GB13000.1
字符集汉字部首归部规范》《现代常用字部件及部件名称规范》和《现代常用独体字规范》
4
项国家语委规范;以《中国语言生活绿皮书》的形式,发布了
6
项规范草案。天津市语言文字培训测试中心受国家语委委托研制的“汉语口语水平测试(母语非汉语)标准研究”项目,通过专家鉴定。
教育部、国家语委发布了
2008
年度中国语言生活状况报告。与相关单位联合发布了“
2008
年度中国主流媒体十大流行语”“
2009
年度中国主流媒体十大流行语”。国家语言资源监测与研究中心少数民族语言分中心的维吾尔语文研究基地和藏语文研究基地分别在西北民族大学和新疆师范大学成立。中国语言资源有声数据库建设江苏省首批试点通过验收,第二批试点工作启动;少数民族语言有声数据库建设试点工作在云南启动。中国语言资源有声数据库建设的技术规范、工作规范研制完成。
民族语文工作多方面开展
2009
年
7
月国务院发布了《国务院关于进一步繁荣发展少数民族文化事业的若干意见》,其中四条与少数民族语言文字工作有关。在教育部语信司支持下,“全国彝语术语标准化工作委员会”
11
月在西南民族大学成立。“藏、维、彝民语语音参数数据库”“汉藏语系语言词汇语音数据库”等多项教育部、国家语委民族语言文字规范标准建设及信息化项目结项。文化部全国文化信息资源建设管理中心
2009
年启动了康巴藏语节目的译制工作。
新闻出版语文工作取得实效
据
2009
年的报告显示,
2008
年度全国教育教学辅助类报纸编校质量稳步上升,全国行业报(部分)编校质量普遍提高。
地方语言文字工作
为了迎接
2010
年上海
世界
博览会,
上海市语言文字工作委员会、教育委员会、质量技术监督局于
2009
年制定了上海地方标准《公共场所英文译写规范》。上海市语委采取多种形式,在全市开展公共场所英文使用规范化专项整治行动,取得了阶段性成果。
2009
年,天津市语言文字培训测试中心受国家语委委托,
在马来西亚成功举行了两场普通话水平测试,引起了强烈反响。
中华经典诵读基地在苏州建立。朗诵水平等级考试在上海开展。
(二)广播电影电视及网络语言
广电总局出台严格控制电视剧使用方言的新措施
针对我国电视剧大量使用方言的问题,国家广播电影电视总局办公厅
2009
年
7
月下发了《关于严格控制电视剧使用方言的通知》。
网络语言使用状况调查
据
2009
年进行的一项问卷调查,经常使用网络语言的占样本总数的
31.3%
,有时使用的占
50.0%
,很少使用的占
15.6%
,从来不用的占
3.1%
。
(三)语言教育与语言传播
汉语国际传播规模稳步扩大
2009
年在全球金融危机背景下,汉语国际传播仍稳步发展。截至
2009
年
12
月,在
88
个国家开设孔子学院
282
所、孔子课堂
272
个,孔子学院专职兼职教职工约
3 100
人。中国向
109
个国家派出教师
2 060
名,向
71
个国家派出汉语志愿者教师
2 740
名,向
104
个国家
2 500
多所主流学校赠送教材、图书和音像资料
315
万册。
2009
年中外双方对孔子学院共投入资金
1.19
亿美元。
海外华文教育的新机遇
随着中国的崛起,华人在国际上的地位提高,许多国家政府部门开始理解并支持华文教育。华人社会捐资助学、兴办华文教育的热情空前高涨。
2009
年国务院侨务办公室和中国海外交流协会,将原来不定期召开的国际华文教育研讨会改为两年一届的世界华文教育大会。
三、新领域和新动向
法庭审判中少数民族语言使用问题
据内蒙古自治区高级人民法院统计,该自治区现有
19
个沿边法院,
25
个牧区法院,辖区总人口
608.3
万人,占全区总人口的
26%
,这些法院普遍缺少能够使用少数民族语言主持诉讼活动的审判人员。全区现有法官
5600
多人,蒙汉双语兼通的法官仅有
421
人,占全部法官数的
7.5%
。双语兼通的法官数量远远不能满足民族地区双语诉讼审判的需要。
语言信息产业中的喜与忧
喜:机器翻译的发展推动了多语言信息服务产业的发展。
“面向奥运的多语言智能信息服务网络系统”成功为北京奥运会提供了
奥运信息和城市信息的多语言服务,还将在
2010
年上海世界博览会以及今后各类大型国际体育文化商业交流活动中提供多语言信息服务。
忧:
最近五六年,中国字库产业急剧萎缩,字库行业的很多优秀人才纷纷改行。究其原因是为盗版所累。
手语使用及相关问题
在文化、医疗、社会保障、体育、商业、社会服务等各个行业,由于缺乏手语翻译人员,听障人士难以与外界进行有效沟通。我国现有的手语翻译基本都是由聋校老师和残联工作人员兼职承担,远远满足不了
2 000
多万聋人的需求。
四
、报纸、广播电视、网络(新闻)语言文字使用的若干数据
报纸、广播电视、网络(新闻)的年度用字用语状况,可以反映媒体年度的语言使用实态,也可以透过这些字词语的使用状况看到年度的社会热点、重大事件等。
2009
年度的用字用语调查是在国家语言资源监测语料库
2009
年度的语料上进行的,语料涵盖平面媒体、有声媒体、网络媒体(新闻)三种,共计
1 249 387
个文本文件,
1 007 019 960
字次。
今年适逢年度《中国语言生活状况报告》发布五周年,国家语言资源监测与研究中心特意对
2005-2009
年度的
用字用语进行了比较
。历时五年的语料积累,既可以用来反映五年共时的语言生活,也可以通过对比分析来反映五年历时的语言变化。今年发布的报告,对
2005-2009
年的字词语调查数据进行了比较,从共时、历时两个角度对五年的字词语使用状况进行了分析。
(一)汉字使用情况
1.
年度高频字数量稳定,字种数量有所增加
2009
年度语料中共出现
10 204
个字种,高频汉字数量稳定,覆盖率达到
80%
、
90%
、
99%
的字种数分别为
602
、
970
、
2 400
个。
体现
2009
年度生活的汉字使用频率有所增加,比如“汶、婴、杭、飙、碳、迪、拓、旱、悍、蒜”等,在年度用字总表中的排序较往年有较大幅度的前提。
2009
年度使用的字种数量是历年调查中最多的。这与当年语言生活中的汉字“繁简之争”,“《通用规范汉字表》(征求意见稿)公开征求意见”,以及网络中汉字使用追求标新立异有关。低频字数量多,汉字总表中覆盖率达到
99.99%
的汉字共计
5336
个,若将覆盖率达到
99.99%
之后所有汉字看作低频字,则
2009
年度的低频字占汉字总数的
47.71%
。
2009
年度用字总表中,包括了繁体字、异体字、不规范的类推简化字、旧计量单位用字、日本汉字等共计
1804
个,占全部年度用字的
17.68%
。
2.
五年用字总表的高频字稳定,年度特色用字使用频率变化较大
五年的用字调查显示,覆盖率达到
80%
、
90%
、
99%
的汉字个数分别在
581
~
602
、
934
~
971
、
2314
~
2400
之间,其占汉字总数的比例分别没有超过
7.15%
、
11.49%
、
28.47%
,也就是说每一年不超过用字总量
30%
的高频汉字覆盖了全部语料的
99%
。因此高频字的使用数量相对稳定。同时,每年前
3500
个汉字中,有
3358
个汉字是相同的,使用的字种也具有稳定性。
对比每一年的用字总表,高频用字使用频率变化最大的汉字往往体现了年度的语言生活特点,低频用字使用偶发性较强,多用于专名。
3.
年度用字总表与现行规范字表之间的差异大于年度字表之间的差异
五个年度的用字调查表明,年度用字表前
2500
字与一级常用字之间的差异字种数在
342
~
357
个之间,前
3500
字与《现代汉语常用字表》之间的差异字种数在
388
~
401
个之间,前
7000
字与《现代汉语通用字表》差异字数在
506
~
725
个之间,而每一年度《现代汉语通用字表》中未出现在语料中的汉字个数在
160
~
244
个之间,有
47
个汉字在五年全部字表中均未出现。
比较年度的用字总表与现行规范字表,媒体语料用字的相同性要大于媒体用字与现行规范字表之间的相同性。在媒体语料五年都出现的汉字中,有
661
个汉字没有在《
现代汉语通用字表
》出现。
(二)词语使用情况
1.
年度词语使用总体相同性小,高频词语的变化体现年度特色
调查中由分词软件对语料切分得到的总词语数共计
592 414 821
词次,词种数计
2 348 100
个。其中在报纸、广播电视、网络(新闻)三类媒体都出现的词种数共计
193 416
个。
覆盖率达到
90%
的高频词语共计
12 517
个,剔除其中的一些专名、时间表达式等,在高频词语表中列出了
11 635
个词语。
高频词语表的变化体现了年度特色。
2009
年度,新进入到高频词语表中的包括“阅兵、世博、假币、抗旱、哥本哈根、低俗、日全食、贝卢斯科尼、水价、献礼”等;与往年高频词语相比,
2009
年度使用频率变化较大的词语包括“流感、世博、复苏、
60
年、经济危机、全运会、购置税、奥巴马、下乡、回暖”等,这些词语如实记录了
2009
年度社会生活。
语料中使用的成语种数是
3 736
个,总次数为
1 680 701
次,占全部语料总词次数的
0.28%
。成语的词长分布在
3-8
字之间,其中
4
字词占全部成语种数的
98.47%
。高频词语中的成语共有
27
个,占高频词语词种数的
0.22%
。
2.
五年词语比较,总体变化大,高频词语使用稳定,高频词语的微变体现年度特色
2005-2009
年度的词语调查中,每年的词种数在
165
~
235
万之间,其中五年都使用的词种个数为
330 422
个,占全部词种数的比例在
14%
~
20%
之间。三类媒体五年都使用的词种数共计
72 641
个,占全部词种数的比例在
3.09%
~
4.4%
之间。反映出不同媒体、不同年度词语使用的共性小,年度词语使用变化较大。
高频词语的使用具有较强的稳定性。
2005-2009
年度覆盖率达到
90%
的高频词语稳定在
12 000
个左右,其中五年都使用的词种数共计
9 933
个,约占高频词语的
80%
。高频词语的用字稳定在
2 600
个左右,词长分布在
1
~
9
字之间,其中词长为
2
字、
3
字的词语占全部高频词语的
80%
左右,长词多为专名或时间表达式。
年度之间高频词语的差别体现了年度生活,这些差别体现在词语使用的频率变化上,使得一些原本不很高频的词语进入到高频范围,一些原本就在高频词语中的词语排序前提。
3.
流行语
“
2009
年度中国媒体十大流行语”分
8
个常规类目和
5
个特色专题。
8
个常规类目是综合类、国际时政类、国内时政类、经济类、科技类、社会生活类、文化教育类和体育娱乐类;
5
个特色专题包括“新中国成立
60
周年专题”“两岸及港澳专题”“环保专题”“甲型
H1N1
流感专题”和“社会问题专题”。
4
.新词语
2009
年度语料中共提取出新词语
396
条。
就词语长度看,具有优势的依次是三字、二字、四字词,其中
三字词语占
51.01%
。
就词语构成材料看,
完全由汉字构成的新词语有
390
条,占
98.48%
。
就结构方式看,有两点值得注意:一是除传统的偏正式能产性最高、占总词数的
53.54%
外,后附加式合成词比例较大,占
26.77%
;类后缀构词仍以这几年居高不下的“~门、~族、~客、~奴、~友”等为主;二是
2009
年新词语中叠音方式构成的词明显增多,如“楼歪歪、桥粘粘、墙脆脆”等。就使用频次分布看,
2009
年度新词语出现频次分布状况仍是两头小、中间大,即特别高频和特别低频的词语都不多。
从社会语言学角度进行分析,
2009
年度新词语有如下三个明显特点。一是反映社会问题的词语以某些格式为标志形成词语群,如“被
××
”词语群、“楼
××
”词语群、“
~
执法”词语群等。二是体现“以人为本”理念,反映多元人群的词语增多。仅以“
~
族、
~
客、
~
友、
~
男、
~
女、
~
派、
~
党、
~
二代”为标记的就有
80
条,加上其他表人群分类的,共有
116
条,占新词语总数的
28.86%
。三是网络词语与社会生活词语的迅速融合。
2009
年,
所有能够产生社会性传播效果的事件几乎都源自互联网的揭示和推动,
而后迅速被各种传统媒体引用、传播,网络和传统媒体相互作用,相互借力,这些词语甚至成为描述
2009
年社会生活的流行语。
五、中文博客用字用语专项调查数据
今年,以
2009
年度的博客语料为基础,专门对中文博客进行了多角度的分析和调查,调查内容包括博客用户发帖情况、博客用字用语情况以及博客标签使用情况。
博客语料采自新浪博客和搜狐博客,包括
171 160
个博客用户全年发布的共计
12 158 037
个博客帖,平均每个用户
71
个博客帖,共
12 362 687 048
字符次,其中汉字
9 889 496 758
字次。
(一)发帖量
统计结果表明,年发帖量小于或等于
50
的用户占总用户数的
58.56
%,发帖量小于或等于
100
的用户占总用户数的
84.74
%。
(二)
机构名、地名、人名使用情况
从机构名类型所分布的情况发现,博客作者关注更多的是与时事、政治、军事等相关的领域,其次是与传媒、金融、教育等相关的话题。
在前
50
个高分布率地名中,中国国内地名
34
个,国外地名
16
个,国外地名多为国家名,城市名中仅 “纽约”
1
个。中国国内地名中,省、自治区名
16
个,其中“台湾”、“四川”、“广东”居前三位;城市名
16
个,“北京”、“上海”居所有城市名的榜首,“香港”名列第三位。
分析前
50
个高分布率人名:(
1
)从国别上看,国内人名占绝大多数,有
39
个,国外人名有
11
个。比较国内外人名可以发现:第一、国内没有经济界人名进入前
50
个高分布率人名中,而国外人名居首的是经济界名人“巴菲特”,其次才是政治界名人“布什”。第二、国外没有影视娱乐界人名进入前
50
,而国内影视娱乐界人名却占很大优势,共
11
个。第三、在
11
个国外人名中,有
2
个是宗教人名,国内人名中则为先秦诸子,如“孔子”“孟子”“庄子”等。(
2
)从人物身份所属类别上看,居前几位的都是近现代政治人物,其中“毛泽东”“胡锦涛”“温家宝”“邓小平”“蒋介石”“周恩来”
6
位进入了人名前
10
位。分析类别可以发现,博客作者在人名的关注上存在一个倾向,即政治人物
>
历史人物
>
娱乐界人物
>
文学界人物
>
体育界人物。
(三)博客标签调查
博客标签体现了博客所关注的主题,博客用户可以为发布的每篇日志添加一个或多个标签。
出现频次最高的十个单字标签是:
爱、诗、我、性、梦、家、雪、雨、词、花。
出现频次最高的十个双字标签是:
杂谈、情感、文化、股票、娱乐、财经、教育、育儿、休闲、健康。
出现频次最高的十个三字标签是:
互联网、小沈阳、情人节、我记录、章子怡、毛泽东、刘德华、张柏芝、奥巴马、邓玉娇。
出现频次最高的十个四字标签是:
生活记录、感悟随笔、金融危机、亲情友情、东方神起、人体艺术、招标文件、文学原创、操作策略、非诚勿扰。
六、
基础教育阶段小学语文教材汉字使用调查
调查涉及
8
套小学语文教材。其中中国大陆
6
套、中国台湾
1
套、中国香港
1
套。中国大陆教材中属新课标版的
3
套,义务教育版的
3
套。
调查采用的是位序调查法,即统计首次出现的生字,先按册序,次按课文序,再按一篇课文内的生字先后排序。
8
套教材的生字位序之和除以教材总套数,即可得到每个汉字的位序值。
(一)字量调查
8
套教材共出现不同的汉字字种
3855
个。生字出现最多的是人教社的新课标版,为
2997
个;最少的是台湾的康轩版,为
2328
个。
8
套教材皆有的生字为
1397
个,占总生字数的
36.24%
;只在一套教材中出现的生字有
505
个,占总生字数的
13.1%
。显示各教材生字总量相差不大,但在选取哪些汉字上差异则相当大。
只出现在一套教材的有
505
个独用字,其中
28
个属于《现代汉语常用字表》
2500
个“常用字”范围,有
169
个属于
1000
个“次常用字”范围,
296
个在“常用字”和“次常用字”范围之外。
通过对总字次、总字种数、共用、部分共用、独用情况的调查,可以发现生字教学用字的两个特点:(
1
)每套教材的生字总字种数相差不大;(
2
)教材之间的生字字种差异大。
(二)首现生字调查
一个汉字首次出现在生字教学用字中,即为“首现生字”。首现生字的调查结果显示:
1
.汉字教学的高峰集中在第
2
、
3
、
4
学期,即小学一年级下学期与二年级全年。第
11
、
12
学期即六年级,汉字教学的份量明显下降。有的是到高年级没有再安排生字教学,有的是只有汉字复现式教学。
2
.第
1
学期生字占的份量不算最多,是因为第
1
学期前半期都安排了拼音教学。
3
.人教新课标版的生字教学字量起伏最大。在第
2
学期安排的汉字教学量明显高出其他教材。
4
.康轩版的首现汉字分布最为平缓。在
12
个学期基本上是均匀地进行汉字教学,最少的
102
字,最多的
253
字,呈现出中间略微突起、两端稍稍下倾的平缓延伸线。
第
1
册的首现生字,反映的是整个小学汉字教学起始阶段学习的汉字。
8
套教材第
1
册的首现生字共有
773
个,在
8
套教材都出现的有
33
个,在
7
套教材出现的有
38
个,只在
1
套教材出现的为
299
个。第
1
册共用生字的比例远远低于整个小学阶段共用生字的比例,为
4.27%
︰
36.24%
;第
1
册
独用字的比例远远高于整个小学教材独用字的比例,为
38.68%
︰
13.10%
。表现出汉字学习初始阶段的差异大于整个小学阶段的生字学习差异的特点。
七、少数民族语言(藏语、维吾尔语)用词状况调查
本次调查涉及藏文及维吾尔文两个文种,由国家语言资源监测与研究中心少数民族语言分中心(中央民族大学)及藏语文基地(西北民族大学)、维吾尔语文基地(新疆师范大学)共同完成。
(一)小学藏语文新课标教材用词调查
本次调查以青海民族出版社
2009
年
5
月出版的五省(区)藏《语文》实验教科书为对象,主要包括课文生词和课文用词两方面调查内容。
1.
课文生词
课文生词指课后生词表中出现的词。调查显示:教材中第
1
至
12
册共有
2 255
个课文生词。
调查结果显示,藏语文教材各册课文生词中双音节词均占优势。将各词长按所占比例排序,顺序依次为:双音节词、单音节词、三音节词、四音节词。其中单音节和双音节词共计
2164
个,占生词总数的
95.96%
。这体现了基础教育阶段的词汇学习以常用和较简单的词汇为主。
在对课文生词在课文中出现的频次进行统计时发现:从词长
1
到词长
4
,生词长度越长,使用频次越低。
2.
课文用词
课文用词是指在课文中出现的所有词种。调查显示:全部
12
册教材共出现词种
9 224
条,词次总数
97 366
条
。由于动词存在“三时一式”的形态变化,前后缀形成的派生词大量存在,使得课文用词种数远大于课文生词种数。课文词种数的分布整体呈上升趋势,随着年级的升高,学习的词种数逐渐增加,这种循环渐进的教学模式有利于学生的学习。
调查项目还包括各课文体裁词种数、各册词种数、词总数及各册独用词统计、词频统计,以及前
500
高频词调查等。
本次调查是我国首次就少数民族语言教育教材的使用状况进行调查,为教材的客观评价提供了定量参考,为藏文量化字词教学目标的制定提供了依据,也为今后更好地提高藏语文教材的编写质量奠定了一定的基础。
(二)维吾尔文网站用词调查
本次调查涉及“新疆政府网”、“昆仑网”、“天山网”、“新疆信息网”、“新疆友通电子科技”、“新疆哲学社会科学网”、“教师网”、“莎车教育网”及“维吾尔医学”等
9
家维吾尔文网站,语料采集的时间跨度为
2006
年
4
月至
2009
年
12
月,语料内容为与大众日常生活密切相关的政治、经济、科学研究、教育、健康等多个领域。总语料词符种数
197 687
条、词符频次
5 473 792
、文本数
15 878
个。具体调查结果如下:
1.
符号调查
本次调查的维吾尔文符号包括标点、数字和其他符号(不含不可显示的字符、空格符等)。调查中共出现
38
种符号,占词符总数的
0.02%
;出现频次为
1 368 520
频次,占词符总频次的
25.00%
。
2.
词尾调查
现代维吾尔文的词形变化丰富,通过缀接不同的词尾表示词与词之间各种不同的语法关系。如
?????
(你们)加词尾
-
??
后,原词语变成
???????
(你们认为)。本次调查词尾频次总数为
118 848
条,词尾种数为
4 448
种,其中频次超过万次以上词尾种数为
32
种,如具有双重功能附加成分的词尾
“
-??
”;
同时体现一个以上的语法功能的词尾
“
-???
”等。
3.
词干调查
维吾尔语词干可分为纯词干和去尾词干。由词根或词根缀接词缀直接形成词语的词干称为纯词干;而将去除词尾的词干称为去尾词干。这种去尾词干的存在是由黏着语的特点所决定的。本次调查对去尾词干的统计是在对维吾尔语词的词形还原后进行的,例如:
????????
(工人的)一词,去掉词尾
???
后的词干是
?????
(工人)。本次调查统计得到纯词干
24 149
种,去尾词干
20 111
种。然而,纯词干和去尾词干有部分词形相同,总词干是指滤除纯词干和带尾词干重叠部分后的所有纯词干和带尾词干,统计得到的总词干
31 452
种。
4.
用词调查
用词调查项目包括词在语料中出现的频次、频率、词语长度、文本数等。在用词调查项目中共得到词种数
197 649
条、词频
410 5267
。具体可从以下几个方面来分析维吾尔语的网络用词情况:
1
)词语分频段使用情况:统计结果显示,维吾尔语中的低频词种数量庞大,其中频次为
1
的词占总词种数的
50.58%
,频次不超过
10
的词语占总词语种数的
86.48%
。
2
)词语中首字母与词种数分布情况:以
?
、
?
、
?
、
?
、
?
、
?
、
?
、
??
等
8
个字母开始的词种数量达万种以上,以
??
、
?
、
?
、
?
、
?
等字母开始的词种数量在千条以下,而以其他字母开始的词种数量都在
2 252
条至
8 097
条之间。
3
)词种使用情况:统计结果显示了维吾尔语用词相对集中的特点。词频累加覆盖率为
10%
时使用词种仅
27
种,占全部用词种数的
0.02%
;而词频累加覆盖率为
90%
时的词种数量为
21 607
,仅占全部语料词种数的
10.93%
。
4
)高频词使用情况:高频词指在调查语料中词频累加覆盖率达到
90%
的全部用词。统计结果显示高频词的词种数为
21 607
条,占全部词种数的
10.93%
。
5
)词长分布情况:词长为
1-4
个字母的词只占全部词种数的
2.55
%,占全部词频的
14.76%
,说明在实际应用中,维吾尔文词长为
1-4
个字母的词使用较少,日常使用主要以
4
字母以上词为主;另一方面,词长超过
20
个字母的长词数量为
812
个,仅占全部词种数的
0.40%
,这类词的使用频度也很低,仅占全部语料词频总数的
0.02%
。
6
)词语的文本分布情况:本次调查的语料文本总数为
15 878
篇,其中只在
1
篇文本中出现的词种数为
107 144
个,占全部词种数的
54.15%
,而出现文本数小于
6
篇的用词占全部词种数的
81.66
%。由此可看出,大多数词并非常用词汇,出现的文本数量很低,这也体现了维吾尔文网络用词丰富的特点。
调查还公布了维文网站前
1000
个高频词干。
(《中国语言生活状况报告(
2009
)》已由商务印书馆出版发行。)
日期:2010-11-25
收藏
(责任编辑:王朋)