Social Listening和文本挖掘
情感分析是学术领域研究多年的课题,用google学术搜索可以找到很多paper,基本的方法上有基于词典规则的方法、语言文法的方法,此外还有分类器以及近几年比较火的深度学习的方法(稍后有详细介绍)。 各类paper是有一定的借鉴意义的,不过这主要是学术界在单个问题上的细化,要真正从研究领域落地到大数据的处理还有很多工作要做。 一、工程上的处理流程 工程上的处理流程具体包括以下几个方面: 1、情感分析任务的界定 在进行情感…
文本挖掘从小白到精通(四)--- 检索相似语句
写在前面:笔者最近在梳理自己的文本挖掘知识结构,借助gensim、sklearn、keras等库的文档做了些扩充,会陆陆续续介绍文本向量化、tfidf、主题模型、word2vec,既会涉及理论,也会有详细的代码和案例进行讲解,希望在梳理自身知识体系的同时也能对想学习文本挖掘的朋友有一点帮助,这是笔者写该系列的初衷。 前面一篇文章聊到了各类主题模型,这些主题模型除了可以发现语料中的潜在主题外,还可以用于抽取新增文档的特征,用于后…
抓取数据、清洗数据对于当下的舆情监测系统来说,都不算是什么难题了,难就难在如何从已得到的数据中获得商业洞察,再用这些商业洞察指导实践,而不仅仅是简单的各类数据统计。 对于我来说,舆情数据是互联网上的公开数据,就是相较于销售数据、用户数据等企业内部之外的数据,姑且称之为“外部数据”。 那么,现在问题就转换为: 如何从浩如烟海、杂芜丛生的外部数据中获得对企业有价值的商业洞见?下面,笔者将从理论到实践,…
先说结论,大数据时代有大数据时代特有的调研方法,如何以短、平、快且成本低的方法去获取市场洞察,就显得极其重要,这里介绍一下基于互联网社交媒体大数据的Social Listening,可谓是大数据时代的一把好梭~ 万字长文,慎入!!!--------------------------分-----------------隔----------------线---------------------------------- 接下来,笔者将会介绍大数据分析主要的处对象---社会化媒体(Social Media),以及对社会…
在自然语言研究中,情感、情绪往往是容易被忽略的因素。其实人类在谈话、写作、社交平台发布信息时,传递的不仅是语义,更是情感和意图。如果忽略对“情感、情绪”的识别,舆情分析是很难准确的。 所以为了弥补传统NLP、NLU的不足,竹间智能提出了“认知智能+情感智能”,也就是在自然语言语义理解的基础上,融入意图判断和多模态情感识别(对人类文字、表情、语音、语调的情感识别)。这也算竹间智能的一个创新吧。 在此我们请…
如何利用Social Listening从社会化媒体中“提炼”有价值的信息?
在本文中,笔者将会介绍大数据分析主要的处对象---社会化媒体(Social Media),以及对社会化媒体进行分析的重要手段——社会化聆听(Social Listening)。最后,笔者将以汽车行业的一个实操案例,来讲述如何使用社会化聆听(工具)来对社会化媒体大数据进行分析。 0 楔子“大数据”一直是最近几年全球很火的概念。搜索关键词“big data”/”大数据“,从下图Google Trends的最近5年的热度趋势图和热度搜索地域分布可以看出,在…
文本挖掘实操|用文本挖掘剖析近5万首《全唐诗》
本文作者将使用多种文本挖掘方法,来分析《全唐诗》。篇幅略长,请耐心阅读^_^ 楔子近些年来,弘扬中华传统文化的现象级综艺节目不断涌现,如《中国汉字听写大会》、《中国成语大会》、《中国谜语大会》、《中国诗词大会》等,其背后的社会成因,在于人们对中国文化中最精致文字的膜拜心理,虽然浸淫于层出不穷的网络语汇,时时面临“语言荒漠”的窘境,仍心向往之。 上述节目中,笔者最感兴趣的还是《中国诗词大会》---通过对诗…
关于大数据与市场研究的关系,希望下面的文章可以带来一些启发哦。。。 导读:5月26日,由上海连锁经营协会主办的“互联网+零售高峰论坛”在上海召开,从事大数据工作超过10年,在大数据领域实现学术和实业跨界的互动派CEO、数说故事创始人徐亚波博士作为特邀嘉宾,就大数据在零售行业的应用和创新性发展进行了主题分享。以下文章以徐亚波博士题为《大数据是市场研究的颠覆者还是继承者》演讲内容为蓝本整理而成。 痛点犹在:品…