您目前的位置: 首页» 成果推介

国家项目:“社会化媒体舆情情感挖掘与传播研究”最终成果简介

  一、项目研究的背景和目的

 作为信息传播的重要载体,社会化媒体在突发事件、危机事件等舆论传播中的作用日益凸显。社会化媒体舆情传播已成为人工智能、数据挖掘、自然语言处理、传播学、情报学等多学科交叉研究领域之一,掀起了一股研究热潮。其中,情感挖掘和信息传播研究是社会化媒体舆情传播中的重要任务,已成为国内外研究的热点,对网络舆情的预警、分析、监测和管理等具有重要意义。本项目以社会化媒体中用户发表的言论为研究对象,开展社会化媒体情感挖掘和信息传播的深入研究;实现新词发现算法,有效识别社会化媒体语料中的新兴词汇和短语,自动标注情感词的情感强度,完善中文基础情感词典,丰富中文情感资源库的建设;构建情感计算模型,实现多粒度的情感倾向性分析和多级情感分类,有效提升社会化媒体情感分析性能;建立社会化媒体信息传播网络,评估节点重要度,识别关键用户,实现用户角色划分;为政府介入、干预、引导和预测网络舆情演化态势提供理论支撑和决策支持,为突发公共事件网络舆情的监测和预警提供思路。

 二、研究成果的主要内容和重要观点

 项目的主要研究内容分为四部分情感特征描述,构建中文情感词典,重点研究新词发现和情感词情感强度的自动标注;情感特征识别,构建情感词共现网络,分析其拓扑结构并可视化;情感计算,融合多类情感挖掘算法,实现多粒度的情感计算;情感传播,构建社会化媒体信息传播网络,识别网络中的关键用户,实现用户角色划分及可视化。研究成果的主要内容和重要观点如下:

 1. 构建并完善情感词典

 (1) 实现基于迭代的新词发现算法和基于N-Gram的新词发现算法,能有效识别社会化媒体语料中的新兴词汇和短语对内部耦合度S的阈值采用分级方式,即根据候选词字长来设置不同的阈值,大大提升了新词发现算法的召回率。完善过滤规则,中文词语搭配库过滤在降噪方面表现突出。基于新词发现的结果,构建新词词典,完善中文情感词典。

 (2) 构建中文情感词典本项目构建的中文情感词典主要由基础褒贬义情感词典、七级情感词典、新词词典、程度副词词典、否定词典和表情符词表组成。

 2. 社会化媒体文本的情感倾向性计算

 (1) 提出融合HowNetPMI的词语级情感倾向性算法。该算法能有效计算社会化媒体语料中情感候选词的情感强度,实现情感词的情感强度自动标注,并依据其情感强度值判断情感候选词的情感极性。实验表明:与基于HowNet的情感倾向性算法和基于PMI的情感倾向性算法相比,融合HowNetPMI的情感倾向性算法效果更好,更适合对大语料中情感词的极性判断。

 (2) 提出基于句法和规则集的情感倾向性分析算法。该算法结合社会化媒体语料的语言特性,针对不同语言元素定义多层次的情感分析规则集:句型规则、句间关系规则、词语多元组规则等,基于情感词典和规则集,实现舆情情感计算。实验表明:与基于基础情感词典的情感倾向性分析算法、基于规则和多部情感词典的情感倾向性分析算法相比,基于句法和规则集的情感倾向性分析算法效果更好,能有效计算社会化媒体语料中子句、复句、段落/篇章文本等的情感强度,更适合句子级/篇章级的情感倾向性判断。

 3. 社会化媒体文本的多级情感分类

 (1) 实现类序列规则挖掘算法。该算法考虑了语料中句子的顺序和句子间的话语关系,将每条语料看作一个数据序列,从数据集中挖掘出类序列规则,将其应用于社会化媒体语料并获取类序列规则特征。

 (2) 提出融合类序列规则和机器学习的多级情感分析算法。该算法采用情感词典和机器学习方法分别获得社会化媒体语料中每个句子的2个潜在情感标签,基于类序列规则挖掘算法获取语料的类序列规则特征,并结合情感词特征和句子构成特征训练分类器,实现社会化媒体语料的多级情感分类。实验表明:与基于情感词典和规则的多级情感分析算法、基于机器学习的多级情感分析算法相比,融合类序列规则和机器学习的多级情感分析算法效果更好,更适合对社会化媒体语料中篇章级的多级情感分类。

 4. 社会化媒体信息网络

 (1) 构建情感词共现网络。采用复杂网络的理论及方法,计算网络拓扑参数,分析网络的拓扑结构,实证研究表明情感词共现网络具有典型的小世界特性、无标度特性和社团结构特性。以节点的大小表示情感词出现的频次、颜色表示情感词的极性强度,采用可视化技术直观展示情感词之间的共现关系。

 (2) 构建媒体信息传播网络。采用复杂网络理论及方法,计算网络拓扑参数,分析网络的拓扑结构,实证研究表明媒体信息传播网络具有典型的小世界特性、无标度特性和社团结构特性。以节点的大小表示用户之间的互动关系(如:回复、评论等)、颜色表示用户所属的社团,采用可视化技术直观展示媒体信息传播中的话题回复关系。

 (3) 提出基于有向拓扑势的关键用户识别算法。采用拓扑势理论,分析社会化媒体信息传播网络中节点的重要性,获取网络的最优影响因子,计算每个节点的出度拓扑势和入度拓扑势,确定节点重要性的排序,进而挖掘出网络中的关键用户。

 (4) 提出基于有向拓扑势的用户角色发现算法。基于有向拓扑势获得用户的局部影响力,根据用户的行为模式及其局部影响力进行角色划分,将所有用户划分为4类角色。实证研究验证了所提算法的有效性,二维有向拓扑势图能清晰展示网络中用户的角色和地位。

 三、成果的主要价值与影响

 在理论上,本项目具有以下学术价值:

 (1) 创新性地提出了研究社会化媒体文本情感挖掘的新思路,借鉴信息科学、复杂性科学和社会学的已有成果,构建情感计算模型,实现从词语级、句子级到篇章级的多粒度情感计算,提高情感识别的分类准确率。

 (2) 创新性地提出了研究社会化媒体文本情感传播的新思路,借鉴复杂性科学、物理学和社会学的已有成果,构建情感词共现网络和媒体信息传播网络,实现网络拓扑结构分析、关键用户识别和用户角色发现等,对开展相关领域的理论研究和实证分析具有一定的借鉴意义。

 在实际应用中,本项目具有以下现实意义:

 有利于建立正确的舆论导向社会化媒体信息传播网络的非同质拓扑结构,决定了网络中每个节点(即用户)的重要程度不同。识别媒体信息传播中的关键用户、意见领袖、水军或网络推手,有助于网络监管人员针对不同类型的用户采取不同方式进行管理和引导,建立正确的舆论导向。网络中隐含的社团结构,团体内部成员具有一定的凝聚力,成员之间互相附和,对信息传播具有较大影响,重点关注和监测各个社团的动态行为,有利于网络舆论传播的控制。

 本项目的潜在社会影响如下:

 当公共事件或事故(如新冠疫情、魏则西事件等)发生时,有助于政府部门了解公众在事件过程中的情感类型及传播情况,避免公众情感的集聚和极化,提供有针对性的事件处理方案。当企业推出产品(如:电脑、手机等)时,有助于企业了解公众对服务或产品的情绪和评价,通过用户的情感倾向改进自身服务或产品。

 

 项目负责人:李慧

 项目批准号:17BXW069

 项目名称:社会化媒体舆情情感挖掘与传播研究

 最终成果名称:《社会化媒体舆情情感挖掘与传播研究》