舆情信息挖掘分析模型
舆情信息挖掘分析模型

一、研究思路

       通过网络爬虫爬取数据,从两方面着手研究网络舆情发展状况,一是舆情时态演化趋势,二是灾害事件中的社交网络结构及舆情传播路径。

79f13d5ad7dfbe1c22fb1cb88a4d37f

       目前网络舆情传播演化生命线主要分为潜伏,萌动,加速,成熟和衰减五个时期。其中特征明显且监控效果显著的是萌动期和加速期,萌动期网络舆情情感波动明显,而加速期舆论情感单向递增迅速,且参与人数迅速递增。在加速期后段时间,舆情趋势已经形成,要实现对于网络舆情的监管和引导已经极为困难。因此,如果能够通过数据研究获得灾害舆情演化进程,识别演化过程中的萌动期和加速期,就能够实现在时间序列上对灾害舆情进行监控,及时引导舆情走势,避免灾害舆情的失控。研究过程中,通过对不同的灾害舆情研究,得到相应灾害的舆情热点演化图,能够在发生同类灾害时为舆情监管提供时间序列的参考依据。

       而对于社交网络的研究,更多在于寻找整个社交网络中一些关键节点和重要节点,从而为网络监管提供有效目标和依据。社交网络中一个节点的重要性可以通过三个中心度指标来测量,即结点中心度,间距中心度和紧密中心度。结点中心度衡量与目标节点相邻的其他周边节点数目的多少(小团体中心人物),间距中心度衡量网络信息传播过程中经过某节点的频数(网络信息传播路径重要人物,“桥梁”、“中介”式的人物),紧密中心度主要衡量某节点与网络中心节点的距离,表明一个结点和其他结点联系的紧密程度(寻找网络传播中信息观察的最适合位置)。通过对于灾害社交网络中结点的计算,得到所有结点的中心度度量值。根据监控结点的需要,就可以选取相应的用户结点作重点监控。


二、技术介绍      

1.网络爬虫技术

       由于互联网上网页之间的互相链接,网络爬虫可能会出现发散方式爬取数据,导致无法终止网络爬虫爬取进程,故需要用户自己设定终止条件结束爬虫流程。

33213ef0db1b45ec2924c86f5acd5bb

2.社会网络分析方法

       社会网络分析法是指运用图论、数学方法研究社交网络中个体之间、个体与所在网络社区以及各个网络社区之间相互影响关系的一种定量分析方法。

       社交网络中的一些重要行动者反映了社交网络中行动者在等级和优势等方面的差异,这些重要性差异在对于信息及资源的传递过程中有着特殊影响。对于这些重要行动者,一般使用结点中心度、紧密中心度和间距中心度来衡量其相对关系。

       通过对社交网络中不同结点的中心度探讨,可以得出在特定社交网络结构下重要结点和关键结点的位置,从而能够更好的认识和了解到社交网络中信息的流通渠道和流通路径。

3.中文分词——汉语词法分析系统

       经过众多专家学者的研究,目前中文分词的方法框架基本形成,能够进行中文分词的方法包括基于词典的、基于统计的和基于学习的等。

90e20b70935b6b874c76a728393d993

4.中文文本情感分析

       采用朴素贝叶斯算法进行灾害舆情情感分析。算法基本原理如下:

       对于有两个类别 c1 和 c2 的分类问题而言,其特征为?1,…,??,朴素贝叶斯要求各特征之间相互独立的,则对于类别 c1 的朴素贝叶斯模型概率估计算法基本过程为:

048b572ceacb50231887da0cfea987d

24dbbcc0412ecfad08edd57cc214d16

421f23a45af8a6d34c6e61cc547f95e



浏览次数
0
更新时间
2022-11-07