虚假网络舆情识别方法与流程

文档序号:15492658发布日期:2018-09-21 20:56阅读:461来源:国知局

本发明属于互联网舆情分析和识别领域,具体涉及一种虚假网络舆情识别方法。



背景技术:

我国网民已超过5亿人,很多网民将互联网视为了解社情民意、揭露社会弊端、开展社会监督的窗口,很多的社会热点事件都是由网络舆论率先关注、继而引发媒体报道的。互联网已成为新闻舆论监督的重要平台,特别是以多元化、交互式为特点的网络论坛成为网络舆论的主要来源。

国内外相关研究主要集中在网络舆情分析技术上,很少涉及虚假网络舆情分析和识别问题。对于网络舆情分析技术,可分为两大类:一是基于内容的舆情分析方法,主要采用网络文本分析技术对网络论坛热点话题进行检测,这种方法需要借助于文字信息处理平台对文本内容进行分析,数据处理量大,处理效率低,不适合于对网络水军所引发的大规模虚假网络舆情的识别和监测;二是基于行为的舆情分析方法,主要采用复杂网络分析方法对网络信息传播行为进行分析,从中寻找网络舆情发生和演化规律,同样这种方法也不适合直接用来对虚假网络舆情的识别和监测。

由于虚假网络舆情是互联网中新兴起的不良现象,目前国内外还缺乏系统深入的研究,尚未提出有效的虚假网络舆情识别方法。

对于互联网各大网络论坛,存在如下事实:(1)网络论坛中大多数帖子是一般性的,能够引发热点事件而形成网络舆情的帖子只占少数;(2)在发生的网络舆情中,由网络水军引发的虚假网络舆情占50%左右。



技术实现要素:

为了克服现有的互联网虚假网络舆情识别方法需要处理大量网络信息的不足,本发明提供一种虚假网络舆情识别方法。该方法采用行为分析和内容分析相结合的逐步求精处理方法,首先采用行为分析技术,对网络论坛信息传播行为进行建模分析,检测出网络热点事件和舆情。然后依据网络水军行为特征,对网络舆情进行多个层面关联性分析,包括空间关联性、时间关联性、主题关联性以及情感关联性等,识别出可能存在的虚假网络舆情。可将所处理的网络信息量减少到最低限度。

本发明解决其技术问题所采用的技术方案是:一种虚假网络舆情识别方法,其特点是包括以下步骤:

步骤一、利用网络数据采集工具,从互联网中需要监测的网络论坛上采集网络发帖信息、发帖用户信息、帖子内容、回帖用户信息以及回帖内容,提取其中的元信息,网络信息经过数据清洗等预处理后存入数据库待分析。

步骤二、对于每个被监测的网络论坛,按下列方法检测是否存在网络舆情或热点事件。

以用户为节点,用户之间的联系为节点之间的连线,建立用户-用户网络模型。通过用户-用户之间的联系形成有向网络,在一个带值的有向网络中,一个节点的威望度是指这个节点的入度与所有节点的入度和的比值,威望度计算公式如下:

&lt;math&gt;&lt;mrow&gt;&lt;msub&gt;&lt;mi&gt;p&lt;/mi&gt;&lt;mi&gt;d&lt;/mi&gt;&lt;/msub&gt;&lt;mrow&gt;&lt;mo&gt;(&lt;/mo&gt;&lt;msub&gt;&lt;mi&gt;v&lt;/mi&gt;&lt;mi&gt;i&lt;/mi&gt;&lt;/msub&gt;&lt;mo&gt;)&lt;/mo&gt;&lt;/mrow&gt;&lt;mo&gt;=&lt;/mo&gt;&lt;mfrac&gt;&lt;msub&gt;&lt;mi&gt;x&lt;/mi&gt;&lt;mrow&gt;&lt;mi&gt;i&lt;/mi&gt;&lt;mo&gt;-&lt;/mo&gt;&lt;mn&gt;1&lt;/mn&gt;&lt;/mrow&gt;&lt;/msub&gt;&lt;mrow><munderover><mi>&sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn>&lt;/mrow&gt;&lt;mi&gt;i&lt;/mi&gt;&lt;/munderover&gt;&lt;msub&gt;&lt;mi&gt;x&lt;/mi&gt;&lt;mrow&gt;&lt;mi&gt;i&lt;/mi&gt;&lt;mo&gt;-&lt;/mo&gt;&lt;mn&gt;1&lt;/mn&gt;&lt;/mrow&gt;&lt;/msub&gt;&lt;/mrow&gt;&lt;/mfrac&gt;&lt;mo&gt;-&lt;/mo&gt;&lt;mo&gt;-&lt;/mo&gt;&lt;mo&gt;-&lt;/mo&gt;&lt;mrow&gt;&lt;mo&gt;(&lt;/mo&gt;&lt;mn&gt;1&lt;/mn&gt;&lt;mo&gt;)&lt;/mo&gt;&lt;/mrow&gt;&lt;/mrow&gt;&lt;/math&gt;

式中,xi-表示节点vi入度。入度是指所有指向该节点的所有连线上数值之和。

在一个带值的有向网络中,一个节点的中心度是指这个节点的出度与所有节点的出度和的比值。中心度计算公式如下:

&lt;math&gt;&lt;mrow&gt;&lt;msub&gt;&lt;mi&gt;c&lt;/mi&gt;&lt;mi&gt;d&lt;/mi&gt;&lt;/msub&gt;&lt;mrow&gt;&lt;mo&gt;(&lt;/mo&gt;&lt;msub&gt;&lt;mi&gt;v&lt;/mi&gt;&lt;mi&gt;i&lt;/mi&gt;&lt;/msub&gt;&lt;mo&gt;)&lt;/mo&gt;&lt;/mrow&gt;&lt;mo&gt;=&lt;/mo&gt;&lt;mfrac&gt;&lt;msub&gt;&lt;mi&gt;x&lt;/mi&gt;&lt;mrow&gt;&lt;mi&gt;i&lt;/mi&gt;&lt;mo&gt;+&lt;/mo&gt;&lt;/mrow&gt;&lt;/msub&gt;&lt;mrow&gt;&lt;munderover><mi>&sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow>&lt;mi&gt;i&lt;/mi&gt;&lt;/munderover&gt;&lt;msub&gt;&lt;mi&gt;x&lt;/mi&gt;&lt;mrow&gt;&lt;mi&gt;i&lt;/mi&gt;&lt;mo&gt;+&lt;/mo&gt;&lt;/mrow&gt;&lt;/msub&gt;&lt;/mrow&gt;&lt;/mfrac&gt;&lt;mo&gt;-&lt;/mo&gt;&lt;mo&gt;-&lt;/mo&gt;&lt;mo&gt;-&lt;/mo&gt;&lt;mrow&gt;&lt;mo&gt;(&lt;/mo&gt;&lt;mn&gt;2&lt;/mn&gt;&lt;mo&gt;)&lt;/mo&gt;&lt;/mrow&gt;&lt;/mrow&gt;&lt;/math&gt;

式中,xi+表示节点vi的出度。出度是指所有指向其他结点的所有连线上数值之和。

建立用户-事件网络模型,通过用户与事件之间的联系形成无向网络。

事件的中心度是指参与该事件的人数与总人数个数的比值。事件的中心度计算公式如下:

&lt;math&gt;&lt;mrow&gt;&lt;msub&gt;&lt;mi&gt;c&lt;/mi&gt;&lt;mi&gt;e&lt;/mi&gt;&lt;/msub&gt;&lt;mrow&gt;&lt;mo&gt;(&lt;/mo&gt;&lt;msub&gt;&lt;mi&gt;e&lt;/mi&gt;&lt;mi&gt;i&lt;/mi&gt;&lt;/msub&gt;&lt;mo&gt;)&lt;/mo&gt;&lt;/mrow&gt;&lt;mo&gt;=&lt;/mo&gt;&lt;mfrac&gt;&lt;msub&gt;&lt;mi&gt;x&lt;/mi&gt;&lt;mi&gt;i&lt;/mi&gt;&lt;/msub&gt;&lt;mi&gt;n&lt;/mi&gt;&lt;/mfrac&gt;&lt;mo&gt;-&lt;/mo&gt;&lt;mo&gt;-&lt;/mo&gt;&lt;mo&gt;-&lt;/mo&gt;&lt;mrow&gt;&lt;mo&gt;(&lt;/mo&gt;&lt;mn&gt;3&lt;/mn&gt;&lt;mo&gt;)&lt;/mo&gt;&lt;/mrow&gt;&lt;/mrow&gt;&lt;/math&gt;

式中,xi-表示参与事件ei的用户,n表示该图中总的用户个数。

将用户从网络中剥离出来,建立事件-事件网络模型,计算出事件之间的关联度。利用用户-用户网络模型计算出节点的威望度和中心度,检测出威望度和中心度值大的用户,利用用户-事件网络模型计算出事件中心度,检测出中心度值大的事件。将用户-事件网络模型转换成事件-事件网络模型,计算出帖子之间的关联度,找出属于同一个主题的帖子,判断是否网络水军发的帖子。

步骤三、根据网络水军发帖行为和帖子特征,对不同网络论坛出现的网络舆情或热点事件进行多层面分析,识别出可能存在的虚假网络舆情。

(1)对每一个id账号发帖时所使用的ip地址进行统计分析,计算出同一个ip地址的帖子量。通过空间关联性分析,检测出不同网络论坛上热点事件帖子的id账号与ip地址之间关联性,计算它们的空间关联度。

(2)通过时间关联性分析,检测出不同网络论坛上热帖的时间关联性,计算它们的时间关联度。

(3)通过主题内容语义分析,检测出不同网络论坛上热帖的主题关联性,计算它们的主题关联度。

(4)通过对不同网络论坛上热帖所表达的情感进行多层次分析,包括词汇、句和文档,检测出不同网络论坛上热帖的情感关联性,计算它们的情感关联度。

(5)根据对所有网络热点事件的关联性分析结果,如果一个网络热点事件同时具有上述四个关联性,则该网络热点事件为虚假网络舆情;如果一个网络热点事件同时具有上述三个关联性,则该网络热点事件为高度疑似虚假网络舆情;如果一个网络热点事件同时具有上述二个关联性,则该网络热点事件为一般疑似虚假网络舆情。

本发明的有益效果是:由于采用行为分析和内容分析相结合的逐步求精处理方法,首先采用行为分析技术,对网络论坛信息传播行为进行建模分析,检测出网络热点事件和舆情。然后依据网络水军行为特征,对网络舆情进行多个层面关联性分析,包括空间关联性、时间关联性、主题关联性以及情感关联性等,识别出可能存在的虚假网络舆情。将所处理的网络信息量减少到了最低限度。

附图说明

图1是本发明虚假网络舆情识别方法用户-用户网络示意图。

图2是本发明虚假网络舆情识别方法中用户-事件网络示意图。

图3是本发明虚假网络舆情识别方法的流程图。

具体实施方式

下面结合附图和实施例对本发明作详细说明。

参照图1-3,本发明方法具体步骤如下。

1.网络论坛数据采集:利用网络数据采集工具,从互联网中需要监测的网络论坛上采集网络信息,包括发帖信息、发帖用户信息、帖子内容、回帖用户信息以及回帖内容等,提取其中的元信息,如用户id、ip地址、时间、主题等,网络信息经过数据清洗等预处理后存入数据库待分析。

2.网络论坛舆情检测:对于每个被监测的网络论坛,按下列方法检测该网络论坛是否存在网络舆情或热点事件。

(1)节点中心度计算。

建立用户-用户网络模型来计算节点中心度,具体方法如下:对于网络论坛,以用户为节点、用户之间的联系为节点之间的连线,构成一个社会网络。用户之间通过相互回复对方的帖子产生联系,用户的回复可以是一次也可以是多次,并且是有向的,因此构成一个带有数值的有向网络。如果用户a回复了b的帖子,则产生由a指向b的连线,回复的次数为这条连线的值。整个网络中节点的数量用1表示,每个节点用vi表示,其中i为从1到1。

图1给出了一个由6个用户构成的用户-用户网络示意图。在图1中,节点v1到v2有1条值为3的连线,表示用户v1对用户v2发的帖子回复了3次;节点v2与v4之间是双向连线,值为1和3,表示用户v2对v4发的帖子回复了3次,用户v4对v2发的帖子回复了1次;以此类推。

在一个带值的有向网络中,一个节点的威望度是指这个节点的入度与所有节点的入度和的比值,威望度计算公式如下:

&lt;math&gt;&lt;mrow&gt;&lt;msub&gt;&lt;mi&gt;p&lt;/mi&gt;&lt;mi&gt;d&lt;/mi&gt;&lt;/msub&gt;&lt;mrow&gt;&lt;mo&gt;(&lt;/mo&gt;&lt;msub&gt;&lt;mi&gt;v&lt;/mi&gt;&lt;mi&gt;i&lt;/mi&gt;&lt;/msub&gt;&lt;mo&gt;)&lt;/mo&gt;&lt;/mrow&gt;&lt;mo&gt;=&lt;/mo&gt;&lt;mfrac&gt;&lt;msub&gt;&lt;mi&gt;x&lt;/mi&gt;&lt;mrow&gt;&lt;mi&gt;i&lt;/mi&gt;&lt;mo&gt;-&lt;/mo&gt;&lt;mn&gt;1&lt;/mn&gt;&lt;/mrow&gt;&lt;/msub&gt;&lt;mrow><munderover><mi>&sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn>&lt;/mrow&gt;&lt;mi&gt;i&lt;/mi&gt;&lt;/munderover&gt;&lt;msub&gt;&lt;mi&gt;x&lt;/mi&gt;&lt;mrow&gt;&lt;mi&gt;i&lt;/mi&gt;&lt;mo&gt;-&lt;/mo&gt;&lt;mn&gt;1&lt;/mn&gt;&lt;/mrow&gt;&lt;/msub&gt;&lt;/mrow&gt;&lt;/mfrac&gt;&lt;mo&gt;-&lt;/mo&gt;&lt;mo&gt;-&lt;/mo&gt;&lt;mo&gt;-&lt;/mo&gt;&lt;mrow&gt;&lt;mo&gt;(&lt;/mo&gt;&lt;mn&gt;1&lt;/mn&gt;&lt;mo&gt;)&lt;/mo&gt;&lt;/mrow&gt;&lt;/mrow&gt;&lt;/math&gt;

其中xi-表示节点vi入度,入度是指所有指向该节点的所有连线上数值之和,在图1中,节点v4的入度为2+3=5,威望度为5/13=01385;节点v6的入度为1,威望度为1/13=01077等,一个节点的威望度越高,表明该节点所代表的用户发的帖子被其他用户回复的次数就越多,该用户在论坛中所处的位置就越重要。

在一个带值的有向网络中,一个节点的中心度是指这个节点的出度与所有节点的出度和的比值。中心度计算公式如下:

&lt;math&gt;&lt;mrow&gt;&lt;msub&gt;&lt;mi&gt;c&lt;/mi&gt;&lt;mi&gt;d&lt;/mi&gt;&lt;/msub&gt;&lt;mrow&gt;&lt;mo&gt;(&lt;/mo&gt;&lt;msub&gt;&lt;mi&gt;v&lt;/mi&gt;&lt;mi&gt;i&lt;/mi&gt;&lt;/msub&gt;&lt;mo&gt;)&lt;/mo&gt;&lt;/mrow&gt;&lt;mo&gt;=&lt;/mo&gt;&lt;mfrac&gt;&lt;msub&gt;&lt;mi&gt;x&lt;/mi&gt;&lt;mrow&gt;&lt;mi&gt;i&lt;/mi&gt;&lt;mo&gt;+&lt;/mo&gt;&lt;/mrow&gt;&lt;/msub&gt;&lt;mrow&gt;&lt;munderover><mi>&sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow>&lt;mi&gt;i&lt;/mi&gt;&lt;/munderover&gt;&lt;msub&gt;&lt;mi&gt;x&lt;/mi&gt;&lt;mrow&gt;&lt;mi&gt;i&lt;/mi&gt;&lt;mo&gt;+&lt;/mo&gt;&lt;/mrow&gt;&lt;/msub&gt;&lt;/mrow&gt;&lt;/mfrac&gt;&lt;mo&gt;-&lt;/mo&gt;&lt;mo&gt;-&lt;/mo&gt;&lt;mo&gt;-&lt;/mo&gt;&lt;mrow&gt;&lt;mo&gt;(&lt;/mo&gt;&lt;mn&gt;2&lt;/mn&gt;&lt;mo&gt;)&lt;/mo&gt;&lt;/mrow&gt;&lt;/mrow&gt;&lt;/math&gt;

其中xi+表示节点vi的出度。出度是指所有指向其他结点的所有连线上数值之和。

在图1中,节点v1的出度为2+3+2=7,中心度为7/13=01538;节点v4的出度为1+1=2,中心度为2/13=01154。一个节点的中心度越高,表示该节点所代表的用户回复别人的次数就越多,说明该用户在论坛中越活跃。

(2)事件中心度计算。

建立用户-事件网络模型来计算事件中心度,具体方法如下:

在网络论坛中,用户之间除了通过相互回复而联系以外,用户还因为同时参与一个事件而联系,而事件也因有相同的用户参与而联系。在网络论坛中,把帖子定义为事件,用户无论是发起帖子还是回复帖子都定义为参与了该事件。通过用户与事件之间的联系形成一种无向网络。假如用户v参与了事件e,则在v和e之间建立了连线。这里主要研究事件传播的广度,可不考虑用户对同一事件的多次参与,并且这种联系只在两种不同类型的对象(用户和事件)之间存在,所以方向已经没有意义,因此这是一个不带值的无向网络。

图2给出了一个由6个用户和5个事件构成的用户-事件网络示意图。如果用户v1参与了事件e1,则v1到e1有一条连线,以此类推。

事件的中心度是指参与该事件的人数与总人数个数的比值。事件的中心度计算公式如下:

&lt;math&gt;&lt;mrow&gt;&lt;msub&gt;&lt;mi&gt;c&lt;/mi&gt;&lt;mi&gt;e&lt;/mi&gt;&lt;/msub&gt;&lt;mrow&gt;&lt;mo&gt;(&lt;/mo&gt;&lt;msub&gt;&lt;mi&gt;e&lt;/mi&gt;&lt;mi&gt;i&lt;/mi&gt;&lt;/msub&gt;&lt;mo&gt;)&lt;/mo&gt;&lt;/mrow&gt;&lt;mo&gt;=&lt;/mo&gt;&lt;mfrac&gt;&lt;msub&gt;&lt;mi&gt;x&lt;/mi&gt;&lt;mi&gt;i&lt;/mi&gt;&lt;/msub&gt;&lt;mi&gt;n&lt;/mi&gt;&lt;/mfrac&gt;&lt;mo&gt;-&lt;/mo&gt;&lt;mo&gt;-&lt;/mo&gt;&lt;mo&gt;-&lt;/mo&gt;&lt;mrow&gt;&lt;mo&gt;(&lt;/mo&gt;&lt;mn&gt;3&lt;/mn&gt;&lt;mo&gt;)&lt;/mo&gt;&lt;/mrow&gt;&lt;/mrow&gt;&lt;/math&gt;

其中xi-表示参与事件ei的用户,n表示该图中总的用户个数。在图2中,e2事件的参与人数为3,事件中心度为3/6=015。一个事件的中心度越大,表明该事件的影响范围就越大。

(3)事件关联度计算。

建立事件-事件网络模型来计算事件之间的关联度,具体方法如下:

在用户-事件网络模型中,事件之间没有直接联系,但是存在着间接联系,如果两个事件有相同的用户参与,则两个事件之间便存在着联系,拥有的相同用户数量越多,它们的联系就越紧密。如事件e1和e2拥有一个相同的用户(v1),则它们的联系强度为1;事件e2和e3拥有2个相同的用户(v3,v4),则它们的联系强度为2。通过这种方式建立起事件之间的联系,将用户从网络中剥离出来,建立事件-事件网络模型,计算出事件之间的关联度。事件之间关联度越大,表明这些事件越有可能由同一个主题引发的。

(4)网络热点事件检测。

利用用户-用户网络模型计算出节点的威望度和中心度,检测出威望度和中心度值大的用户,他们最为活跃,且处于中心地位,属于意见领袖,他们的帖子引发网络舆情的可能性很大。利用用户-事件网络模型计算出事件中心度,检测出中心度值大的事件(帖子),它们属于热帖或热点事件,影响范围较广,引发网络舆情的可能性很大。将用户-事件网络模型转换成事件-事件网络模型,计算出帖子之间的关联度,找出属于同一个主题的帖子,它们有可能是网络水军发的帖子。

3.虚假网络舆情识别。

虚假网络舆情是由网络水军在短时间内就某个主题向多个网络论坛密集发帖和跟帖引发的,帖子来自相同的模板,内容大同小异,具有相同的观点或倾向性。根据网络水军发帖行为和帖子特征,对不同网络论坛出现的网络舆情或热点事件进行多层面分析,包括空间关联性、时间关联性、主题关联性及情感关联性等,识别出可能存在的虚假网络舆情。

(1)空间关联性分析。

网络水军在发帖时会注册很多不同的id账号,尽管他们使用不同的id账号发帖,但他们上网的ip地址是不变的。通过对每一个id账号发帖时所使用的ip地址进行统计分析,就可计算出同一个ip地址(用户)的帖子量。如果一个论坛里的帖子出现了大量相同的ip地址,或在不同论坛里同一主题的帖子中出现了大量相同的ip地址,则说明这个舆情主题极有可能是由网络水军制造出来的。另外,如果同一处的同一个id账号使用了不同的ip地址,则有可能是同一个人在不同时间发的帖子,或是不同的人使用网络公关公司统一发放的id账号发的帖子。因此,通过空间关联性分析,检测出不同网络论坛上热点事件帖子(简称热帖)的id账号与ip地址之间关联性,计算它们的空间关联度。

(2)时间关联性分析。

根据统计数据,网络舆情的生命周期通常为50天左右,分成孕育期、爆发期、持续期、衰退期、消失期等几个阶段。而网络水军是在短时间内就某个主题向多个网络论坛密集发帖和跟帖来制造虚假网络舆情的,这些帖子具有很强的时间关联性。因此,通过时间关联性分析,检测出不同网络论坛上热帖的时间关联性,计算它们的时间关联度。

(3)主题关联性分析。

由于网络水军在多个网络论坛上以相同或相似主题发帖和跟帖,其主题内容具有相同或相似性。因此,通过主题内容语义分析,检测出不同网络论坛上热帖的主题关联性,计算它们的主题关联度。

(4)情感关联性分析。

文本情感也称为文本倾向性,它是指文本(帖子)中所表达的观点、情感、立场、态度等主观性信息,一般分成褒义、贬义和中性等三种。由于网络水军的帖子内容通常来自于网络公关公司的相同模板,内容大同小异,具有相同的观点或倾向性,通常为褒、贬两种。因此,通过对不同网络论坛上热帖所表达的情感进行多层次分析,包括词汇、句子和文档等层次,检测出不同网络论坛上热帖的情感关联性,计算它们的情感关联度。

(5)虚假网络舆情识别。

根据对所有网络热点事件的4个关联性分析结果,如果一个网络热点事件同时具有4个关联性,则该网络热点事件为虚假网络舆情;如果一个网络热点事件同时具有3个关联性,则该网络热点事件为高度疑似虚假网络舆情;如果一个网络热点事件同时具有2个关联性,则该网络热点事件为一般疑似虚假网络舆情。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1