一种鉴定网络谣言的方法和装置制造方法

文档序号:6494156阅读:135来源:国知局
一种鉴定网络谣言的方法和装置制造方法
【专利摘要】本发明适用于互联网通信领域,提供了一种鉴定网络谣言的方法,所述方法包括:对数据库中的网络信息进行分析并提取特征;用机器学习法建模,生成打分函数;利用打分函数对网络信息进行鉴定。本发明可以每过一段时间对模型做出修正,体现了网络传播的动态性,通过建模产生的打分函数,可以利用机器快速鉴定网络谣言,从而为网络管理者快速反应提供重要的依据。
【专利说明】一种鉴定网络谣言的方法和装置
【技术领域】
[0001]本发明属于互联网通信领域,尤其涉及一种鉴定网络谣言的方法和装置。
【背景技术】
[0002]随着互联网技术的飞速发展,Facebook、Twitter、微博、电子邮件、博客、youtube等社交网站相继出现,网络谣言也随之产生和传播,其对社会产生的危害:小到个人生活和隐私,大到社会的安定团结以及经济发展。比如2012年夏天,印度阿萨姆邦发生流血事件后,网络谣言导致30多万人逃离居住地;2010年2月20日,山西某些地区要地震的谣言通过网络迅速传播,致使太原等六地数百万群众凌晨开始走上街头“躲避地震”,山西地震官网一度瘫痪;2011年3月日本9.0级地震后,有关食盐可以预防核辐射的谣言使得中国部分地区开始疯狂抢购食盐,市场秩序一片混乱。据统计仅2012年3月和4月间在我国被清理的网络谣言就有20余万多条。网络谣言跨越国界,在世界范围内影响和危害人民的生活安定、社会安全和经济发展,治理网络谣言已经成为世界性的难题。
[0003]网络谣言可以理解为在网络这一特定的环境下,网络使用实体以特定方式传播的,对网民感兴趣的事物、事件或问题的,未经证实的阐述或诠释(《情报理论与实践》2004年6期,巢乃鹏,黄娴著)。目前世界范围内还没有针对网络谣言的一种快速有效的鉴定方法,如何在短时间内鉴定网络谣言意义十分重大。申请号为200810167018.5的专利介绍了一种网络秩序调控方法,该方法主要针对网络用户的网络行为进行规范,基于网络用户的行为建立一个信用评估体系,并没有针对网络谣言提出有效的预测和鉴定方法。

【发明内容】

[0004]本发明实施例提供一种鉴定网络谣言的方法和装置,旨在解决当前没有针对网络谣言提出有效的预测和鉴定方法,无法利用机器快速鉴定网络谣言,从而为网络管理者快速反应提供依据。
[0005]为此,本发明实施例提供了如下技术方案:
[0006]一种鉴定网络谣言的方法,包括以下步骤:
[0007]对数据库中的网络信息进行分析并提取特征;
[0008]用机器学习法建模,生成打分函数;
[0009]利用打分函数对网络信息进行鉴定。
[0010]本发明实施例还提供了一种鉴定网络谣言的装置,包括:
[0011]数据库,用于存储网络信息;
[0012]特征提取模块,用于对数据库中的网络信息进行分析并提取特征;
[0013]建模模块,用于用机器学习法建模,生成打分函数;
[0014]鉴定模块,用于利用打分函数对网络信息进行预测。
[0015]与现有技术相比,本发明的实施例具有如下优点:
[0016]本发明通过提供对数据库中的网络信息进行分析并提取特征,用机器学习法建模,生成打分函数,再利用打分函数对网络信息进行鉴定,可以每过一段时间对模型做出修正,并实现利用机器快速鉴定网络谣言,从而为网络管理者快速反应提供重要的依据。
【专利附图】

【附图说明】
[0017]图1是本发明实施例提供的鉴定网络谣言的方法的方法流程图;
[0018]图2是本发明实施例提供的鉴定网络谣言的装置的结构图。
【具体实施方式】
[0019] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0020]具体的,首先定义一些该专利发明中用到的常用参数:
[0021]? M:网络信息,可以是谣言或者真实信息。
[0022]? S (M):网络信息M的发布者。
[0023]?Τ(Μ):网络信息M的传播者,传播了该网络信息;可以是相信了该网络信息的用户,也可以是不相信该网络信息的用户。
[0024]? R(M):网络信息M的受众,相信该网络信息的网络用户;可以同时是网络信息M的传播者。
[0025]^U:网络用户,可以是个人,也可以是单位机构;网络互动的主体,可以是信息发布者、传播者和受众。
[0026]? I (M):网络信息M的重要性。
[0027]? V (M):网络信息M的模糊性。
[0028]? A (M):网络信息M的反常性。
[0029]? pl, ρ2, ρ3…pi…:打分函数的参数,每个参数pi针对打分函数的一项。
[0030]在本发明中,针对某个网络信息M的打分函数具有以下的形式:
[0031]F (M) =pl*S+p2*T+p3*R+p4*I+p5*V+p6*A(El)
[0032]这里的打分函数(El)的函数由两部分构成。前三项和网络信息的传播和传播环境有关,而后二项和网络彳目息本身的特点有关。
[0033]图1是本发明实施例提供的鉴定网络谣言的方法流程图,为了便于说明,仅示出了与本发明实施例相关的部分。
[0034]如图1所示,该方法包括以下步骤:
[0035]步骤101,对数据库中的网络信息进行分析并提取特征。
[0036]具体的,包括以下步骤:
[0037]步骤一,对数据库中谣言的分类,将每个谣言归为其中的一类。
[0038]具体的,假设分为匪类谣言,比如可分为财经、体育、娱乐、汽车、政治、科技、军事、历史、其他等,然后将每个谣言归为其中的一类。
[0039]步骤二,分析数据库中每一类谣言和每一个网络用户,提取与传播环境有关的特征。[0040]具体的,网络信息的传播环境包含网络信息的发布者、传播者,和受众。因为网络信息(谣言)传播环境非常重要,只有经过广泛传播,其影响和危害才会巨大。传播者和受众对该事件的判断能力可以大大影响网络信息的传播。比如:山西地震局作为网络用户(比如微博用户)对2010年2月山西某些地区要地震的谣言辟谣,阻止了谣言的进一步传播。
[0041]具体的,与传播环境有关的特征,在本发明用到的参数中,是这样定义的:
[0042]? S (M):网络信息M的发布者。
[0043]?Τ(Μ):网络信息M的传播者,传播了该网络信息;可以是相信了该网络信息的用户,也可以是不相信该网络信息的用户。
[0044]? R(M):网络信息M的受众,相信该网络信息的网络用户;可以同时是网络信息M的传播者。
[0045]优选的,对于数据库中的每一类谣言Mi,和每一个网络用户Ui作如下分析,并提取与传播环境有关的特征。
[0046]首先,根据用户是否发布过谣言Mi,将用户标记为谣言发布者/非发布者,从而对网络信息的发布者进行分析。 [0047]优选的,对网络信息的发布者S进行分析。由于用户Ui可能是网络谣言的发布者,也可能不是,因此,根据用户Ui是否发布过谣言Mi,将用户Ui标记为:Mi谣言发布者/非发布者。因此对于数据库中的用户Ui,相应的打分函数:
[0048]F (M) =pl*S+p2*T+p3*R+p4*I+p5*V+p6*A(El)
[0049]El中S项就有两项,pi参数也就有两个。对应于所有用户和所有谣言类型的S项参数的总数是2*N*L。
[0050]其次,根据用户是否传播过谣言Mi,将用户标记为谣言传播者/非传播者,从而对网络信息的传播者进行分析。
[0051]优选的,对网络信息的传播者T进行分析。由于用户Ui可能是网络谣言的传播者,也可能不是,因此,根据用户Ui是否传播过谣言Mi标记Ui =Mi谣言传播者/非传播者;因此对于数据库中的用户Ui,相应的打分函数:
[0052]F (M) =pl*S+p2*T+p3*R+p4*I+p5*V+p6*A(El)
[0053]El中T项就有两项,p2参数也就有两个。对应于所有用户和所有谣言类型的T项参数的总数是2*N*L。
[0054]然后,根据用户是否相信谣言Mi,将用户标记谣言受众/非受众,从而对网络信息的受众进行分析。
[0055]对网络信息的受众R进行分析。由于用户Ui可能相信接受到的网络谣言,也可能不相信接受到的网络谣言,因此根据用户Ui是否相信谣言Mi标记用户Ui为:Mi谣言受众/非受众;因此对于数据库中的用户Ui,相应的打分函数:
[0056]F (M) =pl*S+p2*T+p3*R+p4*I+p5*V+p6*A(El)
[0057]El中R项就有两项,p3参数也就有两个。对应于所有用户和所有谣言类型的T项参数的总数是2*N*L。
[0058]步骤三,分析数据库中的每一类谣言,提取与网络信息本身相关的特征。
[0059]优选的,包括以下步骤:
[0060]首先,依据重要程度不同将谣言分类,通过统计分析数据库中谣言的传播速度,确定单位时间传播次数的上限阈值和下限阈值,并根据谣言在单位时间内的传播次数是否超过或小于所述上限阈值或下限阈值,实现从传播速度提取谣言的重要性分类特征和对谣言的重要性分析。
[0061]优选的,对谣言的重要性I进行分析。谣言一般来讲可以分为以下几类:牢骚性谣言、攻击性谣言、宣传性谣言、牟利性谣言、误解性谣言,不同谣言的重要和危害性也不同,根据其重要程度不同可以将谣言非为三类:非常重要,一般重要,不重要。从操作层次来讲,可以从传播速度来提取分类特征,当谣言Mi在时间t内的传播次数超过Ql时,此谣言Mi为非常重要;当传播次数超过Q2而小于Ql时,此谣言Mi为一般重要;当传播次数小于Q2时,此谣言Mi为一般重要。其中Q1>Q2,通过统计分析数据库中谣言的传播速度来确定Ql和Q2的值。对应于所有谣言类型的I项参数的总数是3*L。
[0062]其次,依据从社交网络数据库中提取和分析得到的模糊词列表,和谣言中模糊词出现的频率,对谣言的模糊性分类,实现对谣言的模糊性分析。
[0063]优选的,对谣言的模糊性V进行分析。模糊性低的谣言很容易网络用户来证实真假,因此传播速度慢;而模糊性高的谣言的传播速度则要更快,其危害也更大。可以根据谣言中模糊词出现的频率将谣言的模糊性分为三类:模糊性高,模糊性中,模糊性低。模糊词的列表需从社交网络数据库中提取和分析,基于统计分析设置两个频率阈值Vl和V2引导分类。对应于所有谣言类型的V项参数的总数是3*L(具体参数待定)。依据从社交网络数据库中提取和分析得到的模糊词的列表,和谣言中模糊词出现的频率,将谣言的模糊性分为三类:模糊性高,模糊性中,模糊性低。
[0064]最后,将谣言自动随机发送给网络用户,依据对反馈信息的分析,对谣言的的反常性分类,实现对谣言的反常度分析。
[0065]优选的,谣言的反常度A进行分析。谣言反常度越高,其危害越大,传播速度就越快。将谣言的反常性分为三类:反常度高,反常度中,反常度低。具体方法是设计一网络系统将谣言自动随机发送给一些网络用户,依据对反馈信息的分析将谣言进行分类。对应于所有谣言类型的A项参数的总数是3*L。
[0066]步骤四,从数据库中提取相同数量的非谣言网络信息。
[0067]具体的,找到非谣言网络信息L项,重复1-3的步骤,对L项网络信息分析并提取特征。
[0068]步骤102,用机器学习法建模,生成打分函数。。
[0069]具体的,包括:
[0070]步骤一,准备样本特征,将获得的谣言和非谣言样本和样本特征换成相应机器学习分类方法的格式。
[0071]步骤二,用机器学习分类方法,对所述获得的谣言和非谣言样本进行多重验证训练建模,从而得到打分函数模型的参数。
[0072]具体的,所述用机器学习分类方法,包括支持向量机,神经网络中的一种或者多种。
[0073]步骤103,利用打分函数对网络信息进行鉴定。
[0074]具体的,包括以下步骤:
[0075]对数据库中任一个新的网络信息,提取与传播环境有关的特征,和与网络信息本身相关的特征;
[0076]具体的,提取新的网络信息中以下6个特征:
[0077]S:网络信息的发布者。
[0078]T:网络信息的传播者,传播了该网络信息。
[0079]R:网络信息的受众。
[0080]1:网络信息的重要性。
[0081 ] V:网络信息的模糊性。
[0082]A:网络信息M的反常性。
[0083]利用打分函数进行打分,具体的,打分函数是:
[0084]F (M) =pl*S+p2*T+p3*R+p4*I+p5*V+p6*A(El)[0085]由于经过机器学习建模,函数(El)的参数pl,p2,p3…pi...,已经计算得出。因此,可以得到打分函数的分数。从而根据分数鉴定所述网络信息是否为谣言。
[0086]具体的,当所述分数高于一个高的预设值时,则鉴定此网络信息为谣言,低于一个低的预设值时,则鉴定此网络信息不是网络谣言,当分数介于所述高的预设值和低的预设值之间时,则定义该网络信息有很大可能是网络谣言,需要更多信息进一步验证。
[0087]优选的,对网络上传播的信息进行打分,当分数高于某个阈值Fl时,则鉴定此网络信息为谣言;低于某个阈值F2时,则鉴定此网络信息不是网络谣言;当分数介于Fl和F2之间时,则定义该网络信息有很大可能是网络谣言,需要更多信息进一步验证。
[0088]基于相同的构思,本发明实施例还提供一种鉴定网络谣言的装置,如图2所示,该装置包括:
[0089]数据库201,用于存储网络信息。
[0090]特征提取模块202,用于对数据库中的网络信息进行分析并提取特征。
[0091]建模模块203,用于用机器学习法建模,生成打分函数;
[0092]鉴定模块204,用于利用打分函数对网络信息进行预测。
[0093]本发明实施例通过提供对数据库中的网络信息进行分析并提取特征,用机器学习法建模,生成打分函数,再利用打分函数对网络信息进行鉴定,可以每过一段时间对模型做出修正,并实现利用机器快速鉴定网络谣言,从而为网络管理者快速反应提供重要的依据。
[0094]本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
[0095]通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0096]以上所述仅是本发明的优选实施方式,应当指出,对于本【技术领域】的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
【权利要求】
1.一种鉴定网络谣言的方法,其特征在于,包括以下步骤: A:对数据库中的网络信息进行分析并提取特征; B:用机器学习法建模,生成打分函数; C:利用打分函数对网络信息进行鉴定。
2.如权利要求1所述的鉴定网络谣言的方法,其特征在于,所述步骤A包括以下步骤: a:对数据库中谣言的分类,将每个谣言归为其中的一类; b:分析数据库中每一类谣言和每一个网络用户,提取与传播环境有关的特征;c:分析数据库中的每一类谣言,提取与网络信息本身相关的特征;d:从数据库中提取相同数量的非谣言网络信息,重复执行所述步骤a至步骤C,对所述非谣言网络信息进行分析并提取特征。
3.如权利要求2所述的鉴定网络谣言的方法,其特征在于,所述步骤b包括以下步骤: bl:根据用户是否发布过谣言,将用户标记为谣言发布者/非发布者,从而对网络信息的发布者进行分析; b2:根据用户是否传播过谣言,将用户标记为谣言传播者/非传播者,从而对网络信息的传播者进行分析; b3:根据用户是否相信谣言,将用户标记谣言受众/非受众,从而对网络信息的受众进行分析。
4.如权利要求2或3所述的鉴定网络谣言的方法,其特征在于,所述步骤c包括以下步骤: Cl:依据重要程度不同将谣言分类,通过统计分析数据库中谣言的传播速度,确定单位时间传播次数的上限阈值和下限阈值,并根据谣言在单位时间内的传播次数是否超过或小于所述上限阈值或下限阈值,实现从传播速度提取谣言的重要性分类特征和对谣言的重要性分析; c2:依据从社交网络数据库中提取和分析得到的模糊词列表,和谣言中模糊词出现的频率,对谣言的模糊性分类,实现对谣言的模糊性分析; c3:将谣言自动随机发送给网络用户,依据对反馈信息的分析,对谣言的的反常性分类,实现对谣言的反常度分析。
5.如权利要求1或4所述的鉴定网络谣言的方法,其特征在于,所述步骤B包括以下步骤: e:准备样本特征,将获得的谣言和非谣言样本和样本特征换成相应机器学习分类方法的格式; f:用机器学习分类方法,对所述获得的谣言和非谣言样本进行多重验证训练建模,从而得到打分函数模型的参数。
6.如权利要求5所述的鉴定网络谣言的方法,其特征在于,所述步骤f包括以下步骤: fl:所述用机器学习分类方法,包括支持向量机,神经网络中的一种或者多种。
7.如权利要求5所述的鉴定网络谣言的方法,其特征在于,所述步骤C包括以下步骤: g:对数据库中任一个新的网络信息,提取特征; h:利用打分函数进行打分,根据分数鉴定所述网络信息是否为谣言。
8.如权利要求7所述的鉴定网络谣言的方法,其特征在于,所述步骤h包括以下步骤:当所述分数高于一个高的预设值时,则鉴定此网络信息为谣言,低于一个低的预设值时,则鉴定此网络信息不是网络谣言,当分数介于所述高的预设值和低的预设值之间时,则定义该网络信息有很大可能是网络谣言,需要更多信息进一步验证。
9.一种鉴定网络谣言的装置,其特征在于,包括: 数据库,用于存储网络信息; 特征提取模块,用于对数据库中的网络信息进行分析并提取特征; 建模模块,用于用机器学习法建模,生成打分函数; 鉴定模块,用 于利用打分函数对网络信息进行预测。
【文档编号】G06F17/30GK103902621SQ201210586904
【公开日】2014年7月2日 申请日期:2012年12月28日 优先权日:2012年12月28日
【发明者】魏彦杰, 张帆, 张慧玲, 彭丰斌, 孟金涛, 魏丹 申请人:深圳先进技术研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1