一种网络舆情监测分析处理方法、设备及计算机存储介质与流程

文档序号:31152374发布日期:2022-08-17 06:33阅读:64来源:国知局
一种网络舆情监测分析处理方法、设备及计算机存储介质与流程

1.本发明涉及网络舆情监测技术领域,具体是一种网络舆情监测分析处理方法、设备及计算机存储介质。


背景技术:

2.随着信息技术的迅猛发展,全媒体时代已经到来,人们获取新闻的渠道已经不再局限于传统的电视、报纸、杂志等形式,网络新闻凭借获取方式简单、形式新颖、生动活泼等优势吸引着广大网友,已经成为人们获取新闻的主要渠道。
3.然而,由于互联网的开放性和自主参与性较强,容易存在一些好事者为博取关注度对正规新闻发布平台发布的新闻资讯进行改编上传,形成虚假网络新闻。在这种情况下,如果不加以监测,这些虚假网络新闻在互联网的高速传播下会迅速发酵,进而形成社会舆论,轻则有损公共形象,重则会对社会稳定构成威胁。因此在形成社会舆论早期对互联网上存在的虚假网络新闻进行监测处理显得尤为必要。
4.当前在进行虚假新闻监测处理过程中较为重要的操作步骤即是对虚假网络新闻的甄别,但现有技术中对虚假网络新闻采取的甄别方式基本都只是对待甄别的新闻进行发布主体信息的甄别,忽略了对新闻的发布标题和发布形式的甄别,导致甄别维度过于单一,在一定程度上影响甄别结果的精准可靠度,容易存在一些发布主体信息真实,但发布标题和发布形式存在捏造的虚假网络新闻无法甄别到的情况,进而为互联网的公共舆论环境安全埋下了安全隐患。


技术实现要素:

5.为了克服上述不足,本发明搭建了一种网络舆情监测分析处理方法、设备及计算机存储介质。
6.本发明的目的可以通过以下技术方案来实现:
7.本发明的第一方面提供一种网络舆情监测分析处理方法,包括以下步骤:
8.步骤1:将待进行舆情监测的新闻资讯记为目标新闻资讯,进而获取目标新闻资讯在正规新闻发布平台上的发布时间点和发布内容;
9.步骤2:从目标新闻资讯在正规新闻发布平台上的发布内容中提取发布参数;
10.步骤3:在发布时间点对应的设定时间间隔后,从目标新闻资讯对应的发布参数中提取发布标题,并将发布主题进行主题关键词提取,进而将提取的主题关键词进行网络搜索,由此得到目标新闻资讯在传播过程中的若干转传新闻;
11.步骤4:统计目标新闻资讯在传播过程中存在的转传新闻数量,并将各条转传新闻按照发布时间点的先后顺序编号为1,2,...,i,...,n;
12.步骤5:分别采集各条转传新闻对应的发布内容,并从中提取发布参数和发布平台;
13.步骤6:分别将各条转传新闻的发布参数与目标新闻资讯的发布参数进行对比,由
此分析各条转传新闻对应的发布内容真实度;
14.步骤7:将各条转传新闻对应的发布内容真实度与预设的发布内容真实度阈值进行对比,若某条转传新闻对应的发布内容真实度小于预设的发布内容真实度阈值,则将该条转传新闻记为重点转传新闻;
15.步骤8:统计目标新闻资讯在网络上存在的重点转传新闻数量,并基于各条重点转传新闻的编号获取各条重点转传新闻对应的发布平台,进而对各条重点转传新闻对应的发布平台进行预警处理。
16.根据本发明第一方面的一种能够实现的方式,所述发布参数包括发布形式、发布标题和发布主体信息。
17.根据本发明第一方面的一种能够实现的方式,所述发布形式包括文本形式、图片形式、视频形式和图文形式。
18.根据本发明第一方面的一种能够实现的方式,所述发布主体信息包括文本信息、图片信息、视频信息和图文信息。
19.根据本发明第一方面的一种能够实现的方式,所述文本形式对应的发布主体信息为文本信息,图片形式对应的发布主体信息为图片信息,视频形式对应的发布主体信息为视频信息,图文形式对应的发布主体信息为图文信息。
20.根据本发明第一方面的一种能够实现的方式,所述步骤4中分析各条转传新闻对应的发布内容真实度具体参照以下:
21.步骤4-1:从发布内容参数中提取发布标题,并从发布参数中提取发布标题,进而将各条转传新闻对应的发布标题与目标新闻资讯对应的发布标题进行重合对比,从中获取各条转传新闻对应发布标题的重合字数;
22.步骤4-2:统计目标新闻资讯对应发布标题的字数,进而将各条转传新闻对应发布标题的重合字数与目标新闻资讯对应发布标题的字数进行对比,计算各条转传新闻对应的发布标题相似度,其计算公式为tsi表示为第i条转传新闻对应的发布标题相似度,ki表示为第i条转传新闻对应发布标题的重合字数,k表示为目标新闻资讯对应发布标题的总字数;
23.步骤4-3:从发布参数中提取发布形式,进而将各条转传新闻对应的发布形式与目标新闻资讯对应的发布形式进行匹配,若某条转传新闻对应的发布形式与目标新闻资讯对应的发布形式匹配一致,则将该条转传新闻对应的发布形式符合度记为ε,并将该条转传新闻记为形似转传新闻,同时执行步骤4-4,反之则将该条转传新闻对应的发布形式符合度记为ε

,并将该条转传新闻记为形异转传新闻,同时执行步骤4-5;
24.步骤4-4:构建各种发布形式对应的发布主体信息一致度分析算法,进而基于目标新闻资讯对应的发布形式,将形似转传新闻和目标新闻资讯对应的发布主体信息导入相应发布形式对应的发布主体信息一致度分析算法中,分析形似转传新闻对应的发布主体信息一致度,记为λ;
25.步骤4-5:分别基于形异转传新闻和目标新闻资讯对应的发布形式识别形异转传新闻和目标新闻资讯对应的实质信息,进而将形异转传新闻对应的实质信息与目标新闻资讯对应的实质信息进行对比,从中获取形异转传新闻对应的实质信息重合字数,进而将形
异转传新闻对应的实质信息重合字数与目标新闻资讯对应实质信息的总字数进行对比,分析形异转传新闻对应的发布主体信息一致度,记为λ

,其计算公式为
26.步骤4-6:将各条转传新闻对应的发布标题相似度、发布形式符合度和发布主体信息一致度通过发布内容真实度计算公式计算出各条转传新闻对应的发布内容真实度,其中表示为第i条转传新闻对应的发布内容真实度,fci表示为第i条转传新闻对应的发布形式符合度,且fci的取值可以为ε或ε

,sci表示为第i条转传新闻对应的发布主体信息一致度,且sci的取值可以为λ或λ

,a、b、c分别表示为发布标题相似度、发布形式符合度、发布主体信息一致度对应的权重系数;
27.根据本发明第一方面的一种能够实现的方式,所述步骤4-3中各种发布形式对应的发布主体信息一致度分析算法具体为:
28.(1)文本形式对应的主体信息一致度分析算法执行过程如下:
29.分别将形似转传新闻对应的文本信息与目标新闻资讯对应的文本信息进行去停用词处理,得到形似转传新闻和目标新闻资讯对应的初步处理文本信息;
30.将形似转传新闻对应的初步处理文本信息与目标新闻资讯对应的初步处理文本信息进行重合对比,由此获取形似转传新闻对应的文本信息重合字数,进而将形似转传新闻对应的文本信息重合字数除以目标新闻资讯对应的初步处理文本信息总字数,得到形似转传新闻对应的发布主体信息一致度;
31.(2)图片形式对应的主体信息一致度分析算法执行过程如下:
32.将形似转传新闻对应的图片信息与目标新闻资讯对应的图片信息进行重合,由此获取形似转传新闻对应的图片重合轮廓面积,进而将形似转传新闻对应的图片重合面积除以目标新闻资讯对应的图片轮廓面积,得到形似转传新闻对应的发布主体信息一致度;
33.(3)视频形式对应的主体信息一致度分析算法执行过程如下:
34.分别将形似转传新闻对应的视频信息和目标新闻资讯对应的视频信息按照设定的视频侦进行分割,得到若干视频图片;
35.将形似转传新闻和目标新闻资讯对应视频信息分割的各视频图片按照统一的顺序进行编号;
36.分别将形似转传新闻和目标新闻资讯中同一编号的视频图片按照图片形式对应的主体信息一致度分析算法进行分析,得到形似转传新闻对应的视频信息中各视频图片对应的发布主体信息一致度;
37.将形似转传新闻对应的视频信息中各视频图片对应的发布主体信息一致度进行累加,得到形似转传新闻对应的发布主体信息一致度;
38.(4)图文形式对应的主体信息一致度分析算法执行过程如下:
39.分别将形似转传新闻和目标新闻资讯对应的图文信息划分为文本部分和图片部分;
40.依据文本形式对应的主体信息一致度分析算法将形似转传新闻对应图文信息中的文本部分与目标新闻资讯对应图文信息中的文本部分进行对比,得到形似转传新闻对应图文信息中文本部分的发布主体信息一致度;
41.依据图片形式对应的主体信息一致度分析算法将形似转传新闻对应图文信息中的图片部分与目标新闻资讯对应图文信息中的图片部分进行对比,得到形似转传新闻对应图文信息中图片部分的发布主体信息一致度;
42.将形似转传新闻对应图文信息中文本部分和图片部分的发布主体信息一致度进行叠加,得到形似转传新闻对应的发布主体信息一致度。
43.根据本发明第一方面的一种能够实现的方式,所述步骤4-5中分别基于形异转传新闻对应的发布形式和目标新闻资讯对应的发布形式识别形异转传新闻和目标新闻资讯对应的实质信息具体包括:
44.步骤4-5-1:搭建各种发布形式对应的实质信息识别模型;
45.步骤4-5-2:分别将形异转传新闻和目标新闻资讯对应的发布主体信息导入相应发布形式对应的实质信息识别模型中,由此识别出形异转传新闻和目标新闻资讯对应的实质信息。
46.本发明的第二方面提出一种设备,包括处理器,以及与处理器连接的内存和网络接口;所述网络接口与服务器中的非易失性存储器连接;所述处理器在运行时通过所述网络接口从所述非易失性存储器中调取计算机程序,并通过所述内存运行所述计算机程序,以执行本发明所述的一种网络舆情监测分析处理方法。
47.本发明的第三方面提出一种计算机存储介质,所述计算机存储介质烧录有计算机程序,所述计算机程序在服务器的内存中运行时实现本发明所述的一种网络舆情监测分析处理方法。
48.基于上述,本发明具有的优点在于:
49.本发明在对目标新闻资讯在网络中存在的转传新闻进行真实性甄别过程中,分别从各转传新闻的发布标题、发布形式和发布主体信息三个维度进行真实性分析,进而根据以上分析结果评估各条转传新闻的发布内容真实度,从而对不符合发布内容真实度阈值的转传新闻进行预警,实现了转传新闻真实性的多维度甄别,丰富了虚假网络新闻的甄别维度,能够在一定程度上提高甄别结果的精准可靠度,进而有效减少了一些发布主体信息真实,但发布标题和发布形式存在捏造的虚假网络新闻无法甄别到情况的发生率,有利于保障互联网的公共舆论环境安全。
附图说明
50.利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
51.图1为本发明的方法实施步骤流程图。
具体实施方式
52.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
53.参照图1所示,一种网络舆情监测分析处理方法,包括以下步骤:
54.步骤1:将待进行舆情监测的新闻资讯记为目标新闻资讯,进而获取目标新闻资讯在正规新闻发布平台上的发布时间点和发布内容;
55.步骤2:从目标新闻资讯在正规新闻发布平台上的发布内容中提取发布参数,所述发布参数包括发布形式、发布标题和发布主体信息,其中发布形式包括文本形式、图片形式、视频形式和图文形式,发布主体信息包括文本信息、图片信息、视频信息和图文信息;
56.上述中文本形式对应的发布主体信息为文本信息,图片形式对应的发布主体信息为图片信息,视频形式对应的发布主体信息为视频信息,图文形式对应的发布主体信息为图文信息;
57.步骤3:在发布时间点对应的设定时间间隔后,从目标新闻资讯对应的发布参数中提取发布标题,并将发布主题进行主题关键词提取,进而将提取的主题关键词进行网络搜索,由此得到目标新闻资讯在网络中的若干转传新闻;
58.需要说明的是,上述提到的转传新闻是指目标新闻资讯在正规新闻平台发布之后,其他资讯平台对目标新闻资讯进行转载改编之后形成的新闻;
59.步骤4:统计目标新闻资讯在网络中存在的转传新闻数量,并将各条转传新闻按照发布时间点的先后顺序编号为1,2,...,i,...,n;
60.步骤5:分别采集各条转传新闻对应的发布内容,并从中提取发布参数和发布平台;
61.步骤6:分别将各条转传新闻的发布参数与目标新闻资讯的发布参数进行对比,由此分析各条转传新闻对应的发布内容真实度,其具体分析步骤如下:
62.步骤4-1:从发布内容参数中提取发布标题,并从发布参数中提取发布标题,进而将各条转传新闻对应的发布标题与目标新闻资讯对应的发布标题进行重合对比,从中获取各条转传新闻对应发布标题的重合字数;
63.步骤4-2:统计目标新闻资讯对应发布标题的字数,进而将各条转传新闻对应发布标题的重合字数与目标新闻资讯对应发布标题的字数进行对比,计算各条转传新闻对应的发布标题相似度,其计算公式为tsi表示为第i条转传新闻对应的发布标题相似度,ki表示为第i条转传新闻对应发布标题的重合字数,k表示为目标新闻资讯对应发布标题的总字数;
64.步骤4-3:从发布参数中提取发布形式,进而将各条转传新闻对应的发布形式与目标新闻资讯对应的发布形式进行匹配,若某条转传新闻对应的发布形式与目标新闻资讯对应的发布形式匹配一致,则将该条转传新闻对应的发布形式符合度记为ε,并将该条转传新闻记为形似转传新闻,同时执行步骤4-4,反之则将该条转传新闻对应的发布形式符合度记为ε

,并将该条转传新闻记为形异转传新闻,同时执行步骤4-5;
65.步骤4-4:构建各种发布形式对应的发布主体信息一致度分析算法,进而基于目标新闻资讯对应的发布形式,将形似转传新闻和目标新闻资讯对应的发布主体信息导入相应发布形式对应的发布主体信息一致度分析算法中,分析形似转传新闻对应的发布主体信息一致度,记为λ;
66.上述中各种发布形式对应的发布主体信息一致度分析算法具体为:
67.(1)文本形式对应的主体信息一致度分析算法执行过程如下:
68.分别将形似转传新闻对应的文本信息与目标新闻资讯对应的文本信息进行去停用词处理,得到形似转传新闻和目标新闻资讯对应的初步处理文本信息;
69.将形似转传新闻对应的初步处理文本信息与目标新闻资讯对应的初步处理文本信息进行重合对比,由此获取形似转传新闻对应的文本信息重合字数,进而将形似转传新闻对应的文本信息重合字数除以目标新闻资讯对应的初步处理文本信息总字数,得到形似转传新闻对应的发布主体信息一致度;
70.(2)图片形式对应的主体信息一致度分析算法执行过程如下:
71.将形似转传新闻对应的图片信息与目标新闻资讯对应的图片信息进行重合,由此获取形似转传新闻对应的图片重合轮廓面积,进而将形似转传新闻对应的图片重合面积除以目标新闻资讯对应的图片轮廓面积,得到形似转传新闻对应的发布主体信息一致度;
72.(3)视频形式对应的主体信息一致度分析算法执行过程如下:
73.分别将形似转传新闻对应的视频信息和目标新闻资讯对应的视频信息按照设定的视频侦进行分割,得到若干视频图片;
74.将形似转传新闻和目标新闻资讯对应视频信息分割的各视频图片按照统一的顺序进行编号;
75.分别将形似转传新闻和目标新闻资讯中同一编号的视频图片按照图片形式对应的主体信息一致度分析算法进行分析,得到形似转传新闻对应的视频信息中各视频图片对应的发布主体信息一致度;
76.将形似转传新闻对应的视频信息中各视频图片对应的发布主体信息一致度进行累加,得到形似转传新闻对应的发布主体信息一致度;
77.(4)图文形式对应的主体信息一致度分析算法执行过程如下:
78.分别将形似转传新闻和目标新闻资讯对应的图文信息划分为文本部分和图片部分;
79.依据文本形式对应的主体信息一致度分析算法将形似转传新闻对应图文信息中的文本部分与目标新闻资讯对应图文信息中的文本部分进行对比,得到形似转传新闻对应图文信息中文本部分的发布主体信息一致度;
80.依据图片形式对应的主体信息一致度分析算法将形似转传新闻对应图文信息中的图片部分与目标新闻资讯对应图文信息中的图片部分进行对比,得到形似转传新闻对应图文信息中图片部分的发布主体信息一致度;
81.将形似转传新闻对应图文信息中文本部分和图片部分的发布主体信息一致度进行叠加,得到形似转传新闻对应的发布主体信息一致度;
82.步骤4-5:分别基于形异转传新闻和目标新闻资讯对应的发布形式识别形异转传新闻和目标新闻资讯对应的实质信息,进而将形异转传新闻对应的实质信息与目标新闻资讯对应的实质信息进行对比,从中获取形异转传新闻对应的实质信息重合字数,进而将形异转传新闻对应的实质信息重合字数与目标新闻资讯对应实质信息的总字数进行对比,分析形异转传新闻对应的发布主体信息一致度,记为λ

,其计算公式为
83.上述中识别形异转传新闻和目标新闻资讯对应的实质信息具体包括:
84.步骤4-5-1:搭建各种发布形式对应的实质信息识别模型,其中具体操作过程如
下:
85.a:文本形式对应的实质信息识别模型如下:
86.a-1:将发布形式属于文本形式的新闻资讯对应的文本信息进行分词和去停用词处理,得到若干分词词组;
87.a-2:对各分词词组进行词性标注;
88.a-3:根据各分词词组对应的词性分别从中筛选出词性为名词和动词的词组;
89.a-4:根据预定义的各种新闻要素参数适配的词性,从筛选出的词组中提取新闻要素参数;
90.上述中提到的新闻要素参数包括人物、时间、地点、事件、原因和发生过程,其中人物、时间和地点适配的词性均为名词,事件、原因和发生过程适配的词性为动词;
91.a-5:将提取的新闻要素参数按照设定的新闻报道规则组合成叙事语句,从而将组合成的叙事语句作为新闻资讯的实质信息;
92.在一个具体实施例中,设定的新闻报道规则可以为时间+人物+地点+原因+事件+发生过程;
93.b:图片形式对应的实质信息识别模型如下:
94.b-1:将发布形式属于图片形式的新闻资讯对应的图片信息进行人物展示区域和背景环境展示区域划分;
95.b-2:从图片信息对应的人物展示区域中提取人物外形特征和人物动作特征,并从图片信息对应的背景环境展示区域中提取发生地信息和发生时间信息;
96.b-3:基于提取的人物外形特征识别新闻要素参数中的人物,并从提取的人物动作特征中识别新闻要素参数中的事件、原因和发生过程;
97.b-4:基于提取的发生地信息和发生时间信息识别新闻要素参数中的时间和地点;
98.b-5:将识别出的新闻要素参数按照设定的新闻报道规则组合成叙事语句,从而将组合成的叙事语句作为新闻资讯的实质信息;
99.c:视频形式对应的实质信息识别模型如下:
100.c-1:将发布形式属于视频形式的新闻资讯对应的视频信息按照设定的视频侦进行分割,得到若干视频图片;
101.c-2:将分割的各视频图片分别进行展示主体识别,进而从中筛选出存在展示主体的视频图片,并将其记为特征视频图片;
102.上述提到的展示主体是指人物和背景环境均具备;
103.c-3:将筛选出的特征视频图片按照图片形式对应的实质信息识别模型进行实质信息识别,其识别出的信息作为作为新闻资讯的实质信息;
104.b-2:从图片信息对应的人物展示区域中提取人物外形特征和人物动作特征,并从图片信息对应的背景环境展示区域中提取发生地信息和发生时间信息;
105.b-3:基于提取的人物外形特征识别新闻要素参数中的人物,并从提取的人物动作特征中识别新闻要素参数中的事件、原因和发生过程;
106.d.图文形式对应的实质信息识别模型如下:
107.d-1:将发布形式属于图文形式的新闻资讯对应的图文信息划分为文本部分和图片部分;
108.d-2:依据文本形式对应的实质信息识别模型将图文信息划分的文本部分进行实质信息识别;
109.d-3:依据图片形式对应的实质信息识别模型将图文信息划分的图片部分进行实质信息识别;
110.d-4:将文本部分识别的实质信息和图片部分识别的实质信息进行去重处理,并将处理后的信息作为新闻资讯的实质信息;
111.步骤4-5-2:分别将形异转传新闻和目标新闻资讯对应的发布主体信息导入相应发布形式对应的实质信息识别模型中,由此识别出形异转传新闻和目标新闻资讯对应的实质信息;
112.步骤4-6:将各条转传新闻对应的发布标题相似度、发布形式符合度和发布主体信息一致度通过发布内容真实度计算公式计算出各条转传新闻对应的发布内容真实度,其中表示为第i条转传新闻对应的发布内容真实度,fci表示为第i条转传新闻对应的发布形式符合度,且fci的取值可以为ε或ε

,sci表示为第i条转传新闻对应的发布主体信息一致度,且sci的取值可以为λ或λ

,a、b、c分别表示为发布标题相似度、发布形式符合度、发布主体信息一致度对应的权重系数;
113.步骤7:将各条转传新闻对应的发布内容真实度与预设的发布内容真实度阈值进行对比,若某条转传新闻对应的发布内容真实度小于预设的发布内容真实度阈值,则将该条转传新闻记为重点转传新闻;
114.步骤8:统计目标新闻资讯在网络上存在的重点转传新闻数量,并基于各条重点转传新闻的编号获取各条重点转传新闻对应的发布平台,进而对各条重点转传新闻对应的发布平台进行预警处理。
115.本发明实施例在对目标新闻资讯在网络中存在的转传新闻进行真实性甄别过程中,分别从各转传新闻的发布标题、发布形式和发布主体信息三个维度进行真实性分析,进而根据以上分析结果评估各条转传新闻的发布内容真实度,从而对不符合发布内容真实度阈值的转传新闻进行预警,实现了转传新闻真实性的多维度甄别,丰富了虚假网络新闻的甄别维度,能够在一定程度上提高甄别结果的精准可靠度,进而有效减少了一些发布主体信息真实,但发布标题和发布形式存在捏造的虚假网络新闻无法甄别到情况的发生率,有利于保障互联网的公共舆论环境安全。
116.本发明的第二方面提出一种设备,包括处理器,以及与处理器连接的内存和网络接口;所述网络接口与服务器中的非易失性存储器连接;所述处理器在运行时通过所述网络接口从所述非易失性存储器中调取计算机程序,并通过所述内存运行所述计算机程序,以执行本发明所述的一种网络舆情监测分析处理方法。
117.本发明的第三方面提出一种计算机存储介质,所述计算机存储介质烧录有计算机程序,所述计算机程序在服务器的内存中运行时实现本发明所述的一种网络舆情监测分析处理方法。
118.以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1