一种基于爬虫技术的境外舆情监测装置、系统及方法与流程

文档序号:14249628阅读:320来源:国知局
一种基于爬虫技术的境外舆情监测装置、系统及方法与流程

本发明涉及舆情监测技术领域,具体涉及一种基于爬虫技术的境外舆情监测装置、系统及方法。



背景技术:

随着信息全球化的来临,信息呈现全球化传播的趋势。当前,网络媒体日益发达,网民数量也不断增加,互联网已经成为民意表达的最主要空间。网络舆情监测与预警可以发掘其出现、发展和消亡的因素,通过连续不间断地动态监测、度量及采集相关的信息,从而对当前网络舆情做出评价分析并预测其发展趋势,及时做出等级预报。

反映民意的网络舆情,源于现实世界,又会正面或负面作用于现实世界,舆情传播过程中,与现实的关系可能发生复杂的变化。及时发现、分析、管理、利用网络舆情就变得非常重要。

目前,境外监测除了要实现数据实时抓取外,还需要避免采用翻墙软件等违规操作。现阶段采集海外舆情的方式主要有vpn模式,调用指定媒体数据接口方式,代理服务器方式,搭建海外服务器方式。其中,vpn方式目前国内属于非法操作;调用数据接口的方式受限于接口配置的各种访问控制,无法获得足够的信息,代理服务器存在安全方面的考虑也不实用。同时某些舆情在国内封锁的时候,无法继续追踪舆情发酵情况,无法为国内舆情正向引导提供数据支持。



技术实现要素:

本发明的目的在于提供一种基于爬虫技术的境外舆情监测装置、系统及方法,通过搭建海外服务器的方式,合法绕过访问控制,采集境外网站舆情,分析在线言论及传播行为,为国内舆情正向引导提供数据支持。

为实现上述目的,本发明的技术方案为:一种基于爬虫技术的境外舆情监测装置,所述监测装置包括数据爬取模块、舆情搜索模块、文字获取模块、语音获取模块、图像获取模块、文字监测模块、语音监测模块、图像监测模块及预警模块;所述数据爬取模块用于获取进行舆情监测的网站数据信息;所述舆情搜索模块用于对用户输入的关键词进行舆情信息搜索;所述文字获取模块与所述舆情搜索模块建立连接关系,文字获取模块用于获取对应于用户输入关键词的文字舆情信息;所述语音获取模块与所述舆情搜索模块建立连接关系,语音获取模块用于获取对应于用户输入关键词的语音舆情信息;所述图像获取模块与所述舆情搜索模块建立连接关系,图像获取模块用于获取对应于用户输入关键词的图像舆情信息;所述文字监测模块与所述文字获取模块建立连接关系,文字监测模块用于对获取的文字舆情信息进行敏感信息监测;所述语音监测模块与所述语音获取模块建立连接关系,语音监测模块用于对获取的语音舆情信息进行敏感信息监测;所述图像监测模块与所述图像获取模块建立连接关系,图像监测模块用于对获取的图像舆情信息进行敏感信息监测;所述预警模块与所述文字监测模块、语音监测模块及图像监测模块建立连接关系,预警模块用于对获取的文字、语音或图像敏感信息进行预警。

如上所述的一种基于爬虫技术的境外舆情监测装置,所述监测装置还包括信息发送模块,所述信息发送模块与所述文字监测模块、语音监测模块或图像监测模块建立连接关系,信息发送模块用于传输文字监测模块、语音监测模块或图像监测模块监测到的敏感信息。

以设置在中国境内和境外的监测装置为例,设置在境外的监测装置利用信息发送模块将监测到的敏感信息发送到境内的服务器。文字监测模块通过文字监测算法进行实现,如通过关键字匹配算法进行敏感信息匹配。语音监测模块通过语音识别算法进行实现,语音识别算法如dtw算法,dtw算法是应用在孤立词识别的算法,用来识别一些特定的指令,dtw算法是基于dp(动态规划)的算法基础上发展而来的。语音识别的框架是,首先有一个比对的模版声音,然后去截取其里面包含真正属于语音的部分,采用vad语音活动检测的算法,而在vad中间使用双门限端点检测这种方法,采用vad判断语音的开始和结束,判断方法就是通过音量的大小做一个阈值判定,在时域上很简单就能判定。图像监测模块通过图像识别算法进行实现,图像识别算法根据图像的颜色特征、纹理特征、形状特征以及局部特征点进行识别,从而对含有敏感信息的图像进行监测。

进一步,所述监测装置还包括数据存储模块,所述数据存储模块与所述信息发送模块建立连接关系,数据存储模块用于存储文字监测模块、语音监测模块或图像监测模块监测到的敏感信息。数据存储模块可以整合到数据中心实现,数据中心不仅包括计算机系统和与之配套的设备,例如通信和存储系统,还包含冗余的数据通信连接、环境控制设备、监控设备以及各种安全装置。数据中心可以采用无线或有线两种方式,无线方式可以采用无线ddn系统,无线ddn系统分为监测点和数据中心两部分,监测点采用gprsdtu,可提供rs-232、rs485、以及以太网接口,数据中也可采用宽带adsl或专线方式接入internet。

如上所述的一种基于爬虫技术的境外舆情监测装置,所述数据爬取模块采用通用网络爬虫、聚焦网络爬虫、增量式网络爬虫和\或深层网络爬虫规则。通用网络爬虫爬行对象从一些种子url扩充到整个web,主要为门户站点搜索引擎和大型web服务提供商采集数据。

通用网络爬虫结构可以分为页面爬行模块、页面分析模块、链接过滤模块、页面数据库、url队列、初始url集合部分。聚焦网络爬虫是指选择性地爬行那些与预先定义好的主题相关页面,与通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。增量式网络爬虫是对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫,能够在一定程度上保证所爬行的页面是尽可能新的页面。增量式爬虫有两个目标:保持本地页面集中存储的页面为最新页面和提高本地页面集中页面的质量。为实现第一个目标,增量式爬虫需要通过重新访问网页来更新本地页面集中页面内容,可以采用统一更新法:爬虫以相同的频率访问所有网页,不考虑网页的改变频率;个体更新法:爬虫根据个体网页的改变频率来重新访问各页面;基于分类的更新法:爬虫根据网页改变频率将其分为更新较快网页子集和更新较慢网页子集两类,然后以不同的频率访问这两类网页。深层网络爬虫结构包含爬行控制器、解析器、表单分析器、表单处理器、响应分析器、lvs控制器和两个爬虫内部数据结构url列表、lvs表。其中lvs表示标签/数值集合,用来表示填充表单的数据源。深层网络爬虫表单填写可以基于领域知识进行表单填写,此方法一般会维持一个本体库,通过语义分析来选取合适的关键词填写表单。也可以采用基于网页结构分析进行表单填写,此方法一般无领域知识或仅有有限的领域知识,将网页表单表示成dom树,从中提取表单各字段值。

本发明还提供一种基于爬虫技术的境外舆情监测系统,所述监测系统采用上述的监测装置,所述监测系统还包括第一服务器、第二服务器及数据中心设备;所述第一服务器与所述监测装置建立连接关系,第一服务器设置在一国境外,第一服务器通过信息发送模块与所述数据中心设备建立连接关系,第一服务器用于对国外舆情进行监测并将监测信息发送到所述数据中心设备;所述第二服务器与所述监测装置建立连接关系,第二服务器设置在一国境内,第二服务器用于对境内舆情进行监测并将监测信息发送到所述数据中心设备;所述数据中心设备与所述第一服务器或第二服务器建立连接关系,数据中心设备通过数据接口存储舆情采集信息。

如上所述的一种基于爬虫技术的境外舆情监测系统,所述第一服务器数量为若干个,若干个第一服务器设置在若干不同国家境内。

本发明还提供一种基于爬虫技术的境外舆情监测方法,所述监测方法采用上述的监测装置,通过上述的监测系统实现,所述监测方法包括以下步骤:

步骤一、构建数据爬取模块数据获取规则,获取目标站点的数据信息;

步骤二、设定监控关键词,通过舆情搜索模块对获取的数据信息进行对应于关键词的舆情信息搜索;

步骤三、通过文字获取模块、语音获取模块及图像获取模块分别获取对应于关键词的文字、语音或图像数据;

步骤四、利用境外服务器将在境外获取的文字、语音或图像数据中的敏感信息通过信息发送模块发送到数据存储模块。

如上所述的一种基于爬虫技术的境外舆情监测方法,所述步骤一中,构建数据爬取模块的数据获取规则具体采用拓扑分析算法或网页内容分析算法。

如上所述的一种基于爬虫技术的境外舆情监测方法,所述步骤三中还包括通过文字识别算法、语音识别算法或图形识别算法对获取的文字、语音或图像数据进行敏感信息监测。

如上所述的一种基于爬虫技术的境外舆情监测方法,所述步骤四中,利用境外服务器将在境外获取的文字、语音或图像数据中的敏感信息通过信息发送模块发送到境内服务器上,通过数据中心设备对获取的文字、语音或图像数据中的敏感信息进行存储。

本发明具有如下优点:利用爬虫技术,并依托在我国国内及境外部署的服务器,能对特定区域、媒体类型、网站、时间范围内的舆情信息搜索,能根据用户预定的监控关键词在1-5分钟以内发现境外多个国家的重点新闻、社区、博客、平媒等媒体的相关舆情信息,并对敏感信息及时报警。爬虫规则可将数据抓取到境外合法服务器上,再把有效信息返送到国内服务器上,最后,用户查看国内服务器上的分析加工后的数据。本发明通过搭建海外服务器的方式,合法绕过访问控制,采集境外网站舆情,分析在线言论及传播行为,及时发现并跟踪新舆情,并且当某些舆情在国内封锁的时候,可继续追踪舆情发酵情况,为国内舆情正向引导提供数据支持。

附图说明

图1为基于爬虫技术的境外舆情监测装置示意图;

图2为基于爬虫技术的境外舆情监测系统示意图;

图3为基于爬虫技术的境外舆情监测方法示意图。

具体实施方式

以下实施例用于说明本发明,但不用来限制本发明的范围。

如图1所示,一种基于爬虫技术的境外舆情监测装置,监测装置包括数据爬取模块1、舆情搜索模块2、文字获取模块3、语音获取模块4、图像获取模块5、文字监测模块6、语音监测模块7、图像监测模块8及预警模块9;数据爬取模块1用于获取进行舆情监测的网站数据信息;舆情搜索模块2用于对用户输入的关键词进行舆情信息搜索;文字获取模块3与舆情搜索模块2建立连接关系,文字获取模块3用于获取对应于用户输入关键词的文字舆情信息;语音获取模块4与舆情搜索模块2建立连接关系,语音获取模块4用于获取对应于用户输入关键词的语音舆情信息;图像获取模块5与舆情搜索模块2建立连接关系,图像获取模块5用于获取对应于用户输入关键词的图像舆情信息;文字监测模块6与文字获取模块3建立连接关系,文字监测模块6用于对获取的文字舆情信息进行敏感信息监测;语音监测模块7与语音获取模块4建立连接关系,语音监测模块7用于对获取的语音舆情信息进行敏感信息监测;图像监测模块8与图像获取模块5建立连接关系,图像监测模块8用于对获取的图像舆情信息进行敏感信息监测;预警模块9与文字监测模块6、语音监测模块7及图像监测模块8建立连接关系,预警模块9用于对获取的文字、语音或图像敏感信息进行预警。

基于爬虫技术的境外舆情监测装置的一个实施例中,监测装置还包括信息发送模块10,信息发送模块10与文字监测模块6、语音监测模块7或图像监测模块8建立连接关系,信息发送模块10用于传输文字监测模块6、语音监测模块7或图像监测模块8监测到的敏感信息。

以设置在中国境内和境外的监测装置为例,设置在境外的监测装置利用信息发送模块10将监测到的敏感信息发送到境内的服务器。文字监测模块6通过文字监测算法进行实现,如通过关键字匹配算法进行敏感信息匹配。语音监测模块7通过语音识别算法进行实现,语音识别算法如dtw算法,dtw算法是应用在孤立词识别的算法,用来识别一些特定的指令,dtw算法是基于dp(动态规划)的算法基础上发展而来的。语音识别的框架是,首先有一个比对的模版声音,然后去截取其里面包含真正属于语音的部分,采用vad语音活动检测的算法,而在vad中间使用双门限端点检测这种方法,采用vad判断语音的开始和结束,判断方法就是通过音量的大小做一个阈值判定,在时域上很简单就能判定。图像监测模块8通过图像识别算法进行实现,图像识别算法根据图像的颜色特征、纹理特征、形状特征以及局部特征点进行识别,从而对含有敏感信息的图像进行监测。

进一步,监测装置还包括数据存储模块11,数据存储模块11与信息发送模块10建立连接关系,数据存储模块11用于存储文字监测模块6、语音监测模块7或图像监测模块8监测到的敏感信息。数据存储模块11可以整合到数据中心实现,数据中心不仅包括计算机系统和与之配套的设备,例如通信和存储系统,还包含冗余的数据通信连接、环境控制设备、监控设备以及各种安全装置。数据中心可以采用无线或有线两种方式,无线方式可以采用无线ddn系统,无线ddn系统分为监测点和数据中心两部分,监测点采用gprsdtu,可提供rs-232、rs485、以及以太网接口,数据中也可采用宽带adsl或专线方式接入internet。

基于爬虫技术的境外舆情监测装置的一个实施例中,数据爬取模块1采用通用网络爬虫、聚焦网络爬虫、增量式网络爬虫和\或深层网络爬虫规则。通用网络爬虫爬行对象从一些种子url扩充到整个web,主要为门户站点搜索引擎和大型web服务提供商采集数据。

通用网络爬虫结构可以分为页面爬行模块、页面分析模块、链接过滤模块、页面数据库、url队列、初始url集合部分。聚焦网络爬虫是指选择性地爬行那些与预先定义好的主题相关页面,与通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。增量式网络爬虫是对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫,能够在一定程度上保证所爬行的页面是尽可能新的页面。增量式爬虫有两个目标:保持本地页面集中存储的页面为最新页面和提高本地页面集中页面的质量。为实现第一个目标,增量式爬虫需要通过重新访问网页来更新本地页面集中页面内容,可以采用统一更新法:爬虫以相同的频率访问所有网页,不考虑网页的改变频率;个体更新法:爬虫根据个体网页的改变频率来重新访问各页面;基于分类的更新法:爬虫根据网页改变频率将其分为更新较快网页子集和更新较慢网页子集两类,然后以不同的频率访问这两类网页。深层网络爬虫结构包含爬行控制器、解析器、表单分析器、表单处理器、响应分析器、lvs控制器和两个爬虫内部数据结构url列表、lvs表。其中lvs表示标签/数值集合,用来表示填充表单的数据源。深层网络爬虫表单填写可以基于领域知识进行表单填写,此方法一般会维持一个本体库,通过语义分析来选取合适的关键词填写表单。也可以采用基于网页结构分析进行表单填写,此方法一般无领域知识或仅有有限的领域知识,将网页表单表示成dom树,从中提取表单各字段值。

参见图2,本发明还提供一种基于爬虫技术的境外舆情监测系统,监测系统采用上述的监测装置,监测系统还包括第一服务器12、第二服务器13及数据中心设备14;第一服务器12与监测装置建立连接关系,第一服务器12设置在一国境外,第一服务器12通过信息发送模块10与数据中心设备14建立连接关系,第一服务器12用于对国外舆情进行监测并将监测信息发送到数据中心设备14;第二服务器13与监测装置建立连接关系,第二服务器13设置在一国境内,第二服务器13用于对境内舆情进行监测并将监测信息发送到数据中心设备14;数据中心设备14与第一服务器12或第二服务器13建立连接关系,数据中心设备14通过数据接口存储舆情采集信息。

基于爬虫技术的境外舆情监测系统的一个实施例中,第一服务器12数量为若干个,若干个第一服务器12设置在若干不同国家境内。

参见图3,本发明还提供一种基于爬虫技术的境外舆情监测方法,监测方法采用上述的监测装置,通过上述的监测系统实现,监测方法包括以下步骤:

s1、构建数据爬取模块1数据获取规则,获取目标站点的数据信息;

s2、设定监控关键词,通过舆情搜索模块2对获取的数据信息进行对应于关键词的舆情信息搜索;

s3、通过文字获取模块3、语音获取模块4及图像获取模块5分别获取对应于关键词的文字、语音或图像数据;

s4、利用境外服务器将在境外获取的文字、语音或图像数据中的敏感信息通过信息发送模块10发送到数据存储模块11。

基于爬虫技术的境外舆情监测方法一个实施例中,s1中,构建数据爬取模块1的数据获取规则具体采用拓扑分析算法或网页内容分析算法。

基于爬虫技术的境外舆情监测方法一个实施例中,s3中还包括通过文字识别算法、语音识别算法或图形识别算法对获取的文字、语音或图像数据进行敏感信息监测。

基于爬虫技术的境外舆情监测方法一个实施例中,s4中,利用境外服务器将在境外获取的文字、语音或图像数据中的敏感信息通过信息发送模块10发送到境内服务器上,通过数据中心设备14对获取的文字、语音或图像数据中的敏感信息进行存储。

本发明利用爬虫技术,并依托在我国国内及境外部署的服务器,能对特定区域、媒体类型、网站、时间范围内的舆情信息搜索,能根据用户预定的监控关键词在1-5分钟以内发现境外多个国家的重点新闻、社区、博客、平媒等媒体的相关舆情信息,并对敏感信息及时报警。爬虫规则可将数据抓取到境外合法服务器上,再把有效信息返送到国内服务器上,最后,用户查看国内服务器上的分析加工后的数据。本发明通过搭建海外服务器的方式,合法绕过访问控制,采集境外网站舆情,分析在线言论及传播行为,及时发现并跟踪新舆情,并且当某些舆情在国内封锁的时候,可继续追踪舆情发酵情况,为国内舆情正向引导提供数据支持。

虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1