舆情监测分析方法和装置制造方法

文档序号:6511518阅读:128来源:国知局
舆情监测分析方法和装置制造方法
【专利摘要】本发明提供一种舆情监测分析方法和装置。其中方法包括:获取互联网中各网站服务器上的舆情数据,舆情数据包括至少一条资产信息;接收客户端发送的获取请求,获取请求中携带申请条件和客户端标识;根据申请条件对舆情数据所包括的资产信息进行筛选,获取与申请条件匹配的目标舆情数据;根据客户端标识将目标舆情数据发送给客户端,从而解决现有技术中的舆情监测分析系统硬件成本高,网络资源浪费大的问题。
【专利说明】舆情监测分析方法和装置

【技术领域】
[0001]本发明涉及计算机【技术领域】,尤其涉及一种舆情监测分析方法和装置。

【背景技术】
[0002]现有技术中,针对每个用户建立一套舆情监测分析系统,舆情监测分析系统在互联网上的各个网站服务器上分别部署采集系统,采集各个网站服务器上的舆情数据,并对采集到的舆情数据进行分析,得到用户需要的舆情数据。
[0003]然而现有技术中,若多个用户均需要某个网站服务器上的舆情数据,则各个用户对应的舆情监测分析系统均需要在该网站服务器上部署采集系统,采集该网站服务器上的舆情数据,从而增加了硬件成本,并造成了网络资源浪费。


【发明内容】

[0004]本发明提供一种舆情监测分析方法和装置,用于解决现有技术中舆情监测分析系统硬件成本高,网络资源浪费大的问题。
[0005]本发明的第一个方面是提供一种舆情监测分析方法,包括:
[0006]获取互联网中各网站服务器上的舆情数据,所述舆情数据包括至少一条资产信息;
[0007]接收客户端发送的获取请求,所述获取请求中携带申请条件和客户端标识;
[0008]根据所述申请条件对所述舆情数据所包括的资产信息进行筛选,获取与所述申请条件匹配的目标舆情数据;
[0009]根据所述客户端标识将所述目标舆情数据发送给所述客户端。
[0010]本发明的另一个方面提供一种舆情监测分析装置,包括:
[0011]获取模块,用于获取互联网中各网站服务器上的舆情数据,所述舆情数据包括至少一条资产信息;
[0012]接收模块,用于接收客户端发送的获取请求,所述获取请求中携带申请条件和客户端标识;
[0013]筛选模块,用于根据所述申请条件对所述舆情数据所包括的资产信息进行筛选,获取与所述申请条件匹配的目标舆情数据;
[0014]发送模块,用于根据所述客户端标识将所述目标舆情数据发送给所述客户端。
[0015]本发明通过获取互联网中各网站服务器上的舆情数据,舆情数据包括至少一条资产信息,根据客户端的申请条件对舆情数据进行筛选,获取与申请条件匹配的目标舆情数据,并将与客户端的申请条件匹配的目标舆情数据发送给客户端,使得客户端可以直接根据目标舆情数据进行处理,从而降低了现有技术中舆情监测分析系统的硬件成本,减少了网络资源的浪费。
【专利附图】

【附图说明】
[0016]图1为本发明提供的舆情监测分析方法一个实施例的流程图;
[0017]图2为数据上载程序对txt格式文件进行解析的线程;
[0018]图3为数据上载程序对资产信息进行筛选的线程;
[0019]图4为本发明提供的舆情监测装置一个实施例的结构示意图。

【具体实施方式】
[0020]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0021]图1为本发明提供的舆情监测分析方法一个实施例的流程图,如图1所示,包括:
[0022]101、获取互联网中各网站服务器上的舆情数据,舆情数据包括至少一条资产信肩、O
[0023]其中,本发明提供的舆情监测分析方法可以由舆情监测分析装置执行,舆情监测分析装置的具体表现形式可以为数据中心系统。数据中心系统具体可以位于互联网中的某个服务器上,用于获取部署在互联网中各网站服务器上的采集系统采集的舆情数据对应的资产信息,并将与客户端的申请条件匹配的目标舆情数据发送给客户端的系统。网站服务器具体可以为新闻、论坛、博客、微博等网站服务器。
[0024]舆情数据指的是,在互联网上迅速传播,形成一种舆论,发展成为了舆情的观点数据。这些观点数据为广大网民针对互联网上的一些事件,通过客户端表达情感、态度、观点的数据。舆情数据中的每条资产信息都可以包括:正文和附加信息,附加信息包括:网站、频道、发布时间、点击数和回帖数中的至少一种参数。其中,网站和频道,指的是客户端作为数据申请者,向数据中心系统申请的舆情数据所在的网站以及申请的舆情数据对应的频道。也就是说客户端A可以申请某个网站的某个频道对应的舆情数据。数据中心系统会将客户端A申请的舆情数据推送到客户端A。另外,舆情数据还可以分为主贴目录文件和从贴目录文件,其中,主贴目录文件和从贴目录文件为各网站服务器根据发帖信息生成的,主贴目录文件指的是新闻或者论坛中的主贴信息,从贴目录文件指的是论坛中主贴信息对应的回帖信息。
[0025]具体地,数据中心系统统一获取到互联网上各网站服务器的舆情数据后,将获取的舆情数据以标准的txt格式文件保存到数据中心系统的数据库中,例如Zooke印er、MapReduce、HDFS、HBase和Hadoop Core数据库等,采用数据中心系统中的数据上载程序对txt格式文件进行解析,即采用数据上载程序根据正文、网站和频道对应的标识从txt格式文件中提取出正文、网站和频道,从而得到至少一条资产信息,一条资产信息可以包括标题、正文、发布时间、作者、频道、网站、点击数和回帖数等。一条资产信息可以为互联网中的一条元数据,例如一则新闻。互联网上发布的新闻有标题、正文、时间、作者等属性。数据上载程序会将这些参数解析出来存入到数据中心系统的数据库中。
[0026]其中,数据上载程序对txt格式文件进行解析的线程如图2所示,包括:读取主贴目录文件,依次获取主贴目录文件中的各文件,将主贴目录文件中的文件与数据中心系统中的已读文件队列进行比较,判断主贴目录文件中的文件是否已读,将主贴目录文件中的已读文件名保存到数据中心系统中的已读文件队列中,将主贴目录文件中的未读文件名保存到数据中心系统中的未读文件队列中;对所述未读文件队列中的各文件进行解析,将解析得到的资产信息存到数据中心系统中的主贴内存队列(read Assets Map)中,将未读文件队列中与该资产信息对应的文件的文件名清除。在主贴内存队列中资产信息的数目超过预设的第一阈值时,对主贴内存队列中的文件进行筛选,分发给各个客户端,清空主贴内存队列,然后接着解析所述未读文件队列中的文件,将解析得到的资产信息存到数据中心系统中的主贴内存队列,直至所述未读文件队列中的所有文件全部解析完成为止。在对主贴目录文件进行解析的过程中,也可以开启其他线程,同时对主贴目录文件对应的从贴目录文件进行解析。其中read Assets Map包括key和value, key为文件名称,value为资产信息。
[0027]102、接收客户端发送的获取请求,获取请求中携带申请条件和客户端标识。
[0028]其中,当资产信息包括:正文和附加信息,附加信息包括:网站、频道、发布时间、点击数和回帖数中的至少一种参数时,数据中心系统可以在接收客户端发送的申请条件之前,将各条资产信息中的附加信息发送给客户端,以使客户端根据各条资产信息中的附加信息确定申请条件中的参数。例如,当附加信息包括网站和频道时,申请条件可以包括:网站和/或频道。例如,当附加信息中包括网站、频道、发布时间、点击数和回帖数时,申请条件可以包括:网站、频道、发布时间、点击数和回帖数。其中,申请条件中的网站可以为至少一个网站服务器的地址或名称,发布时间具体可以为时间点或时间段,点击数和回帖数具体可以为数值范围。
[0029]可选的,若数据中心系统没有接收到客户端发送的获取请求,数据中心系统可以将与热点网站和/或热点频道匹配的舆情数据发送给客户端。数据中心系统也可以将点击数或者回帖数超过预设次数的舆情数据发送给客户端。可选的,热点网站可以为客户端的申请数量超过预设网站阈值的网站,热点频道可以为客户端的申请数量超过预设频道阈值的频道。
[0030]103、根据申请条件对舆情数据所包括的资产信息进行筛选,获取与申请条件匹配的目标舆情数据。
[0031]进一步地,为了减少网络资源浪费,数据中心系统还可以对资产信息进行过滤,减少目标舆情数据,因此步骤103之前,数据中心系统还可以根据预设的关键词判断资产信息是否为广告信息;在资产信息为广告信息时,对资产信息进行过滤。
[0032]具体地,数据中心系统中可以配置词库,词库中包括预设的关键词,数据中心系统可以判断资产信息的标题或正文中是否存在预设的关键词;若资产信息的正文中存在预设的关键词,则将资产信息确定为广告信息;对确定为广告信息的资产信息进行过滤。
[0033]另外,资产信息中还可以包括:标题和作者;数据中心系统可以在资产信息的正文、标题或作者中存在预设的关键词时,将资产信息确定为广告信息;对确定为广告信息的资产信息进行过滤。
[0034]其中,数据中心系统可以根据敏感识别规则、热词发现规则、实体识别规则、敏感词推荐等对数据库中预设的关键词进行调整;数据库中预设的关键词可以按照智能关键词、智能摘要等类别进行存储;数据中心系统可以采用混合索引、相似索引、范围检索、同音同义检索等方式对资产信息进行检索,获取包括预设的关键词的资产信息。
[0035]更进一步地,步骤103之前,数据中心系统可以根据申请条件查询舆情数据中的至少一条资产信息,确定包括申请条件的目标资产信息;将客户端标识确定为目标资产信息对应的标记;
[0036]对应的,步骤103具体可以为:根据客户端标识对舆情数据所包括的资产信息进行筛选,获取与申请条件匹配的目标舆情数据。
[0037]具体地,当申请条件中包括网站、频道、发布时间、点击数和回帖数等参数时,数据中心系统中的智能分析服务可以根据客户端发送的申请条件中的网站、频道、发布时间、点击数和回帖数等特征词汇,进行标注。例如某一客户端配置了一些词汇,智能分析服务可以查询资产信息中是否包含客户端配置的上述词汇,即资产信息是否符合客户端的申请条件。若资产信息符合客户端的申请条件,则为该资产信息打上客户端的标记,筛选程序根据资产信息对应的标记,判断该资产信息应该发送给哪些客户端,将资产信息存放到客户端对应的目录中,即完成对该资产信息的筛选。
[0038]其中,数据上载程序对资产信息进行筛选的线程如图3所示,包括:
[0039]读取主贴内存队列和从贴内存队列中的资产信息;判断主贴内存队列中是否存在资产信息,若存在,则从主贴内存队列中取出固定条数的资产信息,确定是否需要调用智思服务,即固定条数的资产信息是否都对应具体的客户端标识,若资产信息没有对应具体的客户端标识,则调用智思服务,即根据各个客户端的申请条件以及每条资产信息中的网站、频道、发布时间、点击数和回帖数确定需要该条资产信息的客户端;循环固定条数的资产信息,根据资产信息对应的客户端标识将各条资产信息保存到需要该条资产信息的客户端的主贴队列中,并对应地删除主贴内存队列中的资产信息,并对应删除解析线程中已读文件队列中的文件名;若主贴内存队列中不存在资产信息,则判断从贴内存队列中是否存在资产信息,若存在,采用与主贴内存队列类似的方法对从贴内存队列的资产信息进行处理,将资产信息保存到需要该条资产信息的客户端的从贴队列中,并对应地删除从贴内存队列中的资产信息,并对应删除解析线程中已读文件队列中的文件名;若从贴内存队列中也不存在资产信息,则等待解析线程存放资产信息到主贴内存队列或从贴内存队列后,继续读取主贴内存队列和从贴内存队列中的资产信息,继续进行处理。其中,数据中心系统的数据上载程序可以启动多个筛选线程(dist User Thread)对多个主贴内存队列和从贴内存队列同时进行处理。
[0040]104、根据客户端标识将目标舆情数据发送给客户端。
[0041]数据中心系统将目标舆情数据发送给客户端之前,还可以对目标舆情数据进行压缩,减小目标舆情数据的数据量,进一步减少网络资源浪费。
[0042]数据中心系统将目标舆情数据发送给客户端之前,还可以统计目标舆情数据中的网站数量,以及统计从每个网站获取到的目标舆情数据的数量,将目标舆情数据、网站数量和从每个网站获取到的目标舆情数据的数量发送给客户端。
[0043]其中,数据中心系统将目标舆情数据发送给客户端的输出线程包括:读取客户端的队列中的主贴队列,若主贴队列中存在资产信息,则循环主贴队列,将主贴队列中的资产信息写入到客户端的临时文件中,在临时文件的大小超过预设的第二阈值时,新建另一临时文件,将资产信息写入到客户端的另一临时文件中。
[0044]另外,数据中心系统中还可以保存客户端的优先级参数,例如,若客户端的优先级为I级,则数据中心系统可以将目标舆情数据中排名前1000家网站的舆情数据发送给客户端,若客户端的优先级为2级,则数据中心系统可以将目标舆情数据中排名前500家网站的舆情数据发送给客户端,从而进一步减少网络资源浪费。
[0045]客户端在接收到目标舆情数据后,可以对目标舆情数据进行处理,例如统计单位时间内的资产信息量,得到资产信息量的时间变化情况等。客户端还可以根据规则、话题等,得到用户关心的规则、话题相关的资产信息。例如,若用户关心广大网民对出租车调价的反应,则客户端可以将话题设置为出租车调价,得到与出租车调价相关的资产信息,根据与出租车调价相关的资产信息,确定广大网民对出租车调价的反应,然后根据广大网民的反应,确定是否要对出租车进行调价,或者对出租车的调价进行修改等。
[0046]本实施例中,通过获取互联网中各网站服务器上的舆情数据,舆情数据包括至少一条资产信息,根据客户端的申请条件对舆情数据进行筛选,获取与申请条件匹配的目标舆情数据,并将与客户端的申请条件匹配的目标舆情数据发送给客户端,使得客户端可以直接根据目标舆情数据进行处理,从而降低了现有技术中舆情监测分析系统的硬件成本,减少了网络资源的浪费。
[0047]本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:R0M、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
[0048]图4为本发明提供的舆情监测装置一个实施例的结构示意图,如图4所示,包括:
[0049]获取模块41,用于获取互联网中各网站服务器上的舆情数据,所述舆情数据包括至少一条资产信息;
[0050]接收模块42,用于接收客户端发送的获取请求,所述获取请求中携带申请条件和客户端标识;
[0051]筛选模块43,用于根据所述申请条件对所述舆情数据所包括的资产信息进行筛选,获取与所述申请条件匹配的目标舆情数据;
[0052]发送模块44,用于根据所述客户端标识将所述目标舆情数据发送给所述客户端。
[0053]进一步地,所述资产信息包括:正文和附加信息,所述附加信息包括:网站、频道、发布时间、点击数和回帖数中的至少一种参数;
[0054]所述发送模块44还用于,在所述接收模块42接收客户端发送的获取请求之前,将各条资产信息中的附加信息发送给所述客户端,以使所述客户端根据各条资产信息中的附加信息确定所述申请条件中的参数。
[0055]更进一步地,为了减少网络资源浪费,舆情监测分析装置还可以对资产信息进行过滤,减少目标舆情数据,所述舆情监测分析装置还可以包括:判断模块和过滤模块;
[0056]所述判断模块,用于在所述筛选模块根据所述申请条件对所述舆情数据所包括的资产信息进行筛选之前,据预设的关键词判断所述资产信息是否为广告信息;
[0057]所述过滤模块,用于在所述资产信息为广告信息时,对所述资产信息进行过滤。
[0058]再进一步地,所述筛选模块43还用于,在所述筛选模块43根据所述申请条件对所述舆情数据所包括的资产信息进行筛选之前,根据所述申请条件查询所述舆情数据中的至少一条资产信息,确定包括所述申请条件的目标资产信息;
[0059]将所述客户端标识确定为所述目标资产信息对应的标记;
[0060]所述筛选模块具体用于,根据所述客户端标识对所述舆情数据所包括的资产信息进行筛选,获取与所述申请条件匹配的目标舆情数据。
[0061]本实施例中,通过获取互联网中各网站服务器上的舆情数据,舆情数据包括至少一条资产信息,根据客户端的申请条件对舆情数据进行筛选,获取与申请条件匹配的目标舆情数据,并将与客户端的申请条件匹配的目标舆情数据发送给客户端,使得客户端可以直接根据目标舆情数据进行处理,从而降低了现有技术中舆情监测分析系统的硬件成本,减少了网络资源的浪费。
[0062]最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
【权利要求】
1.一种舆情监测分析方法,其特征在于,包括: 获取互联网中各网站服务器上的舆情数据,所述舆情数据包括至少一条资产信息; 接收客户端发送的获取请求,所述获取请求中携带申请条件和客户端标识; 根据所述申请条件对所述舆情数据所包括的资产信息进行筛选,获取与所述申请条件匹配的目标舆情数据; 根据所述客户端标识将所述目标舆情数据发送给所述客户端。
2.根据权利要求1所述的方法,其特征在于,所述资产信息包括:正文和附加信息,所述附加信息包括:网站、频道、发布时间、点击数和回帖数中的至少一种参数; 所述接收客户端发送的获取请求之前,还包括: 将各条资产信息中的附加信息发送给所述客户端,以使所述客户端根据各条资产信息中的附加信息确定所述申请条件中的参数。
3.根据权利要求1所述的方法,其特征在于,所述根据所述申请条件对所述舆情数据所包括的资产信息进行筛选,获取与所述申请条件匹配的目标舆情数据之前,还包括: 根据预设的关键词判断所述资产信息是否为广告信息; 在所述资产信息为广告信息时,对所述资产信息进行过滤。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述申请条件对所述舆情数据所包括的资产信息进行筛选,获取与所述申请条件匹配的目标舆情数据之前,还包括: 根据所述申请条件查询所述舆情数据中的至少一条资产信息,确定包括所述申请条件的目标资产信息; 将所述客户端标识确定为所述目标资产信息对应的标记; 所述根据所述申请条件对所述舆情数据所包括的资产信息进行筛选,获取与所述申请条件匹配的目标舆情数据,包括: 根据所述客户端标识对所述舆情数据所包括的资产信息进行筛选,获取与所述申请条件匹配的目标舆情数据。
5.一种舆情监测分析装置,其特征在于,包括: 获取模块,用于获取互联网中各网站服务器上的舆情数据,所述舆情数据包括至少一条资产信息; 接收模块,用于接收客户端发送的获取请求,所述获取请求中携带申请条件和客户端标识; 筛选模块,用于根据所述申请条件对所述舆情数据所包括的资产信息进行筛选,获取与所述申请条件匹配的目标舆情数据; 发送模块,用于根据所述客户端标识将所述目标舆情数据发送给所述客户端。
6.根据权利要求5所述的装置,其特征在于,所述资产信息包括:正文和附加信息,所述附加信息包括:网站、频道、发布时间、点击数和回帖数中的至少一种参数; 所述发送模块还用于,在所述接收模块接收客户端发送的获取请求之前,将各条资产信息中的附加信息发送给所述客户端,以使所述客户端根据各条资产信息中的附加信息确定所述申请条件中的参数。
7.根据权利要求5所述的装置,其特征在于,还包括:判断模块和过滤模块; 所述判断模块,用于在所述筛选模块根据所述申请条件对所述舆情数据所包括的资产信息进行筛选之前,根据预设的关键词判断所述资产信息是否为广告信息; 所述过滤模块,用于在所述资产信息为广告信息时,对所述资产信息进行过滤。
8.根据权利要求5-7任一项所述的装置,其特征在于,所述筛选模块还用于,在所述筛选模块根据所述申请条件对所述舆情数据所包括的资产信息进行筛选之前,根据所述申请条件查询所述舆情数据中的至少一条资产信息,确定包括所述申请条件的目标资产信息;将所述客户端标识确定为所述目标资产信息对应的标记; 所述筛选模块具体用于,根据所述客户端标识对所述舆情数据所包括的资产信息进行筛选,获取与所述申请条件匹配的目标舆情数据。
【文档编号】G06F17/30GK104462096SQ201310418664
【公开日】2015年3月25日 申请日期:2013年9月13日 优先权日:2013年9月13日
【发明者】刘巨安, 梁汝锋, 杨建武 申请人:北大方正集团有限公司, 北京大学, 北京北大方正电子有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1