一种热搜词获取方法及系统与流程

文档序号:11177221阅读:532来源:国知局
一种热搜词获取方法及系统与流程

本发明涉及,具体涉及一种热搜词获取方法及系统。



背景技术:

随着互联网的迅猛发展,每天存在超过40亿次的搜索请求,搜索引擎已成为人们主动获取所需信息的主要通道,越来越多的人们愿意通过搜索来表达个人对舆情事件的关注点和兴趣点。搜索词的海量数据代表了中国网民最真实、最客观的精神需求和信息寻求的行为特征,搜索量的高低则反映了民众对该关键词所代表的事件的关注程度。网民的搜索各不相同,其中,不乏含有敏感信息,因而通过搜索词的检测可以知晓网民的关注点的同时找出对社会公共安全存在潜在威胁的因素,为正确引导搜索导向提供重要支持。

目前关于热搜词的检测大都从词频和增长率上来分析,还没有体现舆情相关度,不可避免会将大量误搜、不具有实际含义的搜索词排在前面,对实际分析搜索词的热度存在一定的干扰,导致热搜词的准确性较低。



技术实现要素:

针对现有技术中的缺陷,本发明提供了一种热搜词获取方法及系统,具有热搜词准确性高的优点。

本发明提出了一种热搜词获取方法,包括:

获取预设时间段内搜索词的第一词频数据和热词的第二词频数据;

根据所述第一词频数据获取搜索词的舆情相关度,根据所述第二词频数据获取与所述搜索词对应的热词的舆情相关度;

根据搜索词的舆情相关度和所述与搜索词对应的热词的舆情相 关度从搜索词中获取热搜词。

可选的,所述获取预设时间段内搜索词的第一词频数据和热词的第二词频数据的步骤具体包括:

根据数据库中存有的预设时间段内非停用词、预设词性的搜索词的出现频数获取第一词频数据;

根据数据库中存有的预设时间段内实体词的出现频数获取第二词频数据。

可选的,在根据所述第一词频数据获取搜索词的舆情相关度的步骤之前,该方法还包括:

根据所述第一词频数据从搜索词中筛选出词频大于预设阈值的搜索词;

相应地,所述根据所述第一词频数据获取搜索词的舆情相关度,根据所述第二词频数据获取与所述搜索词对应的热词的舆情相关度的步骤具体包括:

根据所述第一词频数据中搜索词的出现频数,获取搜索词的第一舆情相关度;

根据所述第二词频数据中与搜索词对应的热词的出现频数,获取搜索词的第二舆情相关度。

可选的,在根据所述第一词频数据获取搜索词的舆情相关度的步骤之前,该方法还包括:

检测搜索词中是否存在多个子搜索词,若是,则对搜索词进行分词预处理,获取多个子搜索词;

相应地,所述根据所述第一词频数据获取搜索词的舆情相关度,根据所述第二词频数据获取与所述搜索词对应的热词的舆情相关度的步骤具体包括:

根据所述第一词频数据中搜索词的出现频数,获取搜索词的第一舆情相关度;

根据所述第二词频数据中与各子搜索词对应的热词的出现频数,获取搜索词的第二舆情相关度。

可选的,在所述根据搜索词的舆情相关度和所述与搜索词对应的热词的舆情相关度获取热搜词的步骤之后,该方法还包括:

对获取到的热搜词进行词聚类处理获取多类热搜词,并从每一类热搜词中筛选出代表词。

本发明还提出了一种热搜词获取系统,包括:

第一获取模块,用于获取预设时间段内搜索词的第一词频数据和热词的第二词频数据;

第二获取模块,用于根据所述第一词频数据获取搜索词的舆情相关度,根据所述第二词频数据获取与所述搜索词对应的热词的舆情相关度;

第三获取模块,用于根据搜索词的舆情相关度和所述与搜索词对应的热词的舆情相关度从搜索词中获取热搜词。

可选的,所述第一获取模块,具体用于根据数据库中存有的预设时间段内非停用词、预设词性的搜索词的出现频数获取第一词频数据;根据数据库中存有的预设时间段内实体词的出现频数获取第二词频数据。

可选的,该系统还包括:第一筛选模块;

所述第一筛选模块,用于在根据所述第一词频数据获取搜索词的舆情相关度之前,根据所述第一词频数据从搜索词中筛选出词频大于预设阈值的搜索词;

相应地,所述第二获取模块,还用于根据所述第一词频数据中搜索词的出现频数,获取搜索词的第一舆情相关度;根据所述第二词频数据中与搜索词对应的热词的出现频数,获取搜索词的第二舆情相关度。

可选的,该系统还包括:检测模块;

所述检测模块,用于在根据所述第一词频数据获取搜索词的舆情相关度之前,检测搜索词中是否存在多个子搜索词,若是,则对搜索词进行分词预处理,获取多个子搜索词;

相应地,所述第二获取模块,还用于根据所述第一词频数据中搜索词的出现频数,获取搜索词的第一舆情相关度;根据所述第二词频数据中与各子搜索词对应的热词的出现频数,获取搜索词的第二舆情相关度。

可选的,该系统还包括:第二筛选模块;

所述第二筛选模块,用于在所述根据搜索词的舆情相关度和所述与搜索词对应的热词的舆情相关度获取热搜词之后,对获取到的热搜词进行词聚类处理获取多类热搜词,并从每一类热搜词中筛选出代表词

由上述技术方案可知,本发明提出的热搜词获取方法基于舆情相关度对搜索词和热词进行检测,获取热搜词,与现有技术相比,具有提高热搜词准确性的作用。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:

图1示出了一实施例提出的一种热搜词获取方法的流程示意图;

图2示出了另一实施例提出的一种热搜词获取方法的流程示意图;

图3示出了另一实施例提出的一种热搜词获取方法的流程示意图;

图4示出了一实施例提出的一种热搜词获取系统的流程示意图;

图5示出了另一实施例提出的一种热搜词获取系统的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为一实施例提出的一种热搜词获取方法的流程示意图,参照图1,该热搜词获取方法包括:

110、获取预设时间段内搜索词的第一词频数据和热词的第二词频数据;

需要说明的是,第一词频数据是基于搜索词的统计获取到的,第二次词频数据是基于新闻语料的热词统计获取到的,例如,通过页面抓取,对抓取到的新闻页面进行聚类,形成新闻簇,从新闻簇的新闻页面中提取热词及热词的时间,对热词和热词的时间进行统计并存储,生成词频数据;

可理解的是,搜索词的作用是反应当前时间段内网民的关注点和兴趣点;热词的作用是反应当前的舆情内容。

120、根据所述第一词频数据获取搜索词的舆情相关度,根据所述第二词频数据获取与所述搜索词对应的热词的舆情相关度;

需要说明的是,本发明是基于舆情相关度获取热搜词,与舆情相关度相关的因素包括多种;

可理解的是,词频用于评估一个词在一个领域中的重要程度,由此本发明基于词频数据作为考虑舆情相关度的核心因素。

130、根据搜索词的舆情相关度和所述与搜索词对应的热词的舆情相关度从搜索词中获取热搜词。

需要说明的是,本发明基于舆情相关度对搜索词和热词进行检测,获取热搜词,与现有技术相比,具有提高热搜词准确性的作用。

本实施例中,步骤110具体包括:

根据数据库中存有的预设时间段内非停用词、预设词性的搜索词的出现频数获取第一词频数据;

根据数据库中存有的预设时间段内实体词的出现频数获取第二词频数据。

可理解的是,数据库通过累积计算的方式,获取预设时间段内非停用词、预设词性的搜索词以及实体词出现的频数,并基于频数来建立词频数据。

为了进一步提高获取到的热搜词准确度,本实施例中,在步骤120之前,该方法还包括:

检测搜索词中是否存在多个子搜索词,若是,则对搜索词进行分词预处理,获取多个子搜索词;

需要说明的是,搜索词可能以多个词的形式出现,因此本发明通过单独计算每个词的舆情相关度,并基于搜索词中每个词的舆情相关度获取该搜索词的舆情相关度,由此达到提高热搜词准确度的目的。

本实施例中,步骤120具体包括:

根据所述第一词频数据中搜索词的出现频数,获取搜索词的第一舆情相关度;

根据所述第二词频数据中与各子搜索词对应的热词的出现频数,获取搜索词的第二舆情相关度;

需要说明的是,本发明分别对搜索词的各子搜索词进行计算以获取该搜索词的第二舆情相关度,以达到提高热搜词准确度的目的。

在一可行实施例中,在步骤130之后,本发明还包括:

对获取到的热搜词进行词聚类处理获取多类热搜词,并从每一类热搜词中筛选出代表词;

需要说明的是,本发明从每一类热搜词中筛选出一个代表词,以将代表性的热搜词排在前面,降低误搜、不具有实际含义的搜索词对热搜词的影响。

图2示出了另一实施例提出的一种热搜词获取方法的流程示意图,参照图2,本发明包括:

210、获取预设时间段内搜索词的第一词频数据和热词的第二词频数据;

需要说明的是,步骤210与步骤110相似,此处不再进行赘述。

220、根据所述第一词频数据从搜索词中筛选出词频大于预设阈值的搜索词;

需要说明的是,本发明在对各搜索词进行计算之前,需要从中筛选出词频大于一定阈值的搜索词,以缩小搜索词的范围,降低计算量,提高获取热搜词的效率;

230、根据所述第一词频数据中搜索词的出现频数,获取搜索词的第一舆情相关度;

240、根据所述第二词频数据中与搜索词对应的热词的出现频数,获取搜索词的第二舆情相关度;

可理解的是,预建立的词频数据中存有各搜索词、热词出现的频数,并基于频数计算获取各搜索词的舆情相关度,在一定条件下,频数越高,舆情相关度越高;

其中,第一舆情相关度是基于搜索词本身的频数获取的,第二相关度与步骤120中的与所述搜索词对应的热词的舆情相关度相似,其是基于热词的频数获取的;

250、根据搜索词的舆情相关度和所述与搜索词对应的热词的舆情相关度从搜索词中获取热搜词;

需要说明的是,步骤250与步骤130相似,此处不再进行赘述。

图3为另一实施例提出的一种热搜词获取方法的流程示意图,下 面参照图3对本发明的原理进行详细说明:

本发明的步骤包括:搜索词的词频统计、基于新闻语料的热词统计、搜索词的舆情相关度计算及排序、筛选舆情相关词。

搜索词统计:通过累积当前时间段内的非停用词及特定词性的频数,来反映当前时间段内网民的关注点和兴趣点。

基于新闻语料的热词统计:通过累积当前时间段内所出现的新闻中的高频的实体词,来反映当前的舆情内容。为搜索词的舆情相关度计算提供支持。

利用word2vec对新闻语料进行训练得到各个词的向量表示。

搜索词的舆情相关度计算及排序:首先提取词频大于一定阈值的搜索词作为待检测的对象;其次对搜索词进行分词预处理,该操作是为了将以多个词出现的搜索内容进行切分,通过分别计算单个词的舆情相关度并进行相加计算得到该搜索内容的舆情相关度。其中在分词时,考虑到词性粘连,即将以多个名词或者简称出现的词进行拼接,有助于词的语义表示;第三,在新闻语料中获取各切分后的词的频数,对属于一个搜索词的各词进行频数相加;第四,分别根据频数对原搜索词及舆情相关度计算后的搜索词进行排序,将排序的顺序数除以总的词数作为得分进行相加后再次排序,即得到按照舆情相关度进行排序后的热搜词。

基于密度的词聚类:舆情相关词计算所得到的结果中多个词之间相同或相似,或描述的是同一个事件,通过词聚类的方式可获取每个类的代表词,去掉重复意义的多余词。

上述方法包括如下步骤:

(1)、统计搜索词的词频,通过累积一段时间内的非停用词、特定词性的搜索词,获取网民大致的搜索对象。

(2)、统计新闻语料的热词词频:分词考虑到歧义消解、实体名词识别、词性标注等,去除停用词,统计特定词性的词。从新闻中 获取舆情相关词作为背景语料。

(3)利用word2vec对新闻语料进行训练,得到每个词的词向量表示。

(4)对搜索词排序,以排序的顺序数除以词的总数作为得分

(5)对搜索词进行分词,并在新闻语料中对一个搜索词对应的

(6)各词的频数求和并排序,以排序的顺序数除以词的总数作

为得分。

将(4)和(5)中相同词的得分求和并排序即得到舆情相关热搜词。

(7)对舆情相关词进行词聚类,筛选出舆情得分高的词作为每一类的代表词。聚类方式可选用基于密度的词聚类,每个词的表示来源于利用word2vec对新闻语料训练出的词向量。

对于方法实施方式,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施方式并不受所描述的动作顺序的限制,因为依据本发明实施方式,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施方式均属于优选实施方式,所涉及的动作并不一定是本发明实施方式所必须的。

图4为一实施例提出的一种热搜词获取系统的流程示意图,参照图4,该热搜词获取系统,包括:

第一获取模块410,用于获取预设时间段内搜索词的第一词频数据和热词的第二词频数据;

第二获取模块420,用于根据所述第一词频数据获取搜索词的舆情相关度,根据所述第二词频数据获取与所述搜索词对应的热词的舆情相关度;

第三获取模块430,用于根据搜索词的舆情相关度和所述与搜索词对应的热词的舆情相关度从搜索词中获取热搜词。

本发明基于舆情相关度对搜索词和热词进行检测,获取热搜词,与现有技术相比,具有提高热搜词准确性的作用。

本实施例中,所述第一获取模块110,具体用于根据数据库中存有的预设时间段内非停用词、预设词性的搜索词的出现频数获取第一词频数据;根据数据库中存有的预设时间段内实体词的出现频数获取第二词频数据。

图5为另一实施例提出的一种热搜词获取系统的流程示意图,参照图5,该系统包括第一获取模块510、第一筛选模块520、检测模块530、第二获取模块540、第三获取模块550、第二筛选模块560;

其中,第一获取模块510与第一获取模块410相似,第二获取模块540与第二获取模块420相似,第三获取模块550与第三获取模块430相似,此处不再进行赘述。

本实施例中,第一筛选模块520,用于在根据所述第一词频数据获取搜索词的舆情相关度之前,根据所述第一词频数据从搜索词中筛选出词频大于预设阈值的搜索词;

与第二获取模块410不同的是,本实施例的第二获取模块540,还用于根据所述第一词频数据中搜索词的出现频数,获取搜索词的第一舆情相关度;根据所述第二词频数据中与搜索词对应的热词的出现频数,获取搜索词的第二舆情相关度。

本实施例中,检测模块530用于在根据所述第一词频数据获取搜索词的舆情相关度之前,检测搜索词中是否存在多个子搜索词,若是,则对搜索词进行分词预处理,获取多个子搜索词;

与第二获取模块420不同的是,本实施例中的第二获取模块540,还用于根据所述第一词频数据中搜索词的出现频数,获取搜索词的第一舆情相关度;根据所述第二词频数据中与各子搜索词对应的热词的出现频数,获取搜索词的第二舆情相关度。

本实施例中,第二筛选模块560用于在所述根据搜索词的舆情相 关度和所述与搜索词对应的热词的舆情相关度获取热搜词之后,对获取到的热搜词进行词聚类处理获取多类热搜词,并从每一类热搜词中筛选出代表词。

对于装置实施方式而言,由于其与方法实施方式基本相似,所以描述的比较简单,相关之处参见方法实施方式的部分说明即可。

应当注意的是,在本发明的装置的各个部件中,根据其要实现的功能而对其中的部件进行了逻辑划分,但是,本发明不受限于此,可以根据需要对各个部件进行重新划分或者组合。

本发明的各个部件实施方式可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本装置中,pc通过实现因特网对设备或者装置远程控制,精准的控制设备或者装置每个操作的步骤。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样实现本发明的程序可以存储在计算机可读介质上,并且程序产生的文件或文档具有可统计性,产生数据报告和cpk报告等,能对功放进行批量测试并统计。应该注意的是上述实施方式对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施方式。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样 的修改和变型均落入由所附权利要求所限定的范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1