一种热搜词生成方法及系统的制作方法

文档序号:6338491阅读:807来源:国知局
专利名称:一种热搜词生成方法及系统的制作方法
一种热搜词生成方法及系统
技术领域
本发明涉及信息处理技术领域,特别涉及一种热搜词生成方法及系统。
背景技术
随着互联网技术的不断发展以及信息的不断膨胀,人们对于网络信息的使用需求 越来越高,为了适应这一变化,在网络搜索领域中出现了许多新的技术。其中,通过热搜词 为用户提供搜索建议就是其中一种新的技术,用户通过热搜词可以获知近期的热点事件, 并进一步浏览取得热点事件的相关信息。但是,现有技术中热搜词通常是人工干预的结果,随着在各分类下提供热搜词的 需求提出,如果由人工编辑进行热搜词的干预,工作量则明显增大,且如果编辑热搜词的人 员如果对热点事件的敏感度较低,则会造成热搜词的准确性较低。

发明内容有鉴于此,本发明提供了一种热搜词的生成方法和系统,以便于能够自动生成热 搜词,降低人为工作量,且提高热搜词的准确性。具体技术方案如下一种热搜词的生成方法,该方法包括A、对抓取到的新闻页面进行聚类,形成各新闻簇;B、确定所述新闻簇中的热点新闻簇;C、从所述热点新闻簇的新闻页面中提取核心词;D、按照提取出的核心词对应的搜索效果确定出热搜词,其中所述热搜词覆盖所述 提取出的核心词中的一个或多个。其中,如果步骤B确定的热点新闻簇多于1个,则针对每一个热点新闻簇分别执行 所述步骤C和步骤D。所述步骤B具体包括依据所述各新闻簇中新闻页面的数量、突发量、转载率或站 点权重中的一种或任意组合,对所述各新闻簇进行排序,选择排序在前N个的新闻簇作为 热点新闻簇;其中N为小于或等于步骤A形成的新闻簇总数量的正整数。所述步骤C具体包括Cl、对所述热点新闻簇中新闻页面的新闻标题和/或索引页面上的锚文字进行词 法分析处理;C2、依据词法分析处理后得到的各词语的特征对各词语进行排序,选取排在前M 个的词语作为核心词,其中M为预设的正整数;所述各词语的特征包括词性、表意能力或者语义成分中的一种或任意组合。更优地,在步骤Cl和步骤C2之间还包括根据预先设置的过滤准则,将词法分析 处理后得到的各词语中满足过滤准则的词语进行过滤;或者,根据预先设置的过滤表,将词法分析处理后得到的各词语中出现在过滤表中的词语进行过滤。所述步骤D可以存在两种具体方式,第一种方式具体包括D11、利用所述提取出的核心词查询搜索词query库,确定所述提取出的核心词在 所述query库中命中的搜索词;其中所述query库包含搜索词与从该搜索词提取的核心词 之间的对应关系,query库中的搜索词为搜索效果满足预设要求的搜索词;D12、将步骤Dll确定的搜索词进行排序,将排在前K个的搜索词确定为热搜词,其 中K为预设的正整数。在第一种方式中,所述query库的建立包括E1、对以往的搜索日志进行分析,获取搜索效果满足预设要求的搜索词;E2、从搜索词中提取核心词;E3、利用步骤El获取的搜索词以及步骤E2提取的核心词建立倒排索弓|,构成 query 库;所述步骤Dll包括利用所述提取出的核心词查找所述query库中对应的倒排索 引,对查找到的倒排索引的倒排拉链进行合并后得到命中的搜索词。其中,所述将步骤Dll确定的搜索词进行排序包括依据步骤Dll确定的搜索词覆 盖的核心词在新闻事件中的权重、覆盖的核心词数量、覆盖的核心词在搜索词中的权重或 搜索词的被搜索次数中的一种或任意组合,对步骤Dll确定的搜索词进行排序。较优地,该方法还包括利用搜索效果满足query库的预设要求的热搜词更新所 述query库。所述步骤D的第二种具体方式包括D21、将所述提取出的核心词及其组合分别作为搜索词进行页面搜索;D22、根据页面搜索的结果,确定满足预设搜索效果的搜索词作为热搜词。在第二种方式中所述预设搜索效果包括搜索到的在设定时间内发布的新闻页面 数量达到预设的阈值,或者,搜索到的设定时间内发布的新闻页面数量最多,或者,搜索率 达到预设阈值的新闻页面数量达到预设的阈值,或者,搜索率达到预设阈值的新闻页面数 量最多,或者,搜索到的与搜索词的相关度满足预设相关度要求的新闻页面数量达到预设 的阈值,或者,搜索到的与搜索词的相关度满足预设相关度要求的新闻页面数量最多。其中,步骤D22中所述页面搜索的结果为所述步骤D21中所有搜索词的页面搜索 结果;或者,所述步骤D21为将所述提取出的核心词及其组合分别作为搜索词后,对搜索词 进行排序,按照排序结果依次对搜索词进行页面搜索,直到搜索结果满足所述预设搜索效 果为止;所述步骤D22为将满足预设搜索效果的搜索词确定为热搜词。一种热搜词的生成装置,该装置包括聚类处理单元,用于对抓取到的新闻页面进行聚类,形成各新闻簇;热点确定单元,用于确定所述聚类处理单元形成的新闻簇中的热点新闻簇;核心词提取单元,用于从所述热点新闻簇的新闻页面中提取核心词;热搜词确定单元,用于按照所述核心词提取单元提取出的核心词对应的搜索效果 确定出热搜词,其中所述热搜词覆盖所述提取出的核心词中的一个或多个。如果所述热点确定单元确定的热点新闻簇多于1个,则所述核心词提取单元和所述热点词确定单元分别针对每一个热点新闻簇执行所述提取核心词和所述确定出热搜词 的操作。具体地,所述热点确定单元依据所述各新闻簇中新闻页面的数量、突发量、转载率 或站点权重中的一种或任意组合,对所述各新闻簇进行排序,选择排序在前N个的新闻簇 作为热点新闻簇;其中N为小于或等于所述聚类处理单元形成的新闻簇总数量的正整数。所述核心词提取单元具体包括词法分析模块,用于对所述热点新闻簇中新闻页面的新闻标题和/或索引页面上 的锚文字进行词法分析处理后提供给核心词选取模块;核心词选取模块,用于依据词法分析处理后的各词语的特征对各词语进行排序, 选取排在前M个的词语作为核心词,其中M为预设的正整数;所述各词语的特征包括词性、表意能力或语义成分中的一种或任意组合。较优地,所述核心词提取单元还包括过滤处理模块,用于根据预先设置的过滤准 则,将所述词法分析模块提供给所述核心词选取模块的各词语中满足过滤准则的词语进行 过滤;或者,根据预先设置的过滤表,将所述词法分析模块提供给所述核心词选取模块的各 词语中出现在过滤表中的词语进行过滤。所述热搜词确定单元可以存在两种结构,第一种结构具体包括query库查询模块,用于利用所述提取出的核心词查询query库,确定所述提取出 的核心词在所述query库中命中的搜索词;其中所述query库包含搜索词与从该搜索词提 取的核心词之间的对应关系,query库中的搜索词为搜索效果满足预设要求的搜索词;第一确定模块,用于将所述query库查询模块确定的搜索词进行排序,将排在前K 个的搜索词确定为热搜词,其中K为预设的正整数。基于第一种结构所述热搜词确定单元还包括query库维护模块,用于对以往的 搜索日志进行分析,获取搜索效果满足预设要求的搜索词,从搜索词中提取核心词,利用获 取的搜索词以及提取的核心词建立倒排索引,构成query库;所述query库查询模块利用所述提取出的核心词查找所述query库中对应的倒排 索引,对查找到的倒排索引的倒排拉链进行合并后得到命中的搜索词。其中,所述第一确定模块具体依据所述query库查询模块确定的搜索词覆盖的核 心词在新闻事件中的权重、覆盖的核心词数量、覆盖的核心词在搜索词中的权重或搜索词 的被搜索次数中的一种或任意组合,对所述query库查询模块确定的搜索词进行排序。更优地,所述query库维护模块,还用于利用搜索效果满足query库的预设要求的 热搜词更新所述query库。所述热搜词确定单元的第二种结构具体包括搜索词挑选模块,用于将所述提取出的核心词及其组合分别作为搜索词发送给搜 索引擎进行页面搜索;第二确定模块,用于根据页面搜索的结果,确定满足预设搜索效果的搜索词作为 热搜词。其中,所述预设搜索效果包括搜索到的在设定时间内发布的新闻页面数量达到 预设的阈值,或者,搜索到的设定时间内发布的新闻页面数量最多,或者,搜索率达到预设 阈值的新闻页面数量达到预设的阈值,或者,搜索率达到预设阈值的新闻页面数量最多,或
7者,搜索到的与搜索词的相关度满足预设相关度要求的新闻页面数量达到预设的阈值,或 者,搜索到的与搜索词的相关度满足预设相关度要求的新闻页面数量最多。所述第二确定模块根据所述搜索引擎对所有搜索词的搜索结果,确定满足预设搜 索效果的搜索词作为热搜词;或者,所述搜索词挑选模块将所述提取出的核心词及其组合分别作为搜索词后,对搜索 词进行排序,按照排序结果依次将所述搜索词发送给搜索引擎进行页面搜索;所述第二确 定模块根据搜索引擎的搜索结果,判断是否满足预设搜索效果,如果是,将满足搜索效果的 搜索词确定为热搜词,并触发所述搜索词挑选模块停止发送所述搜索词给搜索引擎,否则, 触发所述搜索词挑选模块发送下一个搜索词给搜索引擎。由以上技术方案可以看出,本发明提供了一种自动生成热搜词的方法和装置,无 需人工干预,大大减低了人为工作量。另外,本发明从热点新闻簇中提取关键词,并按照提 取出的关键词对应的搜索效果确定热搜词,使得确定的热搜词与热点新闻的紧密度更高, 不再依赖编辑人员对热点事件的敏感度,提高了热搜词的准确性。

图1为本发明提供的主要方法流程图;图2为本发明实施例一提供的确定热搜词的方法流程图;图3为本发明实施例二提供的确定热搜词的方法流程图;图4为本发明提供的第一种装置结构图;图5为本发明提供的第二种装置结构图。
具体实施方式为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对 本发明进行详细描述。本发明提供的主要方法如图1所示,可以主要包括以下步骤步骤101 对抓取到的新闻页面进行聚类,形成各新闻簇。本发明实施例中生成热搜词时,利用的新闻页面集合(即抓取的新闻页面)可以 是与当前热点匹配的专业网站抓取的新闻页面,例如当生成关于电子产品的热搜词时,可 以从电子产品的专业网站上抓取新闻页面;也可以是从门户网站的热点区域抓取的新闻页 面,例如当生成关于电子产品的热搜词时,可以从一些门户网站中关于电子产品的栏目中 抓取新闻页面。在抓取新闻页面时,可以通过对专业网站的热点新闻或门户网站的热点区域进行 监控,自动抓取新闻页面。在对抓取到的新闻页面进行聚类时,本发明实施例中可以采用但不限于层次聚类 方式、凝聚聚类方式、划分式聚类方式、基于密度的聚类方式、或者网格聚类方式等。本发明实施例中,生成热搜词的流程可以是周期性执行,例如,设置以半小时为一 个周期,每隔半小时执行图1所示流程生成热搜词;也可以是被触发执行,例如执行图1所 示流程的装置收到生成热搜词的命令时,执行图1所示流程生成热搜词。步骤102 确定上述各新闻簇中的热点新闻簇。
在从聚类形成的新闻簇中选择热点新闻簇时,可以依据各新闻簇中新闻页面的数量、突发量、转载率、站点权重等中的一种或任意组合,对新闻簇进行排序,选择排序在前N 个的新闻簇作为热点新闻簇。其中,N为小于或等于形成的新闻簇总数量的正整数。如果确定出的热点新闻簇为1个,则针对该1个热点新闻簇执行步骤103和步骤 104 ;如果确定出的热点新闻簇多于1个,则针对每个热点新闻簇分别执行步骤103和步骤 104,即每个热点新闻簇分别确定出对应的热搜词。步骤103 从热点新闻簇的新闻页面中提取核心词。从热点新闻簇的新闻页面中,能够挑选出一些能够描述事件特征的特征词,通常 称之为核心词。这些特征词能够包含新闻事件的一些主要信息,例如任务、机构、地点、结果 或对象等信息。核心词可以从新闻页面的新闻标题和/或索引页上的锚文字(Anchor)中提取,主 要依赖于一些具有实际意义的词语。可以采用智能元处理技术进行核心词提取,具体地,可 以对新闻标题或Anchor进行词法分析处理,然后依据词法分析处理后得到的各词语的特 征对各词语进行排序,选取排在前M个的词语作为核心词,其中M为预设的正整数。其中,词语的特征可以包括但不限于以下中的一种或任意组合词性(可以分为 名词、形容词、副词等)、表意能力(一个词语语义的完整性程度)、语义成分(可以分为主 题词、需求词、修饰词、虚词等,或者分为主语、谓语、宾语、状语、定语等)。分析得到上述词语的特征所采用的词法分析处理可以包括分词处理、词类标注、 成分分析、语义分析、查表比对等方式,这些方式已是目前比较成熟的技术,在此不再详细 赘述。例如,可以预先设置词性、表意能力以及语义成分等特征对词语重要性的权重值, 依据这些特征的权重计算各词语的重要性,并据此对各词语进行排序。较优地,在对词法分析处理后得到的各词语进行排序之前,可以首先对词法分析 处理后得到的各词语进行过滤处理。通过对核心词的过滤可以方便对核心词的质量做控 制,同时保证热搜词不会出现限制级字眼。其中,过滤的方式可以包括但不限于以下两种第一种通过设置过滤准则的方式。例如,可以设置对词法分析处理后得到的虚词 进行过滤,或者设置对词法分析处理后得到的副词进行过滤,等等,过滤准则可以根据需要 灵活设置。第二种通过设置过滤表的方式,将一些干扰词语进行过滤。例如可以将一些色情 或者反动的词语设置在过滤表中,将词法分析处理后得到的各词语中出现在过滤表中的词 语过滤掉。更优地,为了让核心词更好的配合热搜词的选取,对于出现在主题词的上下文实 体词,可以进行提权处理,即尽量将主题词附近的实体词一并抽取出来,让核心词更具连贯 性和语义表达能力。步骤104 按照提取出的核心词对应的搜索效果确定出热搜词,其中热搜词覆盖 上述提取的核心词中的一个或多个。热搜词是表达某个热点新闻事件的文字,形式可以是词语、短语、词语或短语的组 合、甚至句子。本步骤中热搜词的确定可以采用两种方式,下面在实施例一和实施例二中分别进行描述。实施例一、通过查询搜索词(query)库的方式确定热搜词,如图2所示,确定热搜词的过程可 以包括以下步骤步骤201 利用提取的核心词查询query库,确定提取的核心词在query库中命中 的搜索词。其中query库包含搜索词与从该搜索词提取的核心词之间的对应关系,query库 中的搜索词为搜索效果满足预设要求的搜索词。为了方便理解,首先对query库的建立进行说明对以往的搜索日志进行分析,获 取搜索效果满足预设要求的搜索词,例如搜索频率大于预设阈值的搜索词;从搜索词中提 取核心词,该核心词的提取方式可以采用与步骤103中所述的从新闻标题或Anchor中提取 核心词相同的方式,在此不再赘述;利用从搜索词中提取的核心词以及搜索词建立倒排索 弓丨,构成query库。其中,query库的更新可以周期性进行,例如,每隔一个小时对以往的搜索日志进 行分析,以更新query库。query库的形式可以如表1所示的例子,其中,qm代表搜索词,kn代表核心词。更 进一步地,在该query库中还可以包含核心词在各搜索词中的重要度权值,例如,核心词k3 在搜索词q3中的重要度权值,核心词k3在q5中的重要度权值。表 权利要求
1.一种热搜词的生成方法,其特征在于,该方法包括A、对抓取到的新闻页面进行聚类,形成各新闻簇;B、确定所述新闻簇中的热点新闻簇;C、从所述热点新闻簇的新闻页面中提取核心词;D、按照提取出的核心词对应的搜索效果确定出热搜词,其中所述热搜词覆盖所述提取 出的核心词中的一个或多个。
2.根据权利要求1所述的方法,其特征在于,如果步骤B确定的热点新闻簇多于1个, 则针对每一个热点新闻簇分别执行所述步骤C和步骤D。
3.根据权利要求1所述的方法,其特征在于,所述步骤B具体包括依据所述各新闻簇 中新闻页面的数量、突发量、转载率或站点权重中的一种或任意组合,对所述各新闻簇进行 排序,选择排序在前N个的新闻簇作为热点新闻簇;其中N为小于或等于步骤A形成的新闻 簇总数量的正整数。
4.根据权利要求1所述的方法,其特征在于,所述步骤C具体包括Cl、对所述热点新闻簇中新闻页面的新闻标题和/或索引页面上的锚文字进行词法分 析处理;C2、依据词法分析处理后得到的各词语的特征对各词语进行排序,选取排在前M个的 词语作为核心词,其中M为预设的正整数;所述各词语的特征包括词性、表意能力或者语义成分中的一种或任意组合。
5.根据权利要求4所述的方法,其特征在于,在步骤Cl和步骤C2之间还包括根据预 先设置的过滤准则,将词法分析处理后得到的各词语中满足过滤准则的词语进行过滤;或 者,根据预先设置的过滤表,将词法分析处理后得到的各词语中出现在过滤表中的词语进 行过滤。
6.根据权利要求1至5任一权项所述的方法,其特征在于,所述步骤D具体包括 D11、利用所述提取出的核心词查询搜索词query库,确定所述提取出的核心词在所述query库中命中的搜索词;其中所述query库包含搜索词与从该搜索词提取的核心词之间 的对应关系,query库中的搜索词为搜索效果满足预设要求的搜索词;D12、将步骤Dll确定的搜索词进行排序,将排在前K个的搜索词确定为热搜词,其中K 为预设的正整数。
7.根据权利要求6所述的方法,其特征在于,所述query库的建立包括 E1、对以往的搜索日志进行分析,获取搜索效果满足预设要求的搜索词; E2、从搜索词中提取核心词;E3、利用步骤El获取的搜索词以及步骤E2提取的核心词建立倒排索引,构成query库;所述步骤Dl 1包括利用所述提取出的核心词查找所述query库中对应的倒排索引,对 查找到的倒排索引的倒排拉链进行合并后得到命中的搜索词。
8.根据权利要求6所述的方法,其特征在于,所述将步骤Dll确定的搜索词进行排序包 括依据步骤Dll确定的搜索词覆盖的核心词在新闻事件中的权重、覆盖的核心词数量、覆 盖的核心词在搜索词中的权重或搜索词的被搜索次数中的一种或任意组合,对步骤Dll确定的搜索词进行排序。
9.根据权利要求6所述的方法,其特征在于,该方法还包括利用搜索效果满足query 库的预设要求的热搜词更新所述query库。
10.根据权利要求1至5任一权项所述的方法,其特征在于,所述步骤D具体包括D21、将所述提取出的核心词及其组合分别作为搜索词进行页面搜索;D22、根据页面搜索的结果,确定满足预设搜索效果的搜索词作为热搜词。
11.根据权利要求10所述的方法,其特征在于,所述预设搜索效果包括搜索到的在设 定时间内发布的新闻页面数量达到预设的阈值,或者,搜索到的设定时间内发布的新闻页 面数量最多,或者,搜索率达到预设阈值的新闻页面数量达到预设的阈值,或者,搜索率达 到预设阈值的新闻页面数量最多,或者,搜索到的与搜索词的相关度满足预设相关度要求 的新闻页面数量达到预设的阈值,或者,搜索到的与搜索词的相关度满足预设相关度要求 的新闻页面数量最多。
12.根据权利要求10所述的方法,其特征在于,步骤D22中所述页面搜索的结果为所述 步骤D21中所有搜索词的页面搜索结果;或者,所述步骤D21为将所述提取出的核心词及其组合分别作为搜索词后,对搜索词进行 排序,按照排序结果依次对搜索词进行页面搜索,直到搜索结果满足所述预设搜索效果为 止;所述步骤D22为将满足预设搜索效果的搜索词确定为热搜词。
13.一种热搜词的生成装置,其特征在于,该装置包括聚类处理单元,用于对抓取到的新闻页面进行聚类,形成各新闻簇;热点确定单元,用于确定所述聚类处理单元形成的新闻簇中的热点新闻簇;核心词提取单元,用于从所述热点新闻簇的新闻页面中提取核心词;热搜词确定单元,用于按照所述核心词提取单元提取出的核心词对应的搜索效果确定 出热搜词,其中所述热搜词覆盖所述提取出的核心词中的一个或多个。
14.根据权利要求13所述的装置,其特征在于,如果所述热点确定单元确定的热点新 闻簇多于1个,则所述核心词提取单元和所述热点词确定单元分别针对每一个热点新闻簇 执行所述提取核心词和所述确定出热搜词的操作。
15.根据权利要求13所述的装置,其特征在于,所述热点确定单元依据所述各新闻簇 中新闻页面的数量、突发量、转载率或站点权重中的一种或任意组合,对所述各新闻簇进行 排序,选择排序在前N个的新闻簇作为热点新闻簇;其中N为小于或等于所述聚类处理单元 形成的新闻簇总数量的正整数。
16.根据权利要求13所述的装置,其特征在于,所述核心词提取单元具体包括词法分析模块,用于对所述热点新闻簇中新闻页面的新闻标题和/或索引页面上的锚 文字进行词法分析处理后提供给核心词选取模块;核心词选取模块,用于依据词法分析处理后的各词语的特征对各词语进行排序,选取 排在前M个的词语作为核心词,其中M为预设的正整数;所述各词语的特征包括词性、表意能力或者语义成分中的一种或任意组合。
17.根据权利要求16所述的装置,其特征在于,所述核心词提取单元还包括过滤处理 模块,用于根据预先设置的过滤准则,将所述词法分析模块提供给所述核心词选取模块的 各词语中满足过滤准则的词语进行过滤;或者,根据预先设置的过滤表,将所述词法分析模块提供给所述核心词选取模块的各词语中 出现在过滤表中的词语进行过滤。
18.根据权利要求13至17任一权项所述的装置,其特征在于,所述热搜词确定单元具 体包括query库查询模块,用于利用所述提取出的核心词查询query库,确定所述提取出的核 心词在所述query库中命中的搜索词;其中所述query库包含搜索词与从该搜索词提取的 核心词之间的对应关系,query库中的搜索词为搜索效果满足预设要求的搜索词;第一确定模块,用于将所述query库查询模块确定的搜索词进行排序,将排在前K个的 搜索词确定为热搜词,其中K为预设的正整数。
19.根据权利要求18所述的装置,其特征在于,所述热搜词确定单元还包括query库 维护模块,用于对以往的搜索日志进行分析,获取搜索效果满足预设要求的搜索词,从搜索 词中提取核心词,利用获取的搜索词以及提取的核心词建立倒排索引,构成query库;所述query库查询模块利用所述提取出的核心词查找所述query库中对应的倒排索 引,对查找到的倒排索引的倒排拉链进行合并后得到命中的搜索词。
20.根据权利要求18所述的装置,其特征在于,所述第一确定模块具体依据所述query 库查询模块确定的搜索词覆盖的核心词在新闻事件中的权重、覆盖的核心词数量、覆盖的 核心词在搜索词中的权重或搜索词的被搜索次数中的一种或任意组合,对所述query库查 询模块确定的搜索词进行排序。
21.根据权利要求19所述的装置,其特征在于,所述query库维护模块,还用于利用搜 索效果满足query库的预设要求的热搜词更新所述query库。
22.根据权利要求13至17任一权项所述的装置,其特征在于,所述热搜词确定单元具 体包括搜索词挑选模块,用于将所述提取出的核心词及其组合分别作为搜索词发送给搜索引 擎进行页面搜索;第二确定模块,用于根据页面搜索的结果,确定满足预设搜索效果的搜索词作为热搜词。
23.根据权利要求22所述的装置,其特征在于,所述预设搜索效果包括搜索到的在设 定时间内发布的新闻页面数量达到预设的阈值,或者,搜索到的设定时间内发布的新闻页 面数量最多,或者,搜索率达到预设阈值的新闻页面数量达到预设的阈值,或者,搜索率达 到预设阈值的新闻页面数量最多,或者,搜索到的与搜索词的相关度满足预设相关度要求 的新闻页面数量达到预设的阈值,或者,搜索到的与搜索词的相关度满足预设相关度要求 的新闻页面数量最多。
24.根据权利要求22所述的装置,其特征在于,所述第二确定模块根据所述搜索引擎 对所有搜索词的搜索结果,确定满足预设搜索效果的搜索词作为热搜词;或者,所述搜索词挑选模块将所述提取出的核心词及其组合分别作为搜索词后,对搜索词进 行排序,按照排序结果依次将所述搜索词发送给搜索引擎进行页面搜索;所述第二确定模 块根据搜索引擎的搜索结果,判断是否满足预设搜索效果,如果是,将满足搜索效果的搜索 词确定为热搜词,并触发所述搜索词挑选模块停止发送所述搜索词给搜索引擎,否则,触发 所述搜索词挑选模块发送下一个搜索词给搜索引擎。
全文摘要
本发明提供了一种热搜词的生成方法和装置,其中方法包括对抓取到的新闻页面进行聚类,形成各新闻簇;确定所述新闻簇中的热点新闻簇;从所述热点新闻簇的新闻页面中提取核心词;按照提取的核心词对应的搜索效果确定出热搜词,其中所述热搜词覆盖所述提取出的核心词中的一个或多个。本发明能够实现热搜词的自动生成,无需人工干预,降低了人为工作量,并且不再依赖编辑人员对热点事件的敏感度,提高了热搜词的准确性。
文档编号G06F17/30GK102004792SQ201010585538
公开日2011年4月6日 申请日期2010年12月7日 优先权日2010年12月7日
发明者彭学政, 柳杨, 蔡勋梁 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1