一种用于挖掘与检索词相关的关键词的方法和装置与流程

文档序号:15517886发布日期:2018-09-25 18:46阅读:192来源:国知局

本发明涉及计算机技术领域,尤其涉及一种用于挖掘与检索词相关的关键词的方法和装置。



背景技术:

现有技术中,用户在搜索时主要通过其输入的检索词来表达其搜索意图,因此,搜索引擎对检索词的意图理解是否准确非常关键。而针对检索词的关键词提取技术,是搜索引擎检索词理解的基础模块。

目前通常采用以下两种关键词提取技术:一,通过各种自然语言处理工具,分析检索词本身所包含的各个基础词条的权重,从而从检索词中提取出其中的关键词;二,聚合所有检索词,基于tf-idf或者各种主题模型(plsa/lda等),提取其中的关键词。上述两种关键词提取技术存在以下缺点:一方面,用户输入的检索词通常比较随意,甚至偏口语化,且部分检索词可能存在错别字,甚至拼音等,如果仅仅从检索词本身出发,则不能较好地获取到匹配用户搜索意图的真正关键词;另一方面,没有充分借鉴现有的海量第三方网页上的相关知识,很难挖掘到匹配用户搜索意图的真正关键词。



技术实现要素:

本发明的目的是提供一种用于挖掘与检索词相关的关键词的方法和装置。

根据本发明的一个方面,提供一种用于挖掘与检索词相关的关键词的方法,其中,该方法包括:

根据搜索引擎中的搜索日志信息,获得与检索词query具有高相关性的历史展现结果,其中,所述历史展现结果包括历史展现页面中所展现的针对query的历史搜索结果和/或与query相关的辅助展现结果;

根据所述历史展现结果,生成与query相对应的至少一个聚合结果;

从所述至少一个聚合结果中提取与query相关的关键词。

根据本发明的另一个方面,还提供了一种用于挖掘与检索词相关的关键词的装置,其中,该装置包括:

第一获得装置,用于根据搜索引擎中的搜索日志信息,获得与检索词query具有高相关性的历史展现结果,其中,所述历史展现结果包括历史展现页面中所展现的针对query的历史搜索结果和/或与query相关的辅助展现结果;

生成装置,用于根据所述历史展现结果,生成与query相对应的至少一个聚合结果;

第一提取装置,用于从所述至少一个聚合结果中提取与query相关的关键词。

与现有技术相比,本发明具有以下优点:能够基于与检索词具有高相关性的历史展现结果,来聚合得到与检索词相对应的至少一个聚合结果,并从该至少一个聚合结果中提取与检索词相关的关键词,该挖掘与检索词相关的关键词的方案引入了用户历史搜索行为指导,且借鉴了海量历史搜索结果,较大程度地弥补了检索词本身的信息量不足的问题,从而利于挖掘出能够反映用户搜索意图的真正关键词。此外,当用户发起实际搜索时,可先查找到线下挖掘得到的与用户输入的检索词相关的关键词再发起搜索,从而能够为用户提供更高质量的搜索服务;并且,若基于海量用户最近的历史搜索行为来挖掘与检索词相关的关键词,则在用户的实际搜索中基于该等挖掘得到的与检索词相关的关键词所获得的搜索结果,更可能满足用户的实时搜索需求。此外,将该挖掘与检索词相关的关键词的方案应用于实际搜索过程中的广告触发时,能够大幅提升搜索广告触发比例,大量提升搜索流量的变现效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为本发明一个实施例的用于挖掘与检索词相关的关键词的方法的流程示意图;

图2为本发明另一个实施例的用于挖掘与检索词相关的关键词的方法的流程示意图;

图3为本发明一个实施例的用于挖掘与检索词相关的关键词的装置的结构示意图;

图4为本发明另一个实施例的用于挖掘与检索词相关的关键词的装置的结构示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

在上下文中所称“计算机设备”,也称为“电脑”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器与存储器,由处理器执行在存储器中预存的程序指令来执行预定处理过程,或是由asic、fpga、dsp等硬件执行预定处理过程,或是由上述二者组合来实现。

所述计算机设备例如包括用户设备与网络设备。其中,所述用户设备包括但不限于pc机、平板电脑、智能手机、pda等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(cloudcomputing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述计算机设备可单独运行来实现本发明,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、vpn网络等。

需要说明的是,所述用户设备、网络设备和网络等仅为举例,其他现有的或今后可能出现的计算机设备如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。

本文后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时,用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。

这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本发明的示例性实施例的目的。但是本发明可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。

应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。

这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。

还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。

下面结合附图对本发明作进一步详细描述。

图1为本发明一个实施例的用于挖掘与检索词相关的关键词的方法的流程示意图。本实施例的方法主要由网络设备来实施。

根据本实施例的方法包括步骤s1、步骤s2和步骤s3。

在步骤s1中,网络设备根据搜索引擎中的搜索日志信息,获得与检索词query具有高相关性的历史展现结果。

其中,所述搜索日志信息包括搜索引擎中针对用户的历史搜索操作而生成的任何日志信息,如针对用户的一次历史搜索操作,日志信息中包括用户输入的检索词query、检索时间以及向用户展现针对query的搜索结果的历史展现页面;需要说明的是,所述历史展现页面中除针对query的历史搜索结果之外,还包括其他信息,如与query相关的辅助展现结果、搜索输入框、搜索分类信息、网站标识信息等。

其中,所述历史展现结果包括历史展现页面中与query相关的任何展现结果项。优选地,所述历史展现结果包括历史展现页面中所展现的针对query的历史搜索结果和/或与query相关的辅助展现结果;其中,所述辅助展现结果表示历史展现页面中除历史搜索结果以外的与query相关展现结果项,如位于搜索结果展现区域右侧的推广信息、位于结果展现区域下方的相关搜索推荐信息等。

其中,网络设备可采用多种方式根据搜索引擎中的搜索日志信息,获得与检索词query具有高相关性的历史展现结果。

例如,网络设备将query所对应的所有历史展现结果中被用户访问过的展现结果项作为与query具有高相关性的历史展现结果。

又例如,网络设备将与query所对应的所有历史展现结果中最近被访问的预定数量个展现结果项作为与query具有高相关性的历史展现结果。

作为一种优选方案,网络设备根据搜索引擎中的搜索日志信息,并结合预定指标信息,获得与query具有高相关性的历史展现结果。

其中,所述预定指标信息包括任何与预定指标相关的信息,所述预定指标用于判断query与历史展现结果之间的相关性。优选地,所述预定指标包括以下至少一项:

-历史展现量;

-历史展现位置;

-历史点击量;

-历史点击时间分布。

具体地,网络设备根据搜索引擎中的搜索日志信息,获得与query相对应的所有展现结果项,并结合预定指标信息,从所述所有展现结果项中确定与query具有高相关性的历史展现结果。

作为一个示例,预定指标信息包括用于判断相关性的多个预定指标,以及每个预定指标所要满足的条件(如历史展现量超过预定展现量,历史展现位置为搜索结果展现区域或右侧推广栏,历史点击量超过预定点击量,历史点击时间分布指示历史点击时间大多在最近一周内等),则当一个展现结果项对应的该多个预定指标的取值均满足条件时,确定该展现结果项为与query具有高相关性的历史展现结果。

作为另一个示例,预定指标信息包括用于判断相关性的多个预定指标,以及每个预定指标所对应的权重,则根据展现结果项对应的该多个预定指标的取值以及每个预定指标所对应的权重,计算该展现结果的权值,当该展现结果的权值超过预定阈值时,确定该展现结果项为与query具有高相关性的历史展现结果。

需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据搜索引擎中的搜索日志信息,获得与检索词query具有高相关性的历史展现结果的实现方式,均应包含在本发明的范围内。

在步骤s2中,网络设备根据所述历史展现结果,生成与query相对应的至少一个聚合结果。

其中,所述聚合结果可表现为多种数据形式,优选地,所述聚合结果表现为文档形式。

具体地,网络设备根据所述历史展现结果,生成与query相对应的至少一个聚合结果的实现方式包括但不限于:

1)所述历史展现结果包括历史展现页面中所展现的针对query的历史搜索结果,网络设备根据所述query以及与所述历史搜索结果相对应的多个url,构建多个<query,url>对,之后,网络设备根据所述多个<query,url>,聚合得到与query相对应的一个聚合结果。

其中,<query,url>表示检索词query与链接url构成的对。例如,检索词“柯南”与url1可构建得到<柯南,url1>,也即相当于,query的取值为“柯南”,url的取值为“url1”。其中,基于本实现方式聚合得到的聚合结果中包含所述多个url中的每个url所对应的展现信息,如每个url所对应页面中的标题、摘要等。

作为一个示例,与检索词query1高相关的历史搜索结果中包括5个搜索结果,该5个搜索结果分别对应以下5个url:url1、url2、url3、url4、url5,则网络设备根据query1以及上述5个url,构建以下5个<query,url>对:<query1,url1>、<query1,ur2>、<query1,ur3>、<query1,ur4>、<query1,ur5>;之后,网络设备根据上述构建得到的5个<query,url>对,聚合得到与query1相对应的一个聚合结果<query,document>,<query,document>中包括上述5个url所分别对应的标题。

2)所述历史展现结果包括历史展现页面中所展现的与query相关的辅助展现结果,网络设备对所述辅助展现结果中的所有展现内容进行聚合,得到与query相对应的一个聚合结果。

例如,检索词“柯南”对应的历史展现结果中包括位于右侧推广栏的辅助展现结果,该辅助展现结果包含以下展现内容:“民子姐”、“米拉公主”、“冲矢昂”、……、“柯南结局或死重要人物”、“柯南动画新op遭吐槽”、“柯南剧虫继续强势”、“柯南看多了会得病”、“柯南再遭网友吐槽”。则网络设备将上述展现内容聚合为与“柯南”相对应的一个聚合结果。

需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述历史展现结果,生成与query相对应的至少一个聚合结果的实现方式,均应包含在本发明的范围内。

需要说明的是,优选地,在不同的检索粒度下,网络设备分别执行步骤s2,以生成与各个检索粒度相对应的聚合结果。

在步骤s3中,网络设备从所述至少一个聚合结果中提取与query相关的关键词。

具体地,网络设备可采用多种方式从所述至少一个聚合结果中提取与query相关的关键词。

作为一种实现方式,对于query中的每个字,网络设备提取所述至少一个聚合结果中包含该字的词,作为与query相关的关键词。

作为另一种实现方式,网络设备从所述至少一个聚合结果中提取多个基础词条;接着,网络设备获得每个基础词条的多项预定特征;之后,网络设备从所述多个基础词条中提取多项预定特征均满足预定条件的部分基础词条,作为与query相关的关键词。

作为再一种实现方式,网络设备从所述至少一个聚合结果中提取多个基础词条;接着,对于所述多个基础词条中的每个基础词条,根据该基础词条的特征计算该基础词条的权值;之后,根据计算得到的所述多个基础词条所分别对应的权值,从该多个基础词条中提取与query相关的关键词。本实现方式将在后续实施例中予以详述。

其中,与query相关的关键词可记为<query,keywords>,其中,keywords表示关键词或关键词集合。

需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何从所述至少一个聚合结果中提取与query相关的关键词的实现方式,均应包含在本发明的范围内。

需要说明的是,网络设备通过在线下执行步骤s1、步骤s2和步骤s3的操作,来挖掘或者更新与query相关的关键词,网络设备在每次执行步骤s3之后,将query以及与query相关的关键词存储至数据库中(该数据库可为本地数据库、云数据库等),以便于在用户实际搜索时能够用于查找与用户实际输入的检索词相关的关键词。

作为一种优选方案,本实施例的方法还包括在用户实际搜索时执行的步骤s4和步骤s5。

在步骤s4中,网络设备根据用户输入的检索词,查找与所述用户输入的检索词相关的关键词。

具体地,网络设备根据接收到的用户当前输入的检索词,在数据库中查询与该检索词相关的关键词。

例如,网络设备在线下最近一次执行步骤s1、步骤s2和步骤s3挖掘得到与query1相关的以下关键词:key1、key2、key3,并将数据库中与query1相关的关键词更新为key1、key2、key3;当用户输入检索词query1,网络设备根据接收到的用户输入的query1,在数据库中查找得到与query1相关的关键词为:key1、key2、key3。

需要说明的是,优选地,当网络设备在数据库中并未查询到与用户输入的检索词相关的关键词时,可将数据库中与用户输入的检索词匹配度最高的query所相关的关键词,作为与用户输入的检索词相关的关键词。

在步骤s5中,网络设备基于所述用户输入的检索词以及与所述用户输入的检索词相关的关键词发起搜索,并将搜索结果提供给所述用户。

例如,在步骤s4中,网络设备根据接收到的用户输入的query1,在数据库中查找得到与query1相关的关键词为:key1、key2、key3;在步骤s5中,网络设备基于query1、key1、key2、key3发起搜索,来获得搜索结果,并将搜索结果提供给用户。

根据本实施例的方案,能够基于与检索词具有高相关性的历史展现结果,来聚合得到与检索词相对应的至少一个聚合结果,并从该至少一个聚合结果中提取与检索词相关的关键词,该挖掘与检索词相关的关键词的方案引入了用户历史搜索行为指导,且借鉴了海量历史搜索结果,较大程度地弥补了检索词本身的信息量不足的问题,从而利于挖掘出能够反映用户搜索意图的真正关键词。此外,当用户发起实际搜索时,可先查找到线下挖掘得到的与用户输入的检索词相关的关键词再发起搜索,从而能够为用户提供更高质量的搜索服务;并且,若基于海量用户最近的历史搜索行为来挖掘与检索词相关的关键词,则在用户的实际搜索中基于该等挖掘得到的与检索词相关的关键词所获得的搜索结果,更可能满足用户的实时搜索需求。此外,将该挖掘与检索词相关的关键词的方案应用于实际搜索过程中的广告触发时,能够大幅提升搜索广告触发比例,大量提升搜索流量的变现效率。

需要说明的是,现有技术中通常在用户实际搜索过程中基于用户输入的关键词来确定需要为用户展现的辅助展现结果,而从未考虑过反向地将历史展现的辅助展现结果用于用户搜索,而本发明客服了技术偏见,发现了由于针对检索词所历史展现的辅助展现结果是与检索词相关的,而该等辅助展现结果可能在一定程度上符合用户针对检索词的实际搜索需求,因此,可基于针对检索词所历史展现的辅助展现结果来挖掘可能符合用户实际搜索需求的关键词。

图2为本发明另一个实施例的用于挖掘与检索词相关的关键词的方法的流程示意图。根据本实施例的方法包括步骤s1、步骤s2和步骤s3,其中,所述步骤s3进一步包括步骤s31、步骤s32和步骤s33。其中,所述步骤s1和所述步骤s2已在参照图1所示实施例中予以详述,在此不再赘述。

在所述步骤s31中,网络设备从所述至少一个聚合结果中提取多个基础词条。

其中,网络设备可采用多种方式从所述至少一个聚合结果中提取多个基础词条。

例如,对于所述至少一个聚合结果中的每个聚合结果,网络设备对该聚合结果进行分词处理,获得与该聚合结果相应的多个基础词条。

又例如,对于所述至少一个聚合结果中的每个聚合结果,网络设备提取该聚合结果中出现频率最高的3个词。

需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何从所述至少一个聚合结果中提取多个基础词条的实现方式,均应包含在本发明的范围内。

在步骤s32中,对于所述多个基础词条中的每个基础词条,网络设备根据该基础词条的特征计算该基础词条的权值。

其中,基础词条的权值用于表征基础词条的重要性。

优选地,基础词条的特征包括以下至少一项:

1)基础词条的词性/重要等级。不同词性可对应不同的重要等级,如动词的重要等级最高,名词次之,介词、副词、语气词的重要等级最低。

2)基础词条在聚合结果中的tf-idf(termfrequency–inversedocumentfrequency,词频-逆向文件频率)特征。其中,基础词条在一个聚合结果中的出现频次为tf,在所有聚合结果中的出现频次为idf,tf越高则基础词条的重要性越高,idf越低则基础词条的重要性越低。

3)基础词条所在的展现结果项所对应的用户行为特征。其中,所述用户行为特征包括与用户针对基础词条所在的展现结果项所执行的行为相关的任何特征,如用户访问时间、访问次数、页面内操作等。

4)基础词条在query中的出现情况。其中,所述出现情况存在以下三种情形:基础词条出现在query中,基础词条中的部分内容出现在query中,基础词条及其部分内容均未出现在query中。基础词条的重要性按照上述三种情形的顺序依次递减。

需要说明的是,上述基础词条的特征仅为举例,而非本发明的限制,本领域技术人员应能理解,基础词条的任何能够用于判断其重要性的特征(如基础词条所在的展现结果项的类型,展现结果项的类型包括但不限于商业结果、自然结果、推广结果等,又如,基础词条的商业属性,所述商业属性包括商业类型、是否被购买、商业等级等),均应包含在本发明所述的基础词条的特征的范围内。

具体地,对于所述多个基础词条中的每个基础词条,网络设备可采用多种方式根据该基础词条的特征计算该基础词条的权值。

例如,对于所述多个基础词条中的每个基础词条,网络设备确定该基础词条的各项特征所分别对应的权值,之后,网络设备将该基础词条的各项特征所分别对应的权值相加,得到计算该基础词条的权值。

又例如,可进一步针对不同的特征设定加权系数,对于所述多个基础词条中的每个基础词条,网络设备确定该基础词条的各项特征所分别对应的权值,之后,网络设备基于该基础词条的各项特征所分别对应的权值以及各项特征的加权系数,来计算基础词条的权值。

需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何对于所述多个基础词条中的每个基础词条,根据该基础词条的特征计算该基础词条的权值的实现方式,均应包含在本发明的范围内。

在步骤s33中,网络设备根据计算得到的所述多个基础词条所分别对应的权值,从该多个基础词条中提取与query相关的关键词。

具体地,网络设备可采用多种方式根据计算得到的所述多个基础词条所分别对应的权值,从该多个基础词条中提取与query相关的关键词。

例如,网络设备对所述多个基础词条按照所对应的权值从高到低进行排序,并截取排序在前的n个基础词条作为与query相关的n个关键词。

又例如,网络设备从所述多个基础词条中提取所对应的权值高于预定权值的m个基础词条,作为与query相关的m个关键词。

需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据计算得到的所述多个基础词条所分别对应的权值,从该多个基础词条中提取与query相关的关键词的实现方式,均应包含在本发明的范围内。

根据本实施例的方案,先从聚合得到的至少一个聚合结果中提取多个基础词条,并根据每个基础词条的特征计算其权值,进而基于每个基础词条的权值来从该多个基础词条中提取与检索词相关的关键词,从而使得挖掘得到的与检索词相关的关键词更可能反映或者影响用户针对检索词的实时搜索需求。

图3为本发明一个实施例的用于挖掘与检索词相关的关键词的装置的结构示意图。该用于挖掘与检索词相关的关键词的装置(以下简称为“挖掘装置”)包括第一获得装置1、生成装置2和第一提取装置3。

网络设备的第一获得装置1根据搜索引擎中的搜索日志信息,获得与检索词query具有高相关性的历史展现结果。

其中,所述搜索日志信息包括搜索引擎中针对用户的历史搜索操作而生成的任何日志信息,如针对用户的一次历史搜索操作,日志信息中包括用户输入的检索词query、检索时间以及向用户展现针对query的搜索结果的历史展现页面;需要说明的是,所述历史展现页面中除针对query的历史搜索结果之外,还包括其他信息,如与query相关的辅助展现结果、搜索输入框、搜索分类信息、网站标识信息等。

其中,所述历史展现结果包括历史展现页面中与query相关的任何展现结果项。优选地,所述历史展现结果包括历史展现页面中所展现的针对query的历史搜索结果和/或与query相关的辅助展现结果;其中,所述辅助展现结果表示历史展现页面中除历史搜索结果以外的与query相关展现结果项,如位于搜索结果展现区域右侧的推广信息、位于结果展现区域下方的相关搜索推荐信息等。

其中,第一获得装置1可采用多种方式根据搜索引擎中的搜索日志信息,获得与检索词query具有高相关性的历史展现结果。

例如,第一获得装置1将query所对应的所有历史展现结果中被用户访问过的展现结果项作为与query具有高相关性的历史展现结果。

又例如,第一获得装置1将与query所对应的所有历史展现结果中最近被访问的预定数量个展现结果项作为与query具有高相关性的历史展现结果。

作为一种优选方案,第一获得装置1进一步包括第二获得装置(图未示),第二获得装置根据搜索引擎中的搜索日志信息,并结合预定指标信息,获得与query具有高相关性的历史展现结果。

其中,所述预定指标信息包括任何与预定指标相关的信息,所述预定指标用于判断query与历史展现结果之间的相关性。优选地,所述预定指标包括以下至少一项:

-历史展现量;

-历史展现位置;

-历史点击量;

-历史点击时间分布。

具体地,第二获得装置根据搜索引擎中的搜索日志信息,获得与query相对应的所有展现结果项,并结合预定指标信息,从所述所有展现结果项中确定与query具有高相关性的历史展现结果。

作为一个示例,预定指标信息包括用于判断相关性的多个预定指标,以及每个预定指标所要满足的条件(如历史展现量超过预定展现量,历史展现位置为搜索结果展现区域或右侧推广栏,历史点击量超过预定点击量,历史点击时间分布指示历史点击时间大多在最近一周内等),则当一个展现结果项对应的该多个预定指标的取值均满足条件时,第二获得装置确定该展现结果项为与query具有高相关性的历史展现结果。

作为另一个示例,预定指标信息包括用于判断相关性的多个预定指标,以及每个预定指标所对应的权重,则根据展现结果项对应的该多个预定指标的取值以及每个预定指标所对应的权重,计算该展现结果的权值,当该展现结果的权值超过预定阈值时,第二获得装置确定该展现结果项为与query具有高相关性的历史展现结果。

需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据搜索引擎中的搜索日志信息,获得与检索词query具有高相关性的历史展现结果的实现方式,均应包含在本发明的范围内。

网络设备的生成装置2根据所述历史展现结果,生成与query相对应的至少一个聚合结果。

其中,所述聚合结果可表现为多种数据形式,优选地,所述聚合结果表现为文档形式。

具体地,生成装置2根据所述历史展现结果,生成与query相对应的至少一个聚合结果的实现方式包括但不限于:

1)生成装置2进一步包括构建装置(图未示)和第一聚合装置(图未示)。所述历史展现结果包括历史展现页面中所展现的针对query的历史搜索结果,构建装置根据所述query以及与所述历史搜索结果相对应的多个url,构建多个<query,url>对,之后,第一聚合装置根据所述多个<query,url>,聚合得到与query相对应的一个聚合结果。

其中,<query,url>表示检索词query与链接url构成的对。例如,检索词“柯南”与url1可构建得到<柯南,url1>,也即相当于,query的取值为“柯南”,url的取值为“url1”。其中,基于本实现方式聚合得到的聚合结果中包含所述多个url中的每个url所对应的展现信息,如每个url所对应页面中的标题、摘要等。

作为一个示例,与检索词query1高相关的历史搜索结果中包括5个搜索结果,该5个搜索结果分别对应以下5个url:url1、url2、url3、url4、url5,则构建装置根据query1以及上述5个url,构建以下5个<query,url>对:<query1,url1>、<query1,ur2>、<query1,ur3>、<query1,ur4>、<query1,ur5>;之后,第一聚合装置根据上述构建得到的5个<query,url>对,聚合得到与query1相对应的一个聚合结果<query,document>,<query,document>中包括上述5个url所分别对应的标题。

2)生成装置2进一步包括第二聚合装置(图未示)。所述历史展现结果包括历史展现页面中所展现的与query相关的辅助展现结果,第二聚合装置对所述辅助展现结果中的所有展现内容进行聚合,得到与query相对应的一个聚合结果。

例如,检索词“柯南”对应的历史展现结果中包括位于右侧推广栏的辅助展现结果,该辅助展现结果包含以下展现内容:“民子姐”、“米拉公主”、“冲矢昂”、……、“柯南结局或死重要人物”、“柯南动画新op遭吐槽”、“柯南剧虫继续强势”、“柯南看多了会得病”、“柯南再遭网友吐槽”。则第二聚合装置将上述展现内容聚合为与“柯南”相对应的一个聚合结果。

需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述历史展现结果,生成与query相对应的至少一个聚合结果的实现方式,均应包含在本发明的范围内。

需要说明的是,优选地,在不同的检索粒度下,生成装置2分别执行操作,以生成与各个检索粒度相对应的聚合结果。

网络设备的第一提取装置3从所述至少一个聚合结果中提取与query相关的关键词。

具体地,第一提取装置3可采用多种方式从所述至少一个聚合结果中提取与query相关的关键词。

作为一种实现方式,对于query中的每个字,第一提取装置3提取所述至少一个聚合结果中包含该字的词,作为与query相关的关键词。

作为另一种实现方式,第一提取装置3从所述至少一个聚合结果中提取多个基础词条;接着,获得每个基础词条的多项预定特征;之后,从所述多个基础词条中提取多项预定特征均满足预定条件的部分基础词条,作为与query相关的关键词。

作为再一种实现方式,第一提取装置3从所述至少一个聚合结果中提取多个基础词条;接着,对于所述多个基础词条中的每个基础词条,根据该基础词条的特征计算该基础词条的权值;之后,根据计算得到的所述多个基础词条所分别对应的权值,从该多个基础词条中提取与query相关的关键词。本实现方式将在后续实施例中予以详述。

其中,与query相关的关键词可记为<query,keywords>,其中,keywords表示关键词或关键词集合。

需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何从所述至少一个聚合结果中提取与query相关的关键词的实现方式,均应包含在本发明的范围内。

需要说明的是,第一获得装置1、生成装置2和第一提取装置3通过在线下执行操作,来挖掘或者更新与query相关的关键词,在第一提取装置3每次执行操作之后,网络设备将query以及与query相关的关键词存储至数据库中(该数据库可为本地数据库、云数据库等),以便于在用户实际搜索时能够用于查找与用户实际输入的检索词相关的关键词。

作为一种优选方案,本实施例的挖掘装置还包括在用户实际搜索时执行的查找装置(图未示)和搜索装置(图未示)。

查找装置根据用户输入的检索词,查找与所述用户输入的检索词相关的关键词。

具体地,查找装置根据接收到的用户当前输入的检索词,在数据库中查询与该检索词相关的关键词。

例如,第一获得装置1、生成装置2和第一提取装置3在线下最近一次执行操作后挖掘得到与query1相关的以下关键词:key1、key2、key3,并将数据库中与query1相关的关键词更新为key1、key2、key3;当用户输入检索词query1,查找装置根据接收到的用户输入的query1,在数据库中查找得到与query1相关的关键词为:key1、key2、key3。

需要说明的是,优选地,当查找装置在数据库中并未查询到与用户输入的检索词相关的关键词时,可将数据库中与用户输入的检索词匹配度最高的query所相关的关键词,作为与用户输入的检索词相关的关键词。

搜索装置基于所述用户输入的检索词以及与所述用户输入的检索词相关的关键词发起搜索,并将搜索结果提供给所述用户。

例如,查找装置根据接收到的用户输入的query1,在数据库中查找得到与query1相关的关键词为:key1、key2、key3;搜索装置基于query1、key1、key2、key3发起搜索,来获得搜索结果,并将搜索结果提供给用户。

根据本实施例的方案,能够基于与检索词具有高相关性的历史展现结果,来聚合得到与检索词相对应的至少一个聚合结果,并从该至少一个聚合结果中提取与检索词相关的关键词,该挖掘与检索词相关的关键词的方案引入了用户历史搜索行为指导,且借鉴了海量历史搜索结果,较大程度地弥补了检索词本身的信息量不足的问题,从而利于挖掘出能够反映用户搜索意图的真正关键词。此外,当用户发起实际搜索时,可先查找到线下挖掘得到的与用户输入的检索词相关的关键词再发起搜索,从而能够为用户提供更高质量的搜索服务;并且,若基于海量用户最近的历史搜索行为来挖掘与检索词相关的关键词,则在用户的实际搜索中基于该等挖掘得到的与检索词相关的关键词所获得的搜索结果,更可能满足用户的实时搜索需求。此外,将该挖掘与检索词相关的关键词的方案应用于实际搜索过程中的广告触发时,能够大幅提升搜索广告触发比例,大量提升搜索流量的变现效率。

需要说明的是,现有技术中通常在用户实际搜索过程中基于用户输入的关键词来确定需要为用户展现的辅助展现结果,而从未考虑过反向地将历史展现的辅助展现结果用于用户搜索,而本发明客服了技术偏见,发现了由于针对检索词所历史展现的辅助展现结果是与检索词相关的,而该等辅助展现结果可能在一定程度上符合用户针对检索词的实际搜索需求,因此,可基于针对检索词所历史展现的辅助展现结果来挖掘可能符合用户实际搜索需求的关键词。

图4为本发明另一个实施例的用于挖掘与检索词相关的关键词的装置的结构示意图。根据本实施例的挖掘装置包括第一获得装置1、生成装置2和第一提取装置3,其中,所述第一提取装置3进一步包括第二提取装置31、计算装置32和第三提取装置33。其中,所述第一获得装置1和生成装置2已在参照图3所示实施例中予以详述,在此不再赘述。

第二提取装置31从所述至少一个聚合结果中提取多个基础词条。

其中,第二提取装置31可采用多种方式从所述至少一个聚合结果中提取多个基础词条。

例如,对于所述至少一个聚合结果中的每个聚合结果,第二提取装置31对该聚合结果进行分词处理,获得与该聚合结果相应的多个基础词条。

又例如,对于所述至少一个聚合结果中的每个聚合结果,第二提取装置31提取该聚合结果中出现频率最高的3个词。

需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何从所述至少一个聚合结果中提取多个基础词条的实现方式,均应包含在本发明的范围内。

对于所述多个基础词条中的每个基础词条,计算装置32根据该基础词条的特征计算该基础词条的权值。

其中,基础词条的权值用于表征基础词条的重要性。

优选地,基础词条的特征包括以下至少一项:

1)基础词条的词性/重要等级。不同词性可对应不同的重要等级,如动词的重要等级最高,名词次之,介词、副词、语气词的重要等级最低。

2)基础词条在聚合结果中的tf-idf特征。其中,基础词条在一个聚合结果中的出现频次为tf,在所有聚合结果中的出现频次为idf,tf越高则基础词条的重要性越高,idf越低则基础词条的重要性越低。

3)基础词条所在的展现结果项所对应的用户行为特征。其中,所述用户行为特征包括与用户针对基础词条所在的展现结果项所执行的行为相关的任何特征,如用户访问时间、访问次数、页面内操作等。

4)基础词条在query中的出现情况。其中,所述出现情况存在以下三种情形:基础词条出现在query中,基础词条中的部分内容出现在query中,基础词条及其部分内容均未出现在query中。基础词条的重要性按照上述三种情形的顺序依次递减。

需要说明的是,上述基础词条的特征仅为举例,而非本发明的限制,本领域技术人员应能理解,基础词条的任何能够用于判断其重要性的特征(如基础词条所在的展现结果项的类型,展现结果项的类型包括但不限于商业结果、自然结果、推广结果等,又如,基础词条的商业属性,所述商业属性包括商业类型、是否被购买、商业等级等),均应包含在本发明所述的基础词条的特征的范围内。

具体地,对于所述多个基础词条中的每个基础词条,计算装置32可采用多种方式根据该基础词条的特征计算该基础词条的权值。

例如,对于所述多个基础词条中的每个基础词条,计算装置32确定该基础词条的各项特征所分别对应的权值,之后,计算装置32将该基础词条的各项特征所分别对应的权值相加,得到计算该基础词条的权值。

又例如,可进一步针对不同的特征设定加权系数,对于所述多个基础词条中的每个基础词条,计算装置32确定该基础词条的各项特征所分别对应的权值,之后,计算装置32基于该基础词条的各项特征所分别对应的权值以及各项特征的加权系数,来计算基础词条的权值。

需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何对于所述多个基础词条中的每个基础词条,根据该基础词条的特征计算该基础词条的权值的实现方式,均应包含在本发明的范围内。

第三提取装置33根据计算得到的所述多个基础词条所分别对应的权值,从该多个基础词条中提取与query相关的关键词。

具体地,第三提取装置33可采用多种方式根据计算得到的所述多个基础词条所分别对应的权值,从该多个基础词条中提取与query相关的关键词。

例如,第三提取装置33对所述多个基础词条按照所对应的权值从高到低进行排序,并截取排序在前的n个基础词条作为与query相关的n个关键词。

又例如,第三提取装置33从所述多个基础词条中提取所对应的权值高于预定权值的m个基础词条,作为与query相关的m个关键词。

需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据计算得到的所述多个基础词条所分别对应的权值,从该多个基础词条中提取与query相关的关键词的实现方式,均应包含在本发明的范围内。

根据本实施例的方案,先从聚合得到的至少一个聚合结果中提取多个基础词条,并根据每个基础词条的特征计算其权值,进而基于每个基础词条的权值来从该多个基础词条中提取与检索词相关的关键词,从而使得挖掘得到的与检索词相关的关键词更可能反映或者影响用户针对检索词的实时搜索需求。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1