基于关键词聚合的查询反馈方法、装置以及存储介质与流程

文档序号:15448903发布日期:2018-09-14 23:42阅读:218来源:国知局

本公开涉及互联网技术领域,尤其涉及一种基于关键词聚合的查询反馈方法、装置及相应的存储介质和电子设备。



背景技术:

广告是互联网行业最常用的流量变现方式之一。根据计费方式的不同,主流的互联网广告通常包括cpt(costpertime,按照时间计费)、cpc(costperclick,按照点击计费)和cpa(costperaction,按照转化计费)等形态。不同的广告形态具有不同的特点,适用于不同类型的广告主和广告平台。

在cpt中,广告平台提供的资源通常表现为“某一段时间内某个特定展位的独占展示权”,其一般是根据该特定展位在这段时间内的预估访问量来定价,因此计费规则相对比较简单,但广告投放效果很难评估。

cpc是随着搜索引擎的普及而出现的一种广告形态。在这种方式下,当用户搜索关键词时,广告平台会根据推广对象与当前用户请求的相关程度,同时结合广告主为每一次点击的出价(bid),将推广对象经过排序后反馈给用户。对于在线上就能实现转化从而形成交易闭环的行业而言,cpc的广告投放效果易于评估。但同时,由于cpc方式对推广对象的排序逻辑复杂,会给广告主带来一定的理解成本。

针对基于关键词反馈推广对象的广告,虽然普遍采用cpc的方式进行投放,但在一些特定行业,经实际效果证明cpt的方式更加适用。然而,无论是哪种方式,这种类型的广告目前都是以单个关键词为定价单元。广告平台在收到用户搜索的查询词时,基于广告主购买的匹配关键词,按照cpt约定的展位和时间,或者按照cpc得到的排序情况,将推广对象反馈给用户。上述按单个关键词定价的方式,需要投入大量的人工成本进行关键词的处理,并且对于组合型查询词而言,基于单个关键词无法准确地反馈推广对象。



技术实现要素:

本公开的目的是提供一种基于关键词聚合的查询反馈方法、装置及相应的存储介质和电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。

本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。

根据本公开实施例的一个方面,提供一种基于关键词聚合的查询反馈方法,包括:获取基于预估意向生成的关键词集合,及与所述关键词集合对应的推广对象;根据从用户接收的查询词,确定所述查询词所属的关键词集合;以及基于确定的关键词集合向所述用户反馈对应的所述推广对象。

根据本公开实施例的一个方面,提供一种基于关键词聚合的查询反馈装置,包括:聚合模块,设置为获取基于预估意向生成的关键词集合,及与所述关键词集合对应的推广对象;判定模块,设置为根据从用户接收的查询词,确定所述查询词所属的关键词集合;以及反馈模块,设置为基于确定的关键词集合向所述用户反馈对应的所述推广对象。

根据本公开实施例的一个方面,提供一种存储有计算机程序的存储介质,所述计算机程序在由计算机的处理器运行时,使所述计算机执行如上所述的方法。

根据本公开实施例的一个方面,提供一种计算设备,包括:处理器;存储器,存储有可由所述处理器执行的指令;其中所述处理器被配置为执行如上所述的方法。

本公开的实施例提供的技术方案至少可以包括以下有益效果。

根据本公开的一种实施例,基于预先生成的关键词集合对用户输入的查询词进行匹配,并根据匹配的结果反馈对应的推广对象,相比单个关键词能够更准确的基于用户意向实现对象推广,对于推广对象而言也能够充分利用组合型查询词产生的访问量。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

图1为一种典型的cpt广告展示示意图。

图2为一种典型的cpc广告展示示意图。

图3为根据本公开一实施例的基于关键词聚合的查询反馈方法流程图。

图4示出生成关键词集合的一个示例流程图。

图5示出计算关键词相似度的一个示例流程图。

图6示出二部图的一个示例。

图7示出计算关键词相似度的另一个示例流程图。

图8示出倒排索引的一个示例。

图9示出生成关键词集合的另一个示例流程图。

图10示出关键词、来源文档与标签信息三者之间关联关系的一个示例。

图11为根据本公开一实施例基于关键词聚合的查询反馈装置结构示意图。

图12为根据本公开另一实施例基于关键词聚合的查询反馈装置结构示意图。

图13为根据本公开再一实施例基于关键词聚合的查询反馈装置结构示意图。

图14为根据本公开又一实施例基于关键词聚合的查询反馈装置结构示意图。

图15为根据本公开一实施例的计算设备的示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。

在详细描述本发明的实施例之前,下面首先对实施例中可能涉及的一些相关技术稍加说明。

cpt(按照时间计费)广告

cpt是互联网中相对较早出现的一种广告形态。如背景技术中所述,在cpt中,广告平台提供的资源通常表现为某一段时间内某个特定展位的独占展示权,如图1所示,即示出一种典型的cpt广告展示示意图。

cpt广告一般是根据特定展位在未来特定一段时间内的预估访问量来定价,因此计费规则相对比较简单,广告主可以很容易的理解相关规则。另一方面,cpt广告的展示性相对比较确定,只要在所购买的时间周期内,广告主随时都可以看到所投放的广告是否被曝光,从而增进广告主对广告平台的信任。规则的易理解性和展示的确定性都能够进一步吸引广告主参与广告的竞拍过程。

cpt广告的缺陷在于投放效果很难评估。以图1中所示的广告为例,虽然网站可以通过技术手段统计广告的曝光次数,但是目前尚无成熟的技术方案,能够准确追溯到多少用户是通过看到该广告进而产生转化的。正因为如此,传统的cpt广告主要面向的是品牌广告主,对中小广告主而言并不适用。

cpc(按照点击计费)广告

如背景技术中所述,cpc是随着搜索引擎的普及而出现的一种广告形态,目前一些提供通用或商品信息搜索引擎服务的公司均采用这种广告售卖方式。在这种方式下,当用户搜索关键词时,广告平台会根据推广对象与当前用户请求的相关程度,计算每个广告的质量分,同时结合不同广告主为每一次点击的出价(bid),将推广对象经过排序后反馈给用户。例如参考图2所示,即示出一种典型的cpc广告展示示意图。

相较于cpt而言,cpc的主要优势之一在于广告投放效果易于评估。在cpc中,广告的曝光数、点击数、转化数等核心投放指标可以比较容易获得,使得广告主能够根据效果数据随时调整投放计划。对于那些在线上就能实现转化从而形成交易闭环的行业而言,这一优势显得尤为明显。例如,对于应用程序下载服务提供方投放的cpc广告,很容易就能统计哪些用户是通过搜索关键词,进而从搜索引擎提供的下载页面下载得到的;又例如,对于餐饮、酒店服务企业投放的cpc广告,通过搜索关键词,进而通过搜索引擎提供的团购、预订等广告页面下单的用户数据,也很容易获得。

然而,cpc方式对推广对象的排序逻辑复杂,主要体现在其中质量分的计算上,这会给广告主带来一定的理解成本,进而导致部分广告主的流失。

关键词搜索广告

关键词搜索广告是指通过向广告主售卖关键词,广告平台在收到用户输入的查询词时,按照匹配的关键词反馈广告内容的方式。如前文所述,目前业界普遍采用cpc的方式进行这类广告的售卖和投放。然而,在一些特定行业,经实际效果证明cpt的投放效率比cpc更高。

具体而言,对于一些特定行业,通过投放互联网广告很难吸引用户在线上完成下单等转化行为,也就无法形成线上闭环,导致难以评估广告的投放效果。以婚庆类商户为例,尽管线上也能够提供交易闭环的功能(例如婚纱摄影套餐团购),但是,由于这类商户往往到店消费存在更大的议价空间,并且用户的个性化需求导致线上提供的信息不足以引导用户决策,因此线上转化率仍然非常低,也就无法评估广告投放效果。然而正如前文所提及的,广告投放效果易于评估是cpc与cpt相比的主要优势之一,但对于一些难以形成线上闭环的行业,cpc无法发挥其优势,因此,出于计费规则简单、展示确定性强的特点,cpt广告在这种场景下更为适用。

对于采用cpt的方式提供关键词搜索广告,目前都是参照cpc的方式,以单个关键词为定价单元,广告平台按照关键词、展位和时间的组合向广告主售卖。这种cpt方式的关键词搜索广告表现形式例如可以是,对于特定时间段内用户输入的查询词,广告平台按照广告主购买的匹配关键词,在特定位置向用户反馈广告内容。

由此可见,对于关键词搜索广告,目前存在cpc和cpt两种计费方式,并且都是以单个关键词为定价单元向广告主售卖。然而,按单个关键词售卖的方式,需要投入大量的人工成本进行关键词的处理,难以实现规模化,一般仅适用于搜索量较大的关键词。对于那些搜索量较小但是数量较多的长尾词,按单个关键词售卖的方式难以实现有效利用,对于广告平台和广告主而言是一种流量上的浪费,对于用户端而言也减少了能够得到准确反馈结果的概率。

为了解决上述方案存在的问题,本公开的实施例提供一种基于关键词聚合的查询反馈方法、装置及相应的存储介质和电子设备。下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。

图3为根据本公开一实施例的基于关键词聚合的查询反馈方法流程图,如图所示,本实施例的方法包括以下步骤301-303。在一个实施例中,本实施例的方法可由提供通用或商品信息搜索引擎的服务器来执行。

步骤301中,获取基于预估意向生成的关键词集合,及与所述关键词集合对应的推广对象。

在一个实施例中,关键词集合包括存在类似特性的多个关键词。这里的类似特性可以理解为,多个关键词能够反映同一种用户意向。换言之,通过获取基于预估意向生成的关键词,可以把反映相同意向的关键词聚合在一起。

以本公开的实施例应用于广告为例,对于例如婚庆类型的广告,这里的预估意向可包括但不限于婚纱摄影、婚宴、婚戒首饰、蜜月旅行等等,通过聚合对应的关键词集合,广告主的购买标的从单个关键词变成关键词集合。

在一个实施例中,推广对象包括任何能够向用户展示的内容。以本公开的实施例应用于广告为例,这里的推广对象包括但不限于商户页面、商品页面、下载页面等等。

在一个实施例中,对于每一个关键词集合,都分别预设一个对应的推广对象。这样,后续基于用户查询词定位到匹配的关键词集合时,便能够向用户反馈对应的推广对象。

步骤302中,根据从用户接收的查询词,确定所述查询词所属的关键词集合。

对于传统的搜索引擎而言,当从用户接收到查询词时,都是直接基于查询词反馈匹配度最高的查询结果,或者是按匹配度排序反馈查询结果。

相比之下,本公开实施例中,响应于用户输入查询词的操作,并不直接反馈查询结果(即前文所述的推广对象),而是先确定与该查询词匹配的关键词集合,后续再基于确定的关键词集合来反馈对应的推广对象。换言之,由于关键词集合是按预估意向生成的,因此本公开的实施例是先基于查询词来预测用户意向,进而根据预测的意向来反馈对应的推广对象。

在一个实施例中,根据查询词确定所属的关键词集合,可以是与查询词完全相同的关键词所在的关键词集合,也可以是与查询词之间相似度最高的关键词所在的关键词集合。

以本公开的实施例应用于广告为例,在将按步骤301生成的关键词集合售卖给广告主之后,广告平台在收到用户输入的查询词时,先确定与该查询词匹配的关键词集合,从而后续能够向用户反馈相应广告主的广告内容。

步骤303中,基于确定的关键词集合向所述用户反馈对应的所述推广对象。

如前文所述,对于传统的搜索引擎而言,都是直接基于查询词反馈匹配度最高的查询结果,或者是按匹配度排序反馈查询结果。换言之,这种情况下是按单个查询词来计算其与查询结果之间的匹配度。

相比之下,本公开实施例中,在经过步骤302确定出查询词所属的关键词集合后,反馈的是与关键词集合对应的推广对象。换言之,这种情况下是按关键词集合来考虑查询词与推广对象之间的匹配度,不同的查询词如果属于同一个关键词集合则会反馈完全形同的推广对象。

在一个实施例中,步骤302确定出的关键词集合可能包括多个,相应的,这里反馈的推广对象也可能存在多个,本公开实施例可进一步包括按预设规则对多个推广对象进行排序的步骤,此处不再赘述。

根据上述实施例关键词聚合的查询反馈方法,基于预先生成的关键词集合对用户输入的查询词进行匹配,并根据匹配的结果反馈对应的推广对象,相比单个关键词能够更准确的基于用户意向实现对象推广,对于推广对象而言也能够充分利用组合型查询词产生的访问量。

如上文所述,与传统基于单个关键词反馈搜索结果的方案相比,本公开的实施例基于按意向生成的关键词集合来反馈推广对象给用户。图4和图9分别示出生成关键词集合的示例流程图。

在一个实施例中,如图4所示,关键词集合的生成可包括步骤401-402。

步骤401中,获取关键词之间的相似度。

本实施例基于关键词之间的相似度来构建关键词集合。

为了体现关键词集合对预估意向的反映,在一个实施例中,获取相似度之前还可包括选取种子词的步骤,每一个种子词可视为对应一种预估意向。种子词的数量不需要很多,但是需要与用户意向有较强的相关性。

以本公开的实施例应用于广告为例,对于例如婚庆类型的广告,可以选取但不限于“摄影”、“婚宴”、“婚戒”、“蜜月”等关键词作为种子词,从而对应于几大类的用户意向。

在一个实施例中,种子词可通过手动进行选取,也可基于关键词的词频或者现有的历史数据自动获取,本公开的实施例对此并无限制,在此不进行赘述。

一经选取好种子词,关键词集合便可围绕种子词来构建。对于种子词以外的其他关键词(非种子词),可按后续步骤根据最大相似度来加入对应种子词的关键词集合。

在一个实施例中,关键词之间的相似度可基于关键词与来源文档的关联关系,并根据来源文档之间的相似度来计算,其一个示例可参见图5的描述。这里的来源文档可理解为关键词的出处。在不同的应用场景下,可以按照不同的策略来选取相应的关键词和来源文档。以本公开的实施例应用于广告为例,可以选取广告主所在行业的热门查询词和热门文档分别构建关键词库和来源文档库,作为相似度的计算基础。

在一个实施例中,关键词之间的相似度还可基于其来源文档的重合程度来计算,其一个示例可参见图7的描述。该实施例可适用于事先不易于获取关键词的情况,因此,首先可基于对来源文档的自然语言处理获取关键词,再按照关键词为单位构建相匹配的来源文档集合。进而,对于任意两个关键词,便可基于二者来源文档集合的重合程度计算二者之间的相似度。

步骤402中,基于各种子词以及与该种子词具有最高相似度的非种子词,生成所述关键词集合。

如上文述及,一经选取好种子词,关键词集合便可基于种子词来生成。对于非种子词,本步骤可根据最大相似度将其加入对应种子词的关键词集合。

在一个实施例中,基于步骤401可得到任意两个关键词之间的相似度计算结果。在选取种子词之后,可基于该相似度计算结果,对于每个非种子词,都统计其与各个种子词之间的相似度结果并按大小进行排序。这样,初始的关键词集合可仅包括各个种子词,对于每个非种子词,则选择与其相似度最大的种子词来添加到对应的关键词集合中。

在另一个实施例中,在已经预先选取好种子词的情况下,步骤401也可仅计算非种子词与各个种子词之间的相似度,进而可得到以上所需的排序结果。

图5示出计算关键词相似度的一个示例流程图。如图5所示,本实施例中关键词之间相似度的计算可包括步骤501-503。

步骤501中,对于任意两个关键词,计算相关联的来源文档之间的相似度的平均值。

在一个实施例中,步骤501之前还包括获取关键词与来源文档的关联关系。例如,可基于历史访问数据中的用户行为(例如输入查询词后的点击操作)建立关键词与来源文档的关联关系。

进一步,在一个实施例中,可通过构建二部图(bipartitegraphs)来表达关键词与来源文档之间的关联关系。

二部图是指图中的节点可以分为两个子集,任意一条边关联的两个节点分别来自于这两个子集。图6示出二部图的一个示例,图示左边的节点k1-k3可表示关键词,右边的节点d1-d4可表示关键词的来源文档,节点之间的联系则表示关键词与来源文档之间的关联关系。

基于构建的二部图,本实施例可基于simrank迭代算法来计算关键词之间的相似度。simrank的基本思想是,如果两个对象相似,那么跟它们相关的对象也应该相似。例如,在图6中,如果d1和d4相似,那么k1和k3应该也相似,因为k1和d1相关,而k3和d4相关。simrank算法是一种基于迭代的算法,在迭代的每一步,会将节点之间的相似关系延伸一层,其主要迭代部分包含两个步骤,分别用于计算关键词之间的相似度以及来源文档之间的相似度。

本步骤可基于下式(1)来计算任意两个关键词之间的相似度:

其中,sim(ki1,ki2)表示任意两个关键词之间的相似度,o表示与关键词存在关联关系的来源文档集,|o(ki1)|和|o(ki2)|分别表示与关键词i1、i2有关联的文档集合的大小,sim(dj1,dj2)表示分别从o(ki1)和o(ki2)中选取的任意两篇来源文档之间的相似度。式(1)的右边实际可以理解为,分别与关键词ki1和ki2关联的任意两篇来源文档之间相似度的平均值。

步骤502中,对于任意两个来源文档,计算相关联的关键词之间的相似度的平均值。

基于simrank算法,本步骤可基于下式(2)来计算任意两个来源文档之间的相似度:

其中sim(dj1,dj2)表示任意两个来源文档之间的相似度,i表示与来源文档存在关联关系的关键词集,|i(di1)|和|i(di2)|分别表示与文档j1、j2有关联的关键词集合的大小,sim(ki1,ki2)表示分别从i(di1)和i(di2)中选取的任意两个关键词之间的相似度。式(2)的右边实际可以理解为,分别与来源文档di1和di2关联的任意两个关键词之间相似度的平均值。

步骤503中,基于simrank迭代算法得到所述关键词之间的相似度。

如上文所述,步骤501是基于来源文档之间的相似度计算关键词之间的相似度,步骤502则相反,是基于关键词之间的相似度计算来源文档之间的相似度。因此,步骤503中可通过引入预设的初始条件和收敛条件,基于simrank迭代算法得到关键词集合中任意两个关键词之间的相似度。

simrank迭代算法本身并非本公开关注的内容,此处不再赘述。

图7示出计算关键词相似度的另一个示例流程图。如图7所示,本实施例中关键词之间相似度的计算可包括步骤701-703。

步骤701中,对来源文档集进行预处理,得到对应的关键词库。

本实施例可适用于事先不易于获取关键词的情况。

因此,本步骤中首先基于对来源文档的预处理,以得到关键词。在一个实施例中,预处理例如可包括但不限于分词、去除停用词、简繁体转化、大小写转换等一系列步骤。通过预处理,最终可得到关键词库。

步骤702中,获取分别与任意两个关键词匹配的两个文档集合。

在一个实施例中,根据步骤701形成的关键词库,可通过建立倒排索引得到每个关键词与相应来源文档的关联关系。

换言之,步骤701是从来源文档分别得到对应的关键词,倒排索引可用来基于关键词反向得到对应在哪些来源文档中出现过。图8示出倒排索引的一个示例,图示左边的节点1-n对应关键词库中的各个关键词,右边的方框表示节点中存储的关键词k1-kn及其对应的来源文档索引。

这样一来,对于关键词库中的任意两个关键词,都可通过倒排索引找到各自匹配的两个来源文档集合。

步骤703中,基于所述两个文档集合的交集与并集之比,计算所述任意两个关键词之间的相似度。

在一个实施例中,根据步骤702查询到的文档集合,本步骤可基于下式(3)来计算任意两个关键词之间的相似度:

其中,sim(k1,k2)表示任意两个关键词k1与k2之间的相似度,dk1和dk2分别表示与关键词k1与k2匹配的文档集合,式(3)右边分式的分母表示集合dk1和集合dk2的并集大小,分子表示集合dk1和集合dk2的交集大小。

在另一实施例中,如图9所示,关键词集合的生成可包括步骤901-903。

步骤901中,获取所述关键词与所述来源文档的关联关系,及来源文档的标签信息。

本实施例可适用于已存在标签信息的来源文档。这种情况下可结合标签信息和用户历史行为,使用更简洁的方式实现关键词的聚合。

在一个实施例中,步骤901中可基于历史访问数据中的用户行为(例如输入查询词后的点击操作)建立关键词与来源文档的关联关系。

在一个实施例中,标签信息包括能够用来对来源文档进行分类的任何信息。由于标签信息通常是基于用户侧的使用体验或浏览习惯来生成,因此在一定程度上可直接体现出用户意向。因此,本实施例中可直接基于标签信息构建关键词聚合,无需再计算关键词之间的相似度。

步骤902中,基于所述关联关系获取所述关键词与所述标签信息之间的匹配度。

在一个实施例中,基于步骤902可得到关键词、来源文档与标签信息三者之间的关联关系。图10示出这种关联关系的一个示例,图示左边节点k表示一个关键词,中间的节点d1-d3表示与该关键词存在关联关系的来源文档,右边的节点t1-t3则表示来源文档的标签信息。

在一个实施例中,为了确定最终将关键词划分到哪个标签信息下,本步骤中还可基于用户行为得到关键词与来源文档之间关联关系的权重。以用户输入查询词后进行的点击操作为例,假设用户在输入关键词k后共产生10次点击,其中6次指向文档d1,3次指向文档d2,1次指向文档d3,则三个关联关系的权重可分别确定为0.6、0.3和0.1。如图10所示,可基于k与d1-d3之间的连线粗细表示权重的大小。

接续,在一个实施例中,可基于上述权重以及每个来源文档与标签信息之间的关联关系,来计算关键词与标签信息的匹配概率。接续图10的示例,在关键词k与文档d1-d3之间关联关系的权重分别为0.6、0.3和0.1时,由于标签t1被分配至文档d1和d3,t2被分配至文档d1和d2,t3被分配至文档d3,则关键词与标签t1-t3之间的关联关系数值可通过累加得到,分别为0.7(0.6+0.1)、0.9(0.6+0.3)和0.1,归一化后得到概率分别约为0.41(7/17)、0.53(9/17)和0.06(1/17)。

步骤903中,根据获取的所述匹配度,基于所述关键词生成与所述标签信息对应的关键词集合。

根据步骤902计算得到的匹配度,本步骤可基于匹配度的大小,来确定最终将关键词划分至哪个标签信息对应的关键词集合中。

接续图10的示例,由于关键词k与标签t2的匹配概率0.53最高,则可将关键词k添加至与标签t2对应的关键词集合中。

在一个实施例中,步骤903在生成关键词集合时还可考虑当前关键词的纯度,如果纯度较高则说明关键词表示的意图较明确,从而适于划分至对应的标签,否则说明其表示的意图不够明确,从而可采取丢弃该关键词不进行划分的处理。

例如,可基于下式(4)计算关键词k与多个标签信息之间的熵值,作为关键词k的纯度考量。

entropy(k)=-∑pi*log(pi)…(4)

其中,entropy(k)表示关键词k的熵值,pi代表关键词k与标签i的匹配概率。

接续图10的示例,关键词k与标签t1-t3的匹配概率分别为0.41、0.53、0.06,则基于式(3)可得到关键词k的熵值为entropy(k)=-0.41*log(0.41)-0.53*log(0.53)-0.06*log(0.06)≈0.38。

接续以式(4)计算得到的熵值为例,熵值越高,表示关键词的纯度越高,从而体现出的用户意向越明显,如果大于预设阈值,便可直接划分到匹配概率最高的标签信息(上例中为标签t2)下,也即,可直接将该关键词加入与该标签信息对应的关键词集合中。相反,熵值越低,表示关键词的纯度越低,从而体现的用户意向也越不明确,因此可将该关键词视为无效词而不进行处理。

本公开的实施例进一步提供了一种基于关键词聚合的查询反馈装置。

图11为根据本公开一实施例基于关键词聚合的查询反馈装置结构示意图。如图11所示,本实施例中基于关键词聚合的查询反馈装置包括聚合模块1110、判定模块1120和反馈模块1130。

聚合模块1110设置为获取基于预估意向生成的关键词集合,及与所述关键词集合对应的推广对象。

判定模块1120设置为根据从用户接收的查询词,确定所述查询词所属的关键词集合。

反馈模块1130设置为基于确定的关键词集合向所述用户反馈对应的所述推广对象。

在一个实施例中,聚合模块1110设置为获取关键词之间的相似度,并基于各种子词以及与该种子词具有最高相似度的非种子词,生成所述关键词集合。这里的种子词可包括最能体现用户意向的关键词。对于相似度的获取,聚合模块1110可通过获取所述关键词与来源文档的关联关系,并根据所述来源文档之间的相似度来获取所述关键词之间的相似度。另一方面,聚合模块1110还可基于来源文档获取所述关键词,从而生成与所述关键词匹配的文档集合,并根据所述文档集合获取所述关键词之间的相似度。

在另一个实施例中,聚合模块1110还可设置为获取关键词与来源文档的关联关系和所述来源文档的标签信息,基于所述关联关系获取所述关键词与所述标签信息之间的匹配度,并根据所述匹配度与预设阈值的比较结果,基于所述关键词生成与所述标签信息对应的关键词集合。

根据上述实施例关键词聚合的查询反馈装置,基于预先生成的关键词集合对用户输入的查询词进行匹配,并根据匹配的结果反馈对应的推广对象,相比单个关键词能够更准确的基于用户意向实现对象推广,对于推广对象而言也能够充分利用组合型查询词产生的访问量。

图12为根据本公开另一实施例基于关键词聚合的查询反馈装置结构示意图。如图12所示,在图11所示结构的基础上,本实施例基于关键词聚合的查询反馈装置中,聚合模块1110包括关联获取单元1111、迭代计算单元1112和集合生成单元1113。

关联获取单元1111设置为获取所述关键词与来源文档的关联关系。在一个实施例中,关联获取单元1111可基于历史访问数据中的用户行为(例如输入查询词后的点击操作)建立关键词与来源文档的关联关系。

迭代计算单元1112设置为:对于任意两个关键词,计算相关联的来源文档之间的相似度的平均值;对于任意两个来源文档,计算相关联的关键词之间的相似度的平均值;以及基于simrank迭代算法得到所述关键词之间的相似度。

集合生成单元1113设置为根据迭代计算单元1112的相似度计算结果,基于各种子词以及与该种子词具有最高相似度的非种子词,生成对应的关键词集合。

图13为根据本公开再一实施例基于关键词聚合的查询反馈装置结构示意图。如图13所示,在图11所示结构的基础上,本实施例基于关键词聚合的查询反馈装置中,聚合模块1110包括文档处理单元1114、匹配计算单元1115和集合生成单元1113。

文档处理单元1114设置为基于来源文档获取所述关键词,并生成与所述关键词匹配的文档集合。

匹配计算单元1115设置为根据文档处理单元1114的处理结果,获取分别与任意两个关键词匹配的两个文档集合,并基于所述两个文档集合的交集与并集之比,计算所述任意两个关键词之间的相似度。

集合生成单元1113设置为根据匹配计算单元1115的相似度计算结果,基于各种子词以及与该种子词具有最高相似度的非种子词,生成对应的关键词集合。

图14为根据本公开再一实施例基于关键词聚合的查询反馈装置结构示意图。如图14所示,在图11所示结构的基础上,本实施例基于关键词聚合的查询反馈装置中,聚合模块1110包括标签关联单元1116、匹配度单元1117和集合生成单元1113。

标签关联单元1116设置为获取所述关键词与来源文档的关联关系,及所述来源文档的标签信息。

匹配度单元1117设置为基于所述关联关系获取所述关键词与所述标签信息之间的匹配度。在一个实施例中,匹配度单元1117设置为基于所述关联关系确定所述关键词与所述来源文档之间的权重,并根据所述权重以及与所述来源文档对应的标签信息,计算所述关键词与所述标签信息的熵值。

集合生成单元1113设置为根据匹配度单元1117计算的匹配度,并基于所述匹配度与预设阈值的比较结果,使用所述关键词生成与所述标签信息对应的关键词集合。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。作为模块或单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现木公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

通过以上实施方式的描述,本领域的技术人员易于理解,上文描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。

例如,在一个示例实施方式中,还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可以实现上述任意一个实施例中所述方法的步骤。所述方法的具体步骤可参考前述实施例中的详细描述,此处不再赘述。所述计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

在另一个示例实施方式中,还提供一种计算设备,该设备可以是手机、平板电脑等移动终端,也可以是台式计算机、服务器等终端设备,本示例实施方式中对此不作限制。图15示出根据本公开示例实施方式中一种计算设备1500的示意图。例如,设备1500可以被提供为一移动终端。参照图15,设备1500包括处理组件1510,其进一步包括一个或多个处理器,以及由存储器1520所代表的存储器资源,用于存储可由处理组件1510的执行的指令,例如应用程序。存储器1520中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1510被配置为执行指令,以执行上述基于关键词聚合的查询反馈方法。该方法的步骤可参考前述方法实施例中的详细描述,此处不再赘述。

装置1500还可以包括一个电源组件1530被配置为执行装置1500的电源管理,一个有线或无线网络接口1540被配置为将装置1500连接到网络,和一个输入输出(i/o)接口1550。装置1500可以操作基于存储在存储器1520的操作系统,例如android、ios或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。

虽然已参照几个典型实施例描述了本公开,但应当理解,所用的术语是说明和示例性、而非限制性的术语。由于本公开能够以多种形式具体实施而不脱离申请的精神或实质,所以应当理解,上述实施例不限于任何前述的细节,而应在随附权利要求所限定的精神和范围内广泛地解释,因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1