广告系统中的搜索方法和装置的制作方法

文档序号:6429208阅读:121来源:国知局
专利名称:广告系统中的搜索方法和装置的制作方法
技术领域
本发明涉及搜索技术领域,特别涉及广告系统中的搜索方法和装置。
背景技术
为方便理解,首先给出如下几个术语的解释检索串(query):搜索引擎用户提交的检索字符串;关键词(keyword):其可称为拍卖词,同一个拍卖词可被多个客户购买为不同的关键词;广告除非特别说明,一条广告特指页面可展现的含有广告创意及关键词的一条 推广结果;广告创意按照客户投放意愿和业务规则而得到实际展现的“推广结果”,包括广告标题、广告描述第一行、广告描述第二行、目标URL、显不URL等信息。竞价价格为单个关键词设定的最高竞价出价,点击价格不会超过该价格;匹配类型query与广告主购买的关键词之间的匹配选项,它决定了哪些搜索查询可以触发广告展示。广告主可以为购买的关键词指定匹配选项,以控制自己广告的展示对象。各广告系统中的帮助定义可能有所差别,以google广告系统中的匹配选项为例,设置了如下类型广泛匹配(基于会话)根据用户在搜索会话中进行过的搜索操作,将query视为广告主购买的某个关键词的变体形式。完全匹配query与广告主购买的某个关键字完全匹配。词组匹配query包含在广告主购买的某个关键词中。检索串分析(qa :query analysis):离线对query分析,扩展出关键词。qa词表qa系统离线针对搜索引擎历史上的高频query,挖掘出来的关键词扩展词表。词表结构分为“左键”和“右键”,其中,左键”是高频query,“右键”是高频query对应的关键词。检索串扩展(qe query expansion):以query为研究对象,利用query间关联关系,或根据统计经验对query做各种变化(增、删、改),得到扩展query (也即新query)的方法。检索串检索量(qv query view) query向搜索引擎发送的检索请求次数,即广告
检索量。广告展现检索量(AdMatchedQueries):有广告展现的检索次数。消耗(Cost):广告点击产生的总消耗(实际计费)。千次检索消耗(RPM):消耗/(广告检索量X 1000)。广告展现量(Adlmpressions):展现的广告总数(包括重复展现)。广告曝光数(UniShownCreatives):至少展现过一次的广告总数。点击量(AdClicks):广告被点击的总次数(实际计费)。
广告点击率(AdCtr):点击量/广告展现量。覆盖率(Coverage):广告展现检索量/广告检索量。传统的搜索广告匹配系统是基于用户提交的query进行实时匹配检索,具体为根据广告主设置的匹配类型找到与query对应的关键词,该匹配类型可为上述的任一匹配类型,比如,可为广泛匹配、完全匹配、或词组匹配;并针对query进行切词、规范化处理后,按照一定的数据结构检索与该找到的关键词对应的广告信息。随着广告搜索技术的不断改进,传统的在线实时匹配越来越趋向于整合一些离线的技术。在近几年的发展中,一种离线挖掘query的扩展资源已经进入匹配系统,具体如图I所示。其中,离线挖掘query的扩展资源具体为针对搜索系统历史检索的高频query, 使用如图I所示的检索日志、qa系统、上下文关系等方法找到这部分高频query与关键词(keyword)的映射关系,形成qa词表。基于此,利用图I所示的结构进行的广告检索方法如下当用户提供的query进入匹配系统后,首先会去查qa词表,如果命中,则直接使用找到的关键词去拉取广告,继续后面的竞价排名流程;如果没有命中,则通过特征匹配,索引到与这个query相似度最高的扩展query作为代替,使用扩展query对应的关键词来拉取广告。扩展query是对query做各种等价的扩展、变形得到的。通过查qa词表,并在命中时直接使用离线找到的关键词去拉取广告,能够有效补充检索系统中高频query匹配关键词的数量;而不命中时,则表明用户提供的query为长尾query (不被经常使用的query),通过使用扩展query对应的关键词拉取广告,这是针对长尾query的一种有效处理办法。在上述方法中,通过离线挖掘出来的qa词表,理论上qv占比能达到75%,甚至更多,但是实际应用中,实际效果严重依赖于挖掘出来的与query关联的关键词的质量,以及关键词的实时有效性情况,通过匹配系统统计结果表明实际的qv占比远低于理论值。此外,上述方法中对长尾query的处理,虽然能够建立起与分析过的高频query的联系,但是由于很难保证扩展query的质量,往往找到的关联query在语义上会发生偏离,进而利用该语义发生偏离的query找到的关键词也发生偏离,最终匹配出相关性不好的广
生口 ο

发明内容
本发明提供了广告系统中的搜索方法和装置,以提高离线挖掘的关键词的质量和数量。本发明提供的技术方案包括一种广告系统中的搜索方法,该方法包括对广告库中的关键词进行聚类,得到关键词聚类集合;在qa词表中查找接收的query ;如果在qa词表中查找不到所述query,则在所述关键词聚类集合中匹配出与所述query对应的关键词,利用匹配出的关键词拉取对应的广告信息。。一种广告系统中的搜索方法,该方法包括
建立包含以下对应关系的qa词表query、关键词、与该关键词具有聚类关系的关键词三者之间的对应关系;在所述qa词表中匹配出与接收的query对应的所有关键词,利用匹配出的关键词拉取对应的广告信息。一种广告系统中的搜索装置,其特征在于,该装置应用于上述的第一种方法,包括聚类单元,用于对广告库中的关键词进行聚类,得到关键词聚类集合;查找单元,用于在query分析qa词表中查找接收的query ;匹配单元,用于在所述查找单元的查找结果为否时,在关键词聚类集合中匹配出与所述query对应的关键词,利用匹配出的关键词拉取对应的广告信息。
一种广告系统中的搜索装置,该装置应用于上述的第二种方法,包括建立单元,用于建立包含以下对应关系的qa词表query、关键词、与该关键词具有聚类关系的关键词三者之间的对应关系;匹配单元,用于在所述qa词表中匹配出与接收的query对应的所有关键词,利用匹配出的关键词拉取对应的广告信息。由以上技术方案可以看出,本发明提供的第一种方法,如果在qa词表中查找不到接收的query,通过在对广告库中的关键词进行聚类得到的关键词聚类集合中匹配出与所述query对应的关键词,利用匹配出的关键词拉取对应的广告信息,由于关键词聚类集合中的关键词存在关联关系,该第一种方法通过在该关键词聚类集合中匹配出与接收的query对应的关键词,这提高了离线挖掘的关键词质量和数量,并强化了对长尾query的多粒度扩展;还有,本发明提供的第二种方法,通过对现有的qa词表进行优化,使优化后的qa词表包含query、关键词、与该关键词具有聚类关系的关键词二者之间的对应关系,这样,在接收到用户提供的query时,直接在所述qa词表中匹配出与接收的query对应的所有关键词,这显然提高了离线挖掘的关键词质量和数量;进一步地,本发明提供的上述两种方法中,由于提高了离线挖掘的关键词质量和数量,能够进一步提升广告点击率、收益、广告覆盖率等指标,同时增加了以前未展示的广告的曝光机会,加强了广告间竞价的激烈程度。


图I为现有技术中比较常见的一种搜索广告匹配系统结构图;图2为本发明实施例提供的基本流程图;图3为本发明实施例提供的对应图2的系统结构图;图4为本发明实施例提供的步骤202中匹配操作的实现流程图;图5为本发明实施例提供的装置结构图;图6为本发明实施例提供的另一装置结构图。
具体实施例方式为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。针对现有技术存在的缺陷,本发明通过在实时匹配过程中引入关键词聚类扩展,可以增加以前未展示广告的曝光机会、强化对长尾query的多粒度扩展、加强有展示广告间竞价的激烈程度,从而综合提升广告展现检索覆盖率、千次检索收益等指标,最终带来收入的提高。下面通过图2对本发明提供的方法进行描述参见图2,图2为本发明实施例提供的方法流程图。在图2中,需要对对广告库中的关键词进行聚类,得到关键词聚类集合。下面先对广告库中的关键词聚类进行描述通常,同一广告主、同一广告系列中的关键词之间往往存在一定的相关性,而不同广告主在针对自己广告优化关键词出价时,除了考虑价格因素,还会选择与现有质量较高的关键词相似的其他关键词,以降低成本。因此,可以看出,广告库中的关键词天然地存在着关联关系。基于此,可以将广告库中一些相似或相关的关键词聚类在一起。其中,在执行聚类时,可以依据字面上相关的文本特征,比如,宝马与宝马汽车,也可以依据表达同一意思上的语义特征,比如,个人电脑与PC,或者两者的结合等,本发明并不具体限定。 本发明中,如果把关键词看作一个节点,关键词之间有等价或聚类关系看作一条边,那么关键词聚类集合将构成一个有向图。在实际的匹配系统中,如果关键词聚类集合以map词表形式表现,则它的“左键”是关键词本身,对应的“右键”是与这个关键词具有聚类关系的其他关键词序列。本发明对广告库中的关键词进行聚类,原因是由于关键词需要广告主购买,商业性比较强,另外,相对用户每日检索的query集合,规模变化不大,很适合使用各种挖掘方法对它们建立起聚类关系。至此,完成对广告库中的关键词进行聚类的描述。基于上文的描述,下面结合图2对本发明提供的方法进行描述如图2所示,该流程可包括以下步骤步骤201,在qa词表中查找接收的query。这里的qa词表与现有技术中的qa词表类似,包含了搜索中高频出现的query比如在某一个统计时间内经常被用户使用的query和关键词之间的对应关系。步骤202,如果在qa词表中查找不到所述query,则在所述关键词聚类集合中匹配出与所述query对应的关键词,利用匹配出的关键词拉取对应的广告信息。至此,完成图2的描述。优选地,本发明中,如果在qa词表中查找到所述query,则利用该query对应的关键词拉取对应的广告信息。为便于理解,图2所示的流程可通过图3具体描述。从图3可以看出,相比于图I所示的现有搜索流程,本发明并不改变现有的搜索广告流程,只不过增加了对未命中qa词表中高频出现的query的处理。以关键词聚类集合为map词表形式表现为例,则步骤202是匹配上了“左键”,这可有效地直接补充很多具有聚类关系的关键词。在上面描述中,步骤202中的在关键词聚类集合中匹配出与query对应的关键词具体实现时可通过图4所示的流程体现。参见图4,图4为本发明提供的步骤202中匹配操作的流程图。如图4所示,该流程可包括
步骤401,在关键词聚类集合中匹配与所述query完全相同的关键词,得到匹配出的关键词、以及与该关键词具有聚类关系的关键词。步骤402,判断得到的关键词是否满足预设的关键词确定条件,如果是,执行步骤403,否则,执行步骤404 ;在上面描述的步骤402中,预设的关键词确定条件具体实现时可有多种实现方式,比如,得到的关键词达到设定数量,或者该得到的关键词对应拉取出来的广告按广告主排重后是否达到设定数量(往往多个关键词都是一个广告主买的,所以要做排重)等,本发明并不具体限定,完全可由实际情况设置。步骤403,将得到的关键词确定为所述query对应的关键词。结束当前流程。优选地,作为本实施例的一种扩展,也可在步骤401得到关键词后,直接将得到的
关键词确定为所述query对应的关键词,结束当前流程,省略步骤401之后的各个步骤。步骤404,将得到的关键词作为第一关键词,并按照优先级顺序选取query的一个子集,将选取的子集作为当前子集。步骤405,在关键词聚类集合中匹配与当前子集完全相同的关键词,得到匹配出的关键词、以及与该关键词具有聚类关系的关键词,将得到的关键词与第一类关键词一起确定为第二关键词。步骤406,判断第二关键词是否满足所述预设的关键词确定条件,如果是,执行步骤407,否则,执行步骤408。步骤407,将第二关键词确定为所述query对应的关键词。结束当前流程。步骤408,当还存在未被选取的query的子集时,按照优先级顺序继续选取一个与当前子集不同的子集,将该选取的子集作为当前子集,并将第二关键词重新确定为第一关键词,返回上述步骤405,当不存在未被选取的query子集时,返回上述步骤407。至此,完成图4的描述。通过图4可以实现在关键词聚类集合中匹配出与query对应的关键词。优选地,作为本发明实施例的一种扩展,在关键词聚类集合中匹配出与query对应的关键词,可以是多层次、多粒度的,不局限于直接使用query去完全匹配关键词聚类集合,还可以使用多模式的匹配技术,例如首先利用预先定义的匹配选项匹配出所述query对应的关键词;按照匹配出的关键词的优先级顺序从关键词聚类集合中找到与该匹配出的关键词具有聚类关系的关键词,将该查找到的关键词,以及匹配出的关键词确定为与query对应的关键词。其中,预先定义的匹配选项可为词组匹配或广泛匹配。这样能最大限度地保证通过聚类补充的关键词与query之间的相关性,也是对关键词聚类集合的充分利用,同时能有效减小广告点击率等相关指标的波动。另外,这还避免了 query检索不出关键词(广告)的机会,并有效增强了匹配出的关键词之间竞价的激烈程度,从而帮助广告主实现合理的预算支出,也提高了服务商的利润。需要说明的是,在实际使用关键词聚类集合时,广告主为节约成本,可设置其购买的关键词的日使用额度,当该关键词的费用超过日使用额度时,该关键词变为无效,而本发明中,无需关注关键词聚类集合中的关键词是当前有效还是无效,因为无效的关键词可能扩展出其他有效的关键词,从而带来广告展示。最后,还需要说明的是,本发明中,还可以使用购买词聚类资源对qa词表进行优化(记为优化方法),从而补充对高频query的扩展结果,具体为建立包含以下对应关系的qa词表query、关键词、与该关键词具有聚类关系的关键词二者之间的对应关系;qa词表中的query在搜索中高频出现,可以看出,该优化方法中,对现有的qa词表进行了改进,增加聚类关键词。基于此,当接收到用户提供的query时,在已建立的qa词表中匹配出与接收的query对应的所有关键词,利用匹配出的关键词拉取对应的广告信息。该优化方法与图2所示的方法一样,能够有效增强广告间竞价的激烈程度,增加广告的曝光机会,提升指标,最终表现为闻频query的收入提闻。至此,完成本发明提供的方法的描述。下面对本发明提供的装置进行描述参见图5,图5为本发明实施例提供的装置结构图。如图5所示,该装置可包括聚类单元,用于对广告库中的关键词进行聚类,得到关键词聚类集合;·
查找单元,用于在qa词表中查找接收的query ;匹配单元,用于在所述查找单元的查找结果为否时,在关键词聚类集合中匹配出与所述query对应的关键词,利用匹配出的关键词拉取对应的广告信息。优选地,如图5所示,该装置进一步包括处理单元,用于在所述查找单元的查找结果为是时,利用该query对应的关键词拉取对应的广告信息。其中,所述匹配单元在具体实现时有两种实现方式,其中一种实现方式为该匹配单元包括第一匹配子单元,用于在关键词聚类集合中匹配与所述query完全相同的关键词,得到匹配出的关键词、以及与该匹配出的关键词具有聚类关系的关键词;第一确定子单元,用于将所述第一匹配子单元得到的关键词确定为所述query对应的关键词。其中,所述第一确定子单元包括第一判断模块,用于判断得到的关键词是否满足预设的关键词确定条件,如果是,则将得到的关键词确定为所述query对应的关键词;选取模块,用于在所述第一判断模块的判断结果为否时,将得到的关键词作为第一关键词,将query的一个子集作为当前子集;匹配模块,用于在关键词聚类集合中匹配出与当前子集完全相同的关键词、以及与该匹配出的关键词具有聚类关系的关键词,将得到的关键词与第一类关键词一起确定为第二关键词;第二判断模块,用于判断第二关键词是否满足预设的关键词确定条件,如果是,则将第二关键词确定为query对应的关键词,如果否,则当query存在未被选取的子集时,选取一个与当前子集不同的子集,将该选取的子集作为当前子集,并将第二关键词重新确定为第一关键词,触发所述匹配模块执行匹配操作,当query不存在未被选取的子集时,将第二关键词确定为所述检索串对应的关键词。另一种实现形式为该匹配单元包括第二匹配子单元,利用预先定义的匹配选项匹配出所述query对应的关键词,所述匹配选项为词组匹配或广泛匹配;第二确定子单元,用于将匹配出的关键词,以及关键词聚类集合中与该匹配出的关键词具有聚类关系的关键词确定为与query对应的关键词。优选地,本发明实施例还提供了另一装置,该替换装置应用于上述的优化方法,具体如图6所示,包括建立单元,用于建立包含以下对应关系的query分析qa词表query、关键词、与该关键词具有聚类关系的关键词三者之间的对应关系;匹配单元,用于在已建立的qa词表中匹配出与接收的query对应的所有关键词,利用匹配出的关键词拉取对应的广告信息。至此,完成本发明实施例提供的装置的描述。
由以上技术方案可以看出,本发明提供的一种方法中,如果在qa词表中查找不到接收的query,则在通过对广告库中的关键词进行聚类得到的关键词聚类集合中匹配出与所述query对应的关键词,利用匹配出的关键词拉取对应的广告信息,这显然提高离线挖掘的关键词质量和数量,并强化对长尾query的多粒度扩展;为进一步验证效果,对真实的广告匹配系统引入关键词聚类前后做了对比实验,统计结果表明,本发明引入关键词聚类的方法能够明显提升搜索引擎结果页的广告展示数,增加覆盖率,并且提升整体广告相关性;进一步地,本发明提供的一种方法将广告库中的关键词通过聚类方法聚合在一起,整合进搜索广告匹配流程,丰富了匹配算法和检索策略;还有,本发明提供的另一种方法通过对现有的qa词表进行优化,使优化后的qa词表包含query、关键词、与该关键词具有聚类关系的关键词三者之间的对应关系,这样,在接收到用户提供的query时,直接在所述qa词表中匹配出与接收的query对应的所有关键词,这显然提高了离线挖掘的关键词质量和数量;进一步地,本发明提供的上述两种方法中,由于提高了离线挖掘的关键词质量和数量,能够进一步提升广告点击率、收益、广告覆盖率等指标,同时增加了以前未展示的广告的曝光机会,加强了广告间竞价的激烈程度。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
权利要求
1.一种广告系统中的搜索方法,其特征在于,该方法包括 对广告库中的关键词进行聚类,得到关键词聚类集合; 在检索串分析qa词表中查找接收的检索串; 如果在qa词表中查找不到所述检索串,则在所述关键词聚类集合中匹配出与所述检索串对应的关键词,利用匹配出的关键词拉取对应的广告信息。
2.根据权利要求I所述的方法,其特征在于,该方法进一步包括 如果在qa词表中查找到所述检索串,则利用该检索串对应的关键词拉取对应的广告信息。
3.根据权利要求I所述的方法,其特征在于,所述在关键词聚类集合中匹配出与检索串对应的关键词包括 在关键词聚类集合中匹配与所述检索串完全相同的关键词,得到匹配出的关键词、以及与该匹配出的关键词具有聚类关系的关键词,将该得到的关键词确定为所述检索串对应的关键词。
4.根据权利要求3所述的方法,其特征在于,所述将得到的关键词确定为所述检索串对应的关键词包括 步骤A,判断得到的关键词是否满足预设的关键词确定条件,如果是,则将得到的关键词确定为所述检索串对应的关键词;如果否,则将得到的关键词作为第一关键词,将检索串的一个子集作为当前子集,并执行步骤B ; 步骤B,在关键词聚类集合中匹配出与当前子集完全相同的关键词,以及与该匹配出的关键词具有聚类关系的关键词,将得到的关键词与第一类关键词一起确定为第二关键词; 步骤C,判断第二关键词是否满足预设的关键词确定条件,如果是,则将第二关键词确定为所述检索串对应的关键词,如果否,则当检索串存在未被选取的子集时,选取一个与当前子集不同的子集,将该选取的子集作为当前子集,并将第二关键词重新确定为第一关键词,返回步骤B,,当检索串不存在未被选取的子集时,将第二关键词确定为所述检索串对应的关键词。
5.根据权利要求I所述的方法,其特征在于,所述在关键词聚类集合中匹配出与检索串对应的关键词包括 利用预先定义的匹配选项匹配出所述检索串对应的关键词,所述匹配选项为词组匹配或广泛匹配; 将匹配出的关键词,以及关键词聚类集合中与该匹配出的关键词具有聚类关系的关键词确定为与检索串对应的关键词。
6.一种广告系统中的搜索方法,其特征在于,该方法包括 建立包含以下对应关系的检索串分析qa词表检索串、关键词、与该关键词具有聚类关系的关键词三者之间的对应关系; 在所述qa词表中匹配出与接收的检索串对应的所有关键词,利用匹配出的关键词拉取对应的广告信息。
7.一种广告系统中的搜索装置,其特征在于,该装置应用于如权利要求I所述的方法,包括 聚类单元,用于对广告库中的关键词进行聚类,得到关键词聚类集合;查找单元,用于在检索串分析qa词表中查找接收的检索串; 匹配单元,用于在所述查找单元的查找结果为否时,在关键词聚类集合中匹配出与所述检索串对应的关键词,利用匹配出的关键词拉取对应的广告信息。
8.根据权利要求7所述的装置,其特征在于,该装置进一步包括 处理单元,用于在所述查找单元的查找结果为是时,利用该检索串对应的关键词拉取对应的广告信息。
9.根据权利要求7所述的装置,其特征在于,所述匹配单元包括 第一匹配子单元,用于在关键词聚类集合中匹配与所述检索串完全相同的关键词,得到匹配出的关键词、以及与该匹配出的关键词具有聚类关系的关键词; 第一确定子单元,用于将所述第一匹配子单元得到的关键词确定为所述检索串对应的关键词。
10.根据权利要求9所述的装置,其特征在于,所述第一确定子单元包括 第一判断模块,用于判断得到的关键词是否满足预设的关键词确定条件,如果是,则将得到的关键词确定为所述检索串对应的关键词; 选取模块,用于在所述第一判断模块的判断结果为否时,将得到的关键词作为第一关键词,将检索串的一个子集作为当前子集; 匹配模块,用于在关键词聚类集合中匹配出与当前子集完全相同的关键词、以及与该匹配出的关键词具有聚类关系的关键词,将得到的关键词与第一类关键词一起确定为第二关键词; 第二判断模块,用于判断第二关键词是否满足预设的关键词确定条件,如果是,则将第二关键词确定为所述检索串对应的关键词,如果否,则当检索串存在未被选取的子集时,选取一个与当前子集不同的子集,将该选取的子集作为当前子集,并将第二关键词重新确定为第一关键词,触发所述匹配模块执行匹配操作,当检索串不存在未被选取的子集时,将第二关键词确定为所述检索串对应的关键词。
11.根据权利要求7所述的方法,其特征在于,所述匹配单元包括 第二匹配子单元,利用预先定义的匹配选项匹配出所述检索串对应的关键词,所述匹配选项为词组匹配或广泛匹配; 第二确定子单元,用于将匹配出的关键词,以及关键词聚类集合中与该匹配出的关键词具有聚类关系的关键词确定为与检索串对应的关键词。
12.—种广告系统中的搜索装置,其特征在于,该装置应用于如权利要求6所述的方法,包括 建立单兀,用于建立包含以下对应关系的检索串分析qa词表检索串、关键词、与该关键词具有聚类关系的关键词三者之间的对应关系; 匹配单元,用于在所述qa词表中匹配出与接收的检索串对应的所有关键词,利用匹配出的关键词拉取对应的广告信息。
全文摘要
本发明提供了广告系统中的搜索方法和装置。其中一种方法中,对广告库中的关键词进行聚类,得到关键词聚类集合;在检索串分析qa词表中查找接收的检索串;如果在qa词表中查找不到所述检索串,则在所述关键词聚类集合中匹配出与所述检索串对应的关键词,利用匹配出的关键词拉取对应的广告信息。
文档编号G06F17/30GK102902671SQ20111020856
公开日2013年1月30日 申请日期2011年7月25日 优先权日2011年7月25日
发明者赫南, 王迪, 王艳敏, 郭阳, 朱建朋 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1