点击模型生成方法和装置的制造方法

文档序号:9750835阅读:314来源:国知局
点击模型生成方法和装置的制造方法
【技术领域】
[0001] 本发明涉及搜索引擎领域,具体而言,涉及一种点击模型生成方法和装置。
【背景技术】
[0002] 在互联网领域中,对于提供搜索服务的网站而言,搜索引擎系统能够根据用户输 入的检索词来预测用户的点击行为。而这个过程中,点击模型起到了至关重要的作用。点击 模型是对用户点击行为的建模,根据用户的历史点击信息,对用户的信物和行为进行建模, 以对用户未来的点击行为进行预测,提高相关性。
[0003] 然而,发明人发现,由于使用互联网的用户存在地域差异,不同地域的用户的历史 点击行为也具有差异性,而现有搜索引擎中通常是利用用户行为来训练得到一个点击模 型,这样,导致通过运行点击模型得到的搜索结果不能准确地预测用户的点击行为。
[0004] 针对现有技术中通过运行点击模型得到的搜索结果不能准确地预测用户的点击 行为的问题,目前尚未提出有效的解决方案。

【发明内容】

[0005] 本发明实施例提供了一种点击模型生成方法和装置,以解决现有技术中通过运行 点击模型得到的搜索结果不能准确地预测用户的点击行为的技术问题。
[0006] 根据本发明实施例的一个方面,提供了一种点击模型生成方法,包括:分别获取预 先划分的多个地理区域的用户的历史点击信息,得到对应于多个地理区域的多个历史点击 信息集合;计算多个历史点击信息集合之间的历史点击信息的重叠率,重叠率用于表示多 个历史点击信息集合之间具有相同点击行为的比例;利用多个历史点击信息集合之间的历 史点击信息的重叠率来对多个地理区域进行聚类,得到多个区域类,其中,多个区域类中的 每一个区域类包括一个或者多个地理区域;以及分别生成对应于多个区域类的点击模型, 得到多个点击模型,多个点击模型与多个区域类一一对应。
[0007] 根据本发明实施例的另一方面,还提供了一种点击模型生成装置,包括:第一获取 单元,用于分别获取预先划分的多个地理区域的用户的历史点击信息,得到对应于多个地 理区域的多个历史点击信息集合;计算单元,用于计算多个历史点击信息集合之间的历史 点击信息的重叠率,重叠率用于表示所述多个历史点击信息集合之间具有相同点击行为的 比例;聚类单元,用于利用所述多个历史点击信息集合之间的历史点击信息的重叠率来对 所述多个地理区域进行聚类,得到多个区域类,其中,所述多个区域类中的每一个区域类包 括一个或者多个地理区域;以及生成单元,用于分别生成对应于所述多个区域类的点击模 型,得到多个点击模型,所述多个点击模型与所述多个区域类一一对应。
[0008] 根据本发明实施例,通过按照预先划分的多个地理区域对历史点击信息进行分 类,得到对应于多个地理区域的多个历史点击信息集合,并利用多个历史点击信息集合之 间的历史点击信息的重叠率来对多个地理区域进行聚类,得到多个区域类,分别生成对应 于多个区域类的点击模型,得到多个点击模型,其中,每个区域类对应一个点击模型,通过 建立的点击模型,可以按照地域差异性来预测用户的点击行为,从而可以根据用户的位置 信息准确地预测用户的点击行为,解决了现有技术中通过运行点击模型得到的搜索结果不 能准确地预测用户的点击行为的技术问题,达到了基于不同地理区域的点击模型准确地预 测用户的点击行为的效果。
【附图说明】
[0009] 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发 明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0010] 图1是根据本发明实施例的点击模型生成方法的流程图;
[0011] 图2是根据本发明实施例的一种可选的区域类的聚类流程图;
[0012] 图3是根据本发明实施例优选的点击模型生成方法的流程图;
[0013] 图4是根据本发明实施例的一种可选的模型参数优化流程图;
[0014] 图5是根据本发明实施例的一种可选的硬件环境的示意图;
[0015] 图6是根据本发明实施例的点击模型生成装置的示意图;以及
[0016] 图7是根据本发明实施例的一种可选的服务器的结构示意图。
【具体实施方式】
[0017] 为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的 附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是 本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术 人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范 围。
[0018] 需要说明的是,本发明的说明书和权利要求书及上述附图中的术语"第一"、"第 二"等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用 的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或 描述的那些以外的顺序实施。此外,术语"包括"和"具有"以及他们的任何变形,意图在于 覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限 于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产 品或设备固有的其它步骤或单元。
[0019] 实施例1
[0020] 根据本发明实施例,提供了一种点击模型生成方法,如图1所示,该方法包括:
[0021] 步骤S102,分别获取预先划分的多个地理区域的用户的历史点击信息,得到对应 于多个地理区域的多个历史点击信息集合。
[0022] 用户的历史点击信息为用户通过点击行为产生的数据信息。其中,用户的点击行 为包括但不限定于:用户的点击什么文档、点击发生的时间、文档当时的展现位置。上述行 为均可以通过数据的形式体现,例如,在用户的点击日志中存在用于反映上述行为特征的 数据信息。用户的历史点击信息可以是从用户的点击日志中获取。
[0023] 多个历史点击信息集合与多个地理区域一一对应。预先划分的多个地理区域可以 是行政区域,行政区域可以是以城市为粒度。多个历史点击信息集合中的每一个历史点击 信息集合中包括与其对应的地理区域的用户的历史点击信息。
[0024] 具体地,分别获取预先划分的多个地理区域的用户的历史点击信息,得到对应于 多个地理区域的多个历史点击信息集合可以是先获取用户的位置信息(例如精度与维 度),将用户对应到相应的地理区域中,然后再将获取各个地理区域的用户的历史点击信 息,得到每个地理区域对应的历史点击信息集合。
[0025] 步骤S104,计算多个历史点击信息集合之间的历史点击信息的重叠率,重叠率用 于表示多个历史点击信息集合之间具有相同点击行为的比例。
[0026] 由于一些不同地理区域之间,用户的点击行为会存在相似性,例如,在不同区域的 用户对于同一个检索词的输出结果,点击了相同的文档,这即为重叠,表示该不同区域的用 户具有相同的点击行为。当不同区域之间具有相同点击行为的比例即重叠率达到一定值 时,则表明该不同区域之间用户点击行为的相似度比较高。
[0027] 计算多个历史点击信息集合之间的历史点击信息的重叠率即计算多个历史点击 信息集合对应的多个地理区域之间的用户点击行为的重叠率。
[0028] 步骤S106,利用多个历史点击信息集合之间的历史点击信息的重叠率来对多个地 理区域进行聚类,得到多个区域类,其中,多个区域类中的每一个区域类包括一个或者多个 地理区域。
[0029] 聚类具体是指将物理或者抽象对象的集合分成由类似的对象组成的多个类的过 程。在本发明实施例中,利用多个历史点击信息集合之间的重叠率将多个地理区域进行聚 类,将具有用户点击行为相似性的地理区域合并到一个区域类中,当然,对于与其他地理区 域不存在相似性的地理区域,则单独放在一个区域类中。
[0030] 步骤S108,分别生成对应于多个区域类的点击模型,得到多个点击模型,多个点击 模型与多个区域类 对应。
[0031] 在聚类得到多个区域类之后,利用每个区域类中用户的历史点击信息来生成点击 模型。其中,每个区域类中用户的历史点击信息是由该区域类中的一个或者多个地理区域 对应的历史点击信息集合得到。
[0032] 根据本发明实施例,通过按照预先划分的多个地理区域对历史点击信息进行分 类,得到对应于多个地理区域的多个历史点击信息集合,并利用多个历史点击信息集合之 间的历史点击信息的重叠率来对多个地理区域进行聚类,得到多个区域类,分别生成对应 于多个区域类的点击模型,得到多个点击模型,其中,每个区域类对应一个点击模型,通过 建立的点击模型,可以按照地域差异性来预测用户的点击行为,从而可以根据用户的位置 信息准确地预测用户的点击行为,解决了现有技术中通过运行点击模型得到的搜索结果不 能准确地预测用户的点击行为的技术问题,达到了基于不同地理区域的点击模型准确地预 测用户的点击行为的效果。
[0033] 下面通过本发明实施例的点击模型生成方法的应用场景来对本发明实施例进行 描述。如表1所示:
[0034] 表 1
[0035]
[0036] 预先划分的地理区域包括:地理区域
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1