点击模型生成方法和装置的制造方法_2

文档序号：9750835阅读：来源：国知局

a、地理区域b、地理区域c、地理区域d、地理区域e和地理区域f，按照该地理区域对获取到的历史点击信息进行划分，依次得到历史点击信息集合A、历史点击信息集合B、历史点击信息集合C、历史点击信息集合D、历史点击信息集合E和历史点击信息集合F。
[0037] 通过计算历史点击信息集合A、历史点击信息集合B、历史点击信息集合C、历史点击信息集合D、历史点击信息集合E和历史点击信息集合F之间的重叠率，确定地理区域a 和地理区域b之间用户点击行为的相似度较高，地理区域c、地理区域d和地理区域e之间用户点击行为的相似度较高，则将地理区域a和地理区域b进行聚类，得到区域类X，对地理区域c、地理区域d和地理区域e进行聚类，得到区域类Y，地理区域f则单独作为一个区域类Z。
[0038] 根据区域类X对应的历史点击信息集合A和历史点击信息集合B生成点击模型X，根据区域类Y对应的历史点击信息集合C、历史点击信息集合D和历史点击信息集合E生成点击模型y，根据区域类Z对应的历史点击信息集合F生成点击集合z。这样，当用户处于地理区域a或者b时，根据该用户的检索词，可以通过运行点击模型X来输出搜索结果，从而使得搜索结果满足在区域类X中所具有的特征，例如，当北京和天津划分到一个区域类中，而在该区域中，当用户输入检索词"包子"时，通常比较喜欢点击"狗不理包子"。那么，通过采用本发明实施例的点击模型的生成方法之后，当其他用户来到北京或者天津时，想关注一下北京或者天津的包子的情况，在输入检索词"包子"时，则运行北京和天津所在的区域类的点击模型，使得"狗不理包子"处于比较靠前的位置，从而避免出现"上海小笼包"的顺序比"狗不理包子"的顺序靠前的情况。
[0039] 优选地，利用多个历史点击信息集合之间的历史点击信息的重叠率来对多个地理区域进行聚类，得到多个区域类包括：判断重叠率是否超过预设阈值；以及将多个历史点击信息集合中重叠率超过预设阈值的历史点击信息集合对应的地理区域合并，得到多个区域类。
[0040] 由于不同地理区域对应的历史点击信息集合或多或少都会有一定的重叠率，当重叠率较低时，可以认为重叠率低的地理区域之间的用户的点击行为相似性较低；当重叠率达到预设阈值即重叠率较高时，可以认为重叠率高的地理区域之间的用户的点击行为的相似性较高，这类情况下，可以将重叠率高的地理区域合并，最终得到多个区域类。其中，预设阈值可以通过预先设置。
[0041] 具体地，如表1所示，计算多个历史点击信息集合的历史点击信息的重叠率可以是先对历史点击信息集合A、历史点击信息集合B、历史点击信息集合C、历史点击信息集合 D、历史点击信息集合E和历史点击信息集合F中两两之间进行重叠率计算，例如，分别计算历史点击信息集合A与历史点击信息集合B、历史点击信息集合C、历史点击信息集合D、历史点击信息集合E、历史点击信息集合F之间的重叠率，分别计算历史点击信息集合B与历史点击信息集合C、历史点击信息集合D、历史点击信息集合E之间的重叠率，以此类推，直到计算出任意两个集合之间的重叠率，将重叠率超过预设阈值的地理区域合并，得到区域类X (包括地理区域a和地理区域b)、区域类Y (包括地理区域c、地理区域d和地理区域e) 和区域类Z(包括地理区域z)。
[0042] 可选地，本发明实施例可以采用如图2所示的方式来建立点击模型：
[0043] 第一步：按区域分类。根据用户的位置信息（一般是经度与纬度），将用户对应到相应的行政区域（即地理区域）上（一般用城市作为最小的行政区域）。如图2所示，用户包括用户1、用户2、用户3、用户4、用户5,区域包括区域1、区域2和区域3。按照区域将用户分类，其中，用户1、用户2被分到区域1中，用户3、用户4被分到区域2中，用户5分到区域3中。
[0044] 第二步：将行政区域做聚类，将具有相似性的行政区域聚合为一类。判断相似性是以用户点击行为的重叠率为依据，例如在搜索"美容"时，发现在区域1的用户与区域2的用户都喜欢点某一个文档，这个含义就叫重叠，当在很多查询词上两个区域都有重叠率很高时就认为他们是相似的。例如，区域2和区域3之间相似，则将区域2和区域3合合并到类别2里，区域1单独作为一个类别1。
[0045] 第三步：分别建立点击模型。对各个类别下得用户集合，收集他们的行为特征（包含并不限于：用户的点击什么文档，点击发生的时间，文档当时的展现位置），建立点击模型。如图2所示，类别1建立点击模型1，类别2建立电点击模型2。在这基础上建立点击模型，通过模型能够计算出查询词和文档的相关度得分，利用该得分影响最终的排序。
[0046] 优选地，在分别生成对应于多个区域类的点击模型，得到多个点击模型之后，点击模型生成方法还包括：获取预先生成的多组模型参数，多组模型参数为多个点击模型中目标点击模型的参数；分别利用多组模型参数运行目标点击模型，得到运行结果，运行结果包括用于反映运行目标点击模型得到的结果的质量值；以及从运行结果中选择质量值最高的模型参数作为目标点击模型的参数。
[0047]目标点击模型可以是生成的多个点击模型中的任意一个点击模型，多组模型参数可以是按照预设方式生成的参数，例如，根据点击模型的特征之间的权重生成的，或者是随机生成的参数。每一个点击模型都对应有其参数，该参数可以用于参与计算检索词与搜索结果的相关度得分，从而影响最终的搜索结果排序。因此模型参数的优化能够提高点击模型对用户的点击行为的准确性。
[0048] 在获取到多组模型参数之后，分别利用该多组模型参数运行目标点击模型，得到运行结果，该运行结果包括用于反映运行目标点击模型得到的结果的质量值，例如DCG(英文全称是Discounted cumulative gain,它是一个衡量搜索引擎算法的指标）的值。每一组模型参数对应一个质量值，质量值用于衡量点击模型运行结果的优劣，质量值越高，表明结果越优。因此，从运行结果中选择质量值最高的模型参数作为目标点击模型的参数，从而实现对目标点击模型的参数优化，提高了点击模型的质量。
[0049] 优选地，从运行结果中选择质量值最高的模型参数作为目标点击模型的参数包括：从运行结果中选择质量值最高的模型参数；生成与选择的模型参数对应的邻近参数，邻近参数为根据选择的模型参数生成的所述目标点击模型的参数；利用邻近参数运行目标点击模型，得到邻近参数对应的质量值；将邻近参数对应的质量值插入到运行结果；以及从运行结果中选择质量值最高的模型参数作为目标点击模型的参数。
[0050] 从运行结果中选择质量值最高的模型参数可以是将运行结果中的质量值进行按照大小（从大到小或者从小到大）进行排序，得到质量值队列，从队列的质量值中选择质量值最高（头部或者尾部），然后查找到与该质量值对应的模型参数。
[0051] 选择的模型参数即质量值最高的模型参数，生成与该模型参数对应的邻近参数，该邻近参数可以是与质量值最高的模型参数比较接近的参数。可以根据预设设置的公式计算得到该邻近参数，该邻近参数中每个值与其在质量值最高的模型参数中对应的值相差较小。例如，当质量值最高的模型参数为（0.3,0.3,0. 4)，则该模型参数的邻近参数可以是 (0. 25,0. 35,0. 45) 〇
[0052] 在生成邻近参数之后，利用邻近参数运行目标点击模型，得到该邻近参数对应的治理那个值，然后将该质量值插入到利用多组模型参数运行目标点击模型的运行结果中，由于邻近参数相当于是原来运行结果中质量值最高的模型参数的微调，因此，利用该邻近参数运行目标点击模型得到的质量值与原来运行结果中质量值最高的模型参数对应的质量值相差很小，这样，当将邻近参数对应的质量值插入到原来的运行结果中后，该运行结果中质量值最高的模型参数可能会发生变化，从中选择质量值最高的模型参数作为目标点击模型最终的模型参数，从而达到进一步优化目标点击模型的参数的目的。
[0053] 图3是根据本发明实施例优选的点击模型生成方法。
[0054] 如图3所示，该方法包括：
[0055] 步骤S302,分别获取预先划分的多个地理区域的用户的历史点击信息，得到对应于多个地理区域的多个历史点击信息集合。
[0056] 步骤S304,计算多个历史点击信息集合之间的历史点击信息的重叠率，重叠率用于表示多个历史点击信息集合之间具有相同点击行为的比例。
[0057] 步骤S306,利用多个历史点击信息集合之间的历史点击信息的重叠率来对多个地理区域进行聚类，得到多个区域类，其中，多个区域类中的每一个区域类包括一个或者多个地理区域。
[0058] 步骤S308,分别生成对应于多个区域类的点击模型，得到多个点击模型，多个点击模型与多个区域类对应。
[0059] 步骤S310,获取预先生成的多组模型参数，多组模型参数为多个点击模型中目标点击模型的参数。
[0060] 步骤S312,分别利用多组模型参数运行目标点击模型，得到运行结果，运行结果包括用于反映运行目标点击模型得到的结果的质量值。
[0061] 步骤S314,从运行结果中选择质量值最高的模型参数。

完整全部详细技术资料下载

当前第2页1 2 3 4 5