基于用户需求的用户档案创建、个性化搜索排名方法和系统的制作方法_2

文档序号：9911204阅读：来源：国知局

型，初始结果只考虑和搜索词的关系，并不考虑用户偏好，它是为所有用户提供统一的结果。
[0041] 然后，记录用户收到初始页面排名结果后的操作行为。该操作行为包括用户针对各个页面的点击次数和逗留时间。
[0042] 表1示出了在一个例子中的搜索引擎针对搜索词"模型"所返回的初始页面排名结果。返回页面中包括军事模型、玩具模型、动画模型等多种内容，用户逗留时间依次分别为 Os,20s,10s,15s,2s,5s,4s,5s,2s, Is〇
[0043]表 1 [00441
[0045] 二、自适应用户档案创建步骤
[0046] 本步骤主要是基于信息检索步骤所积累的数据，为每个用户构建自适应用户档案。该用户档案中记录该用户在页面排名结果后的历史操作行为，及所点击页面的多元页面特征。
[0047] 所述自适应用户档案创建步骤包括下列子步骤：
[0048]步骤201:从信息检索步骤的结果中提取用户行为特征和页面特征。
[0049] 本步骤中，为了适应用户多样的偏好和需求，需要提取用户行为特征和页面特征。其中，用户行为特征就是信息检索步骤所记录的用户收到初始页面排名结果后的操作行为。该操作行为包括用户针对各个页面的点击次数和逗留时间。
[0050] 页面特征是指页面的多元特征，这些特征包括：页面中各类HMTL标签各自的出现频次，可读性等级和字符数，以及页面数据量。其中，各类HMTL标签各自的出现频次能够反映页面的布局，可读性等级和字符数能够直接反映用户的阅读难度，页面数据量可以间接反应多媒体资源的数量以及页面加载时间等信息，上述这些特征都与用户偏好相关。例如，有些用户偏好长且难的内容，而这样的内容可以由页面的字符数和可读性等级这两个特征体现；有些用户喜好多媒体资源多的页面，这种页面可以由页面数据量和页面所包含的 HMTL标签类型(例如<meta>或者<img>等)及其出现频次来体现。
[0051]步骤202:提取页面多元特征后，将用户u点击过的页面构造成用户档案Du。用户档案Du中记录了用多元特征向量di= {fil，fi2, . . .，fim}表征的用户U点击过的每个文档di的信息。其中，f ik是页面di的第k个特征，m是特征的总数。
[0052]步骤203:为用户档案Du中的每个文档di附上用户偏好权重Wi。
[0053]由于用户偏好可能会不断地变化，因此，在一个实施例中，为了适应偏好的动态改变，在设置用户偏好权重Wi时考虑到了用户偏好的衰减。具体如下：
[0054] 在用户档案Du中，对于任一文档di，在时间窗口 t中，结合上一时间窗口的用户偏好权重wi(t_l)和当前（即当前时间窗口 t)的逗留权重&，最终计算出页面di的当前权重Wl(t)。根据本发明的一个实施例，页面在时间窗口 t的逗留权重计算方法如下。
[0055]
[0056] 这里丨表示用户在当前时间窗口 t下在页面di的逗留时间，maxWwell13)表示在时间窗口 t的最大逗留时间。
[0057] 进一步地，结合Wi(t_l)和ifV/g/":得到当前用户偏好权重wi(t)。
[0058]
[0059] 这里t-last表示自上次点击至当前的时间间隔，hi为衰减因子，它用于表示用户偏好的衰减速度。
[0060] 这样，最终的用户档案Du表示为Du= {(di，wi(t))，（d2，W2(t))，· · ·，（dn，wn(t))}，这里n是指用户u的用户档案Du中的页面个数。
[0061 ]三、个性化重排名步骤
[0062]本步骤主要是基于用户档案Du，对基于新的查询语句的初始页面排名结果进行个性化重排名。该个性化重排名步骤包括下列子步骤：
[0063]步骤301:计算初始页面排名结果中所返回的各个页面与用户档案Du中各个页面的相似度。
[0064]步骤302:对搜索引擎返回的任一页面山（下文中称为返回页面山），在用户档案中选择一组相关程度较高的页面作为参照，本文中把作为参照的这组页面称为页面组Dug。基于新的查询语句所得的返回页面可能是用户档案中没有的新页面，因此，为了使搜索结果满足用户的个性化需求，需要结合用户个人的用户档案，对比用户档案中页面特征和返回页面的特征相似程度。
[0065] 进一步地，由于用户档案中不同类型的页面的分布不均，如果页面组Dug中的页面数目固定，那么可能会选到一些不相关的页面，影响最终的个性化排名结果的准确性。因此，在一个实施例中，所述步骤302中采用了一种λ-ΚΝΝ算法来选择页面组D ug。图2展示了λ-ΚΝΝ算法的示意图，其中方块表示待分析的返回页面山，三角表示用户档案中的页面，黑三角表示和待分析的返回页面相关程度最高的k个页面，圆圈表示相似度阈值λ的取值范围。
[0066] 该实施例的步骤302中，为了排除不相关页面的影响预先设置阈值λ。然后利用传统的ΚΝΝ算法选取出和返回页面山相关程度最大的k个页面，再删除相关程度小于预设阈值 λ的页面，最终得到了适应不同页面特征分布的所含页面数目不固定的页面组Dug。
[0067] 步骤303:计算当前返回页面dj与页面组Dug的相似Σ MW"%，％。其中，Wl(t)是前面步骤所得到用户偏好权重，sinKcU^)是返回页面山和页面组Dug中的页面di的相关稈度（即相似度）。
[0068]
[0069]需说明的是，由于多元特征的取值范围不同，为便于计算，多元特征向量中的所有特征都归一化到区间[0，1]中。cSC〇reiu也可以称为页面山对于用户U的个性化页面特征相似度。
[0070] 下面结合一个具体例子进行说明。为了简化说明，将表征页面的特征向量简化为只有三个特征，分别是:HMTL标签的出现频次，页面内容难度(可根据页面的可读性等级和字符数得出），以及页面数据量。这三个特征均做归一化处理。
[0071] 设用户档案中有10个页面A1-A10,偏好权重分别为0.4,0.5,0.6,0.7,0.5,0.8， 0.9,0.5,0.4,特征向量分别为Al = (0.3,0.5,0.7)，A2= (0.3,0.2,0.5)，A3= (0.8,0.1, 0·2)，Α4=(0·1，0·1，0·1)，Α5=(0·2,0·9,0·2)，Α6=(0·3,0·1，0·7)，Α7=(0·5,0·6,0·8)， Α8 = (0·7,0·2,0·1)，Α9 = (0·6,0·5,0·2)，Α10 = (0.2,0.2,0.8)。
[0072] 为了计算初始结果页面（即返回页面)和用户档案的相似程度cscore，首先提取和返回页面相关程度较高的用户档案页面。为了简化过程，这里对初始结果的前3名进行重排名，且设KNN中k为3,假设这3个页面的特征向量B1 = (0.1，0.2,0.1)，B2 = (0.1，0.8,0.2)， B3 = (0.8,0.3,0.9)〇
[0073] A1和B1的相关程度为
[0074]
[0075] 分别计算A1-A10和B1-B3的相关程度得到和B1相关程度最高的3个页面为A2，A4， A9，相关程度为0.85，0.97，0.80。和B2相关程度最高的3个页面为Al，A5，A9，相关程度为 0.79,0.95,0.81。和B3相关程度最高的3个页面为A1，A6，A7,相关程度为0.81，0.81，0.85。
[0076] 设置λ为0.8,由于和B2相关程度最高的3个页面中A1的相关程度低于0.8,所以计
胃去南Λ1的齡响各彳自齒泡副R1的
[0077]
[0078] 同理，可计算得到B2和B3的cscore分别为0.21、0.33。
[0079] 步骤304:根据返回页面和用户档案的相似程度，初始排名和查询-页面相关程度这三个特征，以逗留时间长度为目标，利用基于机器学习算法LambdaMART预测用户满意程度。
[0080] 在一个实施例中，自适应提取用户档案后，每个初始返回页面七都得到了个性化页面特征相似度CSC〇reiu，这个相似度能够表征该返回页面山与

完整全部详细技术资料下载

当前第2页1 2 3