一种基于多视图锚点图哈希技术的个性化推荐方法

文档序号:10580144阅读:453来源:国知局
一种基于多视图锚点图哈希技术的个性化推荐方法
【专利摘要】本发明公开了一种基于多视图锚点图哈希技术的个性化推荐方法,包括如下步骤:1)根据用户在不同视图下的行为数据构建用户数据的多视图锚点图表示;2)利用得到的多视图锚点图与用户的行为数据生成连续空间中的用户哈希编码;3)对连续空间中的哈希编码进行量化,得到用户对应的二进制哈希编码;4)利用得到的用户哈希编码为目标用户搜索相似用户;5)将相似用户对应的偏好物品集合作为推荐候选列表,计算目标用户对候选物品的偏好程度,返回偏好程度最大的若干个物品作为推荐结果。本发明将用户在不同视图下的数据进行了整合,提高了推荐结果的质量。同时利用相似度保留的哈希编码实现了相似用户的快速搜索,提高了推荐结果计算的效率。
【专利说明】
-种基于多视图猫点图哈希技术的个性化推荐方法
技术领域
[0001] 本发明设及个性化推荐技术,尤其设及一种基于多视图错点图哈希技术的个性化 推荐方法。
【背景技术】
[0002] 随着信息技术和网络技术的不断发展,互联网上的信息和资源出现了爆炸性的增 长。然而,庞大的信息量W及其中所混杂的大量低质量、低价值信息的存在使得用户对信息 的获取和利用效率不断下降。为了应对海量数据规模下的信息获取难题,个性化推荐系统 是一种有效的解决方案。个性化推荐系统根据用户的个人资料、行为数据、社交关系等信 息,通过不同方法对用户的偏好进行预测,从而将一些特定的物品或信息主动推送给目标 用户,提高了用户信息获取的效率和质量。
[0003] 在实际应用中,对用户偏好的预测通常采用协同过滤方法进行,主要利用其他用 户的信息来预测目标用户对物品的评分。传统的协同过滤推荐方法大多将用户对物品的评 分矩阵作为用户的表示,通过对评分矩阵进行处理,从而得到用户偏好的预测结果。但是运 些方法仅仅利用了用户在单个视图下的数据,无法全面表示用户的特征,此外,传统方法通 常直接利用用户行为数据计算用户之间的相似度,导致了大量的高维向量运算,严重影响 了计算效率。

【发明内容】

[0004] 本发明的目的是克服现有技术的不足,提供一种基于多视图错点图哈希技术的个 性化推荐方法。
[0005] 本发明的目的是通过W下技术方案来实现的:
[0006] -种基于多视图错点图哈希技术的个性化推荐方法,包括W下步骤:
[0007] 1)根据训练用户在不同视图下的行为数据,构建用户数据的多视图错点图表示;
[0008] 2)利用多视图错点图与训练用户的行为数据生成连续空间中的用户哈希编码;
[0009] 3)对连续空间中的哈希编码进行量化,得到训练用户对应的二进制哈希编码;
[0010] 4)利用多视图错点图、训练用户的二进制哈希编码及目标用户的行为数据生成目 标用户对应的二进制哈希编码;
[0011] 5)利用得到的目标用户和训练用户的哈希编码为目标用户捜索相似用户;
[0012] 6)将相似用户对应的偏好物品集合作为推荐候选列表,计算目标用户对候选物品 的偏好程度,返回偏好程度最大的K个物品作为推荐结果,K表示推荐结果的数量。
[0013] 所述的步骤1)包括W下子步骤:
[0014] 1.1)对于训练用户在第i个视图下的行为数据矩阵公€其中N表示训练用 户的数量,d康示第i个视图下用户数据的维度,利用K-means聚类方法生成Tl个聚类中屯、, 作为该视图下数据的错点,Tl的取值与用户数量相关,大于设定的哈希编码的位数R;
[001引1.2)将不同视图下的训练用户数据进行水平连接得到矩阵X =掉,X2,妒化#xdt。:叫其 中M表示视图的数量,dtDtal表示所有视图下用户数据的维度之和;
[0016] 1.3)对于每个训练用户,捜索该用户在各视图下最近邻的2个错点,组成集合 Uj e赃ZXA',利用不同视图下的最近邻错点集合构建对角矩阵Ui =diag邮,巧Uf) e ffiZMxcWai;
[0017] 1.4)对于每个训练用户,利用化Sterov梯度方法和投影梯度方法求解优化问题
,其中化G胶IXZM表示该用户到所有最近邻错点的转移概率, 初值均为^,xi表示矩阵X的第i行;
[0018] 1.5)将用户到非最近邻错点的转移概率设定为0,根据得到的各用户到最近邻错 点的转移概率,得到所有用户到所有错点的转移概率矩阵P e胶WxTtotai,其中TtDtai表示所 有视图下错点数量的总和,运个转移概率矩阵就是所构建的用户数据的多视图错点图表 /J、- O
[0019] 所述的步骤2)包括W下子步骤:
[0020] 2.1)计算得到转移概率矩阵P的列和向量V巨胶IXTtOtal.
[0021] 2.2)构造对角
[0022] 2.3)计算矩阵
[0023] 2.4)计算矩阵M的除1W外的最大R个特征值对应的串
[0024] 2.5)计算训练用户对应的连续空间中哈希编码矩阵
[0025] 所述的步骤3)包括W下子步骤:
[00%] 3.1)使用符号二值化方法计算二进制编码矩阵的初值B = Sgn(Y),其中Sgn表示符 号函数,对于负数返回-1,否则返回1;
[0027] 3.2)计算当前二进制编码梯度矩巧
其中P表示二 进制编码的相似度保留程度与编码各位平衡无关程度的平衡参数;
[0028] 3.3)根据计算得到的梯度矩阵中各元素的符号更新二进制编码矩阵对应位置上 的值;
[00巧]3.4)重复步骤3.2)和步骤3.3),直至二进制编码矩阵則欠敛;
[0030] 3.5)计算矩阵 ;
[0031] 3.6)计算矩阵
[0032] 3.7)对矩阵巧
[0033] 3.8)取出矩阵Q和A中对应非零特征值的部分

[0034] 3.9)计算矩阵
[0035] 3.10)构造随 3
[0036] 3.11)对矩闻
进行格拉姆-施密特正交化,并取出正交化后矩阵的最后R- r列为
[0037] 3.12)更新连续空间中编码矩阵夫
[0038] 3.13)重复步骤3.2)至步骤3.12),直至二进制编码矩阵B和连续空间中编码矩阵Y 收敛,则得到最终的训练用户二进制哈希编码矩阵B。
[0039] 所述的步骤4)具体为:根据目标用户在不同视图下的斤^数据,利用步骤1.2)至 步骤1.4)得到目标用户到所有错点的转移概率向量
则目标用户对应的二 进制哈希编码为bq=S即(Pq八-VB)。
[0040] 所述的步骤5)具体为:根据步骤4)得到的目标用户二进制哈希编码和步骤3)得到 的训练用户二进制哈希编码矩阵,计算目标用户编码到所有训练用户编码之间的汉明距 离,选取汉明距离最小的n个用户作为目标用户的相似用户集合U,并记录相似用户集合中 的用户哈希编码与目标用户哈希编码之间对应的汉明距离。
[0041] 所述的步骤6)包括W下子步骤:
[0042] 6.1)计算捜索得到的相似用户与目标用户之间的相似度戈
,其中di表示 步骤5)中得到的相似用户i与目标用户对应哈希编码之间的汉明距离;
[0043] 6.2)将相似用户集合对应的偏好物品集合进行归并,忽略目标用户曾经选择过的 物品,得到目标用户的偏好物品候选集合I;
[0044] 6.3)对于偏好物品候选集合中的每一个物品,计算目标用户对物品的偏好评分预 测值
串中Su表示步骤6.1)中得到的相似用户与目标用户之间的相似 度,表示用户U对物品i的评分,若无评分则视为零分,Ni表示相似用户集合众对该物品做 出过有效评分的用户数量;
[0045] 6.4)根据步骤6.3)计算得到的目标用户对候选物品的偏好预测评分进行排序,将 排名前K的候选物品作为最终推荐结果。
[0046] 本发明的有益效果是:本发明根据个性化推荐中的多视图、大规模数据场景,将多 试图哈希学习算法与基于协同过滤的推荐技术相结合,融合了不同来源、不同类型的多视 图用户数据,提高了对用户相似度评估的质量,从而提高了推荐结果的质量;此外,通过将 用户表示为对应的二进制哈希编码,实现了快速的相似用户捜索,极大提高了推荐结果计 算的效率。
【附图说明】
[0047] 图1是本发明基于多视图错点图哈希技术的个性化推荐方法流程图。
【具体实施方式】
[0048] 下面结合附图对本发明作进一步详细说明。
[0049] 如图1所示,本发明一种基于多视图错点图哈希技术的个性化推荐方法,包括W下 步骤:
[0050] 1)根据训练用户在不同视图下的行为数据,构建用户数据的多视图错点图表示; 具体包括W下子步骤:
[0051] 1.1)对于训练用户在第i个视图下的行为数据矩阵扭E驚NXdi,其中N表示训练 用户的数量,di表示第i个视图下用户数据的维度,利用K-means聚类方法生成Tl个聚类中 屯、,作为该视图下数据的错点,Tl的取值与用户数量相关,一般取为N/200左右,但必须大于 设定的哈希编码的位数R;
[0化^ 1.2)将不同视图下的训练用户数据进行水平连接得到矩阵X =悼,X2,,XM}e INXdtMai:, 其中M表示视图的数量,dtDtal表示所有视图下用户数据的维度之和;
[0053] 1.3)对于每个训练用户,捜索该用户在各视图下最近邻的2个错点,组成集合 U! 6取ZX心,利用不同视图下的最近邻错点集合构建对角矩阵化=diag邮巧,…,Uf) e H2MXdwai';
[0054] 1.4)对于每个训练用户,利用化Sterov梯度方法和投影梯度方法求解优化问题
,其中G聰1X2W表示该用户到所有最近邻错点的转移概率, 初值均为康示矩阵X的第i行;
[0055] 1.5)将用户到非最近邻错点的转移概率设定为0,根据得到的各用户到最近邻错 点的转移概率,得到所有用户到所有错点的转移概率矩阵P G胶WxTtotal,其中TtDtai表示所 有视图下错点数量的总和,运个转移概率矩阵就是所构建的用户数据的多视图错点图表 /J、- O
[0056] 2)利用多视图错点图与训练用户的行为数据生成连续空间中的用户哈希编码;具 体包括W下子步骤:
[0057] 2.1)计算得到转移概率矩阵P的列和向量V G E-IXTtotal;
[0化引 2.2)构造对角
[0化9] 2.3)计算矩阵
[0060] 2.4)计算矩阵M的除IW外的最大R个特征值对应的特征向量护G股TtMazXK;
[0061] 2.5)计算训练用户对应的连续空间中哈希编码矩P
[0062] 3)对连续空间中的哈希编码进行量化,得到训练用户对应的二进制哈希编码;具 体包括W下子步骤:
[0063] 3.1)使用符号二值化方法计算二进制编码矩阵的初值B = Sgn(Y),其中Sgn表示符 号函数,对于负数返回-1,否则返回1;
[0064] 3.2)计算当前二进制编码梯度矩巧
,其中P表示二 进制编码的相似度保留程度与编码各位平衡无关程度的平衡参数;
[0065] 3.3)根据计算得到的梯度矩阵中各元素的符号更新二进制编码矩阵对应位置上 的值;
[0066] 3.4)重复步骤3.2)和步骤3.3 ),直至二进制编码矩阵則欠敛;
[0067] 3.5)计算矩[
[0068] 3.6)计算矩[
[0069] 3.7)对矩阵 f
[0070] 3.8)取出矩阵Q和A中对应非零特征值的部巧

[0071] 3.9)计算矩時
[0072] 3.10)构造随 ^
[0073] 3.11)对矩阵[1. Ur巧]进行格拉姆-施密特正交化,并取出正交化后矩阵的最后R- 巧U为i
;
[0074] 3.12)更新连续空间中编码矩阵为
[00巧]3.13)重复步骤3.2)至步骤3.12),直至二进制编码矩阵B和连续空间中编码矩阵Y 收敛,则得到最终的训练用户二进制哈希编码矩阵B。
[0076] 4)利用多视图错点图、训练用户的二进制哈希编码及目标用户的行为数据生成目 标用户对应的二进制哈希编码;具体为:根据目标用户在不同视图下的行为数据,利用步骤 1.2)至步骤1.4)得到目标用户到所有错点的转移概率向量Pq e蓝IxTtntai,则目标用户对 应的二进制哈希编码为bq = S即(Pq A -IpTB)。
[0077] 5)利用得到的目标用户和训练用户的哈希编码为目标用户捜索相似用户;具体 为:根据步骤4得到的目标用户二进制哈希编码和步骤3得到的训练用户二进制哈希编码矩 阵,计算目标用户编码到所有训练用户编码之间的汉明距离。选取汉明距离最小的n个用户 作为目标用户的相似用户集合U,并记录相似用户集合中的用户哈希编码与目标用户哈希 编码之间对应的汉明距离,n-般可取50至80左右。
[0078] 6)将相似用户对应的偏好物品集合作为推荐候选列表,计算目标用户对候选物品 的偏好程度,返回偏好程度最大的K个物品作为推荐结果,K表示推荐结果的数量。具体包括 W下子步骤:
[0079] 6.1)计算捜索得到的相似用户与目标用户之间的相似度呆
痒中di表示 步骤5)中得到的相似用户i与目标用户对应哈希编码之间的汉明距离;
[0080] 6.2)将相似用户集合对应的偏好物品集合进行归并,忽略目标用户曾经选择过的 物品,得到目标用户的偏好物品候选集合I;
[0081] 6.3)对于偏好物品候选集合中的每一个物品,计算目标用户对物品的偏好评分预 测值
,其中Su表示步骤6.1)中得到的相似用户与目标用户之间的相似 度,表示用户U对物品i的评分,若无评分则视为零分,Ni表示相似用户集合众对该物品做 出过有效评分的用户数量;
[0082] 6.4)根据步骤6.3)计算得到的目标用户对候选物品的偏好预测评分进行排序,将 排名前K的候选物品作为最终推荐结果,在实际应用中,k 一般可取5至20左右。
【主权项】
1. 一种基于多视图锚点图哈希技术的个性化推荐方法,其特征在于,包括以下步骤: 1) 根据训练用户在不同视图下的行为数据,构建用户数据的多视图锚点图表示; 2) 利用多视图锚点图与训练用户的行为数据生成连续空间中的用户哈希编码; 3) 对连续空间中的哈希编码进行量化,得到训练用户对应的二进制哈希编码; 4) 利用多视图锚点图、训练用户的二进制哈希编码及目标用户的行为数据生成目标用 户对应的二进制哈希编码; 5) 利用得到的目标用户和训练用户的哈希编码为目标用户搜索相似用户; 6) 将相似用户对应的偏好物品集合作为推荐候选列表,计算目标用户对候选物品的偏 好程度,返回偏好程度最大的K个物品作为推荐结果,K表示推荐结果的数量。2. 根据权利要求1所述一种基于多视图锚点图哈希技术的个性化推荐方法,其特征在 于,所述的步骤1)包括以下子步骤: 1.1) 对于训练用户在第i个视图下的行为数据矩阵g e ENxdi,其中N表示训练用户的 数量,cU表示第i个视图下用户数据的维度,利用K-means聚类方法生成个聚类中心,作为 该视图下数据的锚点,!^的取值与用户数量相关,大于设定的哈希编码的位数R; 1.2) 将不同视图下的训练用户数据进行水平连接得到矩阵X = {AXU,e 其中Μ表示视图的数量,dtcltal表示所有视图下用户数据的维度之和; 1.3) 对于每个训练用户,搜索该用户在各视图下最近邻的2个锚点,组成集合 以e通2X气利用不同视图下的最近邻锚点集合构建对角矩阵% tdiag^u?,...,uh e 1.4) 对于每个训练用户,利用Nesterov梯度方法和投影梯度方法求解优化问题良示该用户到所有最近邻锚点的转移概率, 初值均为^,xi表示矩阵X的第i行; 1.5) 将用户到非最近邻锚点的转移概率设定为0,根据得到的各用户到最近邻锚点的 转移概率,得到所有用户到所有锚点的转移概率矩阵p j|NxTtatal,其中Ttcital表示所有视 图下锚点数量的总和,这个转移概率矩阵就是所构建的用户数据的多视图锚点图表示。3. 根据权利要求1所述一种基于多视图锚点图哈希技术的个性化推荐方法,其特征在 于,所述的步骤2)包括以下子步骤: 2.1) 计算得到转移概率矩阵P的列和向量V e 2.2) 构造对角矩罔2.3) 计算矩库2.4) 计算矩阵_勺除1以外的最大1?个特征值对应的特征向量\^£胶7^~>^; 2.5) 计算训练用户对应的连续空间中哈希编码矩罔4. 根据权利要求1所述一种基于多视图锚点图哈希技术的个性化推荐万法,其特征在 于,所述的步骤3)包括以下子步骤: 3.1)使用符号二值化方法计算二进制编码矩阵的初值B = sgn (Υ),其中sgn表示符号函 数,对于负数返回-1,否则返回1; 3.2) 计算当前二进制编码梯度矩:中P表不二进制 编码的相似度保留程度与编码各位平衡无关程度的平衡参数; 3.3) 根据计算得到的梯度矩阵中各元素的符号更新二进制编码矩阵对应位置上的值; 3.4) 重复步骤3.2)和步骤3.3 ),直至二进制编码矩阵B收敛; 3.5) 计算矩¥ ^3.6) 计算矩阵,一 j; 3.7) 对矩阵T进行特征分解为T = Q Λ QT; 3.8) 取出矩阵Q和Λ中对应非零特征值的部夕3.9) 计算矩p3.1〇)构造随机矩阵0£11_(|?一7^ 3.11) 对矩阵|'11^^|进行格拉姆-施密特正交化,并取出正交化后矩阵的最后1?1列为3.12) 更新连续空间中编码矩阵)3.13) 重复步骤3.2)至步骤3.12),直至二进制编码矩阵Β和连续空间中编码矩阵Υ收 敛,则得到最终的训练用户二进制哈希编码矩阵Β。5. 根据权利要求1所述一种基于多视图锚点图哈希技术的个性化推荐方法,其特征在 于,所述的步骤4)具体为:根据目标用户在不同视图下的行为数据,利用步骤1.2)至步骤 1.4)得到目标用户到所有锚点的转移概率向量Pg 6 ,则目标用户对应的二进制 哈希编码为bq = Sgn(Pq Λ - Vb)。6. 根据权利要求1所述一种基于多视图锚点图哈希技术的个性化推荐方法,其特征在 于,所述的步骤5)具体为:根据步骤4)得到的目标用户二进制哈希编码和步骤3)得到的训 练用户二进制哈希编码矩阵,计算目标用户编码到所有训练用户编码之间的汉明距离,选 取汉明距离最小的η个用户作为目标用户的相似用户集合U,并记录相似用户集合中的用户 哈希编码与目标用户哈希编码之间对应的汉明距离。7. 根据权利要求1所述一种基于多视图锚点图哈希技术的个性化推荐方法,其特征在 于,所述的步骤6)包括以下子步骤: 6.1) 计算搜索得到的相似用户与目标用户之间的相似度为_cU表示步骤 5)中得到的相似用户i与目标用户对应哈希编码之间的汉明距离; 6.2) 将相似用户集合对应的偏好物品集合进行归并,忽略目标用户曾经选择过的物 品,得到目标用户的偏好物品候选集合I; 6.3) 对于偏好物品候选集合中的每一个物品,计算目标用户对物品的偏好评分预测值,其中^表示步骤6.1)中得到的相似用户与目标用户之间的相似度, rul表示用户u对物品i的评分,若无评分则视为零分,化表示相似用户集合众对该物品做出 过有效评分的用户数量; 6.4)根据步骤6.3)计算得到的目标用户对候选物品的偏好预测评分进行排序,将排名 前K的候选物品作为最终推荐结果。
【文档编号】G06F17/30GK105956093SQ201610285239
【公开日】2016年9月21日
【申请日】2016年4月29日
【发明人】张寅 , 魏宝刚, 金登科
【申请人】浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1