一种基于多视图哈希的图书推荐方法

文档序号：8361528阅读：215来源：国知局

一种基于多视图哈希的图书推荐方法
【技术领域】
[0001] 本发明涉及基于多视图哈希的图书推荐技术，尤其涉及一种基于多视图哈希的图书推荐方法。
【背景技术】
[0002] 随着信息技术的发展，内容的创建和分享变得越来越容易，这可以让人们获得更多的信息，满足了人们的需求，但是用户在面对互联网上的海量信息时，无法准确地从中获得自己需要的信息，这会使互联网上信息的利用效率下降，这就是所谓的信息过载问题。个性化推荐系统的出现就是为了解决这个问题的。推荐系统会根据用户的信息，分析用户的信息需求点、兴趣爱好点，将特定的一些产品或者信息推荐给用户。数字图书馆的用户在面对大量增长的在线图书资源时，也会面临这个问题，即用户不知道如何寻找自己感兴趣的书籍。
[0003] 挖掘用户的兴趣点通常是根据用户历史的行为数据，传统的方法一般是利用了用户在某一个视图上的数据，而没有考虑将多个视图的用户行为数据整合在一起，另一方面，传统的推荐方法是基于高维的特征向量来计算的，效率不高。

【发明内容】

[0004] 本发明的目的是克服现有技术的不足，提供一种基于多视图哈希的图书推荐方法。
[0005] 本发明的目的是通过以下技术方案来实现的：一种基于多视图哈希的图书推荐方法，包括以下步骤：
[0006] (1)从日志收集系统中筛选出用户在两个视图上的行为数据，包括图书点击数据和搜索数据；
[0007] (2)利用用户的点击数据和搜索数据，构建用户在点击视图和搜索视图上的用户特征向量；
[0008] (3)利用用户在两个视图上的用户特征向量，通过多视图哈希算法学习得到用户的哈希编码、两个视图上的哈希函数以及各个视图的权重；
[0009] (4)利用得到的用户哈希编码为目标用户寻找相似用户；
[0010] (5)得到相似用户的图书集合，作为推荐图书的候选列表，计算目标用户对候选列表中的图书的偏好程度，返回目标用户偏好程度最大的前N本图书。
[0011] 进一步地，所述的步骤2具体为：从用户点击数据中得到所有用户的图书点击集合B = Ib1, b2,. . .，bx}，其中X为图书总数，再根据用户点击数据和B，构建出每个用户点击
【主权项】
1. 一种基于多视图哈希的图书推荐方法，其特征在于，包括以下步骤： (1) 从日志收集系统中筛选出用户在两个视图上的行为数据，包括图书点击数据和搜索数据； (2) 利用用户的点击数据和搜索数据，构建用户在点击视图和搜索视图上的用户特征向量； (3) 利用用户在两个视图上的用户特征向量，通过多视图哈希算法学习得到用户的哈希编码、两个视图上的哈希函数以及各个视图的权重； (4) 利用得到的用户哈希编码为目标用户寻找相似用户； (5) 得到相似用户的图书集合，作为推荐图书的候选列表，计算目标用户对候选列表中的图书的偏好程度，返回目标用户偏好程度最大的前N本图书。
2. 根据权利要求1所述一种基于多视图哈希的图书推荐方法，其特征在于，所述的步骤2具体为：从用户点击数据中得到所有用户的图书点击集合B = Ib1, b2,. . .，bx}，其中X为图书总数，再根据用户点击数据和B，构建出每个用户点击视图的特征向量X1, X1 = Ix]其中
i = 1，2,…X ;利用所有用户的搜索数据，首先将用户所有的搜索词分词，得到所有用户的搜索词集合Q = {qp q2, . . .，qy}，y表示分词后所有搜索词个数，然后利用工具w〇rd2VeC以及weka将这些词聚类，得到a个类，a 为自然数，最后构建出用户在搜索视图的特征向量X2, X2= [I i，12, ...，IJ，其中L =用户的搜索词在类j中的占比，j = 1，2,…，a。
3. 根据权利要求1所述一种基于多视图哈希的图书推荐方法，其特征在于，所述的步骤3包括以下子步骤： (3. 1)初始化点击视图和搜索视图的权重α ρ，α p= 〇. 5, p = 1，2 ; (3. 2)根据XjP X 2构建链接矩阵於，p = 1，2 ; (3. 3)根据沪构建正规图拉普拉斯矩阵p，p = 1，2 ;
(3. 5)计算矩阵Η( α )的k个对应特征值最小的特征向量，k为最终用户哈希编码的位数；根据特征向量生成用户哈希编码矩阵U ; (3.6) 计算得到哈希函数# = ρα; (3.7) 根据二次规划方法更新权重α ;如果没有收敛，重复步骤3. 4到步骤3. 7,如果已经收敛，则得到最终的U，步，α。
4. 根据权利要求1所述一种基于多视图哈希的图书推荐方法，其特征在于，所述的步骤4具体为：目标用户的哈希编码如果可在步骤3生成的U中找到，则直接计算目标用户与U中的所有其他用户的哈希编码之间的汉明距离，否则首先得到目标用户两个视图的特征向量，再利用步骤3中得到的哈希函数免和权重α生成哈希编码，然后计算目标用户与 U中的所有用户的哈希编码之间的汉明距离；根据汉明距离从小到大排序，选前M个用户作为目标用户的相似用户，得到相似用户集合Usim，M为自然数。
5. 根据权利要求1所述一种基于多视图哈希的图书推荐方法，其特征在于，所述的步骤5包括以下子步骤： (5. 1)将相似用户集合Usim中所有用户对应的图书集合进行合并，去除目标用户已经点击过的图书，组成推荐结果的候选集合Icandidate ; (5.2)对于候选集合Icandidate中的每一本图书，计算目标用户对该图书的喜好程度，用Score (item)来衡量，计算公式如下：
其中，dist (u)表示用户u和目标用户哈希编码之间的汉明距离，即衡量用户u与目标用户之间的相似度，指示函数I (item e Vu)表示图书item是否位于用户u对应的特征向量中，Vu表示用户u点击过的所有图书，指示函数I (item e Vu)为：
(5. 3)根据步骤5. 2计算得到的Score (item)，将候选图书排序，将前N本图书推荐给目标用户。
【专利摘要】本发明公开了一种基于多视图哈希的图书推荐方法，包括如下步骤：1）从日志收集系统中筛选出用户在两个视图上的行为数据，包括图书点击数据和搜索数据；2）构建用户在点击和搜索视图上的用户特征向量；3）利用两个视图的行为数据，通过多视图哈希算法得到用户哈希编码、哈希函数以及两个视图的权重；4）利用得到的用户哈希编码为目标用户寻找相似用户；5）得到相似用户点击的图书集合，作为推荐候选列表，计算目标用户对图书的偏好程度，返回目标用户偏好程度最大的前N本图书。本发明可以将用户在两个视图的行为数据整合到哈希编码中，提高图书推荐准确性；另一方面，哈希编码的汉明距离计算速度很快，可以提高图书推荐的效率。
【IPC分类】G06F17-30
【公开号】CN104679835
【申请号】CN201510065111
【发明人】张寅 , 魏宝刚, 洪鑫
【申请人】浙江大学
【公开日】2015年6月3日
【申请日】2015年2月9日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张寅;魏宝刚;洪鑫;
技术所有人：浙江大学;
我是此专利的发明人

上一篇：一种农业本体自动扩充方法
上一篇：一种时序数据清洗方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。