一种基于多视图哈希的图书推荐方法

文档序号:8361528阅读:215来源:国知局
一种基于多视图哈希的图书推荐方法
【技术领域】
[0001] 本发明涉及基于多视图哈希的图书推荐技术,尤其涉及一种基于多视图哈希的图 书推荐方法。
【背景技术】
[0002] 随着信息技术的发展,内容的创建和分享变得越来越容易,这可以让人们获得更 多的信息,满足了人们的需求,但是用户在面对互联网上的海量信息时,无法准确地从中获 得自己需要的信息,这会使互联网上信息的利用效率下降,这就是所谓的信息过载问题。个 性化推荐系统的出现就是为了解决这个问题的。推荐系统会根据用户的信息,分析用户的 信息需求点、兴趣爱好点,将特定的一些产品或者信息推荐给用户。数字图书馆的用户在面 对大量增长的在线图书资源时,也会面临这个问题,即用户不知道如何寻找自己感兴趣的 书籍。
[0003] 挖掘用户的兴趣点通常是根据用户历史的行为数据,传统的方法一般是利用了用 户在某一个视图上的数据,而没有考虑将多个视图的用户行为数据整合在一起,另一方面, 传统的推荐方法是基于高维的特征向量来计算的,效率不高。

【发明内容】

[0004] 本发明的目的是克服现有技术的不足,提供一种基于多视图哈希的图书推荐方 法。
[0005] 本发明的目的是通过以下技术方案来实现的:一种基于多视图哈希的图书推荐方 法,包括以下步骤:
[0006] (1)从日志收集系统中筛选出用户在两个视图上的行为数据,包括图书点击数据 和搜索数据;
[0007] (2)利用用户的点击数据和搜索数据,构建用户在点击视图和搜索视图上的用户 特征向量;
[0008] (3)利用用户在两个视图上的用户特征向量,通过多视图哈希算法学习得到用户 的哈希编码、两个视图上的哈希函数以及各个视图的权重;
[0009] (4)利用得到的用户哈希编码为目标用户寻找相似用户;
[0010] (5)得到相似用户的图书集合,作为推荐图书的候选列表,计算目标用户对候选列 表中的图书的偏好程度,返回目标用户偏好程度最大的前N本图书。
[0011] 进一步地,所述的步骤2具体为:从用户点击数据中得到所有用户的图书点击集 合B = Ib1, b2,. . .,bx},其中X为图书总数,再根据用户点击数据和B,构建出每个用户点击
【主权项】
1. 一种基于多视图哈希的图书推荐方法,其特征在于,包括以下步骤: (1) 从日志收集系统中筛选出用户在两个视图上的行为数据,包括图书点击数据和搜 索数据; (2) 利用用户的点击数据和搜索数据,构建用户在点击视图和搜索视图上的用户特征 向量; (3) 利用用户在两个视图上的用户特征向量,通过多视图哈希算法学习得到用户的哈 希编码、两个视图上的哈希函数以及各个视图的权重; (4) 利用得到的用户哈希编码为目标用户寻找相似用户; (5) 得到相似用户的图书集合,作为推荐图书的候选列表,计算目标用户对候选列表中 的图书的偏好程度,返回目标用户偏好程度最大的前N本图书。
2. 根据权利要求1所述一种基于多视图哈希的图书推荐方法,其特征在于,所述的 步骤2具体为:从用户点击数据中得到所有用户的图书点击集合B = Ib1, b2,. . .,bx},其 中X为图书总数,再根据用户点击数据和B,构建出每个用户点击视图的特征向量X1, X1 = Ix]其中
i = 1,2,…X ;利用所有用户的搜索 数据,首先将用户所有的搜索词分词,得到所有用户的搜索词集合Q = {qp q2, . . .,qy},y表 示分词后所有搜索词个数,然后利用工具w〇rd2VeC以及weka将这些词聚类,得到a个类,a 为自然数,最后构建出用户在搜索视图的特征向量X2, X2= [I i,12, ...,IJ,其中L =用户 的搜索词在类j中的占比,j = 1,2,…,a。
3. 根据权利要求1所述一种基于多视图哈希的图书推荐方法,其特征在于,所述的步 骤3包括以下子步骤: (3. 1)初始化点击视图和搜索视图的权重α ρ,α p= 〇. 5, p = 1,2 ; (3. 2)根据XjP X 2构建链接矩阵於,p = 1,2 ; (3. 3)根据沪构建正规图拉普拉斯矩阵p,p = 1,2 ;
(3. 5)计算矩阵Η( α )的k个对应特征值最小的特征向量,k为最终用户哈希编码的位 数;根据特征向量生成用户哈希编码矩阵U ; (3.6) 计算得到哈希函数# = ρα; (3.7) 根据二次规划方法更新权重α ;如果没有收敛,重复步骤3. 4到步骤3. 7,如果 已经收敛,则得到最终的U,步,α。
4. 根据权利要求1所述一种基于多视图哈希的图书推荐方法,其特征在于,所述的步 骤4具体为:目标用户的哈希编码如果可在步骤3生成的U中找到,则直接计算目标用户 与U中的所有其他用户的哈希编码之间的汉明距离,否则首先得到目标用户两个视图的特 征向量,再利用步骤3中得到的哈希函数免和权重α生成哈希编码,然后计算目标用户与 U中的所有用户的哈希编码之间的汉明距离;根据汉明距离从小到大排序,选前M个用户作 为目标用户的相似用户,得到相似用户集合Usim,M为自然数。
5. 根据权利要求1所述一种基于多视图哈希的图书推荐方法,其特征在于,所述的步 骤5包括以下子步骤: (5. 1)将相似用户集合Usim中所有用户对应的图书集合进行合并,去除目标用户已经 点击过的图书,组成推荐结果的候选集合Icandidate ; (5.2)对于候选集合Icandidate中的每一本图书,计算目标用户对该图书的喜好程 度,用Score (item)来衡量,计算公式如下:
其中,dist (u)表示用户u和目标用户哈希编码之间的汉明距离,即衡量用户u与目标 用户之间的相似度,指示函数I (item e Vu)表示图书item是否位于用户u对应的特征向 量中,Vu表示用户u点击过的所有图书,指示函数I (item e Vu)为:
(5. 3)根据步骤5. 2计算得到的Score (item),将候选图书排序,将前N本图书推荐给 目标用户。
【专利摘要】本发明公开了一种基于多视图哈希的图书推荐方法,包括如下步骤:1)从日志收集系统中筛选出用户在两个视图上的行为数据,包括图书点击数据和搜索数据;2)构建用户在点击和搜索视图上的用户特征向量;3)利用两个视图的行为数据,通过多视图哈希算法得到用户哈希编码、哈希函数以及两个视图的权重;4)利用得到的用户哈希编码为目标用户寻找相似用户;5)得到相似用户点击的图书集合,作为推荐候选列表,计算目标用户对图书的偏好程度,返回目标用户偏好程度最大的前N本图书。本发明可以将用户在两个视图的行为数据整合到哈希编码中,提高图书推荐准确性;另一方面,哈希编码的汉明距离计算速度很快,可以提高图书推荐的效率。
【IPC分类】G06F17-30
【公开号】CN104679835
【申请号】CN201510065111
【发明人】张寅 , 魏宝刚, 洪鑫
【申请人】浙江大学
【公开日】2015年6月3日
【申请日】2015年2月9日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1