一种图书推荐方法及其系统的制作方法_2

文档序号:9432548阅读:来源:国知局

[0035]如图1所示,图中包括数据管理模块、读者偏好挖掘模块、读者推荐服务模块、推 荐结果处理模块,W上各模块的信息、资源的管理与调配,及系统内部算法的选择,算法运 行效率及推荐精度的监控与测度由系统管理模块统一管理。
[0036] 数据管理模块,收集读者的历史偏好数据和图书浏览行为信息,并对原始数据进 行处理后将处理后的数据传送给所述读者偏好挖掘模块。
[0037] 读者偏好挖掘模块,分析读者的历史偏好数据、图书浏览行为信息,并按照事先构 建的偏好挖掘模型评估读者对该商品的读者偏好数据,并将该读者偏好数据传送给所述推 荐服务模块。
[0038] 读者推荐服务模块,根据挖掘的读者偏好数据,构建读者对商品的偏好矩阵,在此 矩阵上运用基于项目的协同过滤算法为读者生成可能偏好的图书推荐列表,并将图书推荐 列表传送给推荐结果处理模块。
[0039] 推荐结果处理模块将图书推荐列表W多种形式展示给读者,并获取读者对推荐结 果的反馈信息,将反馈信息进行综合分析处理后,动态调整图书推荐结果。
[0040] 数据管理模块包括数据采集子模块和数据预处理子模块,数据采集子模块,收集 读者对图书的历史偏好信息,并从Web服务器中采集读者访问日志,数据预处理子模块,对 采集到的不完整的、含有噪声的数据进行过滤,w便于对读者偏好提取建模,所述数据预处 理子模块包括数据集成、数据清理、数据的变换与规约过程。
[0041] 读者推荐服务模块包括协同过滤推理子模块和图书过滤与排序子模块,协同过滤 推理子模块,根据所运行的协同过滤推荐算法分析读者对商品的偏好矩阵,在此基础上分 析读者相似性和图书相似性,图书过滤与排序子模块,过滤掉已经推荐过和读者明确表示 不喜欢的图书,并对过滤后的图书列表按照指定的标准进行排序处理。
[0042] 推荐结果处理模块包括推荐结果展示子模块、读者反馈跟踪子模块和推荐结果调 整子模块,推荐结果展示子模块,将推荐结果展示给读者,主要W"猜你喜欢"和"借阅该图 书的读者还借阅了什么"两个版块展示,读者反馈跟踪子模块,收集跟踪读者对推荐的图书 点击和浏览情况,推荐结果调整子模块,根据读者对推荐图书的反馈信息,结合所述读者推 荐服务模块生成的图书推荐列表,并动态调整图书推荐结果。
[0043] 数据采集子模块主要采集读者对图书的历史点击和浏览的基本数据,包括读者对 图书的开始访问时间、离开时间、所点击的图书、点击的时间、离开的时间、图书的点击次 数、前次访问时间等,送些数据可W通过在页面中嵌入AJAX代码来监控获取;除此之外,读 者在借阅过程中的当前操作行为也是反映读者偏好的重要数据,因此还需要实时采集读者 对系统访问的web日志。
[0044] 数据预处理模块主要是对采集到的数据进行加工处理,使处理后的数据格式满足 偏好挖掘建模的要求。具体的数据预处理可W划分为两部分,一是对采集到的读者历史访 问基本数据的处理,依据原始基本数据进一步的加工汇总,得到一些衍生变量,本系统中主 要衍生出四个变量;总浏览时间、有效浏览时间、总浏览频率和有效浏览频率;二是对采集 到的web日志进行预处理,首先使用Web预处理技术(数据清洗、用户识别、路径补充、会话 识别和事务识别技术)对收集到的Web日志文件进行预处理,删除噪声数据和对异常值处 理,转换为便于进行双向关联规则数据挖掘的规范化数据存储格式,考虑到消费者通常会 在不同时间点对电子商务网站及其商品多次访问,将消费者对网站的每次访问会话期均作 为一条事务,构造成关系型的事务数据库,并未每条事务中的上品计算不同的权重。在本 系统中,将权重表示成消费者对商品ii的归一化单字节浏览时间D(ii)和单路径浏览频率 F(ii)的函数:
[0045]
[0046] 其中D(ii)和F(ii)分别为:
[004引 Si为商品ii的描述字节数,rii为能够到达该商品的路径数,hk为每一路径的深度, ti为消费者对该商品的总浏览时间,为总浏览频率。
[0050] 所述读者偏好挖掘模块是本系统能够顺利实施的核必,因为能否精确挖掘出读者 的潜在偏好直接影响到系统的最终推荐效果。本系统中,将构建的偏好挖掘模型作用于经 过加工处理的数据集上,得到读者对每本图书的偏好程度。所使用的偏好挖掘模型包括两 部分:基于读者的历史图书访问行为构建的模型和基于读者借阅过程中对图书的浏览行为 构建的偏好挖掘模型,即;
[0051]
[0052] duAt为基于读者历史图书访问行为构建的模型构建为读者对该商品的总浏览时 间、有效浏览时间、总浏览频率、有效浏览频率的函数,具体表达式为:
[0053]
[0054] 式中,fw= (1-目H+目表示读者对该图书的有效浏览时间,T表示读者对该图书 的总浏览时间,f为读者对该图书的总浏览频率,6f为读者对该图书的有效浏览频率,a为 系统参数近期比重因子,Pt系统参数兴趣时间系数。1。,1基于读者借阅过程中对图书浏览 行为构建的偏好挖掘模型为:
[00巧]
[0056] 其中化esh(Ik)为用户对商品Ik的访问新鲜度,离当前时间越近访问的商品,新鲜 度越高,用化esh(Ik) =i/n表示,i为访问次序,n为双向关联集R。的商品数。经过该偏 好挖掘模型处理后,可W得出读者对每本图书的偏好程度分值,最后将其转换为读者对图 书的偏好分值矩阵。
[0057] 协同过滤推理子模块所采用的算法是协同过滤算法,即通过获取读者之间的偏好 相似性,并W偏好相似性来表达读者之间的相似性,W与目标读者偏好相似的其他用户的 喜好来推测目标读者的喜好。具体过程为:如果用户A和B之间有共同偏好的图书,如果两 个用户对送些图书的偏好程度差别越小,则两个读者的偏好越相似,如果读者A偏好图书 i,而读者B未曾浏览或借阅过图书i,则可W用读者A对图书i的偏好分值预测读者B对图 书i的偏好分值。最后将预测分值较高的图书推荐给用户。
[0058] 本系统使用协同过滤推荐算法的具体步骤为:
[0059] 第一,经典协同过滤推荐算法面临最大的问题是数据稀疏性,本系统中的数据经 过加工处理后的读者-图书偏好矩阵必然存在的数据稀疏性问题,对此,本文使用一种基 于双向关联规则项目评分预测的缺失值填充方法,具体方法为,首先利用FP-Group算法找 到读者借阅图书事务数据库中的关联规则,并构造关联规则数据库,针对读者未曾借阅或 浏览过的图书,基于关联规则数据库结合双向关联规则思想,找到与该图书具有空间上相 互关联的其它图书,利用读者对其它图书的喜好进行评估预测读者对该图书的喜好,具体 的计算公式为,
[0060]
[0061]其中,
f,和fk表示读者对图书的浏览频率,P为图书i的关联 集,1为关联集中的商品数量。
[0062]第二,根据构建的读者-图书偏好矩阵,计算用户之间的相似性,相似性计算公式 为:
[0063]
[0064] 其中,Ii,表示经用户i和j共同偏好的图书集合,ri,k和r,,k分别表示用户i、j对 图书k的偏好程度,和r,分别表示用户i、j对所有图书的平均偏好程度分值。
[0065]第H,最近邻居的选择,按照一定的规则选择指定数量的邻居读者作为预测目标 读者未浏览图书的偏好程度。最常用的邻居选择策略是根据计算的用户间相似性选择相似 性较高的若干用户作为最近邻居。本系统也采用送种方法。
[0066]第四,评分预测,预测方法是W目标读者和其它读者的
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1