一种基于频率矩阵和文本相似度的个性化商品推荐方法

文档序号:6491415阅读:161来源:国知局
一种基于频率矩阵和文本相似度的个性化商品推荐方法
【专利摘要】本发明公开了一种基于频率矩阵和文本相似度的个性化商品推荐方法,包括以下步骤:使用预处理是进行数据采集、数据净化、访问用户识别、会话识别和事务识别,得到格式统一的数据。利用本发明中提出的基于频率矩阵和文本相似度的个性化商品推荐方法计算得到商品候选集、并在候选集的基础上评分,将最终结果呈现给用户。使用访问频率矩阵和文本相似度计算构建实现商品推荐模块,尽量降低了推荐系统的复杂度,从而即满足实时推荐的要求又保持较高的覆盖率和匹配率。
【专利说明】 一种基于频率矩阵和文本相似度的个性化商品推荐方法
【技术领域】
[0001]本发明涉及电子商务技术,特别是一种基于频率矩阵和文本相似度的个性化商品推荐方法。
【背景技术】
[0002]现代化信息服务环境下,用户的信息需求日趋多元化和个性化,不同的用户之间存在着明显的个性差异。随着网络资源的不断丰富和网络信息量的不断膨胀,人们对网络的依赖性越来越强。然而,要从网络中获取所需的信息并非易事,尽管各种搜索引擎发挥着极其重要的作用,但是不能满足用户个性化的需求。可见,信息及其传播的多样化为个性化信息服务创造了需求,也带来更大的复杂性和难题。个性化服务的思想在国外网站设计与发展中已经盛行,早期的个性化信息推荐服务主要由新闻剪裁、股票报价和目录推荐等内容组成。
[0003]目前,主要的推荐技术包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和基于用户统计信息推荐。但是这些方法都存在许多缺点:基于内容的推荐算法缺乏个性化,只能发现用户感兴趣的项目,但是不能发现用户以后会感兴趣的新产品;基于内容的推荐只能对属性规定的内容进行分析,但是很多时候,属性并不能体现一些隐含的特点;缺乏用户反馈;基于用户统计信息的推荐技术虽在一些以会员制为主要销售模式的网站却很有用处,但并不适用于普通的电子商务模式;其实基于知识和效用的推荐同基于内容的推荐有一个共同的特点就是需要对项目即推荐产品的特征进行描述,然后才能推荐。而基于效用的推荐想确定用户的效用函数也比较困难。所以这两种方法也不是十分适用。于关联规则的推荐没有上述技术的那些局限。它可以依靠网站原有的记录为用户提供推荐,而且这些推荐不但可以满足用户的个性化偏好,还可以在一定程度上预测用户的购买行为。但是,由于关联规则没有考虑规则中各个项的先后次序,而用户访问网站的时候是有严格的先后次序的,因此基于关联规则的推荐技术是存在一定的不足。
[0004]目前电子商务在个性化服务方面主要有3种形式,个性化推荐、个性化信息检索和个性化站点。个性化推荐是根据用户的兴趣特点向用户推荐他们感兴趣的信息。个性化推荐还可以分为个性化导行、个性化过滤和狭义个性化推荐三种形式。个性化导航是指在用户访问商务网站的过程中进行前瞻搜索,找出感兴趣的信息,提示用户下一步浏览的路径;个性化过滤是指用户访问网站的过程中对信息进行预处理,仅将用户感兴趣的信息呈现给用户;狭义的个性化推荐是指用户在浏览商务网站的过程中,不干扰和打断用户的浏览行为,而是事先对用户感兴趣信息进行识别和处理并提示用户浏览,并且强调主动性和自动化的特点。个性化信息检索是根据不同用户的背景知识、兴趣爱好等不同返回其可能感兴趣的内容。个性化网站通过观察用户的访问习惯,发现用户的访问模式,自动改进站点的结构和表现形式,以反映用户的兴趣所在。

【发明内容】
[0005]为解决现有技术存在的上述问题,本发明要克服以上各种技术的缺点并提出一种新的个性化商品推荐方法。
[0006]为了实现上述目的,本发明的技术方案如下:一种基于频率矩阵和文本相似度的个性化商品推荐方法,包括以下内容:
[0007]A、模型的输入和输出
[0008]Al、数据输入
[0009]只有与目标用户相关的数据才会输入到推荐模型中,并为目标用户推荐可能喜欢的商品。如果此时没有相关的数据可以作为推荐模型的输入数据,就使用非个性化的方法为目标用户提供推荐服务,比如:最新上市的商品或特价促销的商品。应该尽可能的为推荐模型输入多种相关的数据,让其输出数量更多,实用性更广泛的推荐结果,比如:用户当前浏览的商品,用户浏览历史所体现出来的长期个人喜好,或者两者都使用。可以通过简单的方法获得目标用户的多种相关数据,对这些相关数据进行适当的处理以后就可以作为推荐模型的输入数据了。虽然有一些推荐模型的应用是考虑全局特征的,但是越来越多的推荐模型正在追踪并记录用户的浏览模式,根据用户浏览的上下文(包括用户的浏览历史和当前浏览商品)为用户提供更加细化的商品推荐。作为推荐模型输入数据的用户行为模式可以解释成两种类型:用户在不知道商品推荐系统存在时的浏览行为模式和用户了解商品推荐系统后的浏览行为模式。
[0010]A2、数据输出
[0011]推荐模型的输出为用户提供商品的详细介绍,包括商品的类型、质量和外观等多种信息。最常见的输出可以看作是一个建议,通常采取的表现形式为“商家推荐”或“试试这个商品”,更简单的形式就是把输出的推荐商品放到页面上由用户自己去发现并使用,最简单的推荐形式就是只使用一种商品。有些推荐算法会把商品和商品的预测排名一起展示给用户,供用户去参考。这些经过估算得出的排名不仅可以作为某个商品的推荐度,还可以帮助用户进一步去了解推荐系统的有效性,更加充分的利用推荐系统。预测排名可以作为推荐商品的内容或者推荐商品的某一项信息为用户展示出来。网站MovieFinder就是把“用户排名/系统排名”作为商品的某一项信息展示给用户,为用户在选择商品时做参考。
[0012]B、数据预处理模块
[0013]数据预处理是商品关联规则分析过程中关键的一步,因为推荐模型的输入数据是现实世界的数据,它们一般是脏的、不完整的和不一致的,这样的数据在不经过任何处理的情况下无法被推荐模块直接使用。数据预处理可以改进数据的质量,从而提高商品关联规则分析过程的精度和性能。数据预处理的一般过程如下:首先对数据进行收集,得到访问日志、引用日志中的数据,并通过数据净化去掉了数据中的噪声数据以及不完整的数据然后经过用户识别、会话识别等一系列处理后得到用户会话文件,最后再进行事务识别得到用户事务数据,为规则发现阶段做好充分的数据准备。
[0014]B1、数据采集。推荐模型研究过程中一个很重要的步骤就是要为模型找到合适的输入数据,数据的来源一般是日志文件。日志文件包括服务器日志、代理日志和客户端日志,其中服务器日志文件非常明确地记录了访问者的浏览行为,因此在构建频率矩阵的前提中占有很重要的地位。
[0015]B2、数据净化。数据净化是指删除WEB服务器日志中与构建频率矩阵无关的数据。从服务器上收集到的原始数据,一般是脏的、不完整的和不一致的,因此就需要识别并删除无关的数据。一般分两步完成:忽略不完整的数据,对不完整的数据的处理通常有忽略记录、人工填写、使用全局常量填充、使用平均值填充或使用最有可能的值填充等方法,在本文中采用忽略记录的方法,因为所需要的数据信息只有极少的记录会出现空缺值的属性;删除噪声数据。噪声数据是指与反映用户浏览兴趣不相关的日志记录。一般来说,用户在请求一个页面文件时,浏览器会同时请求那个页面文件上包含的其它文件,如图像、声音和视频文件、可执行的CGI文件和包含区域坐标的图像映射文件等,因此服务器日志文件中就会包含许多与访问商品的内容没有联系的无关项或冗余项。
[0016]B3、访问用户识别。识别访问用户最简单有效的方法是使用用户注册信息。然而通常情况下,网站的大多数访问用户根本不进行注册,即使注册也可能因为隐私考虑而提供不真实的信息,所以分析过程中一般把访问用户当非注册用户处理。对于非注册用户进行访问用户识别的启发式规则如下:不同的客户端IP属于不同的访问用户,如果相同就可以根据用户端浏览器软件或操作系统是否相同来辨别是否是新访问用户;若发现访问用户正请求的页面不能从已经访问的任何页面到达,则认定此访问用户为新访问用户。
[0017]B4、 会话识别。如果用户访问同一站点时跨越的时间很长,在服务器日志中就会存在同一个用户多次访问一个WEB站点的访问操作记录。为了识别用户的每一次访问操作,最简单的方法是利用每一次访问操作的时间戳的时间间隔特性,即如果连续两个WEB页请求时间超过给定的界限,则认为该用户开始了一个新的访问操作。
[0018]B5、事务识别。经过前面提到的数据预处理过程中的各个步骤后,得到了会话序列集合。但是这些数据对于构建频率矩阵来说,仍显得粗糙和不够精确,因此需要进一步进行用户事务的识别。用户事务是对用户的每一次访问操作序列集合进行语义分析后得到的商品信息页面序列。常用的用户事务识别方法有三种:参引长度法(Reference length)、最大前向访问路径法(Maximal forward path)和时间窗方法(Time window)。前两种方法用于识别主义上有意义的事务模式,后一种方法主要作为前两种方法的补充。本文在事务识别阶段采用的是最大前向访问路径法。
[0019]C、商品推荐模块
[0020]推荐模型要完成的任务就是发现商品中商品集之间的关联。更确切的说,就是通过量化的数字描述所有商品集P子集B的出现对子集R的出现有多大的影响。其中P= (Pi, P2,…,pj,B= {bu b2,…,bn}, R= {r1; r2,...,rj是商品的集合,其中P包含所有的商品,B和R是P的两个子集,n、p、q分别是P、B、R三个集合中商品的数量。B是系统的输入数据,P是系统的输出数据。一个推荐规则可以表示成5 O P,这里B c: P,i?c=P,并且

O
[0021]与现有技术相比,本发明具有以下有益效果:
[0022]1、本发明中所用的一种基于频率矩阵和文本相似度的个性化商品推荐方法可以实现个性化推荐,有效地避免了基于内容的推荐算法的缺乏个性化、只能发现用户感兴趣的项目的缺点。
[0023]2.本发明中所用的一种基于频率矩阵和文本相似度的个性化商品推荐方法有效地避免了基于用户统计信息的推荐技术的不足。基于用户统计信息的推荐技术需要大量收集用户信息,这在实际应用中是不足的。但是基于频率矩阵和文本相似度的个性化商品推荐方法使用了关联规则的方法来实现了这个目标。
【专利附图】

【附图说明】
[0024]本发明共有附图1张,其中:
[0025]图1是本发明的数据预处理流程图;
【具体实施方式】
[0026]实验数据来自于找查网服务器上获得的2006-10-11到2006_10_13这个时间段的日志数据。采集得到的数据记录的字段如下:date、time、cs-method、cs-ur1-stem、cs-ur1-query> cs-username> c_ip、cs-version> cs(user—agent)、cs(referer)>sc—status、sc—bytes。
[0027]表1数据净化执行效果示例
[0028]
【权利要求】
1.一种基于频率矩阵和文本相似度的个性化商品推荐方法,其特征在于:包括以下步骤: A、模型的输入和输出 Al、数据输入 只有与目标用户相关的数据才会输入到推荐模型中,并为目标用户推荐可能喜欢的商品;如果此时没有相关的数据可以作为推荐模型的输入数据,就使用非个性化的方法为目标用户提供推荐服务,比如:最新上市的商品或特价促销的商品;应该尽可能的为推荐模型输入多种相关的数据,让其输出数量更多,实用性更广泛的推荐结果,比如:用户当前浏览的商品,用户浏览历史所体现出来的长期个人喜好,或者两者都使用;可以通过简单的方法获得目标用户的多种相关数据,对这些相关数据进行适当的处理以后就可以作为推荐模型的输入数据了 ;虽然有一些推荐模型的应用是考虑全局特征的,但是越来越多的推荐模型正在追踪并记录用户的浏览模式,根据用户浏览的上下文为用户提供更加细化的商品推荐;作为推荐模型输入数据的用户行为模式可以解释成两种类型:用户在不知道商品推荐系统存在时的浏览行为模式和用户了解商品推荐系统后的浏览行为模式; A2、数据输出 推荐模型的输出为用户提供商品的详细介绍,包括商品的类型、质量和外观等多种信息;最常见的输出可以看作是一个建议,通常采取的表现形式为“商家推荐”或“试试这个商品”,更简单的形式就是把输出的推荐商品放到页面上由用户自己去发现并使用,最简单的推荐形式就是只使用一种商品;有些推荐算法会把商品和商品的预测排名一起展示给用户,供用户去参考;这些经过估算得出的排名不仅可以作为某个商品的推荐度,还可以帮助用户进一步去了解推荐系统的有效性,更加充分的利用推荐系统;预测排名可以作为推荐商品的内容或者推荐商品的某一项信息为用户展示出来;网站MovieFinder就是把“用户排名/系统排名”作为商品的某一项信息展示给用户,为用户在选择商品时做参考; B、数据预处理模块 数据预处理是商品关联规则分析过程中关键的一步,因为推荐模型的输入数据是现实世界的数据,它们一般是脏的、不完整的和不一致的,这样的数据在不经过任何处理的情况下无法被推荐模块直接使用;数据预处理可以改进数据的质量,从而提高商品关联规则分析过程的精度和性能;数据预处理的一般过程如下:首先对数据进行收集,得到访问日志、引用日志中的数据,并通过数据净化去掉了数据中的噪声数据以及不完整的数据然后经过用户识别、会话识别等一系列处理后得到用户会话文件,最后再进行事务识别得到用户事务数据,为规则发现阶段做好充分的数据准备; B1、数据采集;推荐模型研究过程中一个很重要的步骤就是要为模型找到合适的输入数据,数据的来源一般是日志文件;日志文件包括服务器日志、代理日志和客户端日志,其中服务器日志文件非常明确地记录了访问者的浏览行为,因此在构建频率矩阵的前提中占有很重要的地位; B2、数据净化;数据净化是指删除WEB服务器日志中与构建频率矩阵无关的数据;从服务器上收集到的原始数据,一般是脏的、不完整的和不一致的,因此就需要识别并删除无关的数据;一般分两步完成:忽略不完整的数据,对不完整的数据的处理通常有忽略记录、人工填写、使用全局常量填充、使用平均值填充或使用最有可能的值填充等方法,在本文中采用忽略记录的方法,因为所需要的数据信息只有极少的记录会出现空缺值的属性;删除噪声数据;噪声数据是指与反映用户浏览兴趣不相关的日志记录;一般来说,用户在请求一个页面文件时,浏览器会同时请求那个页面文件上包含的其它文件,如图像、声音和视频文件、可执行的CGI文件和包含区域坐标的图像映射文件等,因此服务器日志文件中就会包含许多与访问商品的内容没有联系的无关项或冗余项; B3、访问用户识别;识别访问用户最简单有效的方法是使用用户注册信息;然而通常情况下,网站的大多数访问用户根本不进行注册,即使注册也可能因为隐私考虑而提供不真实的信息,所以分析过程中一般把访问用户当非注册用户处理;对于非注册用户进行访问用户识别的启发式规则如下:不同的客户端IP属于不同的访问用户,如果相同就可以根据用户端浏览器软件或操作系统是否相同来辨别是否是新访问用户;若发现访问用户正请求的页面不能从已经访问的任何页面到达,则认定此访问用户为新访问用户; B4、会话识别;如果用户访问同一站点时跨越的时间很长,在服务器日志中就会存在同一个用户多次访问一个WEB站点的访问操作记录;为了识别用户的每一次访问操作,最简单的方法是利用每一次访问操作的时间戳的时间间隔特性,即如果连续两个WEB页请求时间超过给定的界限,则认为该用户开始了一个新的访问操作; B5、事务识别;经过前面提到的数据预处理过程中的各个步骤后,得到了会话序列集合;但是这些数据对于构建频率矩阵来说,仍显得粗糙和不够精确,因此需要进一步进行用户事务的识别;用户事务是对用户的每一次访问操作序列集合进行语义分析后得到的商品信息页面序列;常用的用户事务识别方法有三种:参引长度法、最大前向访问路径法和时间窗方法;前两种方法用于识别主义上有意义的事务模式,后一种方法主要作为前两种方法的补充;本文在事务识 别阶段采用的是最大前向访问路径法; C、商品推荐模块 推荐模型要完成的任务就是发现商品中商品集之间的关联;更确切的说,就是通过量化的数字描述所有商品集P子集B的出现对子集R的出现有多大的影响;其中P= {Pl,P2,…,pn}, B=Od1, b2,…,bn}, R=Ir1, r2,…,rn}是商品的集合,其中P包含所有的商品,B和R是P的两个子集,n, p、q分别是P、B、R三个集合中商品的数量;B是系统的输入数据,P是系统的输出数据;一个推荐规则可以表示成方P,这里? Cl P,ΜαΡ,并且βηΛ = 0Β
【文档编号】G06F17/30GK103839169SQ201210475864
【公开日】2014年6月4日 申请日期:2012年11月21日 优先权日:2012年11月21日
【发明者】牟向伟 申请人:大连灵动科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1