电子商务网站相关商品推荐系统及其方法

文档序号:6615554阅读:108来源:国知局

专利名称::电子商务网站相关商品推荐系统及其方法
技术领域
:本发明涉及电子商务网站的相关商品推荐领域,特别是涉及电子商务网站的基于购物行为Item的商品推荐技术和基于内容的商品推荐技术。
背景技术
:当今时代是信息技术的时代,互联网在人们的生活中占据了相当大的比重,网上购物就是其中之一。为此,电子商务网站都以获得最大利益为目标,用技术和非技术的方法,增加注册顾客、增加订单量、提供优质的服务。在这些前提下,个性化的商品推荐技术应运而生。目前,国内的一些推荐技术大多采用比较原始的方法。最原始的方法是"数据库查询",通过sql语句找到数据库中和顾客浏览、收藏或是购买的商品有相同作者、相同分类、相同主题等的其他一些商品,推荐给顾客。"问巻反馈"方式,通过提问,让顾客回答一些问题,直接了解顾客的喜好,推荐合适的商品。此外还有"关联规则"等等形式的商品推荐方法。以上这些方法,在推荐的准确性、实时性等方面不够理想,推荐的自动化程度和持久性程度低,缺乏个性化。总结起来,目前国内商品推荐存在以下缺点缺乏个性化的推荐。很多的推荐结果是针对所有用户的,或者是针对大部分用户的,不是针对某个用户当前行为的个性化的推荐。这些推荐结果中,可能很多的推荐与某些用户的兴趣并不相符。这是我国电子商务推荐的最大缺点。推荐的自动化程度低。大多数的推荐功能都需要用户经过一段时间与计算机的交互,输入自己的兴趣信息,然后才能得到结果("问巻反馈"方式)。推荐的持久性程度低。目前国内大部分的推荐技术都是建立在当前用户会话基础上的,不能利用用户以前的会话信息,推荐的持久性程度非常低,这也是国内推荐技术的一个主要缺点。推荐方法单一。所运用的大多数推荐策略基本上就是分类浏览和基于内容的检索,缺乏多种推荐策略的混合使用,尤其是缺少个性化的与非个性化的推荐策略的混合使用。实时性差,不能在线推荐。有的推荐策略不能做到在线推荐,如信函式推荐,推荐结果不能及时反馈给用户。推荐的局限性大。大部分只能推荐那些有一定销售量、关注量的商品,而对于那些刚刚上架的新进的商品,无所适从——冷开始问题。
发明内容为了解决以上问题,给顾客推荐他们可能要购买的商品,同时又能推荐新上架的商品,本发明提供一种简便的在电子商务网站使用的方法首先使用基于购物历史挖掘的推荐技术,从顾客的实际购物数据出发进行挖掘,得到的相关推荐商品符合顾客客观的实际的购物趋势和兴趣习惯。然后,使用基于内容挖掘的自然语言处理相关技术,挖掘商品信息的特征词,把商品表示成相关的信息特征向量,根据不同特征向量间的相似关系得到商品间的相似关系,从而为顾客推荐相关商品。综上所述,系统由基于购物历史挖掘部分和基于内容挖掘部分构成。第一部分基于购物历史挖掘部分如图1所示,本发明系统所使用的功能模块包括源数据准备模块、数据字段提取模块、计算模型模块、相关商品计算模块。其中的每个部分都是本发明得以实现并成功应用的基础,构成了一个技术系统。1.源数据准备模块从数据库中提取一定时间跨度的订单数据、浏览日志、搜索日志等等,能反映"商品一顾客"关系的数据集。2.数据字段提取模块提取每条订单中的有用信息,如购买日期、购买人、购买商品等数据。3.计算模型模块通过分析这些数据,建立"商品-顾客"计算模型。4.相关商品计算模块按照商品——购买该商品的顾客——该顾客购买其他商品的关系,针对模型中的每个商品,从该商品本身出发,找到购买过它的顾客,再从顾客出发,找到和它存在关系的商品,然后运用核心公式计算这两个商品之间的相似度。最后,计算完毕后得到每个商品的推荐结果的倒排文件。具体包括以下步骤1)原始数据准备可以是订单数据,或是浏览日志,搜索日志等等。2)数据字段提取取得数据源中有用的计算信息,如时间、人、商品等。3)建立计算模型通过分析提取的数据,建立"商品-顾客"计算模型(表示哪些顾客购买了哪些商品、哪些商品被哪些顾客购买过等关系)。4)相关商品计算模型用核心计算公式计算每个商品的相关商品集合。其中,上述步骤4的核心计算公式有很多种选择,比如(1)Ll—Norm算法<formula>formulaseeoriginaldocumentpage5</formula>(2)L2—Norm算法:<formula>formulaseeoriginaldocumentpage6</formula>(3)Mil算法.-<formula>formulaseeoriginaldocumentpage6</formula>(4)C0S算法:<formula>formulaseeoriginaldocumentpage6</formula>以上例举了4个比较常用的公式,计算的侧重点和效果各不相同,其他还有一些公式,选用哪种,由具体需求决定,即可单独使用,也可以组合使用。第二部分基于内容挖掘部分-如图5所示,本发明系统所使用的功能模块包括商品信息初始化模块,分词模块,特征词组模块,特征词模块,向量组合模块和相关度计算模块。其中的每个部分都是本发明得以实现并成功应用的基础并构成了一个技术系统。商品信息初始化模块读取每条商品相关的信息,建立商品ID和描述信息的对应集。分词模块对描述信息进行中文分词,获得分词后的结果。特征词组模块计算商品描述信息分词后的特征词组。特征词模块计算商品描述信息分词后的特征词。向量组合模块将特征词组和特征词表示成商品特征向量的集合。相关度计算模块通过特征向量的集合,计算商品间的相似度,作为相关商品的备选集合。包括以下步骤1)准备相关商品的信息,包括商品标题、商品内容、内容摘要等描述商品的信息。2)对商品信息进行词法分析,得到计算特征词组和特征词的备选集合。3)计算特征词组,可使用多种方法把备选词组合作为特征词组,如基于n元语法的组合词抽取。4)计算特征词,对备选词排序,得到备选词的权重,如可以计算词的TFIDF值。5)将特征词组和特征词联合构成代表商品特征的向量集。6)计算每个商品的相关商品,并将结果显示出来推荐给顾客。本发明可应用于基于购物行为Item的商品推荐、基于内容的商品推荐以及没有顾客购买记录的新上架商品的推荐等。几者之间可以互为补充,从不同角度解决商品推荐问题,为用户购物提供良好的体验,从而达到增加商务网站的销售量。图1是本发明的基于购物历史挖掘部分的系统流程图。图2是本发明的基于购物历史挖掘部分的数据处理模块流程图。图3是本发明的基于购物历史挖掘部分的计算模型倒排及索引结构图。图4是本发明的基于购物历史挖掘部分的计算相关商品流程图。图5是本发明的基于内容挖掘部分的商品推荐流程图。图6是本发明的基于内容挖掘部分的抽取关键词组和关键词的流程图。图7是本发明的基于内容挖掘部分的相关商品计算的流程图。具体实施例方式例l:某购物网站三个月订单的处理步骤l:原始数据准备如提取3个月的订单数据OrderInfo.txt,格式为(时间顾客ID商品ID商品名)例如OrderInfo.txt的前20行的数据显示<table>tableseeoriginaldocumentpage7</column></row><table><table>complextableseeoriginaldocumentpage8</column></row><table>提取相关数据项(有用信息)、对数据项排序。在该例中,提取相关数据项时,提取订单数据中的OrderDate(购买时间)、CustID(顾客ID)、ProID(商品ID),存5C在包含这三个整型字段的结构中,写入二进制文件中,并按照各个单元结构中的CustID和ProID分别排序,生成下面的两个中间结果文件-步骤3:生成计算模型由上一步生成的两个结果文件,生成"商品-顾客"计算模型。在该实例中,计算模型主要表示哪些顾客购买了哪些商品、哪些商品被哪些顾客购买过等关系,可以概括为顾客购物模型和商品被购买模型。顾客购物模型表示每个顾客买过哪些商品,是一个倒排表结构(C-P倒排表)。商品被购买模型表示每个商品被哪些顾客够买过,也是一个倒排表结构(P-C倒排表)。通过读取步骤2产生的两个中间结果文件,生成下面的两个倒排表,以及两个査询索引(C-P倒排索引和P-C倒排索引),如图3所示。<table>tableseeoriginaldocumentpage9</column></row><table>步骤4:相关商品计算(1)、核心计算公式这里以"COS算法"为例,它是采用一种基于条目之间的协同过滤的推荐算法,即余弦公式。它对具有相同或相似销售历史的商品进行配对,并统计它们的相似程度,对销售活动进行向量化,然后对向量进行公式计算,最后形成一个相似的条目矩阵。<formula>formulaseeoriginaldocumentpage9</formula>其中,在具体实例中向量A:表示商品A的销售人次量,向量B:表示商品B的销售人次量。分子含义在商品A和商品B购买过的相同的商品数量。分母含义表示商品A销售人次量的开方和商品B销售人次量的开方的乘积c(2)、流程如图4所示。a)进行内存映射读取对磁盘上的两个倒排表,b)对于P-C倒排表中的商品Pi,査询它的销售记录,得到顾客集合CustList,c)遍历CustList中的每个顾客,查询倒排表C-P,获取顾客的购买集合ProList,d)遍历ProList,与原商品Pi两两配对(这里认为,被同一个顾客购买过的两个商品具有相关性),生成规则(Proi-Proj-Count),e)通过计算公式以及规则,计算商品Pi和ProList中的每个商品的相似度,排序后记录结果,f)返回b,直到遍历完所有的Pi。例如,计算Pl的相关商品时-a)查找P-C倒排表,得到PI的销售记录CI、C3b)査找C-P倒排表,得到C1还购买了(P2、P3、P4、P5、P8),C3还购买了(P2、P4、P6、P8、P9),认为Pl与Cl和C3的其他购买商品存在相关性c)统计规则PI-P2-2、P1-P3-1、Pl-P4-2、Pl-P5-l、P1-P6-1、P1-P8-2、P1-P9-ld)计算P1和这些相关商品之间的相似度P1-P2:<formula>formulaseeoriginaldocumentpage10</formula>,P1-P3:<formula>formulaseeoriginaldocumentpage10</formula>,Pl-P4:<formula>formulaseeoriginaldocumentpage10</formula>Pl-P6:<formula>formulaseeoriginaldocumentpage10</formula>,Pl-P8:<formula>formulaseeoriginaldocumentpage10</formula>,P1-P9:<formula>formulaseeoriginaldocumentpage10</formula>,P1-P5:<formula>formulaseeoriginaldocumentpage10</formula>因此,得到P1的推荐结果(与P1相关的商品,按相似度排序)P2(0.707)、P4(0.707)、P6(0.707)、P8(0.707)、P9(0.707)、P3(0.5)、P5(0.4087)例2:顾客购书推荐相关商品步骤l准备信息数据,主要是商品文本描述信息。其包括商品标题、商品内容、内容摘要等,如C程序设计(第三版)——新世纪计算机基础教育丛书作者谭浩强著JavaScript高级程序设计——图灵程序设计丛书作者扎卡斯著,曹力等译步骤2对以上数据信息进行分词。针对不同的使用需求,可采用不同的切分方法。如基于正向最大匹配的切词算法,可保证一定的切分速度,使系统的运行时间縮短。步骤3分析特征词组。为了得到特征词组,可采用多种方法基于字的n元语法和基于词的n元语法等。在分词的基础上考虑分词碎片的结果,基于词的n元语法效果较好。基于词的n元语法考虑词、单字的连续组合,可以构成有完整意义的词组。这里选择使用2-5元语法,计算了所有2-5元词、字的组合概率,成词的模式。这样频次较低的词的词也可以收录进来。步骤4分析特征词抽取。对区别文档最有意义的词语应该是那些在文档中出现频率足够高,但在整个文档集的其他文档中频率足够少的词语。所以,词语权重与其项频和文频有关。这里使用TF-IDF公式计算<formula>formulaseeoriginaldocumentpage11</formula>根据TF-IDF公式,文档集中包含某一词条的文档越多,说明它区分文档类别属性的能力越低,其权值越小;另一方面,某一文档中某一词条出现的频率越高,说明它区分文档内容属性的能力越强,其权值越大。'"把特征词组和特征词组合成向量的模式,为下一步计算相关度打下基础。步骤6相关度计算。计算两个向量的相似度有多种方法基于向量空间模型的相似度计算方法;基于集合模型的相似度计算方法。这里考虑速度与效率,采用基于集合模型的相似度计算方法。文本相似度的决策函数:令F04)表示文档^的指纹集,F(5)表示文档S的指纹集,SC4,8)表示文档^和5的相似度,则决策函数为<formula>formulaseeoriginaldocumentpage11</formula>步骤当文档向量维数变化不大时,可以简化为<formula>formulaseeoriginaldocumentpage11</formula>式(3)可以表示式(2)的趋势,应用公式(3)可以简化计算的过程。首先,记录每个商品信息的特征向量;接着记录每个向量对应的商品;计算商品相似度时,只需要计算每个向量对应的商品。在程序中,根据商品数据建立一个倒排的向量对应商品ID序列表,计算相似度时,只要对商品对应的向量遍历査找后计数可得出相关度大商品。结果示例C程序设计(第三版)推荐的新商品为C语言程序设计0++程序设计解析*0++程序设计教程(第2版)JavaScript高级程序设计——图灵程序设计丛书,推荐的新商品为:ASP.NET实用教程权利要求1.一种电子商务网站相关商品推荐系统,从顾客的购物历史数据和购物内容出发挖掘特征词,利用数学方法建立不同特征向量间的相似关系,得到商品间的相似关系,从而为顾客推荐相关商品,其中顾客的购物历史部分包括源数据准备模块从数据库中提取一定时间跨度的能反映“商品-顾客”关系的数据集;数据字段提取模块提取每条订单中的有用信息,建立“商品-顾客”计算模型;相关商品计算模块按照商品——购买该商品的顾客——该顾客购买其他商品的关系,运用核心公式计算它们之间的相似度;最后,得到每个商品的推荐结果的倒排文件;其中购物内容部分包括商品信息初始化模块读取每条商品相关的信息,建立商品ID和描述信息的对应集;分词模块对描述信息进行中文分词,获得分词后的结果;特征词组模块计算商品描述信息分词后的特征词组;特征词模块计算商品描述信息分词后的特征词;向量组合模块将特征词组和特征词表示成商品特征向量的集合;相关度计算模块通过特征向量的集合,计算商品间的相似度,作为相关商品的备选集合。2.如权利要求l所述的一种电子商务网站相关商品推荐系统,其特征在于源数据准备模块是指执行从数据库中提取一定时间跨度的订单数据、浏览日志、搜索日志。3.如权利要求l所述的一种电子商务网站相关商品推荐系统,其特征在于数据字段提取模块是指执行提取每条订单中的购买日期、购买人、购买商品数据。4.如权利要求l所述的一种电子商务网站相关商品推荐系统,其特征在于相关商品计算模型是指采用Ll一Norm算法、L2—Norm算法、Mil算法、COS算法中的一种或几种组合。5.—种电子商务网站相关商品推荐方法,包括如下步骤-(1)处理购物历史数据库中的数据部分①从数据库中准备原始数据,②提取数据源中有用的计算信息数据字段,③通过分析提取的数据,建立"商品-顾客"计算模型,用核心计算公式计算每个商品的相关商品集合;(2)处理购物商品内容的数据部分①准备相关商品的信息,②对商品信息进行词法分析,得到计算特征词组和特征词的备选集合,③计算特征词组,把备选词组合作为特征词组,计算特征词,对备选词排序,得到备选词的权重,◎将特征词组和特征词联合构成代表商品特征的向量集,⑥计算每个商品的相关商品,并显示推荐的结果给顾客。6.如权利要求5所述的一种电子商务网站相关商品推荐方法,其特征在于核心计算公式是指采用Ll一Norm算法、L2—Norm算法、Mil算法、COS算法中的一种或几种组合。7.如权利要求5所述的一种电子商务网站相关商品推荐方法,其特征在于使用基于n元语法的组合词抽取来计算计算特征词组。8.如权利要求5所述的一种电子商务网站相关商品推荐方法,其特征在于使用词的TFIDF值来计算词的权重。全文摘要本发明公开了一种电子商务网站相关商品推荐系统,从顾客的购物历史数据和购物内容出发挖掘特征词,利用数学方法建立不同特征向量间的相似关系,得到商品间的相似关系,从而为顾客找到商品。同时还公开了相关商品的推荐方法,从数据库中提取一定时间跨度的数据,选取并计算有用的数据信息段建立“商品—顾客”计算模型,再按照“商品—顾客—其他商品”模式进行商品间相似度的计算,并将结果推荐给顾客。从而抓住顾客心理,促使顾客购买相关商品,刺激增加销量。文档编号G06Q30/00GK101206752SQ200710301709公开日2008年6月25日申请日期2007年12月25日优先权日2007年12月25日发明者庄洪波,研张,杨曹,王洪涛申请人:北京科文书业信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1