基于网络行为的个性化推荐方法和系统的制作方法

文档序号:7967034阅读:233来源:国知局

专利名称::基于网络行为的个性化推荐方法和系统的制作方法
技术领域
:本发明涉及一种在分析用户网络行为的基础上为其提供个性化推荐服务的方法和系统。具体而言,本发明涉及一种通过对各个用户的网^行为如搜索的关键词和下载的文件进行分析,抽取用户之间的相似性,据此向用户进行两个方面的个性化推荐如向用户推荐与其具有共同兴趣的好友和其可能感兴趣的各种文件的方法和系统。
背景技术
:伴随计算机网络技术的飞速发展,互联网已经成为人们获取、交流信息的重要平台。在这种背景下,如何使用户能够在互连网的信息海洋中快速、准确找到自己需要的、感兴趣的内容,已成为互联网进一步发展亟待解决的难题。搜索引擎技术就是解决这一难题的重要工具,它根据用户提供的关键字,把满足匹配规则的相关内容返回给用户,极大地提高了信息检索的效,。但是,由于搜索引擎技术具有通用性,不能很好地满足不同背景的用户、不同査询目的和不同时期的搜索需求。表现在一方面,使用搜索引擎,用户必须首先根据自己的需求提取关键字,显然,所提出的关键字是否能够准确概括用户的需求严重影响到搜索引擎的返回结果的可用性,这就对用户提取关键字的能力提出了较高的要求;另一方面,即使用户提取的关键词是准确的,搜索引擎也仅仅是简单地把满足匹配的结果都返回给用户,而结果中往往有相当一大部分内容是用户不需要的,导致用户不得不在大量返回的结果中提取自己所需要的内容。为了弥补通用搜索引擎的不足,人们提出了个性化推荐技术。个性化推荐技术是指通过收集和分析用户信息来学习用户的兴趣和行为,据此实现主动推荐的目的。.目前,个性化推荐技术主要是在Web页面访问领域展开的,根据其所釆用的技术可以分为两大类一类是基于规则的个性化推荐系统;一类是信息过滤系纟#。其中,信息过滤系统又可以细分为基于内容的过滤系统和协作过滤系统。基于规则的个性化推荐系统首先根据当前用户阅读过的感兴趣的内容,按照规则推算出用户还没有阅读过的感兴趣的内容,然后根据规则的支持度(或重要程度),对这些内容排序并展现给用户。规则的提取通常是通过用户定制或通过挖掘技术自动发现。规则越多,推荐的准确度越高,但系统的维护也变得越困难,性能也会急剧的降低。基于内容的过滤系统是通过计算用户行为特征和资源特征的相似度来实现向用户推荐资源,该方法的缺点是难以区分资源的品质和风格,而且不能为用户发现新的感兴趣资源。协作过滤系统与基子内容过滤的系统相似,不过比较的是不同用户之间的相似度,找出若干个最相似的邻居用户,并通过邻居用户来预测用户的兴趣,从而向用户推荐资源,该方法的缺点是初期系统稀疏而且可扩展性差。随着P2P技术的成熟,P2P(PeertoPeer的简称)应用越来越受到用户的青睐,在P2P网络中,没有中心节点专门提供服务,所有节点之间的地位是平等的,每个节点既是服务的请求方,也是服务的提供方。P2P改变了以往的基于C/S架构的信息共享方式,用户从被动的信息受体转变为主动的信息源,用户通过P2P系统方便地把本地的资源贡献出来。系统随着用户的增加,资源急剧的膨胀,如何在P2P系统中迅速找到自己感兴趣的资源或者用户,是P2P系统亟待解决的难题。目前,基于P2P系统的个性化服务还处于起步阶段,相对基于Web的个性化服务来说,面向P2P系统的个性化服务具有以下几个特征1、用户识别文件内容的主要途径是文件(夹)的名称。一般,文件(夹)的名称简短,没有上下文的辅助识别。而且,同一文件在不同的用户节点可能表现为不同的文件名。2、推荐的内容不仅包括文件资源,还包括推荐好友。P2P系统提供了一种通过感兴趣的用户找到感兴趣的内容的途径。3、P2P系统中的节点是不稳定的。当用户退出系统(比如关闭程序、关机、或者网络中断等等),用户的资源对系统的其他用户就变为不可访问。而Web站点则相对来说比较稳定,一般是7X24小时运行。
发明内容在综合分析了基于Web的各种个性化服务系统的利弊以及P2P系统应用中面临的新问题,本发明的目的是提供一种面向P2P系统的基于网络行为的个性化推荐方法和系统,该系统可以基于用户的网络行为为用户推荐与其具有共同兴趣的好友和用户感兴趣的各种文件,为用户提供个性化服务。为实现上述目的,本发明采用以F技术方案一种基于网络行为的个性化推荐方法,该方法包括以下步骤第一步根据用户向服务器发出的搜索请求和下载文件结束的报告生成相应的该用户网络行为日志,记录用户搜索的关键词、下载的文件;第二步对网络行为日志进行分析整理,修改系统知识数据库和用户匹配度数据库;知识数据库用于记忆系统自运行以来,用户在系统内进行的各种网络行为,包括用户的搜索行为和文件下载行为;用户匹配度数据库用于记录用户两两之间兴趣的相似性,是进行用户推荐的直接依据;第三步根据修改的用户匹配度数据库找出具有相同兴趣爱好的好友推荐给用户,同时挖掘出这些兴趣爱好相似的好友共同感兴趣的文件作为推荐文件资源推荐给用户。本发明还公开了一种基于网络行为的个性化推荐系统,它由网络行为日志生成模块、日志分析处理模块、推荐产生模块、知识数据库和用户匹配度数据库构成;所述网络行为日志生成模块主要是根据用户向服务器发出的搜索请求和下载文件结束报告生成相应的该用户网络行为日志,记录用户搜索的关键词、下载的文件;所述网络行为日志分析处理模块对网络行为日志生成模块生成的日志进行分析处理,修改系统知识数据库,并最终修改用户匹配度数据库;所述知识数据库用于记忆系统自运行以来,用户在系统内进行的各种网络行为,主要是搜索行为和文件下载行为;知识数据库根据MD5值对网络行为进行分类组织,并且按照用户ID从小到大的顺序排序;所述用户匹配度数据库用于记录用户两两之间兴趣的相似性,数据库为每一个用户维护一个匹配数据项,用于记录其他用户与该用户的相似度;所述推荐产生模块根据用户匹配度数据库产生推荐用户和推荐文件。本发明的解决方案是通过分析用户搜索的关键字和下载的文件日志记录,为每个用户找出若干个兴趣最相似的好友,并把这些好友推荐给用户;同时系统通过分析兴趣相似的好友的资料库,找出这群好友共同感兴趣的资料推荐给用户。本发明方法需要维护两个数据库,分别是知识数据库和用户匹配度数据库。知识数据库以搜索的关键词和下载的文件为关键字,记录了系统运行过程中搜索过该关键词或下载过该文件的用户。当用户第一次使用某一关键词搜索或第一次下载某一文件时,知识数据库对用户的这一行为进行学习。知识数据库是系统的核心数据,它记录了系统中所有用户的网络行为,是系统进行好友推荐和文件推荐的基础。用户匹配度数据库用于记录用户两两之间发生相同网络行为的次数,如使用相同的关键字搜索或下载相同的文件。当要进行好友推荐的时候,系统从用户匹配度数据库中检索出若干个与被推荐用户兴趣最相近的其他用户作为推荐对象。用户之间兴趣相近的程度是根据其匹配度来做判断的,匹配度越高,用户之间的兴趣越相近。搜索相同的关键词或下载相同文件的用户具有相同的感兴趣对象,用户之间的匹配度从o记起,当发生一次相同关键词搜索或下载相同的文件,就给对应用户的匹配度加1。根据匹配度找出与某个具体用户具有相同感兴趣的若干其他用户之后,再从这些其他用户中找出若干他们共同拥有的文件资源推荐给该具体用户。本发明具有运行效率高、结果可用性强、系统易于维护和扩展、能够激发用户新兴趣的特点。1、运行效率高本方法只涉及简单的数据处理,主要是简单的归类合并和排序,没有复杂的数据处理,计算复杂度是nlog"。相对传统的个性化推荐系统,运行效率有了极大的提高。2、结果可用性更强现有的基于web的个性化推荐系统是通过用户浏览网页的内容来推测其兴趣点的,进而产生推荐的内容。实际上,搜索的关键词以及下载的文件都能在一定程度上表征用户的兴趣点,而且由于下载文件的开销大于打开页面的开销,下载的文件比之关键词更有利于表征用户的兴趣点。因此,仅从搜索关键词来推测用户的兴趣点有其片面性。这样基于关键词的用户特征抽取以及资源特征抽取及由此匹配产生的推荐结果自然也就不尽人意。本发明的推荐方法从基本的生活常识出发,依次以某个目标用户为中心,把与该用户具有共同网络行为(包括搜索的关键词和下载的文件以及共享的文件等网络行为)的其他用户归类为具有共同兴趣爱好的用户群,然后把群中其他用户共同搜索或下载过但该目标用户却还未曾搜索或下载过的文件推荐给他。本发明方法的合理性在于第一,它符合日常生活的逻辑,有类似行为的特定人群一般也具有共同或类似的兴趣爱好与需求第二,它只根据用户行为对用户进行聚类,不需要对用户特征和资源特征进行抽取,避免了基于关键词的用户特征抽取的片面性。由此,本发明产生推荐结果可用性自然也就更强了。3、易于维护和扩展用户之间的关系和用户与资源的关系都是一个高度稀疏的矩阵。本发明方法设计的两个数据库只维护矩阵非零元素,维护的数据量小,计算的开销大大降低;在进行资源推荐时,只涉及很小一部分资源的分析;同时系统的设计既支持采用分层次处理,也支持分布式处理,具有良好的可维护性和可扩展性。4、能够激发用户的新兴趣本发明基于用户的网络行为分析,把与某个目标用户具有共同网络行为的其他用户归类为具有共同兴趣爱好的用户群,然后把群中其他用户共同搜索、下载或共享过但该特定用户却还未曾搜索、下载或共享过的文件推荐给他。这种推荐方法产生的结果不但具有较高的可用性,而且很多时候甚至是用户所意想不到的。不但能够激发用户潜藏的兴趣点,而且还具有智能化的学习功能。图1为本发明基于网络行为的个性化推荐系统系统构成示意图;图2为本发明基于网络行为的个性化推荐方法总体流程图;图3为本发明基于网络行为的个性化推荐方法中的网络行为日志分析步骤流程图4为本发明修改知识数据库步骤流程图5为本发明修改用户匹配度数据库步骤流程图6为本发明推荐生成步骤流程图7为本发明分布式基于网络行为的个性化推荐系统处理流程图。具体实施例方式图1为本发明公开的基于网络行为的个性化推荐系统系统构成示意图。如图所示,本发明公开的基于网络行为的个性化推荐系统主要由网络行为日志生成模块、日志分析处理模块、推荐产生模块、知识数据库和用户匹配度数据库构成;日志分析处理模块又包括日志排序模块、知识数据库修改模块、追加匹配度列表排序模块和用户匹配度数据库修改模块;推荐产生模块又包括生成推荐好友子模块和生成推荐文件子模块。由于本发明对系统实时性没有要求,系统的触发启动时间一般安排在每天服务器空闲的时刻进行。可以考虑选择定时触发的机制,也可以选择手动触发的机制。下面将分别对网络行为日志生成模块、日志分析处理模块、知识数据库、用户匹配度数据库、推荐产生模块进行介绍。'i、网络行为日志生成模块由于本发明主要是针对P2P文件共享系统提出的,用户在系统内部的行为主要是搜索和文件下载,所以系统网络行为日志生成模块主要是根据用户向服务器发出的搜索请求和下载文件结束报告生成相应的该用户网络行为日志,记录用户搜索的关键词、下载的文件等。为了方便日志模块的管理,日志记录中引入了MD5值(MD5的全称是Message-DigestAlgorithm5,信息一摘要算法,即把一个任意长度的字节串变换成一定长的大整数)。P2P的用户都是系统的合法注册用户,在注册的过程中,系统为每一个用户分配一个系统唯一的ID。每一个关键词或每一个文件都对应一个MD5值。日志文件的格式如下<table>tableseeoriginaldocumentpage12</column></row><table>格式说明opConeten:opCode[arg0][\argl][V..]1.共享opCode:1opCodefileName、fileSize2.下载opCode:2opCodefileName\filesize3.搜索opCode:3opCodekeyword范例AsdfkjalsdQlasdjflasjds100013842342341红灯.rmUOOOOOOOOOOajsdjflasjfdasldfjalsdjfl100313932434342羽毛球.txt、19934923423-sfs(jasldfllasfdjlasjdflas100013943333333人工智能网络行为日志生成模块就是通过用户ID和与每一行为对应的MD5值记录用户的每一次网络行为,生成日志。2、网络行为日志分析处理模块网络行为日志分析处理模块是系统的核心处理模块。该模块对网络行为日志生成模块生成的日志进行分析处理,修改系统知识数据库,并最终修改用户匹配度数据库,为进行推荐做好准备。该模块是系统中最为复杂的模块,它的性能决定了系统的性能。为了优化系统的性能,提高系统的处理能力,该模块包括有日志排序模块(又叫日志预处理模块)、知识数据库修改模块、追加匹配度列表排序模块和用户匹配度数据库修改模块。,随着系统用户的增加,系统每次要处理的日志记录数也会急剧的增加,系统知识数据库和系统用户匹配度数据库也会相应的扩容。为了优化系统的处理能力,提高系统的扩展性,该模块支持分布式处理模式。每次搜索的关键词或者每次下载的文件都有相应的MD5值与其对应,每一个MD5值都有相应的记录与其对应。按照通常的处理方式,每处理一条日志记录,就要分别读、写一次数据库,即进行一次磁盘10操作。为了减少磁盘IO操作,引入日志排序模块。日志排序模块按照MD5值对日志生成模块产生的日志记录进行排序,使具有相同MD5值的日志记录聚合在一块,这样,对相同MD5值的记录只需进行一次数据库读写操作,大大减少了数据库访问的次数。知识数据库修改模块主要完成知识数据库的修改,并生成追加用户匹配度列表。追加匹配度列表排序模块主要是对追加用户匹配度列表按照目标用户ID对匹配度列表进行排序。用户匹配度数据库修改模块主要是修改用户匹配度数据库。3、知识数据库和用户匹配度数据库知识数据库主要用于记忆系统自运行以来,用户在系统内进行的各种网络行为,主要是搜索行为和文件下载行为。同时,知识数据库是用户匹配度数据库产生的基础。知识数据库是系统的关键数据库,如果网络行为甲志丢失,知识数据库将无法恢复;即使日志记录有保存,要从系统的历史日志中恢复出知识数据库也将是一个复杂、耗时的过程,因此有必要对知识数据库进行冗余备份。为了方便数据的组织管理,知识数据库根据MD5值对网络行为进行分类组织。每一个MD5值对应一个数据项,由于MD5值的生成函数并不是一一对应的,所以每一个MD5值对应的数据项中可能对应不只一个关键词或文件。这里采用XML来组织具有同一MD5值的网络行为,具体格式定义如下<table>tableseeoriginaldocumentpage13</column></row><table><table>tableseeoriginaldocumentpage14</column></row><table>其中每个关键词或文件对应的用户列表使用&把用户ID相互分隔开,并且要求用户ID的排序满足从小到大的顺序,方便后续插入的冲突检查。用户匹配度数据库用于记录用户两两之间兴趣的相似性,是进行用户推荐的直接依据。该数据库根据知识数据库修改模块产生的追加用户匹配度列表进行维护。由于用户之间的相似性矩阵是一个高度稀疏矩阵,为此数据库采用只存储非零元素的方式来压縮存储空间。为了方便推荐的生成,数据库为每一个用户维护一个匹配数据项,用于记录其他用户与该用户的相似度(只记录相似度非0的元素)。匹配数据项采用XML的格式组织,具体格式如下条目内容文件名(userid)Match.xml文件格式<matchid=xxxlastModifyTime=xxx><userid=xxx>xxx</user><userid=xxx>xxx</user><userid=xxx>xxx</user></match>范例<matchid-1001lastModifyTime=12343221><userid=1005>l</user><userid=1006>2</user><userid=1007>l</user></match〉其中用户的排序按照用户ID由小到大,方便后续的修改和插入。当匹配数据项被修改的时候,最后修改时间(lastModifyTime)也会相应的被刷新,推荐生成模块根据最后修改时间(lastModifyTime)这个字段方便地判断是否需要重新生成推荐用户。4、推荐产生模块推荐产生模块是系统产生推荐用户和推荐文件的模块,该模块由好友推荐生成子模块和文件推荐生成子模块组成。好友推荐生成子模块主要负责生成给用户推荐的好友。该模块从用户匹配皮数据库中检索出推荐给用户的好友。首先对与推荐目标具有相同兴趣爱好的用户根据匹配度进行排序,然后从中挑选出匹配度值最大的若干个用户作为推荐的用户。'文件推荐生成子模块主要负责生成给用户推荐的文件。该模块所依据的逻辑关系是与某个目标用户具有类似网络行为的其他用户所共同感兴趣的文件资源,也会是该目标用户所感兴趣的。文件推荐生成子模块根据好友推荐生成子模块产生的好友,分析他们共同感兴趣的文件,并推荐给目标用户。在P2P的系统,每个用户都会共享或下载文件。该模块从推荐好友所共享或下载的文件筛选出他们共同感兴趣的若干文件推荐给用户。图2为本发明基于网络行为的个性化推荐方法总体流程图。如图所示,本发明提供的基于网络行为的个性化推荐方法包括以下步骤第一步系统网络行为日志生成模块根据用户向服务器发出的搜索请求和下载文件结束的报告生成相应的该用户网络行为日志,记录用户搜索的关键词、下载的文件。系统为每一个用户分配一个系统唯一的ID,同时,系统为每一个关键词、每一个文件都对应地设置一个MD5值,系统日志生成模块根据用户的网络行为,用ID和MD5值记录用户的每一次网络行为,生成用户的网络行为日志。日志文件的格式如下<table>tableseeoriginaldocumentpage15</column></row><table>第二步由系统网络行为日志分析处理模块对日志进行分析整理,并修改相应的知识数据库和用户匹配度数据库。如图3所示,由系统网络行为日志分析处理模块对日志进行分析整理,并修改相应的知识数据库和用户匹配度数据库的具体步骤是151、网络行为日志处理模块中的日志排序模块按照MD5值对日志记录进行排序,使具有相同MD5值的日志记录聚合在一块。2、由知识数据库修改模块对知识数据库进行修改,并生成追加匹配度列表。知识数据库是用于记忆系统自运行以来,用户在系统内进行的各种网络行为,主要是搜索行为和文件下载行为。知识数据库根据MD5值对网络行为进行分类组织,并且按照用户ID从小到大的顺序存贮数据,方便后续插入的冲突检查。知识数据库修改模块修改知识数据库,生成追加匹配度列表的详细流程如图4所示,(1)、首先,从经过日志排序模块整理后的网络行为日志文件中读取具有相同MD5值的日志记录放入待处理任务池中,(2)、然后,确认对应MD5值的记录在知识数据库中是否存在,如果存在则读取它,如果不存在,则在知识数据库中创建该记录;(3)、而后,从任务池中逐条取出日志进行处理,对知识数据库中没有记录的日志记录进行记录,登记用户,生成追加用户匹配度列表,对已经记录的日志进行过滤,直接忽略该日志;一直到处理完成具有相同MD5值的所有日志记录o由于知识数据库只记录用户使用过的关键词搜索和下载的文件,不记录使用的次数,所以,有必要对重复的日志进行过滤。在对数据项进行修改的时候,如果发现该网络行为已经被收入,则直接忽略该日志;如果还没有记录,则记录它,并产生追加用户匹配度操作,写入追加用户匹配度列表。追加匹配度列表用于指导对用户匹配度数据库的修改操作。其格式如下<table>tableseeoriginaldocumentpage16</column></row><table>其中"IOOO10011"表示ID为1000的用户的匹配度数据项中为用户1001的匹配度追加1。追加的匹配度可以按照不同操作类型分别给^,这里我们简单的给定每搜索一个相同关键词或下载一个相同文件,匹配度加1。3、追加匹配度列表排序模块对追加用户匹配度列表进行排序在用户匹配度数据库中,匹配度的记录分别以每一个用户为中心,记录该用户与其他用户的匹配度。与修改知识数据库类似,每次修改一个用户的匹配度数据项,都得进行一次数据库读操作和一次写操作。为了提高数据库访问效率,使得能够对同一用户的数据项修改一次集中进行,网络行为日志分析处理模块还包括追加匹配度列表排序模块。该追加匹配度列表排序模块对追加用户匹配度列表按照目标用户ID对匹配度列表进行排序。4、用户匹配度数据库修改模块修改用户匹配度数据库如图5所示,修改用户匹配度数据库的具体步骤包括(1)、首先,从经过追加匹配度列表排序模块整理后的追加匹配度列表中读取具有目标用户的追加操作放入待处理任务池中;(2)、然后,确认该目标用户记录在用户匹配度数据库中是否存在,如果存在则刷新该用户最后刷新时间;如果不存在,则在用户匹配度数据库中创建记录,并刷新该用户最后刷新时间;,(3)、而后,从任务池中逐条取出该用户的匹配度追加操作进行处理,对用户匹配度数据库中没有记录的对应匹配度关系的,进行登记,对已经记录有对应匹配度的修改匹配度;一直到处理完该用户的全部匹配度追加操作,结束。修改用户匹配度数据库与修改知识数据库的不同在于第一,用户匹配度数据库的修改只是修改用户匹配度,没有结果输出,而修改知识数据库最后会生成一追加用户匹配度列表;第二,用户匹配度数据库的修改不仅要修改与该用户有关的匹配度,而且还要完成刷新最后修改时间。第三步由系统网络行为推荐产生模块根据修改的用户匹配度数据库找出具有相同兴趣爱好的好友推荐给用户,同时挖掘出这些兴趣爱好相似的好友共同感兴趣的文件作为推荐文件资源推荐给用户,如图6所示。好友推荐生成子模块主要负责生成给用户推荐的好友。该模块首先对与推荐目标具有相同兴趣爱好的用户根据匹配度进行排序,然后从用户匹配度数据库中挑选出匹配度值最大的若干个用户作为推荐的用户。文件推荐生成子模块分析好友推荐生成子模块产生的好友所共享或下载的文件,从中筛选出他们共同感兴趣的文件,推荐给目标用户。本发明提供的基于网络行为的个性化推荐方法和系统可以在单机架构的主机上实现全部功能,也可以在分布式的多台主机上实现全部功能。所谓单机架构是指通过一台裸机实现个性化推荐服务的全部功能。在单机架构下,系统的逻辑操作只涉及本地的逻辑操作。该系统可以在如windows、linux、unix等各种不同操作系统平台上运行,可以选择C、C++、Java、D印hi、VB等各种不同的编程语言。系统涉及的数据库可以选择Oracle、SQLServer.DB等商业数据库,也可以选择免费的MySQL、msSQL等数据库,还可以使用文件系统数据库。随着系统用户的增加,待处理的日志也会增加,数据库的数据量也会迅速的增大。单机结构的处理模式将无法及时处理日志并生成推荐结果,为了提高系统的适应能力、弹性负载能力和可扩展性,因此,本发明在系统设计的时候引入了分布式协作处理机制,如图6所示。图6描述了N台主机协作处理流程图,每台机器负责维护一个MD5段的知识,同时维护一个用户ID段的用户匹配度数据。网络日志的搜集也是采用分布式搜集的方式产生。首先,每台机器把自己收集生成的网络行为日志归类排序,然后根据MD5值的分段把相应的日志推送到负责该MD5段的处理机上。该推送既可以采用自定义的网络协议推送,也可以采用现有的协议,如FTP等。目标处理机在接收到所有其他处理机推送过来的日志之后,再次对日志进行排序归并,随后进行日志的处理并生成追加匹配度列表。生成的追加匹配度列表首先在本机进行排序整理,然后根据用户ID的分段把相应的追加操作列表推送到负责该ID段的处理机上,推送的方式如同日志。目标处理机在接收所有的其他主机推送过来的追加匹配度列表之后,再次对追加匹配度列表进行合并整理,然后根据列表对用户匹配度数据库进行修改。为了更好的支持分布式,MD5值的分段和用户ID的分段采用配置文件的方式加以描述。这样,当增加或减少处理机时,只需对配置文件进行修改即可。以上所述仅仅是为了说明本发明的原理和个性化推荐服务产生的示范案例,任何基于本发明原理和示范案例的等效变换,均属于本发明保护范围之内。权利要求1、一种基于网络行为的个性化推荐方法,该方法包括以下步骤第一步根据用户向服务器发出的搜索请求和下载文件结束的报告生成相应的该用户网络行为日志,记录用户搜索的关键词、下载的文件;第二步对网络行为日志进行分析整理,修改系统知识数据库和用户匹配度数据库;知识数据库用于记忆系统自运行以来,用户在系统内进行的各种网络行为,包括用户的搜索行为和文件下载行为;用户匹配度数据库用于记录用户两两之间兴趣的相似性,是进行用户推荐的直接依据;第三步根据修改的用户匹配度数据库找出具有相同兴趣爱好的好友推荐给用户,同时挖掘出这些兴趣爱好相似的好友共同感兴趣的文件作为推荐文件资源推荐给用户。2、根据权利要求l所述的基于网络行为的个性化推荐方法,其特征在于所述第一步生成网络行为日志的具体方法是系统为每一个用户分配一个系统唯一的ID,同时,系统为每一个关键词、每一个文件都对应地设置一个MD5值;系统根据用户的网络行为,用ID和MD5值记录用户的每一次网络行为,作为用户网络行为日志。3、根据权利要求1或2所述的基于网络行为的个性化推荐方法,其特征在于所述第二步对网络行为日志进行分析整理,修改系统知识数据库和用户匹配度数据库进一步包括以下步骤A、按照MD5值对日志记录进行排序,使具有相同MD5值的日志记录聚合在一块;B、对知识数据库进行修改,并生成追加匹配度列表;,(1)、首先,从经过排序整理后的网络行为日志文件中读取具有相同MD5值的日志记录放入待处理任务池中;(2)、然后,确认对应MD5值的记录在知识数据库中是否存在,如果存在则读取它,如果不存在,则在知识叛据库中创建该记录;(3)、而后,从任务池中逐条取出日念进行处理,对知识数据库中没有记录的日志记录进行记录,登记用户,生成追加用户匹配度列表,对已经记录的日志进行过滤,直接忽略该日志;一直到处理完成具有相同MD5值的所有日志记录;追加匹配度列表用于指导对用户匹配度数据库的修改操作,其格式如下-<table>tableseeoriginaldocumentpage3</column></row><table>其中"destUserIDuserlDvalue"表示ID为destUserID的用户的匹配度数据项中为用户userID的匹配度追加value数值;C、对追加用户匹配度列表进行排序对追加用户匹配度列表按照目标用户ID对匹配度列表进行排序;D、修改用户匹配度数据库具体步骤为(1)、从经过排序整理后的追加匹配度列表中读取具有目标用户的追加操作放入待处理任务池中;(2)、然后,确认该目标用户记录在用户匹配度数据库中是否存在,如果存在则刷新该用户最后刷新时间;如果不存在,则在用户匹配度数据库中创建记录,并刷新该用户最后刷新时间;(3)、而后,从任务池中逐条取出该用户的匹配度追加操作进行处理,对用户匹配度数据库中没有记录的对应匹配度关系的,进行登记,对已经记录有对应匹配度的修改匹配度;一直到处理完该用户的全部匹配度追加操作,结束。4、根据权利要求3所述的基于网络行为的个性化推荐方法,其特征在于所述第三步根据修改的用户匹配度数据库找出具有相同兴趣爱好的好友推荐给用户,同时挖掘出这些兴趣爱好相似的好友共同感兴趣的文件作为推荐文件资源推荐给用户的具体方法是首先,对与推荐目标具有相同兴趣爱好的用户根据匹配度进行排序,然后从用户匹配度数据库中挑选出匹配度值最大的若干个用户作为推荐的用户;分析用户和推荐好友所共享或下载的文件,从中筛选出他们共同感兴趣的文件作为推荐文件,推荐给目标用户。5、一种基于网络行为的个性化推荐方法,其特征在于该方法由N台主机协作处理完成,每台主机负责维护一个MD5段的知识,同时维护一个用户ID段的用户匹配度数据;网络日志的搜集也是采用分布式搜集的方式产生;它包括以下步骤A、每台主机根据用户向服务器发出的搜索请求和下载文件结束的报告生成相应的该用户网络行为日志;B、每台机器把自己收集生成的网络行为日志按照MD5值归类排序;然后,根据MD5值的分段把相应的日志推送到负责该MD5段的处理机上;C、目标处理机在接收到所有其他处理机推送过来的其负责的MD5段日志之后,再次对日志进行排序归并;D、修改知识数据库并生成追加匹配度列表;E、首先,在本机上对生成的追加匹配度列表进行排序整理;然后,根据用户ID的分段把相应的追加匹配度列表推送到负责该ID段的处理机上;F、目标处理机在接收到所有的其他主机推送过来的追加匹配度列表之后,再次对追加匹配度列表进行合并整理;G、根据列表对用户匹配度数据库进行修改;H、根据用户匹配度数据库生成推荐好友和推荐文件,传输给用户。6、根据权利要求5所述的基于网络行为的个性化推荐方法,其特征在于所述步骤A:生成网络行为日志的具体方法是系统为每一个用户分配一个系统唯一的ID,同时,系统为每一个关键词、每一个文件都对应地设置一个MD5值;系统根据用户的网络行为,用ID和MD5值记录用户的每一次网络行为,作为用户网络行为日志。7、根据权利要求6所述的基于网络行为的个性化推荐方法,其特征在于所述步骤D:修改知识数据库并生成追加匹配度列表的具体方法是;(1)、首先,从经过排序整理后的网络行为日志文件中读取具有相同MD5值的日志记录放入待处理任务池中;(2)、然后,确认对应MD5值的记录在知识数据库中是否存在,如果存在则读取它,如果不存在,则在知识数据库中创建该记录;(3)、而后,从任务池中逐条取出日志进行处理,对知识数据库中没有记录的日志记录进行记录,登记用户,生成追加用户匹配度列表,对已经记录的日志进行过滤,直接忽略该日志;一直到处理完成具有相同MD5值的所有日志记录o8、根据权利要求7所述的基于网络行为的个性化推荐方法,其特征在于:所述步骤E、F中对追加用户匹配度列表进行排序的方法是按照目标用户ID对匹配度列表进行排序。9、根据权利要求8所述的基于网络行为的个性化推荐方法,其特征在于:所述步骤G:根据列表对用户匹配度数据库进行修改的具体方法是-(1)、从经过排序整理后的追加匹配度列表中读取具有目标用户的追加操作放入待处理任务池中;'(2)、然后,确认该目标用户记录在用户匹配度数据库中是否存在,如果存在则刷新该用户最后刷新时间;如果不存在,则在用户匹配度数据库中创建记录,并刷新该用户最后刷新时间;(3)、而后,从任务池中逐条取出该用户的匹配度追加操作进行处理,对用户匹配度数据库中没有记录的对应匹配度关系的,进行登记,对已经记录有对应匹配度的修改匹配度;一直到处理完该用户的全部匹配度追加操作,结束。10、根据权利要求9所述的基于网络行为的个性化推荐方法,其特征在于所述步骤H:根据用户匹配度数据库生成推荐好友和推荐文件,传输给用户的具体方法是'(1)、对与推荐目标具有相同兴趣爱好的用户根据匹配度进行排序,然后从用户匹配度数据库中挑选出匹配度值最大的若干个用户作为推荐的用户;(2)、分析用户和推荐好友所共享或下载的文件,从中筛选出他们共同感兴趣的文件,推荐给目标用户。11、一种基于网络行为的个性化推荐系统,其特征在于它由网络行为日志生成模块、日志分析处理模块、推荐产生模块、知识数据库和用户匹配度数据库构成;所述网络行为日志生成模块主要是根据用户向服务器发出的搜索请求和下载文件结束报告生成相应的该用户网络行为日志,记录用户搜索的关键词、下载的文件;所述网络行为日志分析处理模块对网络行为日志生成模块生成的日志进行分析处理,修改系统知识数据库,并最终修改用户匹配度数据库;所述知识数据库用于记忆系统自运行以来,用户在系统内进行的各种网络行为,主要是搜索行为和文件下载行为;知识数据库根据MD5值对网络行为进行分类组织,并且按照用户ID从小到大的顺序排序;所述用户匹配度数据库用于记,用户两两之间兴趣的相似性,数据库为每一个用户维护一个匹配数据项,用于记录其他用户与该用户的相似度;所述推荐产生模块根据用户匹配度数据库产生推荐用户和推荐文件。12、根据权利要求ll所述的基于网络行为的个性化推荐系统,其特征在于所述网络行为日志生成模块利用用户ID和与每一网络行为对应的MD5值记录用户的每一次网络行为,生成日志。13、根据权利要求11或12所述的基于网络行为的个性化推荐系统,其特征在子所述网络行为日志分析处理模块包括日志排序模块、知识数据库修改模块、追加匹配度列表排序模块和用户匹配度数据库修改模块;日志排序模块按照MD5值对日志生成模块产生的日志记录进行排序,使具有相同MD5值的日志记录聚合在一块;知识数据库修改模块主要完成知识数据库的修改,并生成追加用户匹配度列表;追加匹配度列表排序模块主要是对追加用户匹配度列表按照???对匹配度列表进行排序;用户匹配度数据库修改模块主要是修改用户匹配度数据库。14、根据权利要求13所述的基于网络行为的个性化推荐系统,其特征在于所述推荐产生模块由好友推荐生成子模块和文件推荐生成子模块组成;好友推荐生成子模块负责生成给用户推荐的好友,该模块首先对与推荐目标具有相同兴趣爱好的用户根据匹配度进行排序,然后从中挑选出匹配度值最大的若干个用户作为推荐的用户;文件推荐生成子模块负责生成给用户推荐的文件,该模块从推荐好友所共享或下载的文件筛选出他们共同感兴趣的若干文件推荐给用户。全文摘要本发明公开了一种基于网络行为的个性化推荐方法,该方法包括以下步骤A.根据用户向服务器发出的搜索请求和下载文件结束的报告生成相应的该用户网络行为日志,记录用户搜索的关键词、下载的文件;B.对网络行为日志进行分析整理,修改系统知识数据库和用户匹配度数据库;C.根据修改的用户匹配度数据库找出具有相同兴趣爱好的好友推荐给用户,同时挖掘出这些兴趣爱好相似的好友共同感兴趣的文件作为推荐文件资源推荐给用户。本发明还公开了一种基于网络行为的个性化推荐系统,它由网络行为日志生成模块、日志分析处理模块、推荐产生模块、知识数据库和用户匹配度数据库构成。本发明具有运行效率高、结果可用性强、系统易于维护和扩展、能够激发用户新兴趣的特点。文档编号H04L12/00GK101105795SQ200610114120公开日2008年1月16日申请日期2006年10月27日优先权日2006年10月27日发明者余士良,林溢泽,钟惠波申请人:北京搜神网络技术有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1