一种相关文章的推荐处理方法和处理系统的制作方法

文档序号:6435306阅读:151来源:国知局
专利名称:一种相关文章的推荐处理方法和处理系统的制作方法
技术领域
本发明涉及互联网信息处理技术,尤其涉及一种在互联网中相关文章的推荐处理方法和处理系统。
背景技术
目前,随着互联网技术的发展,网络逐渐成为人们获取信息的重要来源,特别是在互联网进入Web2. O时代后,用户既是网站内容的浏览者,也是网站内容的制造者。用户参与创造的内容被称为用户生成内容(UGC,User Generated Content),在Web2. O时代,由于UGC的大量涌现,网络信息量呈几何级快速增长。为了将信息迅速、有针对性地提供给感兴趣的用户,各种网站系统、互联网社区系统等都在用户阅读给定文章时,向用户推荐相关文章,以减少用户查找文章造成的人机交互次数,方便用户找到目标文章。目前互联网系统中相关文章的推荐处理技术主要有以下三种(I)人工整理的方式,即通过编辑人员阅读大量文章,人为确定将某些相关的文章确定有针对某一文章的推荐文章。这种推荐处理方式的缺点是人工成本太高,效率低下,难以处理每天大量的UGC内容。(2)固定推荐方式,即在一个网站系统或社区系统中预先选定一批推荐文章(比如每天点击率高的、置顶的、质量好的文章等),针对给定文章(例如用户当前阅读的文章),从所述推荐文章中随机选择一部分推荐给该网站系统或社区系统的所有读者。这种推荐处理方式的缺点是所有给定文章的推荐文章都是相同的,不能针对每篇给定文章推荐出相关的而且不同的内容,难以满足用户的个性化信息的获取需求,不方便用户从推荐结果中找到与给定文章相关性较高的目标文章。(3)动态推荐方式,即通过当前给定文章的关键词或者核心词,从待推荐文章数据库检索出相关文章,然后推荐给所述给定文章的读者,还可以根据文章发表时间、点击次数等调整推荐结果。这种推荐处理方式缺点是只是通过当前给定文章的核心词匹配检索相关文章,没有考虑相关文章的用户特征以及该用户特征与给定用户(例如所述给定文章的读者或作者)的用户相关性,导致不同的读者在同一时间得到的推荐结果没有区别,不能满足不同读者的个性化需求,不方便用户从推荐结果中找到与给定文章和给定用户相关性较高的目标文章。总之,现有的推荐相关文章的技术方案在面对当前互联网海量信息时,推荐结果的准确度不高,不方便用户从推荐结果中找到与给定文章(如当前阅读的文章)和给定用户(如给定文章的读者或作者)相关性较高的目标文章,用户为了查找与给定文章和给定用户相关性较高的目标文章,往往需要点击查看更多的页面进行人工搜索和查找,导致用户与互联网机器侧的人机交互次数增多,而每一次人机交互操作都会发出操作请求信息、触发计算过程并产生响应结果信息,从而会占用机器侧的大量资源,包括客户端资源、服务器资源、网络带宽资源等等。

发明内容
有鉴于此,本发明提供一种相关文章的推荐处理方法和处理系统,以提高相关文章推荐结果的准确度。本发明的技术方案是这样实现的一种相关文章的推荐处理方法,包括A、根据给定文章的内容特征检索出候选相关文章;B、根据每篇候选相关文章的用户特征,确定每篇候选相关文章的用户相关性;C、针对所述给定文章,优先推荐所述相关性高的候选相关文章。—种相关文章的推荐处理系统,包括特征检索模块,用于根据给定文章的内容特征检索出候选相关文章;相关性确定模块,用于根据所述每篇候选相关文章的用户特征,确定所述每篇候选相关文章的用户相关性;推荐控制模块,用于针对所述给定文章,优先推荐所述相关性高的候选相关文章。与现有技术相比,本发明综合考虑了文章内容特征和用户特征,不但利用给定文章的内容特征检索相关文章,而且根据用户特征确定相关文章的用户相关性,优先推荐相关性高的候选相关文章,从而提高了相关文章推荐结果的准确度,方便用户从海量的互联网文章信息中找到与给定文章和给定用户相关性较高的目标文章。例如针对用户当前阅读的文章,其推荐的相关文章不但与该当前文章的内容相关,而且与当前用户(即读者)相关,从而具有较好的推荐效果。因此本发明能够满足互联网用户的个性化阅读需求,减少用户为寻找目标文章而导致的人机交互次数,降低对机器侧资源的占用。随着网络社区化程度越来越高,在大量UGC内容里面,重复、近似的信息很多,对不同用户来说,更加倾向于关注来源于与自己存在密切社会关系的UGC信息,利用本发明可以根据相关文章的用户特征确定与给定用户之间相关性,从而可以使用户可以方便地获取到与自己相关性高的UGC信息。


图1为本发明所述相关文章的推荐处理方法的一种流程图;图2为本发明所述相关文章的推荐处理系统的一种实施例示意图;图3为本发明所述相关文章的推荐处理系统的又一种实施例示意图;图4为本发明所述相关文章的推荐处理系统的再一种实施例示意图;图5为本发明所述相关文章的推荐处理系统的再一种实施例示意图;图6为本发明所述相关文章的推荐处理系统的再一种实施例示意图。
具体实施例方式下面结合附图及具体实施例对本发明再作进一步详细的说明。图1为本发明所述相关文章的推荐处理方法的一种流程图。参见图1,该流程包括步骤101、根据给定文章的内容特征检索出候选相关文章。
步骤102、根据每篇候选相关文章的用户特征,确定每篇候选相关文章的用户相关性。步骤103、针对所述给定文章,优先推荐所述相关性分数高的候选相关文章。本发明中,所述相关性可以用相关性分数来表示,也可以用其他值来表示,例如用等级值表示。本文实施例中所述用户相关性以用户相关性分数表示,所述内容相关性以内容相关性分数表示。上述步骤101和102可以从已经存在的文章数据库和用户数据库中检索需要的候选相关文章的数据以及获取需要的用户特征数据。也可以自建和维护专用的文章数据库和用户数据库,从该专用的文章数据库中检索候选相关文章的数据,从该专用的用户数据库中获取需要的用户特征数据。所述建立和维护文章数据库的具体过程包括步骤al、建立文章数据库。步骤a2、从互联网中筛选出待推荐的文章,将待推荐文章的特征数据存储到所述文章数据库中。本步骤a2的具体实时中,可以从本网站系统甚至其他相关网站系统的所有文章中进行质量筛选,过滤掉质量较低的文章。之所以要进行筛选过滤处理,是因为UGC文章相对新闻文章具有很多特点例如数量多、用语规范程度相对较差、相互转载重复信息多、作弊和垃圾信息很多等。因此如果用UGC作为推荐文章,则需要对其进行有效过滤,选取质量高的文章。所述具体的文章筛选过滤方法例如可以包括(a21)根据文章标题可读性进行判别和筛选,即对文章标题的格式、语言规范化程度、语义信息量等进行打分,根据打分高低对文章进行筛选。(a22)根据文章内容可读性进行判别和筛选,即对文章内容的格式、语言规范化程度、语义信息量等进行打分,根据打分高低对文章进行筛选。(a23)对作弊垃圾类文章进行筛选,即筛选去掉包含广告推广、政治色情类等内容的文章。筛选出待推荐的文章后,将待推荐文章的特征数据存储到所述文章数据库中。所述文章特征数据包括文章质量分数、文章作者、文章类别、文章词向量空间、文章主题词等。本发明可以根据实际应用需要,设计多种数据存储格式,比如以文章类别建立索引、文章主题词建立文章索引,按文章ID建立数据索引等。另外,索引文章的排列次序可以按照文章的质量分数排序,这样可以在保证质量的前提下提高查询速度。步骤a3、根据互联网中文章数据的变化,更新和排重所述文章数据库中的待推荐文章的特征数据。本步骤a3的具体实施中,可以定期对文章数据库中的文章特征数据进行更新和排重处理。由于每天互联网会产生大量内容,在各种网站、社区内信息更新特别快,因此需要定期对推荐文章数据进行更新;另外不同用户相互转载和分享,造成重复信息量较多,需要进行排重处理。所述数据更新操作可根据不同的文章类别选择不同的更新策略,例如针对时效性高的文章,可根据时间跨度进行删除,针对时效性不高的文章,可以根据文本质量分数高低排序删除。所述排重过程可以包括标题排重和文章指纹排重,对于重复的两篇文章可根据文章作者的属性等级、文章是否转载等因素判定,优先保留作者等级高的文章和非转载文章。所述文章指纹排重是指通过文章指纹排除内容重叠的文章。计算文章指纹的方式有很多,比如计算一篇文章的SimHash值,其比特重复度越高,就说明文章越相似。在对所述文章数据库进行查询时,可以指根据查询指令,快速检索到相关文章,t匕如通过文章类别快速检索到属于该类别的所有文章或者部分文章。所述建立和维护用户数据库的具体过程包括步骤bl、建立用户数据库。步骤b2、在所述用户数据库中存储用户属性信息和用户关系链信息。所述用户属性信息包括用户等级、年龄、性别、兴趣、地域、职业等信息。用户的关系链信息包括即时通讯中用户的好友关系、微博的收听关系(有些微博中是关注关系)、文章转载关系、评论回复关系等,所述关系链信息取决与相关文章推荐的具体应用场景等。步骤b3、根据用户数据的变化,更新所述用户数据库中的用户属性信息和用户关系链信息。之所以需要进行数据更新是由于网站系统每天新用户加入,用户个人信息变更、用户关系链变化等,因此需要定期或实时向用户数据库中导入最新的用户数据。在所述步骤101中,根据给定文章的内容特征从所述文章数据库中检索出候选相关文章。例如可以通过给定文章的关键词检索出候选相关文章,在关键词检索不到候选相关文章时,可以确定给定文章的类别,通过类别检索候选相关文章,在实施过程中可采用其中一种或者多种方式,其具体的检索方法可以采用现有技术的各种检索方法,本文不再赘述。候选相关文章的数量可通过文章质量分数阈值或者文章总数来控制,例如文章质量分数小于所述阈值则不选择为候选相关文章,或者根据文章质量分数进行排序,只选择前N个文章作为候选相关文章,N为候选相关文章的总数。在本发明的具体实施方式
中,步骤102中可以只确定所述每篇候选相关文章的用户相关性分数;也可以进一步确定每篇候选相关文章与所述给定文章的内容相关性,具体可以用内容相关性分数来表示该内容相关性,并在所述步骤103中,进一步将每篇候选相关文章的所述内容相关性分数和用户相关性分数进行组合加权,得到综合相关性分数;针对所述给定文章,优先推荐所述综合相关性分数高的候选相关文章。本发明所述的给定文章可以是用户当前阅读的文章,此时对应的给定用户为文章的读者和/或文章的作者。所述的给定文章也可以是当前没有被阅读的文章,此时对应的给定用户为文章的作者,针对这些没有被阅读的文章利用本发明的方法,由后台为这些没有被阅读的文章推荐相关文章,一旦被阅读,则可直接显示已经确定好的推荐结果,或者再从这些推荐结果中筛选与读者最相关的文章。所述候选相关文章的用户相关性分数可以为用户属性相关性分数;或者为与给定用户的关系链相关性分数;或者为用户属性相关性分数和与给定用户的关系链相关性分数进行组合加权的分数。下面的实施方式介绍既确定所述每篇候选相关文章的用户属性相关性分数和关系链相关性分数,又确定每篇候选相关文章与给定文章的内容相关性分数的
具体实施例方式本实施例中,步骤102中具体包括以下步骤121至步骤123 步骤121、确定每篇候选相关文章与所述给定文章的内容相关性分数Pl。具体的确定方法例如可以为抽取主题词、词向量空间等内容特征,采用后述几种参数的任一种或任意种的加权和来确定所述内容相关性分数P1,这几种参数包括词向量空间余弦相似度、词向量空间的SimHash大小、主题词与文章的BM25值等。至于这几种参数的具体确定方法可以采用现有技术的方法,本发明不再赘述。步骤122、确定所述每篇候选相关文章的用户属性相关性分数p2。具体的确定方法为预存用户属性对应的相关性评分标准,从所述用户数据库中查询候选相关文章的作者属性,根据候选相关文章的作者属性和对应的相关性评分标准确定候选相关文章的用户属性相关性分数P2。所述用户属性数据包括用户等级、年龄、性别、兴趣、地域、职业等信息,例如可以根据作者的用户等级进行评分,其用户属性相关性分数实质上就是用户等级相关性分数例如普通用户评分为1,社区名人用户评分为2,VIP用户评分为3。例如,也可以根据作者的职业信息进行评分,如果作者的职业与给定用户(如当前文章的读者或当前文章的作者)不属于同一大类则评分为1,如果属于同一大类则评分为2,如果属于同一小类则评分为3。所述用户属性对应的评分标准可根据不同的推荐场景下用户属性特征的差异性进行调整。步骤123、确定每篇候选相关文章与给定用户的用户关系链相关性分数p3。此处所述给定用户为所述给定文章的读者或作者,该P3具体的确定方法为预存关系链距离对应的评分标准,从所述用户数据库中查询关系链数据,确定所述给定用户与候选相关文章作者的关系链距离,根据所述给定用户与候选相关文章作者的关系链距离和对应的评分标准确定每篇候选相关文章与所述给定用户的关系链相关性分数p3。所述关系链距离可以包括下面几种关系链距离中的任一种或任意种组合用户好友关系中的距离、微博用户收听关系(有些微博中是关注关系)中的距离、文章转载关系中的距离、评论回复关系中的距离等。所述用户好友关系中的距离是指好友之间的好友层次关系。例如若所述给定用户是候选相关文章的作者的好友,即一层好友关系,则所述关系链距离分数为I ;若该给定用户是该候选相关文章的作者的好友的好友,即二层好友关系,则所述关系链距离分数为1/2 ;若该给定用户是该候选相关文章的作者的好友的好友的好友,即三层好友关系,则所述关系链距离分数为1/3,以此类推。微博用户收听关系(或关注关系)中的距离是指微博用户之间加收听(或加关注)的层次关系。如果有直接的收听(或关注)关系,即一层收听(或关注)关系,则所述关系链距离分数为I ;二层收听(或关注)关系,则所述关系链距离分数为1/2 ;三层收听(或关注)关系,则所述关系链距离分数为1/3,以此类推。类似的,所述文章转载关系中的距离是指所述相关文章被用户转载的关系层次,所述评论回复关系中的距离是指所述相关文章被用户评论回复的关系层次,其关系链距离分数的原则是距离越近分数越高,距离越远分数越低。至于上述关系链距离分数的具体的评分标准可根据不同的推荐场景下用户关系的差异性进行调整。如果所述关系链距离包括上述两种或两种以上关系链距离,则总的关系链距离分数可以是每种关系链距离分数的组合加权值。上述步骤102中确定出了每篇候选相关文章的内容相关性分数P1、用户属性相关性分数p2、以及用户关系链相关性分数p3。
在后续的步骤103中,需要针对每篇候选相关文章,将其三种相关性分数Pl、P2和P3进行组合加权,得到每篇候选相关文章的综合相关性分数P。此处可以采用线性组合加权计算方式,具体的计算公式为Ρ=Σ XiPi,其中XiS各种相关性分数对应的权重因子。权重因子λ i的大小根据实际推荐需求决定,比如在用户关联紧密的互动社区系统内,用户相关性分数的权重因子可以加大,在用户关联较弱的新闻网站,用户相关性分数的权重因子可以降低。在所述步骤103推荐了给定文章的相关文章之后,还可以进一步包括搜集所推荐的相关文章的点击反馈信息,根据所述点击反馈信息调整所述各相关性分数对应的权重因子的比重,其目的在于在线推荐效果调优,以得到更准确的推荐结果。例如,根据日志可以统计不同用户的点击偏好,获取用户对内容相关性和用户相关性的不同偏重,以此来调整对应权重因子的比重。比如有的用户偏重于看内容相近的文章,则调高内容相关性权重因子的比重;有的用户偏重于看名人的文章,则调高该用户与该名人的关系链相关性权重因子的比重;有的用户偏重于看好友的文章,则调高该用户与其好友的关系链相关性权重因子的比重。再例如,根据日志也可以通过机器学习的方式训练出相关性加权模型,在给定文章特征和用户特征的情况下,预测该用户对候选文章的相关性分数。另外,在步骤103中,还可以进一步包括根据应用场景对所推荐的相关文章的推荐结果信息进行选择展示。例如所述在给定文章的网页中展示的推荐结果信息可以是推荐文章的文章内容相关信息,如文章标题文章的关键内容等;推荐文章的文章属性相关信息,如文章类别、文章的访问热度等;推荐文章的作者相关信息,如文章作者的名称、等级、地域等。具体展示上述哪一种推荐结果信息,可以根据具体的应用场景进行选择和调整。与上述方法对应,本发明还公开了一种相关文章的推荐处理系统。图2为本发明所述相关文章的推荐处理系统 的一种实施例示意图,参见图2,该系统包括特征检索模块201,用于根据给定文章的内容特征检索出候选相关文章;相关性确定模块202,用于根据所述每篇候选相关文章的用户特征,确定所述每篇候选相关文章的用户相关性分数;推荐控制模块203,用于针对所述给定文章,优先推荐所述相关性分数高的候选相
关文章。图3为本发明所述相关文章的推荐处理系统的又一种实施例示意图。在该实施例中,所述相关性确定模块202包括用户属性相关性确定单元221和关系链相关性确定单元222。所述用户属性相关性确定单元221用于确定候选相关文章的用户属性相关性分数P2 ;所述关系链相关性确定单元222用于确定候选相关文章与给定用户的关系链相关性分数P3。在该实施例中,所述推荐控制模块203中进一步包括相关性组合加权单元231,用于对一种以上的相关性分数进行组合加权,此处是对每篇候选相关文章的所述用户属性相关性分数P2和所述关系链相关性分数P3进行组合加权,得到综合相关性分数P ;所述推荐控制模块针对所述给定文章,优先推荐所述综合相关性分数高的候选相关文章。在另一种实施例中,所述相关性确定模块202可以只包括所述用户属性相关性确定单元221,或者也可以只包括所述关系链相关性确定单元222,此实施例中,所述推荐控制模块203中可以不包括所述相关性组合加权单元231。
图4为本发明所述相关文章的推荐处理系统的再一种实施例示意图。在该实施例中,所述相关性确定模块202中进一步包括内容相关性确定单元223,用于确定每篇候选相关文章与所述给定文章的内容相关性分数P1 ;由于本实施例中相关性确定模块202中还包括所述用户属性相关性确定单元221和/或关系链相关性确定单元222,因此所述推荐控制模块203中进一步包括相关性组合加权单元231,用于将每篇候选相关文章的一个以上的相关性分数进行组合加权,如本实施例中对候选相关文章与给定文章的内容相关性分数P1、及其用户属性相关性分数P2和/或其与给定用户的关系链相关性分数P3进行组合加权,得到综合相关性分数P ;所述推荐控制模块针对所述给定文章,优先推荐所述综合相关性分数高的候选相关文章。图5为本发明所述相关文章的推荐处理系统的再一种实施例示意图。在该实施例中,所述推荐控制模块203中进一步包括权重反馈控制单元232和/或推荐结果信息控制单元233。所述权重反馈控制单元232用于搜集所推荐相关文章的点击反馈信息,根据所述点击反馈信息调整所述相关性组合加权单元中各相关性分数对应权重因子的比重。所述推荐结果信息控制单元233用于根据应用场景对所述推荐文章的推荐结果信息进行选择展示。例如所述在给定文章的网页中展示的推荐结果信息可以是推荐文章的文章内容相关信息,如文章标题文章的关键内容等;推荐文章的文章属性相关信息,如文章类别、文章的访问热度等;推荐文章的作者相关信息,如文章作者的名称、等级、地域等。具体展示上述哪一种推荐结果信息,可以由所述推荐结果信息控制单元根据具体的应用场景进行选择和调整。本发明可以从已有的第三方文章数据库中检索相关文章数据,从已有的第三方用户数据库中查询相应的用户特征信息;也可以自建和维护文章数据库和用户数据库,并从该自建的文章数据库中检索所述相关文章数据,从该自建的用户数据库中查询相应的用户特征信息。因此,本发明在一种实施例中,可以包括推荐文章数据模块和/或用户数据模块,用于建立和维护推荐文章数据库和用户数据库。图6为本发明所述相关文章的推荐处理系统的再一种实施例示意图。参见图6,该实施例中包括推荐文章数据模块204和用户数据模块205。所述推荐文章数据模块204具体包括文章筛选单元241,用于从互联网中筛选出待推荐的文章;数据更新和排重单元242,用于更新和排重所述待推荐文章的特征数据;文章数据存储单元243,即文章数据库,用于存储待推荐文章的特征数据;文章数据查询单元244,与所述特征检索模块和相关性确定模块相连,用于根据所述特征检索模块和相关性确定模块的查询指令,从所述文章数据存储单元中查询相关的文章特征数据。所述用户数据模块205具体包括用户数据存储单元251,即用户数据库,用于存储用户属性信息和用户关系链信息;数据更新单252元,用于更新所述用户属性信息和用户关系链信息;用户数据查询单元253,与所述相关性确定模块相连,用于根据所述相关性确定模块的查询指令,从所述用户数据存储单元中查询相关的用户属性信息和/或用户关系链信
肩、O以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
权利要求
1.一种相关文章的推荐处理方法,其特征在于,包括A、根据给定文章的内容特征检索出候选相关文章;B、根据每篇候选相关文章的用户特征,确定每篇候选相关文章的用户相关性;C、针对所述给定文章,优先推荐所述相关性高的候选相关文章。
2.根据权利要求1所述的方法,其特征在于,所述步骤B进一步包括确定每篇候选相关文章与所述给定文章的内容相关性;所述步骤C中,进一步将每篇候选相关文章的所述内容相关性和用户相关性进行组合加权,得到综合相关性;针对所述给定文章,优先推荐所述综合相关性高的候选相关文章。
3.根据权利要求1所述的方法,其特征在于,所述候选相关文章的用户相关性为用户属性相关性;或者为与给定用户的关系链相关性;或者为用户属性相关性和与给定用户的关系链相关性进行组合加权的分数。
4.根据权利要求3所述的方法,其特征在于,当所述候选相关文章的用户相关性为用户属性相关性时,所述确定每篇候选相关文章的用户相关性的具体方法为预存用户属性对应的相关性评分标准,查询候选相关文章的作者属性,根据候选相关文章的作者属性和对应的相关性评分标准确定候选相关文章的用户属性相关性。
5.根据权利要求3所述的方法,其特征在于,当所述候选相关文章的用户相关性为与给定用户的关系链相关性时,所述确定每篇候选相关文章的用户相关性的具体方法为预存关系链距离对应的评分标准,确定所述给定用户与候选相关文章作者的关系链距离,根据所述给定用户与候选相关文章作者的关系链距离和对应的评分标准确定候选相关文章与所述给定用户的关系链相关性。
6.根据权利要求3或5所述的方法,其特征在于,所述给定用户为所述给定文章的阅读者,或者为所述给定文章的作者。
7.根据权利要求2、3、4、或5所述的方法,其特征在于,当每篇候选相关文章的相关性包括多种相关性时;所述步骤C后进一步包括搜集所推荐的相关文章的点击反馈信息,根据所述点击反馈信息调整所述各相关性对应的权重因子的比重。
8.根据权利要求1所述的方法,其特征在于,步骤C中,进一步包括根据应用场景对所述推荐文章的推荐结果信息进行选择展示。
9.根据权利要求1所述的方法,其特征在于,该方法进一步包括建立和维护文章数据库,步骤A中,从所述文章数据库中检索候选相关文章;所述建立和维护文章数据库的具体过程包括al、建立文章数据库;a2、从互联网中筛选出待推荐的文章,将待推荐文章的特征数据存储到所述文章数据库中;a3、根据互联网中文章数据的变化,更新和排重所述文章数据库中的待推荐文章的特征数据。
10.根据权利要求9所述的方法,其特征在于,步骤a2中所述筛选待推荐文章的方法包括以下至少一种方法根据文章标题可读性进行筛选;根据文章内容可读性进行筛选; 对作弊垃圾类文章进行筛选。
11.根据权利要求1所述的方法,其特征在于,该方法进一步包括建立和维护用户数据库,步骤B中,进一步包括从所述用户数据库获取所述用户特征; 所述建立和维护用户数据库的具体过程包括 bl、建立用户数据库; b2、在所述用户数据库中存储用户属性信息和用户关系链信息; b3、根据用户数据的变化,更新所述用户数据库中的用户属性信息和用户关系链信息。
12.—种相关文章的推荐处理系统,其特征在于,包括 特征检索模块,用于根据给定文章的内容特征检索出候选相关文章; 相关性确定模块,用于根据所述每篇候选相关文章的用户特征,确定所述每篇候选相关文章的用户相关性; 推荐控制模块,用于针对所述给定文章,优先推荐所述相关性高的候选相关文章。
13.根据权利要求12所述的系统,其特征在于,所述相关性确定模块中包括用户属性相关性确定单元,用于确定候选相关文章的用户属性相关性; 或者,所述相关性确定模块包括关系链相关性确定单元,用于确定候选相关文章与给定用户的关系链相关性; 或者,所述相关性确定模块包括所述用户属性相关性确定单元和所述关系链相关性确定单元;所述推荐控制模块中进一步包括相关性组合加权单元,用于将每篇候选相关文章的多种的相关性进行组合加权,得到综合相关性;所述推荐控制模块针对所述给定文章,优先推荐所述综合相关性高的候选相关文章。
14.根据权利要求12所述的系统,其特征在于, 所述相关性确定模块中进一步包括内容相关性确定单元,用于确定每篇候选相关文章与所述给定文章的内容相关性; 所述推荐控制模块中进一步包括相关性组合加权单元,用于将每篇候选相关文章的一个以上的相关性进行组合加权,得到综合相关性;所述推荐控制模块针对所述给定文章,优先推荐所述综合相关性高的候选相关文章。
15.根据权利要求13或14所述的系统,其特征在于,所述推荐控制模块中进一步包括权重反馈控制单元,用于搜集所推荐相关文章的点击反馈信息,根据所述点击反馈信息调整所述相关性组合加权单元中各相关性对应权重因子的比重。
16.根据权利要求12所述的系统,其特征在于,所述推荐控制模块中进一步包括推荐结果信息控制单元,用于根据应用场景对所述推荐文章的推荐结果信息进行选择展示。
17.根据权利要求12所述的系统,其特征在于,该系统进一步包括推荐文章数据模块,该推荐文章数据模块具体包括 文章筛选单元,用于从互联网中筛选出待推荐的文章; 文章数据存储单元,用于存储待推荐文章的特征数据; 数据更新和排重单元,用于更新和排重所述待推荐文章的特征数据; 文章数据查询单元,与所述特征检索模块和相关性确定模块相连,用于根据所述特征检索模块和相关性确定模块的查询指令,从所述文章数据存储单元中查询相关的文章特征数据。
18.根据权利要求12所述的系统,其特征在于,该系统进一步包括用户数据模块,该用户数据模块具体包括 用户数据存储单元,用于存储用户属性信息和用户关系链信息; 数据更新单元,用于更新所述用户属性信息和用户关系链信息; 用户数据查询单元,与所述相关性确定模块相连,用于根据所述相关性确定模块的查询指令,从所述用户数据存储单元中查询相关的用户属性信息和/或用户关系链信息。
全文摘要
本发明公开了一种相关文章的推荐处理方法和系统。所述方法包括A、根据给定文章的内容特征检索出候选相关文章;B、根据给定用户特征和每篇候选相关文章的用户特征,确定每篇候选相关文章的用户相关性;C、针对所述给定文章,优先推荐所述相关性高的候选相关文章。所述系统包括特征检索模块,用于根据给定文章的内容特征检索出候选相关文章;相关性确定模块,用于根据所述每篇候选相关文章的内容特征和用户特征,确定所述每篇候选相关文章的相关性;推荐控制模块,用于针对所述给定文章,优先推荐所述相关性高的候选相关文章。利用本发明,可以提高相关文章推荐结果的准确度,减少用户为寻找目标文章而导致的人机交互次数,降低对机器侧资源的占用。
文档编号G06F17/30GK103049440SQ201110306730
公开日2013年4月17日 申请日期2011年10月11日 优先权日2011年10月11日
发明者刘建, 罗侃, 杨志峰 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1