用于在线论坛的信息实时推荐方法

文档序号:6497210阅读:457来源:国知局
专利名称:用于在线论坛的信息实时推荐方法
技术领域
本发明涉及信息检索领域,特别是涉及一种基于在线论坛的信息实时推荐方法。
背景技术
近年来,互联网的快速发展和Web 2.0技术的成熟使得人们在网上更加方便地进 行社交活动,并某种程度上影响了现代人们的生活方式。在线论坛作为诸多应用中比较成 功的一种社交网络,为人们提供了获取信息、共享知识、交流兴趣爱好和发表言论的便捷平 台,颇受人们欢迎。有名的在线论坛,例如Apple Discussion和Slashdot,吸引了数以百万 甚至千万计的用户使用,主题分布于政治、经济、体育、科学、教育、娱乐、健康等不同领域。 每天登录在线论坛搜索自己关心的主题或者发表言论成为了很多用户的日常习惯,在线论 坛用作时事新闻的发布媒介,对人们生活和新闻传媒起到了重要的作用。同时在线论坛作 为人们网上交互的便捷平台,由于受众面广,用户兴趣相对集中,比较适合投放符合用户品 味的通知和广告信息,以及开展团体之间的互动交流,因此越来越受到大公司和社会组织 的重视。在线论坛中,用户的交互一般以主题讨论的形式展开。用户可以发起新的主题,即 主题链源贴,也可以在已有的主题上发表或回复评论。某个主题的原始帖子可以衍生出很 多回复帖子以及回复帖子的回复帖子,这样就形成了树形结构的主题链,易于用户交互。然 而,在实际中,非常受用户欢迎的大规模论坛对讨论的主题分门别类,将整个论坛围绕相关 的主题语义分成多个板块或社区。一方面,其中相对热门的板块每天实时更新的帖子数一 般非常多,更新速度快,内容也可能比较杂乱。另一方面,用户往往希望尽快找到与其自身 社交和主题兴趣爱好相关的帖子,而不希望在无关的主题上浪费时间。因此,在这种情况 下,构建实时的帖子推荐系统,实时地给用户推荐符合其兴趣的帖子信息,对帮助用户及时 获取网上信息,增强用户的网上体验,具有重要的意义。

发明内容
为克服现有技术的无法快速寻找到与用户自身社交和主题兴趣爱好相关的帖子, 搜索耗时长、效率低的缺点,本发明提供了一种能快速寻找到与用户自身社交和主题兴趣 爱好相关的帖子,搜索耗时短、效率高的用于在线论坛的信息实时推荐方法。用于在线论坛的信息实时推荐方法,包括以下步骤
1)、获取指定时间段内用户参与讨论过的所有主题链数据,分析主题链中的包含的潜 在主题;
2)、对不同的潜在主题分别衡量用户参与讨论的相互影响值和用户自发兴趣值;
3)、计算用户参与新主题链的趋势概率,并依此对用户进行排序,并将排序后的主题链 推送给用户。进一步,步骤1)中,获取用户参与过的主题链数据,分析潜在主题的方法包括以下 步骤
5(1.1)抽取 论坛网 页中的 主题链 d,所有的主题链^构成主题链集合D ,^eD ;获取分别每个主题链rf中的所有帖子,抽 取每个帖子P的时间戳(Timestamp)、发帖的用户名(User Name)、用户编码(User ID)、被 回复的用户名(Implied User Name)、文本信息(Message Text);
(1.2)分别统计每个主题链rf中、用户 对主题链原帖的回复次数Cf},和用尸j对回
帖的用户,的回复次数;
(1. 3)获取主题链中的所有文本信息,所有的文本信息构成一个文档,使用隐含狄利克 雷分配(Latent Dirichlet Allocation)对文档进行潜在主题分析;所述的潜在主题分析 包括获取给定词w在一个文档中的生成概率P(W)和采用吉布斯采样(Gibbs Sampling)获 取在潜在主题ζ下选取w的概率、以及潜在主题ζ在给定文档下的概率; 其中P(W) = P(wIz)汽勻;
表示给定词w在潜在主题ζ下的概率,PO)表示指定了文档的情况下、在潜在 主题ζ下选取w的概率。 进一步,步骤2)中,用影响矩阵表示用户对某个潜在主题ζ参与讨论的相互 影响关系,用自发兴趣向量Z表示用户对某个潜在主题ζ的自发兴趣值; 步骤2)中计算用户参与讨论的相互影响值和自发兴趣值包括以下步骤 (2. 1)计算获取影响矩阵中的每个元素, 表示用户i对用户j参与主题ζ讨
论的影响,4 = 计算获取自发兴趣向量Z中的每个元素, ysi表示用户i对潜在主题ζ的偏好程度, .Ff独立于用户之间的影响关系,=Z^cIr'; (2. 2)对影响矩阵中的每个元素正则化
X^ x^ ι Yi. x^ if 3 . Φ ο Xy < 1 /N otlierwise
其中,N表示用户的数量;正则化后,影响矩阵Xs每一行的和为1 ;
对自发兴趣向量y中的每个元素<正则化,W ^Ji ^iJi ;
(2. 3)用马尔科夫链(Markov Chain)模拟用户参加主题讨论的动态过程,其中,马尔科 夫链的节点表示用户,边权重表示用户参与主题讨论的转变概率,即主题沿着节点之间的
边从一个用户流转到另一用户的概率;使用影响矩阵:JT的元素来表征马尔科夫链的
边权重,使用自发兴趣向量Z中的元素7『表征主题在任意节点跳转到相应节点、而非沿着 节点之间的边进行转变的概率,即主题在每个节点重新开始的概率;
6用户参加主题讨论阐述为用主题在用户关系构成的马尔科夫链上随机走(random walk)的过程。进一步,步骤3)中,用户参与新主题链的趋势概率的计算方法包括以下步骤 (3. 1)对影响矩阵和自发兴趣向量Z做线性组合、获取概率转变矩阵铲,
权利要求
用于在线论坛的信息实时推荐方法,包括以下步骤1)、获取指定时间段内用户参与讨论过的所有主题链数据,分析主题链中的包含的潜在主题;2)、对不同的潜在主题分别衡量用户参与讨论的相互影响值和用户自发兴趣值;3)、计算用户参与新主题链的趋势概率,并依此对用户进行排序,并将排序后的主题链推送给用户。
2.如权利要求1所述的用于在线论坛的信息实时推荐方法,其特征在于步骤1)中, 获取用户参与过的主题链数据,分析潜在主题的方法包括以下步骤(1.1)抽取 论坛网 页中的 主题链 rf,所有的主题链/构成主题链集合D,rfe£);获取分别每个主题链rf中的所有帖子,抽 取每个帖子&的时间戳(Timestamp)、发帖的用户名(User Name)、用户编码(User ID)、被 回复的用户名(Implied User Name)、文本信息(Message Text);(1.2)分别统计每个主题链J中、用户,对主题链原帖的回复次数C严,和用尸对回帖的用户,的回复次数;(1. 3)获取主题链中的所有文本信息,所有的文本信息构成一个文档,使用隐含狄利克 雷分配(Latent Dirichlet Allocation)对文档进行潜在主题分析;所述的潜在主题分析 包括获取给定词w在一个文档中的生成概率P(W)和采用吉布斯采样(Gibbs Sampling)获 取在潜在主题ζ下选取w的概率、以及潜在主题ζ在给定文档下的概率; 其中=.尸(+)表示给定词w在潜在主题ζ下的概率,Ρ(ζ)表示指定了文档的情况下、在潜在主题ζ下选取w的概率。
3.如权利要求2所述的用于在线论坛的信息实时推荐方法,其特征在于步骤2)中,用影响矩阵JT表示用户对某个潜在主题ζ参与讨论的相互影响关系,用自发兴趣向量Z表示用户对某个潜在主题ζ的自发兴趣值;步骤2)中计算用户参与讨论的相互影响值和自发兴趣值包括以下步骤(2. 1)计算获取影响矩阵中的每个元素Ig , 表示用户i对用户j参与主题ζ讨 论的影响,4=Σ/,4^ ;计算获取自发兴趣向量.V2中的每个元素义,fi表示用户i对潜在主题Z的偏好程度, 义独立于用户之间的影响关系,= ZAd)cid}; (2. 2)对影响矩阵JP中的每个元素正则化^Mi-- ^I-- / Jt - if y ..本0 y y I^Aj ι I^j ??X-.- -1/Ν otherwise其中,N表示用户的数量;正则化后,影响矩阵X2每一行的和为1 ;对自发兴趣向量7中的每个元素<正则化,
4.如权利要求3所述的用于在线论坛的信息实时推荐方法,其特征在于步骤3)中, 用户参与新主题链的趋势概率的计算方法包括以下步骤(3. 1)对影响矩阵和自发兴趣向量Z做线性组合、获取概率转变矩阵浐, 其中1表示元素都为1的向量;α表示线性组合的平衡因子(0 < cr < 1), α可根据实际数据调节,一般取ο. 5。α值越大,表示用户相互影响机制越强,而自发兴趣机制越弱;反之,则用户相互影响机制越 弱,而自发兴趣机制越强;概率转变矩阵S11里的每个元素表达了两个节点之间单步到达的转变概率; (3. 2)假设节点之间通过m (=1,2,…)步到达进行转变的概率是均勻分布的,即在 通过任意正整数值步骤转变的概率是都是1/m。则最终的转变概率矩阵可以有以下式子 替换算出
全文摘要
用于在线论坛的信息实时推荐方法,包括获取指定时间段内用户参与讨论过的所有主题链数据,分析主题链中的包含的潜在主题;对不同的潜在主题分别衡量用户参与讨论的相互影响值和用户自发兴趣值;计算用户参与新主题链的趋势概率,并依此对用户进行排序,并将排序后的主题链推送给用户。本发明具有能快速寻找到与用户自身社交和主题兴趣爱好相关的帖子,搜索耗时短、效率高的优点。
文档编号G06F17/30GK101986298SQ201010522040
公开日2011年3月16日 申请日期2010年10月28日 优先权日2010年10月28日
发明者卜佳俊, 吴昊, 张利军, 郑淼, 陈纯 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1