基于跨平台标签融合的问答社区推荐方法与流程

文档序号:12034704阅读:390来源:国知局
基于跨平台标签融合的问答社区推荐方法与流程

本发明涉及到问答社区的专家推荐研究,是基于跨平台标签融合的专家推荐方法。



背景技术:

伴随互联网及信息化的发展,社区问答系统成为用户在网络中获取信息的重要平台,用户可以通过自然语言对自己想了解的内容进行提问,由社区中其他用户进行解答。通过自然语言的交流,使得问答系统可以为用户之间提供很好的知识信息分享,更加方便地满足用户的信息需求。而随着社区问答系统中用户数量的增加,提问的数量也随之增多,社区中许多的问题长时间无法得到解答,或者得到的回答质量不高,根本无法满足问题需求。因此为了提高问答社区的工作效率,我们需要设计合适的推荐系统向社区中的问题推荐合适的回答者,增强用户的社区参与度,提高社区中的内容质量。

目前问答社区中的专家推荐算法一般都是利用单一社区的用户文档或网络结构进行对用户进行建模并推荐,但单一平台的数据通常只包含用户的部分特征,并不能全面地构建用户模型。



技术实现要素:

本发明针对现有推荐算法的不足,利用对跨平台用户数据进行研究,提出了一直基于标签融合的用户兴趣建模方法,并基于此实现问答社区中的专家推荐算法。

首先通过对知乎和微博两个平台的数据进行分析,从微博的社交关系以及知乎社区的问答功能出发,结合lda主题模型与word2vec对文本标签的语义进行深入挖掘,利用标签语义相似度矩阵设计跨平台的标签融合算法,构建融合的用户兴趣模型。相比单一网络的用户模型,跨平台用户模型能更全面覆盖用户不同特性,对用户特征有更清晰的描述。

同时综合考虑了社区用户的兴趣偏好、回答能力度及影响力实现专家推荐。算法利用用户知乎和微博平台的历史数据,通过标签融合建模方法对知乎专家用户的兴趣进行分析;对跨平台的共同用户构建融合关注关系网络,结合pagerank算法对用户的综合影响力进行分析;同时通过知乎社区的问答反馈机制,分析用户的回答能力度。通过实验结果表明,本文提出的算法具有更好的推荐效果。

本发明的有益效果是:通过跨平台的信息构建用户兴趣模型,能更全面获取用户的兴趣偏好。进而考虑用户在问答社区中的回答能力度及影响力,找出最适合对社区中待回答问题进行解答的用户,进行推荐。降低问答社区中问题的等待回答时间,提高社区运行效率。

附图说明

图1为本发明的主题词选取流程。

图2为本发明的推荐算法流程图。

图3为本发明的带权重关注网络示意图。

具体实施方式

本发明以知乎问答社区为例,研究知乎与微博平台之间的用户特征关系。

通过前两节的分析及数据的处理,我们已经提取到共同用户在两个平台中的兴趣主题,为了得到一个综合的用户兴趣模型,我们需要将两个平台的主题标签进行融合。

在对每个用户不同平台的标签向量进行分析时,由于主题提取算法是通过生成概率对主题进行建模,没有考虑词的语义特征,结果导致部分用户的标签中含有许多相似的词。因此如果直接将两个特征空间的词进行合并,将会使得用户的标签空间过大,同时用户在很多特征词上的值为0,导致数据稀疏问题,对用户的建模产生影响。

于是我们引入语义相似度分析,通过标签映射的思想,对两个主题空间内的主题标签之间进行语义相似度计算,对于相似度高的两个主题标签,选择其中对用户兴趣指代性强,区分度高的词作为特征词,最终构建融合主题空间。

对于每个用户,其知乎标签rz与微博标签rw的主题标签相似度矩阵tr定义如下:

其中dij来自两个网络的特征词的相似度:

dij=sim(wzi,wwj)

其中,wzi代表用户知乎标签中第i个词的词向量,wwj代表用户微博标签中第j个词的词向量,我们通过word2vec模型进行计算。

本发明将用户的历史问答及微博分词数据作为输入变量进行训练,设每个词的向量维度为n,对于每一个用户,通过训练好的模型对rz及rw中的每个词做词向量转化,得到每一个用户的单一平台主题矩阵:

m=[w(t)]

其中t属于rz或rw,矩阵中每一行w(t)表示用户的主题标签t的n维词向量。

通过生成每个平台中的主题标签的词向量,便可以通过向量余弦计算两个平台中各标签之间的相似度,计算公式为:

其中ik,jk分布为词向量中每个维度的值。

在得到标签相似度矩阵后,对于相似度高的标签,我们需要在两个词中进行选择,挑出其中更具有代表性的词加入到用户的新主题向量。当两个词相似度并不高时,则将两个词同时加入新主题向量,最终得到的新主题向量即融合后的用户主题向量。算法描述流程如下:

如果某个词在集合中出现的次数较多,则证明该词更加为被大众所接受,比如(爬山,登山),两者的语义相似度很高,假如大部分用户都是使用“爬山”来说明自己的爱好,则“爬山”一词的词频会较“登山”一词更高,因此文档集合中,“爬山”一次能能更好地表示用户的特征,应该给其赋予较高的权重,用来作为该文档的代表。

对于在某个主题分布中的词ti,他的权值表示为该词在各个网络中的权重之和,由于tf值对标签的表示更直观、简洁。因此本文采用改进的tf值进行计算,公式如下:

其中wij是该词ti在网络j中原有的权值,nij是该词在网络j中的词频数,nj表示网络j的所有词数量。

本发明通过空间向量模型来构建用户最终的主题向量,将所有用户的主题分布中的词作为最终的融合主题空间:

ts={tag1,tag2,...,tags}

并将每个用户的标签映射到融合主题空间中,得到每个用户的主题向量:

u={weight1,weight2,...,weights}

s为融合主题空间的大小,weighti为第i个词的权值。

1.对于一个新问题,需要筛选出曾经回答过相关类似问题的人来作为推荐列表,因此本发明通过用户历史回答中的话题标签数据进行筛选。每个问题的话题标签数量为1至5个,对于某个标签,用户在该话题标签下的回答次数多少能反映出用户对该话题相关问题的感兴趣程度。用户回答某个话题标签越多,则用户对该话题的兴趣度越高。

2.对于通过筛选后的用户,需要计算其对新问题的兴趣度。对于用户来说,其回答过的问题一定程度上就是其对某个问题领域的兴趣体现,因此本发明通过用户在社区中的历史回答数据来构建用户的兴趣模型。

本发明将知乎-微博的共同用户与非共同用户分别进行建模,得到各自的主题模型,步骤如下:

1)对所有知乎用户的历史问答数据处理得到用户分词向量,构建每个用户主题标签向量rz。

2)提取其中关联微博的用户集合,使用3.3.2节的算法构建共同用户的微博主题标签向量rw。

3)通过3.4节提出的标签融合算法,对共同用户的知乎主题标签rz和微博主题标签rw进行融合,得到融合主题标签空间ts及共同用户的融合主题向量u。

4)统一维度,将非共同用户的主题标签同样映射到标签空间ts中,得到主题向量u′。

对于一个新问题q,用户对其进行回答的兴趣度可以通过该问题的内容特征与用户历史回答的主题特征匹配程度来表示,即该用户主题标签与问题标签的相似度,我们将其定义为sim(u,q)。

3.对于用户回答问题的能力及专业程度我们通过用户历史回答得到的评价来进行评判。在知乎网络中,用户的回答会得到其他用户的“赞同”或“反对”,在同一问题下,用户得到的赞同数越多,通常能表示用户对该问题发表的观点更加受到认可,回答的质量更高。因此我们通过用户u历史回答的平均得赞数iu来对用户进行能力度的评判:

在问答网络中,热门问题通常会得到更多人的关注,部分回答质量不高的答案也可能会得到很多赞,甚至比某些冷门问题下的高质量答案得到的赞更多。因此,需要消除问题热度带来的得赞数差别。

4.在一个问答网络中,用户的权威度也会体现其回答问题的能力。网络中影响力大的用户普遍具有独特的素质、知识涵养及专业性,因此才能得到整个网络社区的认可。于是我们同样需要考虑用户在网络中的影响力作为专家推荐的因素。

对于专家用户中的跨网络用户,我们需要综合考虑其在知乎和微博社区中的影响力。在微博社交网络中具有较强的“关注-粉丝”关系,而且微博中的大v对信息传播具有重要意义,相关的影响力研究较多。所以本文结合微博网络对共同用户进行影响力分析。

如果单纯使用知乎数据建立关注网络,构建的用户网络稀疏,且不完整。因此我们融合用户的微博关注关系,来丰富用户的关注网络。

如果用户ui在知乎和微博同时关注用户uj,则该用户的受关注程度是跨网络的,比单一网络中的关注更强。但在传统的pagerank中,并不考虑边的权值,因此无法区分出该条边是从单一网络生成还是跨网络生成。因此,本发明改进pagerank算法,设定其中融合边的权值为:

于是得到有向图g′,如图3。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1