一种结合时序化动态建模和情感语义的个性化搜索方法与流程

文档序号:11250955阅读:601来源:国知局

本发明涉及互联网信息检索,具体涉及一种结合时序化动态建模和情感语义的个性化搜索方法,属于社会化搜索技术领域。



背景技术:

当今是一个信息爆炸的时代,信息已经不是稀缺资源,各种信息层出不穷的情况下,用户的注意力反而变得稀缺了。搜索引擎技术的进一步发展,给予用户很大便利。根据中国互联网络信息中心cnnic最新发布的《第39次中国互联网络发展状况统计报告》数据,截至2016年12月,中国搜索引擎用户规模达6.02亿,使用率为82.4%,用户规模较2015年底增加3615万,增长率为6.4%。在技术创新方面,搜索产品与多种前沿技术协同发展、深入融合的趋势日益突出。用户对本地化、个性化搜索的需求日益旺盛,用户需要更加个性化、场景化的精准信息搜索服务。在大数据、云计算时代,社会化搜索的作用日渐突出,并引起国内外相关学者的密切关注,成为最近十几年以来信息检索领域的研究热点。

目前,国内外一些搜索引擎公司在社会化搜索服务方面进行了有益的尝试,除了产业界对社会化搜索理念与技术的不断推动,学术界的很多学者开展了基于社会化标注的搜索算法的研究。现根据已有方案中应用的主要技术概括目前研究和水平现状如下:

(1)基于标签次数的排序算法

主要思想是依据资源被标注的次数进行排序(参见“chenglh,pohy,chengwl,etal.utilizingusertag-basedinterestsinrecommendersystemsforsocialresourcesharingwebsites.knowledge-basedsystems,vol56,2014:86-96”)。如果一个标签出现的同时牵动另一个标签页出现,则说明两个标签存在一定内在联系,用无向图将同现的标签之间以边的形式连接,并通过共现的次数描述边的权重,最后权重最高的n条边所对应的标签用来对资源进行标注(参见“weiz,ziyg,zhengl.rankingonheterogeneousmanifoldsfortagrecommendationinsocialtaggingservices.neurocomputing,vol148,2015:521-534”)。

(2)基于社会化标注的pagerank改进算法

在社会化标注系统中,资源、用户、标签三者之间是互增强关系,被高素质用户用高质量的标签标注的资源具有更高价值,而用高质量的标签标注高价值资源的用户也具有更高的素质,被高素质的用户用来标注高价值资源的标签通常具有更高的质量。因此,这种互增强关系被用来改进传统的pagerank算法(参见“vivekk,dimals.pagerankmodelofopinionformationonsocialnetworks.physicaa,vol391,2012:5779-5793”),该算法利用资源、用户、标注三者之间的互增强关系进行迭代收敛,得到最终的资源、用户、标注评分向量。

(3)基于社会化标注的hits改进算法

专家级的用户更加倾向于对高质量的资源进行标注,高质量的资源通常由专家级的用户标注。因此,一些学者使用用户水平的不同之处对传统的hits算法进行改进,利用社会化标注来支持专家搜索。比如提出的spear算法(参见“nollmg,yeungca,gibbinsn,etal.tellingexpertsfromspammers:expertiserankinginfolksonomies.inproceedingsofthe32ndinternationalacmsigirconferenceonresearchanddevelopmentininformationretrieval,newyork,usa,2009:612-619”),该算法假设专家级的用户通常是一个发现者,而一般的用户通常是跟随者,专家级用户通常比一般用户更早地对高质量的资源进行标注。

(4)标签语义搜索算法

考虑标注之间的语义相似性来对查询的结果进行排序是另一个重要的研究内容。ahmad等人提出了利用语义建立线上内容和标签的关系(参见“ahmadak,mohammadrezafs,somayehm.implicitlearnerassessmentbasedonsemanticrelevanceoftags.computersinhumanbehavior,vol55,2016:743-749”),便于对内容的关键词提取,提高搜索效果。walisa等人提出通过学习用户的网络搜索行为模式,生成基于标签的关联规则,用于解决标签的语义相似性和多义性问题(参见“walisar,wichianp.exploringwebsearchbehaviorpatternstopersonalizethesearchresults.proceedingsofthethirdinternationalconferenceonintelligentnetworkingandcollaborativesystems,fukuoka,2011:313-319”)。

(5)基于主题的个性化搜索算法

其基本思想是利用社会化标注挖掘出用户的主题兴趣模型,即一组标签术语及其权重的集合,然后利用用户的主题兴趣模型对资源进行重新排序。比较著名的如folkrank算法(参见“hothoa,jschker,schmitzc,etal.folkrank:arankingalgorithmforfolksonomies.proceedingsofworkshoponinformationretrieval(fgir),germany,2006”),该算法认为资源、用户、标注三者之间是互增强关系。因此,可以利用这种互增强关系计算出资源、用户和标注的评分向量。与社会化标注的pagerank改进算法不同的是:folkrank算法额外增加了一个个性化的向量,该向量用来表示用户对不同主题的关注程度。

(6)基于社交网络的个性化算法

基于主题的个性化搜索算法考虑到了用户感兴趣的主题,但是没有考虑到用户的整个社交网络关系。结合社交网络,许多学者提出了基于社交网络的个性化算法。young等人将用户的兴趣模型刻画为熟悉度社交网络、相似度社交网络、基于主题的用户兴趣模型,并结合这三个方面的用户兴趣模型,给出了个性化的搜索算法(参见“youngak,gunwp.topic-drivensocialrank:personalizedsearchresultrankingbyidentifyingsimilar,credibleusersinasocialnetwork.knowledge-basedsystems,2013:230-242”)。junho等人则利用马尔可夫逻辑网络为基础的社会关系推理预测建立在已知的社会用户数据上,提高社会化搜索效率(参见“junhoc,changc,eunjil,pankook.markovlogicnetworkbasedsocialrelationinferenceforpersonalizedsocialsearch.6thinternationalconferenceoncomputationalcollectiveintelligence(iccci),seoul,southkorea,sep23-26,2014,studiesincomputationalintelligence,vol572,2015:195-202”)。

虽然社会化搜索的研究取得了一定的成就,但现有的研究工作和成果存在着局限性。首先用户的兴趣往往是发生变化的,没有建立用户动态的兴趣模型便不能实时反应用户兴趣的转移。其次没有考虑社会化标注的情感分析,忽略了用户的情感表达。因此,有必要提出一种更有效的社会化搜索的方法,建立用户动态的兴趣模型,并结合社会化标注的情感分析,以提高搜索精度。



技术实现要素:

本发明所要解决的技术问题是:提供一种结合时序化动态建模和情感语义的个性化搜索方法,建立用户动态兴趣模型,并结合标注的情感分析,得到更精确的用户个性化搜索需求。

本发明为解决上述技术问题采用以下技术方案:

一种结合时序化动态建模和情感语义的个性化搜索方法,包括如下步骤:

步骤1,根据社会化标注网络模型,建立用户兴趣模型和资源模型,其中,第i个用户用向量ui表示,其模型为ui=(t1:v1,t2:v2,…,tn:vn),第j个资源用向量rj表示,其模型为rj=(t1:w1,t2:w2,…,tn:wn),t1,t2,…,tn均表示标签,v1,v2,…,vn均表示用户对标签的偏好程度,w1,w2,…,wn均表示资源与标签的关联程度;

步骤2,结合情感词典,将用户兴趣模型、资源模型分别映射至情感语义空间,得到带有情感语义维度的用户兴趣模型、资源模型;

步骤3,采用基于用户的协同过滤方法,找到与当前用户兴趣和当前用户发起的查询相似度最高的n个用户,n为超参数,生成当前用户的邻域集;

步骤4,若当前用户发起的查询内容与资源的其中一个标签内容相匹配,则将该资源作为备选资源;计算当前用户的查询与每个备选资源的相似度;

步骤5,计算步骤3得到的邻域集中每个用户与各备选资源的相似度;

步骤6,结合步骤4和步骤5,计算每个备选资源与当前用户查询的相关度值,并将相关度值按照降序顺序排列并输出。

作为本发明的一种优选方案,步骤1所述用户对标签的编好程度计算公式为:

vk=α(ui,tk)/ni,k=1,2,…,n

其中,vk表示用户ui对标签tk的偏好程度,ni为用户ui标注的资源总数,tnow为当前时间,time(ui,tk)为用户ui使用标签tk标注资源的时间,n为标签的总数,tlastu为用户ui使用标签tk标注资源的最晚时间,tfirstu为用户ui使用标签tk标注资源的最早时间。

作为本发明的一种优选方案,步骤1所述资源与标签的关联程度计算公式为:

wk=β(rj,tk)/mj,k=1,2,…,n

其中,wk表示资源rj与标签tk的关联程度,mj为标注资源rj的用户总数,tnow为当前时间,time(rj,tk)为资源rj被标签tk标注的时间,n为标签的总数,tlastr为资源rj被标签tk标注的最晚时间,tfirstr为资源rj被标签tk标注的最早时间。

作为本发明的一种优选方案,所述步骤2的具体过程为:结合情感词典,分别将用户兴趣模型、资源模型与情感词典进行内积运算,将用户兴趣模型、资源模型分别映射至情感语义空间,从而得到带有情感语义维度的用户兴趣模型、资源模型。

作为本发明的一种优选方案,步骤3所述与当前用户兴趣和当前用户发起的查询相似度计算公式为:

其中,sim(ui,uh)表示当前用户ui兴趣与其他用户uh兴趣的相似度,sim(uh,q)表示其他用户uh兴趣与当前用户发起的查询向量q的相似度。

作为本发明的一种优选方案,步骤4所述当前用户的查询与每个备选资源的相似度计算公式为:

sim(q,rl)=sim(q,rl)+sim(q*,rl*)

其中,sim(q,rl)表示当前用户的查询向量q与每个备选资源rl的相似度,sim(q,rl)表示查询向量q与备选资源rl的内容向量余弦相似度,sim(q*,rl*)表示查询向量q与备选资源rl的情感语义向量余弦相似度。

作为本发明的一种优选方案,步骤6所述相关度值计算公式为:

其中,σ(ui′,rl,q)为相关度值,n为邻域集ci中所有用户的数量,sim(q,rl)表示当前用户的查询向量q与每个备选资源rl的相似度,sim(ui′,rl)表示邻域集中每个用户ui′与各备选资源的相似度。

本发明采用以上技术方案与现有技术相比,具有以下技术效果:

1、本发明方法使用时序关系和归一化标签范式能够更好表达用户和资源模型使搜索精度更高。

2、本发明方法结合情感词典,使搜索不仅仅基于模型的内容,从内容和情感语义两方面进行相关资源查找,能更好地完成个性化搜索。

3、本发明方法通用性强,能在各种社会化标注系统中实现,有很好的扩充性。

附图说明

图1是本发明一种结合时序化动态建模和情感语义的个性化搜索方法的流程示意图。

具体实施方式

下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

如图1所示,为本发明一种结合时序化动态建模和情感语义的个性化搜索方法的流程示意图,具体步骤如下:

s1、首先依据社会化标注网络模型,包括用户、标签、资源三部分。u、t、r分别表示用户、标签、资源的有限集合。

建立用户(兴趣)模型,用向量ui表示用户模型ui=(t1:v1,t2:v2,…,tn:vn),{t1,t2,…,tn}和{v1,v2,…,vn}表示标签库和偏好程度。vk由归一化标签范式来表示偏好程度。vk=α(ui,tk)/ni,k=1,2,…,n,vk值越高,表明用户在标签tk上兴趣度越大。其中ni是用户ui标注资源总数,α(ui,tk)为用户ui使用标签tk的时序化动态值如下述公式获得:

其中tlastu-tfirstu为用户ui使用标签标记资源的最晚时间与最早时间之差,tnow-time(ui,tk)为当前时间与用户使用标签tk标注资源时间之差。记录用户所有使用标签tk标注资源的时序化值并且求和就是用户ui使用标签tk的时序化动态值。

假设某用户使用标签标注资源的次数为6次,使用标签action和affectional各3次,按时间顺序是:action,action,affectional,action,affectional,affectional。与当前时间差按某种设定单位分别是:6,5,4,3,2,1。用户最晚标记时间与最早标记时间之差为5。

action标签的时序化兴趣偏好值为:

vaction=(e-(6/5)+e-(5/5)+e-(3/5))/6=(0.301+0.367+0.449)/6=0.186

affectional标签的时序化兴趣偏好值为:

vaffectional=(e-(4/5)+e-(2/5)+e-(1/5))/6=(0.548+0.67+0.818)/6=0.339

则用户兴趣模型向量为:ui=(action:0.186,affectional:0.339)

由此可以看出时序化的用户模型代表了用户兴趣的动态变化,越是后期标注的标签,兴趣度越高。同时进行了标签范式归一化,为后续提高计算的精度做准备。

建立资源模型,用向量rj表示资源模型rj=(t1:w1,t2:w2,…,tn:wn),{t1,t2,…,tn}和{w1,w2,…,wn}表示标签库和资源与标签的关联程度。wk由归一化标签范式来表示标签tk与资源rj的关联程度。wk=β(rj,tk)/mj,wk值越高,表明标签tk与资源rj关联程度越大。其中mj是用标注资源rj的用户总数,β(rj,tk)为资源rj被标签tk标注的时序化动态值如下述公式获得:

其中tlastr-tfirstr为资源rj被标签标记的最晚时间与最早时间之差,tnow-time(rj,tk)为当前时间与资源rj被标签tk标注时间之差。记录资源所有被标签ti标注资源的时序化值并且求和就是资源rj被标签tk标注的时序化动态值。

s2、结合情感词典,将情感语义附加在用户和资源模型,用户和资源模型按照词典语义维度得到更新。本发明采用senticnet4.0情感词典为例(但不仅限于senticnet4.0),senticnet4.0词典包含50000个概念,有5个维度,分别是喜悦、关注、敏感、倾向和极性。将用户模型和资源模型与情感词典进行内积运算,这样就将用户模型和资源模型映射至情感语义空间,得到的便是带有情感语义维度的用户模型和资源模型。

继续以上述某用户ui的兴趣模型为例,如果根据感情词典映射至语义空间,则根据感情词典维度进行如下计算:

在senticnet4.0情感词典中,action和affectional的语义向量分别是:

action=(-0.103,0.074,-0.057,0.188,0.034)

affectional=(0.461,0.674,-0.262,0.247,0.373)

则用户兴趣模型转换成用户情感语义维度模型:

ui=(0.137,0.242,-0.099,0.118,0.132)

其中第一个情感维度0.137是由action和affectional的第一个情感维度计算得到的(0.137=0.186*-0.103+0.339*0.461)。

同理,所有的资源模型转换成资源情感语义维度模型。也包括之后的查询向量。

s3、采用基于用户的协同过滤方法,找到与目标(当前)用户ui兴趣和目标用户发起的查询相似度最高的n个用户,生成目标用户的邻域集ci。相似用户由下述公式获得:

sim(ui,uh,q)表示用户ui发起的查询时,用户uh依赖查询向量q的与目标用户ui相似度值。

其中sim(ui,uh)为目标用户模型与其他用户(如uh)模型的相似度,由下述公式获得:

sim(ui,uh)=sim(ui,uh)+sim(ui*,uh*)

sim(ui,uh)为目标用户与其他用户的内容向量余弦相似度,sim(ui*,uh*)为目标用户与其他用户的情感语义向量余弦相似度。这样避免了只考虑用户之间的情感相似性,又考虑了用户之间内容相似性。

而sim(uh,q)为其他用户模型(如uh)与查询向量q的相似度,由下述公式获得:

sim(uh,q)=sim(uh,q)+sim(uh*,q*)

sim(uh,q)为其他用户与查询的内容向量余弦相似度,sim(uh*,q*)为其他用户与查询的情感语义向量余弦相似度。同上,这样避免了只考虑其他用户与查询之间的情感相似性,又考虑了其他用户与查询之间的内容相似性。

通过(ui,uh,q)的计算得到与用户ui发起的查询q时的其余用户与目标用户ui相似度值,由高到低排序,选出前n个用户,构成当前用户ui发起的查询q的邻域集ci。

s4、若当前用户发起的查询内容与资源的其中一个标签相匹配,则将该资源作为备选资源,找出所有的备选资源;计算目标用户的查询与每个备选资源rl的相似度sim(q,rl),也就是查询向量与备选资源rl向量的相似度,如下述公式:

sim(q,rl)=sim(q,rl)+sim(q*,rl*)

sim(q,rl)为查询向量q与备选资源rl的内容向量余弦相似度,sim(q*,rl*)为查询向量q与备选资源rl的情感语义向量余弦相似度。

s5、计算邻域集ci中的每一个用户ui′与备选资源rl的相似度,也就是邻域集ci中的每一个用户向量与备选资源rl向量的相似度,如下述公式:

sim(ui′,rl)=sim(ui′,rl)+sim(ui′*,rl*)

s6、结合s4和s5步,计算邻域集ci中的用户与备选资源rl和当前查询q相似度的均值,如下述公式:

s7、根据s6步公式,依次计算每一个备选资源与查询的相关度值,并按照降序顺序排列并输出。

以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1