一种社交网络平台中的个性化搜索方法及其搜索装置的制造方法

文档序号:9432624阅读:265来源:国知局
一种社交网络平台中的个性化搜索方法及其搜索装置的制造方法
【技术领域】
[0001] 本发明设及自然语言处理、数据挖掘、信息检索领域,尤其设及一种社交网络平台 中的个性化捜索方法及其捜索装置。
【背景技术】
[0002] 捜索引擎能够帮助用户从无数的网络信息中快速获得用户需要的信息。但传统捜 索引擎只提供一种简单的捜索服务,针对捜索词返回统一的无差异的结果,用户需要对捜 索结果进行检验,很多情况下运是一项又费时又费力的工作。因此,传统捜索引擎越来越不 能满足不同用户的个性化需求。
[0003] 微博文本具有文本短小,数据结构复杂,带有很多特殊符号等特征,微博文本中具 有某些特殊词汇,运些词汇区别于一般语料库中用到的词汇。对于微博的文本分词是种挑 战。
[0004] 目前已存在许多个性化服务系统,提出了各种思路W实现个性化服务。它们不同 程度地解决了个性化捜索的某些问题,但还存在不足:对用户兴趣的学习和表达的自动化 程度不高,要求用户输入私人信息并需要用户提供大量的反馈信息,不能很好地适应用户 需求的变化。

【发明内容】

[0005] 本发明提供了一种社交网络平台中的个性化捜索方法及其捜索装置,本发明实现 了捜索结果的个性化,提高了用户满意度,详见下文描述:
[0006] 一种社交网络平台中的个性化捜索方法,所述个性化捜索方法包括W下步骤:
[0007] 对用户微博文本进行中文分词处理;
[0008] 从分词结果中提取特征词,作为用户的兴趣标签;
[0009] 通过向量空间模型将所述兴趣标签量化计算,获取页面与用户兴趣匹配度量值;
[0010] 结合Lucene的打分机制、所述页面与用户兴趣匹配度量值,最终实现基于用户兴 趣的个性化排序结果。
[0011] 其中,所述从分词结果中提取特征词,作为用户的兴趣标签的步骤具体为:
[0012] 通过微博用户关键词从分词结果中提取特征词,作为用户的兴趣标签。
[0013] 其中,所述通过向量空间模型将所述兴趣标签量化计算,获取页面与用户兴趣匹 配度量值的步骤具体为:
[0014] 当页面中含有用户的第一个兴趣标签,向量的第一位元素就为1 ;页面中不含有 用户的第二个兴趣标签,向量的第二位元素就为0 ;
[0015] 通过量化后的兴趣标签、每个兴趣标签的权重获取页面与用户兴趣匹配度量值。
[0016] 一种社交网络平台中的个性化捜索装置,所述个性化捜索装置包括:
[0017] 处理模块,用于对用户微博文本进行中文分词处理;
[0018] 提取模块,用于从分词结果中提取特征词,作为用户的兴趣标签;
[0019] 获取模块,用于通过向量空间模型将所述兴趣标签量化计算,获取页面与用户兴 趣匹配度量值;
[0020] 排序模块,用于结合Lucene的打分机制,所述页面与用户兴趣匹配度量值,最终 实现基于用户兴趣的个性化排序结果。
[0021] 其中,所述提取模块包括:
[0022] 提取子模块,用于通过微博用户关键词从分词结果中提取特征词,作为用户的兴 趣柄签。
[0023] 其中,所述获取模块包括:
[0024] 量化子模块,用于当页面中含有用户的第一个兴趣标签,向量的第一位元素就为 1 ;页面中不含有用户的第二个兴趣标签,向量的第二位元素就为0 ;
[00巧]获取子模块,用于通过量化后的兴趣标签、每个兴趣标签的权重获取页面与用户 兴趣匹配度量值。
[00%] 本发明提供的技术方案的有益效果是:本发明W新浪微博为例,在该平台上搭建 Lucene捜索引擎,通过对用户一段时间内发布的微博进行分析,根据用户在社交网络中表 现出的兴趣倾向对Lucene的页面排序算法进行改进。引入标签吻合因子的概念,来衡量页 面与用户的兴趣吻合度,提出一种适合个性化排序的权值计算公式,通过对存储在用户兴 趣表中的用户兴趣信息进行分析得到符合用户兴趣的排序结果,得到的捜索结果符合用户 的兴趣倾向。最大程度地实现捜索结果的个性化,使越符合用户兴趣的页面权重越大,排名 越靠前,W提高用户满意度。同时提高了自动化程度,更好地适应用户需求的变化。
【附图说明】
[0027]图1为一种社交网络平台中的个性化捜索方法的流程图;
[0028] 图2为提取特征词的示意图;
[0029] 图3为计算MRR平均值的示意图;
[0030] 图4为一种社交网络平台中的个性化捜索装置的结构示意图;
[0031] 图5为提取模块的示意图;
[0032] 图6为获取模块的示意图。
[0033] 附图中,各标号所代表的部件列表如下:
[0034]1:处理模块; 2 :提取模块;
[00对 3 :获取模块; 4 :排序模块;
[0036] 21 :提取子模块; 31 :量化子模块; W37] 32 :获取子模块。
【具体实施方式】
[0038] 为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步 地详细描述。
[0039] Lucene(Hatcher E, Gospo化etic 0, McCandless M. Lucene in action[J]. 2004) 是一个用化va写的全文索引引擎工具包,它可W方便的嵌入到各种应用中实现全文索引/ 检索功能。Lucene的应用程序接口设计的比较通用,输入输出结构都很像数据库的表== 〉记录==〉字段,所W很多传统的应用文件、数据库等都可W比较方便的映射到Lucene的 存储结构/接口中。总体上看:可W把Lucene当成一个支持全文索引的数据库系统。要实 现个性化捜索,最重要的就是了解用户的兴趣,基于用于的兴趣来预测用户最需要的信息。 需要对获取的用户微博内容进行文本处理,W获取代表用户兴趣的标签。Lucene有一套自 己的完整的打分机制。它并不是事先为每个网页资源算好评分,而是在用户捜索时进行实 时的评价和计算。文档的得分会根据用户输入的关键字不同而不同,越贴近用户需求的文 档评分会越高,在返回结果时也就排在越前面。Lucene的打分机制可W看作某个关键字在 文档中出现的频率。
[0040] 捜索引擎还需要一个衡量页面内容与用户兴趣标签匹配度的标准。显而易见,每 个用户都可能有若干个兴趣标签,每个页面也可能包含若干个相匹配的内容,但并不是页 面中含有的兴趣标签越多用户就越感兴趣,运是因为每个标签在用户屯、中的地位是不一样 的。通常认为,一个兴趣标签在用户微博中出现的次数越多,表示运个兴趣标签在用户屯、中 的地位越高,即用户对运个词越感兴趣。将Lucene嵌入到社交网络中,使其变得智能化,运 将远远超出用户对于传统捜索引擎的期待,是一项拥有广阔前景的课题。 阳〇W实施例1
[0042] 本发明实施例提供了一种社交网络平台中的个性化捜索方法,参见图1,该方法包 括W下步骤: 阳043] 101 :对用户微博文本进行中文分词处理; W44] 本发明实施例使用的是中科院计算所的汉语词法分析系统ICTCLAS。ICTCLAS的 主要功能包括:中文分词、词性标注、命名实体识别、新词识别等、同时支持用户词典。其主 要思想是利用层叠隐马尔可夫模型进行分层,W增加分词的准确性和保证分词的效率。具 体实现时,还可W采用其他分
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1