一种社交网络平台中的个性化搜索方法及其搜索装置的制造方法_2

文档序号:9432624阅读:来源:国知局
词软件,本发明实施例对此不做寶述。
[0045] 102 :从分词结果中提取特征词,作为用户的兴趣标签;
[0046] 103 :通过向量空间模型将兴趣标签量化计算,获取页面与用户兴趣匹配度量值;
[0047]目P,使用化gMatch(A,U)参数表示页面A与用户U的兴趣标签的匹配度。此数值 越高,表明页面A越符合用户U的兴趣。
[0048] 104 :结合Lucene的打分机制、页面与用户兴趣匹配度量值,最终实现基于用户兴 趣的个性化排序结果。
[0049] 目P,对获取到的页面与用户兴趣匹配度量值,利用Lucene的个性化捜索的排序算 法对用户捜索到的页面进行推荐捜索。
[0050] 综上所述,本发明实施例通过上述步骤101-步骤104最大程度地实现捜索结果的 个性化,使越符合用户兴趣的页面权重越大,排名越靠前,W提高用户满意度。 阳0川实施例2
[0052]下面结合具体的计算公式、例子、附图2对实施例1中的方案进行详细描述,详见 下文:
[0053] 201 :对捜索信息进行个性化捜索过程中,首先要进行微博文本进行分词处理;
[0054]其中,针对微博文本的复杂的数据结构的特征,本发明实施例对有用的微博信息 进行提取,同时将转发文本内容进行关联;针对微博文本中带有很多特殊符号的特征,由于 本发明实施例主要探讨基于微博文本的用户特征,不对用户之间的关系进行进一步讨论, 因此将符号之后的用户信息忽略,不做讨论,中的主题名词直接作为用户关键 词之一;针对微博文本中具有某些特殊词汇的特征,WUK通过统计方法添加了新的停用词, 并过滤微博中的U化格式数据。 阳化5] 202 :从分词结果中提取特征词,作为用户的兴趣标签;
[0056] 其中,传统的权值计算方法TF-IDF自身有两个比较明显的不足之处,会对特征词 抽取结果的准确性和权威性产生一定的影响,其核屯、原因在于捜索词频率灯巧权值和(逆 文本频率指数(ID巧权值的结合导致的综合权值衡量偏差。结合微博文本并不像普通文本 集一样具有随机性运一特点,采用WUK(微博用户关键词)算法仅WTF为依据进行特征抽 取。
[0057] 参见图2,WUK算法的输入为微博文本数据,去除冗余信息,包括:IM4各式数据、表 情数据及特殊符号。使用隐马尔可夫模型(HMM)分词技术将微博数据分词并存储到关键词 列表中,然后导入停用词生成一列表,将关键词列表中存在的停用词去除,对关键词列表进 行TF排序生成词云(对网络文本中出现频率较高的"关键词"予W视觉上的突出),最后输 出TF词云结果。
[0058] 通过WUK算法提取用户的特征词之后,每个词就是用户的一个兴趣标签,而为了 衡量每个兴趣标签的地位,将每个词的TF值除W所有特征词的TF值总和,就得到每个兴趣 标签的权重。
[0059] 203 :通过向量空间模型将兴趣标签量化计算,获取页面与用户兴趣匹配度量值;
[0060] 其中,要实现个性化捜索,捜索引擎还需要一个衡量页面内容与用户兴趣标签匹 配度的标准。显而易见,每个用户都可能有若干个兴趣标签,每个页面也可能包含若干个相 匹配的内容,但并不是页面中含有的兴趣标签越多用户就越感兴趣,运是因为每个兴趣标 签在用户屯、中的地位是不一样的。通常认为,一个兴趣标签在用户微博中出现的次数越多, 表示运个兴趣标签在用户屯、中的地位越高,即用户对运个词越感兴趣,相应的,运个兴趣标 签的TF值也就越高。 阳OW] 用IncTag、冰记录页面A包含的用户U的兴趣标签,例如:页面A中含有用户U的 第一个兴趣标签,那么向量IncTagA,。的第一位元素就为1,又如页面A中不含有用户U的第 二个兴趣标签,那么向量IncTagA,。的第二位元素就为0。运样表示W后,可W得到公式(1) 来计算页面与用户的兴趣标签匹配度:TagMatch(A,U) =IncTag、。?化gWei曲tu (1) 阳06引其中,化gWei曲tu为一个N元列向量,记录用户U每个兴趣标签(的1)权重。此 向量的每个元素是一个介于0到1之间的数;TagMatch(A,U)为一个数值,表示页面A与用 户U的兴趣标签的匹配度。此数值越高,表明页面A越符合用户U的兴趣。
[0063] 204 :结合Lucene的打分机制、页面与用户兴趣匹配度量值,最终实现基于用户兴 趣的个性化排序结果。 |;0064]T-Rank=a?S(q,d) +P?I'agMatch(A,U) 似 W65] 其中,a和P是介于0到1之间的系数,且a+P= 1 ;Rank为根据用户兴趣标 签得到的排序得分;S(q,d)为Lucene原本的打分机制得出的分数;T-Rank为排序输出的 结果。
[0066] 其中,Lucene的排序体系包含了查询类(如ery)、权重类(Wei曲t)、计分类 (Score)、相似度计算类(Similarity)几个不同的类。四个类共同形成了Lucene默认评分 体系的框架。 阳067] 1、如ery类是用户检索信息的封装,是一个抽象类,也是Lucene检索结果最终评 分的总控制中屯、。其他评分有关的类和对象都是由如ery类来管理和生成。如ery类在 如ery.java文件中实现,提供了访问其他分类的方法;
[0068] 2、Wei曲t类接口是用来定义如e巧权重计算的一个实现接口,可W被复用。 Wei曲t类可W用来生成Score类,也可W解析评分的详细信息。另外还定义了获取如ery权值的方法。具体的定义在wei曲t.java文件中; 阳069] 3、Scorer类是Lucene评分机制的核屯、类。类的定义是抽象类,提供的一些抽象 基本的计分功能方法供所有的评分类实现,同时还定义了评分的详细解析方法。Scorer类 内部有一个similarity对象,用来指明计算公式。Scorer类在Scorer,java中实现;
[0070] 4、Simila;rity类是Lucene评分相似度计算的核屯、抽象类。Similarity类主要处 理评分计算,系统缺省使用默认相似度计算类值efaultSimilarity)来对结果进行评分。 可W调用内部方法设定评分的Similarity类对象。定义在Similarity,java文件中。
[0071] 综上所述,本发明实施例通过上述步骤201-步骤204最大程度地实现捜索结果的 个性化,使越符合用户兴趣的页面权重越大,排名越靠前,W提高用户满意度。 阳〇巧 实施例3
[0073] 下面结合具体的计算公式、例子、附图3对实施例1和2中的方案进行可行性验 证,详见下文描述:
[0074] 在实验过程中,文本向量化过程的输入数据包括利用中文数据集产生的语料库 (即向量空间中的元素,需进行初步降维之后才能使用,避免维度太高),W及经过特定预 处理的目标微博文本。
[00巧]向量空间模型是进行文本挖掘的经典模型,可直接引用开源SDK包直接实现,实 现代码如表1中所示。
[0076] 表1 VSM实现代码示例
[0077]
[0078] 本实验随机选取了五位微博用户进行研究,并选取他们的关键词中TF值最高的 前10个作为他们的兴趣标签,结果如表2所示。 阳0巧]表2用户的兴趣标签及权重[0080]
[0082] 进行向量化之后采用TF值作为权重进行特征抽取计算,从而选出可W代表用户 兴趣的关键词。本实验随机选取了五位微博用户进行研究,并选取他们的
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1