一种社交网络平台中的个性化搜索方法及其搜索装置的制造方法_2

文档序号：9432624阅读：来源：国知局

词软件，本发明实施例对此不做寶述。
[0045] 102 :从分词结果中提取特征词，作为用户的兴趣标签；
[0046] 103 :通过向量空间模型将兴趣标签量化计算，获取页面与用户兴趣匹配度量值；
[0047]目P，使用化gMatch(A，U)参数表示页面A与用户U的兴趣标签的匹配度。此数值越高，表明页面A越符合用户U的兴趣。
[0048] 104 :结合Lucene的打分机制、页面与用户兴趣匹配度量值，最终实现基于用户兴趣的个性化排序结果。
[0049] 目P，对获取到的页面与用户兴趣匹配度量值，利用Lucene的个性化捜索的排序算法对用户捜索到的页面进行推荐捜索。
[0050] 综上所述，本发明实施例通过上述步骤101-步骤104最大程度地实现捜索结果的个性化，使越符合用户兴趣的页面权重越大，排名越靠前，W提高用户满意度。阳0川实施例2
[0052]下面结合具体的计算公式、例子、附图2对实施例1中的方案进行详细描述，详见下文：
[0053] 201 :对捜索信息进行个性化捜索过程中，首先要进行微博文本进行分词处理；
[0054]其中，针对微博文本的复杂的数据结构的特征，本发明实施例对有用的微博信息进行提取，同时将转发文本内容进行关联；针对微博文本中带有很多特殊符号的特征，由于本发明实施例主要探讨基于微博文本的用户特征，不对用户之间的关系进行进一步讨论，因此将符号之后的用户信息忽略，不做讨论，中的主题名词直接作为用户关键词之一；针对微博文本中具有某些特殊词汇的特征，WUK通过统计方法添加了新的停用词，并过滤微博中的U化格式数据。阳化5] 202 :从分词结果中提取特征词，作为用户的兴趣标签；
[0056] 其中，传统的权值计算方法TF-IDF自身有两个比较明显的不足之处，会对特征词抽取结果的准确性和权威性产生一定的影响，其核屯、原因在于捜索词频率灯巧权值和（逆文本频率指数（ID巧权值的结合导致的综合权值衡量偏差。结合微博文本并不像普通文本集一样具有随机性运一特点，采用WUK(微博用户关键词）算法仅WTF为依据进行特征抽取。
[0057] 参见图2，WUK算法的输入为微博文本数据，去除冗余信息，包括：IM4各式数据、表情数据及特殊符号。使用隐马尔可夫模型（HMM)分词技术将微博数据分词并存储到关键词列表中，然后导入停用词生成一列表，将关键词列表中存在的停用词去除，对关键词列表进行TF排序生成词云（对网络文本中出现频率较高的"关键词"予W视觉上的突出），最后输出TF词云结果。
[0058] 通过WUK算法提取用户的特征词之后，每个词就是用户的一个兴趣标签，而为了衡量每个兴趣标签的地位，将每个词的TF值除W所有特征词的TF值总和，就得到每个兴趣标签的权重。
[0059] 203 :通过向量空间模型将兴趣标签量化计算，获取页面与用户兴趣匹配度量值；
[0060] 其中，要实现个性化捜索，捜索引擎还需要一个衡量页面内容与用户兴趣标签匹配度的标准。显而易见，每个用户都可能有若干个兴趣标签，每个页面也可能包含若干个相匹配的内容，但并不是页面中含有的兴趣标签越多用户就越感兴趣，运是因为每个兴趣标签在用户屯、中的地位是不一样的。通常认为，一个兴趣标签在用户微博中出现的次数越多，表示运个兴趣标签在用户屯、中的地位越高，即用户对运个词越感兴趣，相应的，运个兴趣标签的TF值也就越高。阳OW] 用IncTag、冰记录页面A包含的用户U的兴趣标签，例如：页面A中含有用户U的第一个兴趣标签，那么向量IncTagA,。的第一位元素就为1，又如页面A中不含有用户U的第二个兴趣标签，那么向量IncTagA,。的第二位元素就为0。运样表示W后，可W得到公式（1) 来计算页面与用户的兴趣标签匹配度：TagMatch(A，U) =IncTag、。?化gWei曲tu (1) 阳06引其中，化gWei曲tu为一个N元列向量，记录用户U每个兴趣标签（的1)权重。此向量的每个元素是一个介于0到1之间的数；TagMatch(A，U)为一个数值，表示页面A与用户U的兴趣标签的匹配度。此数值越高，表明页面A越符合用户U的兴趣。
[0063] 204 :结合Lucene的打分机制、页面与用户兴趣匹配度量值，最终实现基于用户兴趣的个性化排序结果。 |；0064]T-Rank=a?S(q,d) +P?I'agMatch(A,U) 似 W65] 其中，a和P是介于0到1之间的系数，且a+P= 1 ;Rank为根据用户兴趣标签得到的排序得分；S(q，d)为Lucene原本的打分机制得出的分数；T-Rank为排序输出的结果。
[0066] 其中，Lucene的排序体系包含了查询类（如ery)、权重类（Wei曲t)、计分类 (Score)、相似度计算类（Similarity)几个不同的类。四个类共同形成了Lucene默认评分体系的框架。阳067] 1、如ery类是用户检索信息的封装，是一个抽象类，也是Lucene检索结果最终评分的总控制中屯、。其他评分有关的类和对象都是由如ery类来管理和生成。如ery类在如ery.java文件中实现，提供了访问其他分类的方法；
[0068] 2、Wei曲t类接口是用来定义如e巧权重计算的一个实现接口，可W被复用。 Wei曲t类可W用来生成Score类，也可W解析评分的详细信息。另外还定义了获取如ery权值的方法。具体的定义在wei曲t.java文件中；阳069] 3、Scorer类是Lucene评分机制的核屯、类。类的定义是抽象类，提供的一些抽象基本的计分功能方法供所有的评分类实现，同时还定义了评分的详细解析方法。Scorer类内部有一个similarity对象，用来指明计算公式。Scorer类在Scorer,java中实现；
[0070] 4、Simila;rity类是Lucene评分相似度计算的核屯、抽象类。Similarity类主要处理评分计算，系统缺省使用默认相似度计算类值efaultSimilarity)来对结果进行评分。可W调用内部方法设定评分的Similarity类对象。定义在Similarity,java文件中。
[0071] 综上所述，本发明实施例通过上述步骤201-步骤204最大程度地实现捜索结果的个性化，使越符合用户兴趣的页面权重越大，排名越靠前，W提高用户满意度。阳〇巧实施例3
[0073] 下面结合具体的计算公式、例子、附图3对实施例1和2中的方案进行可行性验证，详见下文描述：
[0074] 在实验过程中，文本向量化过程的输入数据包括利用中文数据集产生的语料库 (即向量空间中的元素，需进行初步降维之后才能使用，避免维度太高），W及经过特定预处理的目标微博文本。
[00巧]向量空间模型是进行文本挖掘的经典模型，可直接引用开源SDK包直接实现，实现代码如表1中所示。
[0076] 表1 VSM实现代码示例
[0077]
[0078] 本实验随机选取了五位微博用户进行研究，并选取他们的关键词中TF值最高的前10个作为他们的兴趣标签，结果如表2所示。阳0巧]表2用户的兴趣标签及权重[0080]
[0082] 进行向量化之后采用TF值作为权重进行特征抽取计算，从而选出可W代表用户兴趣的关键词。本实验随机选取了五位微博用户进行研究，并选取他们的

完整全部详细技术资料下载

当前第2页1 2 3