一种词权重的分析方法及装置的制造方法

文档序号:9727485阅读:310来源:国知局
一种词权重的分析方法及装置的制造方法
【技术领域】
[0001]本发明涉及互联网技术领域,特别是涉及一种词权重的分析方法及装置。
【背景技术】
[0002]随着互联网的发展,互联网中总的存储数据量非常巨大,因此为了使用户能够快速准确的查找到所需要的数据内容,提供互联网搜索服务的厂商就需要对搜索引擎的搜索质量进行优化。其中,权重是搜索引擎给予一个网页的评估值,这个权重可以反映出网页的重要程度,权重越高,说明网页获得更多搜索引擎的信任和认可。而在用户使用搜索引擎的过程中,会在搜索框中提交查询内容,这些查询内容通常称之为query,搜索引擎需要根据query在海量数据中获取有用信息。由于query中具有不同的词语term,其中每个term对于获取有用查询结果而言其重要程度各不相同,因此若要根据query准确获取到目标查询结果就需要参考query中各个term的重要性,也就是需要利用query中term的权重进行目标结果的查询。
[0003]在现有确定term权重的方法中,通常会利用共同点击、词性以及命名实体来确定term权重,但是这些方法并不是以用户在互联网环境中使用搜索引擎获取内容为基础,从而导致通过上述方法确定的term权重在互联网搜索领域中的参考价值并不高。因此如何在互联网搜索引擎环境下确定term权重成为使用互联网搜索引擎时亟待解决的问题。

【发明内容】

[0004]有鉴于此,本发明提出了一种词权重的分析方法及装置,主要目的在于解决现有确定term权重的方法无法在互联网搜索引擎环境下准确确定query中term权重的问题。
[0005]依据本发明的第一个方面,本发明提供一种词权重的分析方法,包括:
[0006]获取〈查询,标题〉对;
[0007]统计〈查询,标题〉对中所述查询的词片段中每个词的出现情况信息;
[0008]根据所述出现情况信息计算相同词片段中每个词的出现概率;
[0009]根据所述相同词片段中每个词的出现概率确定所述相同词片段中每个词的权重。
[0010]进一步的,所述获取〈查询,标题〉对包括:
[0011]获取用户点击日志,所述点击日志中包括用户提交的所有查询以及得到的所有标题;
[0012]整理所述点击日志,将用户提交的查询与点击所述查询的url得到的标题一一对应,形成〈查询,标题〉对。
[0013]进一步的,所述统计〈查询,标题〉对中所述查询的词片段中每个词的出现情况信息包括:
[0014]获取〈查询,标题〉对中所述查询的所有词片段,所述词片段包括所述查询中的每一个词和相邻两个及以上的词组成的词组;
[0015]统计所述查询的所有词片段中每个词的出现情况信息。
[0016]进一步的,统计所述查询的所有词片段中每个词的出现情况信息包括:
[0017]判断所述查询的词片段中每个词是否在所述查询的〈查询,标题〉对中对应的标题中出现;
[0018]根据判断结果统计所述查询的词片段中每个词的出现情况信息,所述出现情况信息用预设的出现符号以及未出现符号表示。
[0019]进一步的,根据所述出现情况信息计算相同词片段中每个词的出现概率包括:
[0020]获取相同词片段所对应的所有标题的总个数;
[0021]获取所述相同词片段中每个词在所述对应的所有标题中出现的次数;
[0022]用所述次数除以所述对应的所有标题的总个数得到相同词片段中每个词在所述对应的所有标题中的出现概率。
[0023]进一步的,根据所述相同词片段中每个词的出现概率确定所述相同词片段中每个词的权重包括:
[0024]将相同词片段中每个词在所述对应的所有标题中的出现概率作为所述相同词片段中每个词的权重。
[0025]依据本发明的第二个方面,本发明提供一种词权重的分析装置,包括:
[0026]获取单元,用于获取〈查询,标题〉对;
[0027]统计单元,用于统计所述获取单元获取的〈查询,标题〉对中所述查询的词片段中每个词的出现情况信息;
[0028]计算单元,用于根据所述出现情况信息计算相同词片段中每个词的出现概率;
[0029]确定单元,用于根据所述计算单元计算的所述相同词片段中每个词的出现概率确定所述相同词片段中每个词的权重。
[0030]进一步的,所述获取单元包括:
[0031]获取模块,用于获取用户点击日志,所述点击日志中包括用户提交的所有查询以及得到的所有标题;
[0032]整理模块,用于整理所述获取模块获取的所述点击日志,将用户提交的查询与点击所述查询的url得到的标题--对应,形成〈查询,标题〉对。
[0033]进一步的,所述统计单元包括:
[0034]切分模块,用于获取〈查询,标题〉对中所述查询的所有词片段,所述词片段包括所述查询中的每一个词和相邻两个及以上的词组成的词组;
[0035]统计模块,用于统计所述切分模块获取的所述查询的所有词片段中每个词的出现情况信息。
[0036]进一步的,所述统计单元还用于判断所述查询的词片段中每个词是否在所述查询的〈查询,标题〉对中对应的标题中出现,以及根据判断结果统计所述查询的词片段中每个词的出现情况信息,所述出现情况信息用预设的出现符号以及未出现符号表示。
[0037]进一步的,所述计算单元包括:
[0038]计数模块,用于获取相同词片段所对应的所有标题的总个数;
[0039]所述计数模块还用于获取所述相同词片段中每个词在所述对应的所有标题中出现的次数;
[0040]计算模块,用于用所述次数除以所述对应的所有标题的总个数得到相同词片段中每个词在所述对应的所有标题中的出现概率。
[0041]进一步的,所述确定单元用于将相同词片段中每个词在所述对应的所有标题中的出现概率作为所述相同词片段中每个词的权重。
[0042]借由上述技术方案,本发明实施例提供的一种词权重的分析方法及装置,能够在用户大规模使用互联网搜索引擎的过程中获取到〈查询,标题〉对,并统计查询中的词片段中每个词的出现情况信息,根据每个词的出现情况信息计算相同词片段中每个词的出现概率,根据所述相同词片段中每个词的出现概率确定所述相同词片段中每个词的权重。而在现有技术中,当确定搜索查询中词的权重时无法基于互联网环境中使用搜索引擎获取内容为基础,从而造成搜索词的词权重确定不准确,进而影响搜索结果的准确性。与现有技术中的这一缺陷相比,本发明能够以用户大规模使用搜索引擎点击形成的日志为基础,在互联网搜索引擎环境下准确确定搜索查询中词的权重,从而有效提高搜索结果的准确性。
[0043]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0044]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0045]图1示出了本发明实施例提供的一种词权重的分析方法的流程图;
[0046]图2示出了本发明实施例提供的一种词权重的分析装置的组成框图;
[0047]图3示出了本发明实施例提供的另一种词权重的分析装置的组成框图;
[0048]图4示出了本发明实施例提供的另一种词权重的分析装置的组成框图;
[0049]图5示出了本发明实施例提供的另一种词权重的分析装置的组成框图。
【具体实施方式】
[0050]下面将参照附图更加详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0051 ] 在用户使用搜索引擎时需要提交查询query,查询query中具有不同的词语term,其中每个term对于获取有用查询结果而言其重要程度各不相同,因此若要根据query准确获取到目标查询结果就需要参考query中各个term的重要性,也就是需要利用query中term的权重进行目标结果的查询。在现有确定term权重的方法中,通常会利用共同点击、词性以及命名实体来确定term权重,但是这些方法并不是以用户在互联网环境中使用搜索引擎获取内容为基础,
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1