查询词权重值的确定方法和装置的制造方法

文档序号：8299149阅读：366来源：国知局

查询词权重值的确定方法和装置的制造方法
【技术领域】
[0001] 本发明实施例涉及数据处理技术，尤其涉及一种查询词权重值的确定方法和装置。
【背景技术】
[0002] 随着互联网技术的不断发展以及互联网应用对人们工作、学习与生活的不断渗透，人们越来越多的通过网络获取信息。典型的，用户通过搜索引擎输入查询式（Query)，搜索引擎通过采用一定的搜索排序方式向用户返回与输入查询式相匹配的搜索结果。其中，搜索引擎在处理用户输入的查询式时，会给查询式中包括的查询词（Term)赋予不同的权重来反映不同查询词在查询式当中的重要程度（也称为Term重要性），搜索引擎通过联合使用查询式当中的Term重要性以及查询式与网络中文档（典型的，网页）的匹配程度对搜索结果进行排序，并提供给用户。
[0003] 现有技术主要通过IDF(InverseDocumentFrequency，逆文档频率）方法来计算查询词的权重值，即通过文档集合中所有文档的数目除以包含某个查询词的文档的数目，再将得到的商取对数的结果，作为该查询词的权重值。现有技术的主要缺陷在于查询词权重值由网络中包含该查询词的文档数目所决定，与查询词在该查询式中的重要程度有较大偏差。

【发明内容】

[0004] 有鉴于此，本发明实施例提供一种查询词权重值的确定方法和装置，以优化现有的查询词权重值确定技术，提高所确定的查询词重要程度的准确性。
[0005] 在第一方面，本发明实施例提供了一种查询词权重值的确定方法，包括：
[0006] 按照设定规则对查询日志信息进行分类处理；
[0007] 根据查询词在至少两类所述查询日志信息中出现的差异性，确定所述查询词的权重值。
[0008] 在第二方面，本发明实施例提供了一种查询词权重值的确定装置，包括：
[0009] 查询日志处理模块，用于按照设定规则对查询日志信息进行分类处理；
[0010] 权重值确定模块，用于根据查询词在至少两类所述查询日志信息中出现的差异性，确定所述查询词的权重值。
[0011] 本发明实施例通过按照设定规则对查询日志信息进行分类处理；根据查询词在至少两类所述查询日志信息中出现的差异性，确定所述查询词的权重值的技术手段，解决了现有技术在计算查询词权重值时仅仅根据网络中查询词的文档数目，而不考虑用户实际输入的查询式以及实际点击的搜索结果的技术问题，优化了现有的查询词权重值确定技术，使得计算得到的查询词权重值与用户实际的查询操作密切相关，提高了查询词权重值的准确性以及搜索引擎的搜索效果。
【附图说明】
[0012] 图1是本发明第一实施例的一种查询词权重值的确定方法的流程图；
[0013] 图2是本发明第二实施例的一种查询词权重值的确定方法的流程图；
[0014] 图3是本发明第三实施例的一种查询词权重值的确定方法的流程图；
[0015]图4是本发明第三实施例所应用的一种搜索引擎的查询系统的实现框图；
[0016] 图5是本发明第四实施例的一种查询词权重值的确定装置的结构图。
【具体实施方式】
[0017] 为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。
[0018] 首先，将本发明实施例的主要实现思路简述如下：
[0019] 一般来说，用户通过搜索引擎输入的查询式中包括有多个查询词，但是这多个查询词的重要程度是不相同的。例如，当用户输入的查询式为"百度的股价是多少"时，显然 "百度"以及"股价"这两个查询词的重要程度，要高于"的"、"是"以及"多少"这三个查询词。因此，重要程度高的查询词需要被赋予较高的权重值，以实现在返回搜索结果时，将与权重值高的查询词相匹配的文档（或网页），优先于与权重值低的查询词相匹配的文档（或网页）显不。
[0020] 现有的IDF技术在计算查询词的权重值时，使用的主要思想是：如果网络中同时包含某个查询词的文档数越多，那这个词的区分能力也就越小，那这个词的权重值就应该降低；反之，如果某个词只在很少的文档中出现，那么这个词的区分能力就更高，因此权重值也更高。换句话说，现有技术在计算查询词的权重值时，查询词在文档（或网页）中出现的次数越少，该查询词的权重值也就越高。
[0021] 而在本发明各实施例中，采用了截然不同的思路来计算查询词的权重值。即：在本发明各实施例中，将查询词的权重值与用户实际输入的查询式，以及实际点击的网页地址等用户操作相关联。举例而言，针对多个不同用户输入不同查询式进行搜索后，点击同一个 URL(UniformResoureLocator，统一资源定位符）地址的操作，用户实际输入的某个查询词的次数越多，则对上述URL地址来说，该查询词的重要程度也就越高，该查询词的权重值也就应该越大。
[0022] 第一实施例
[0023] 图1为本发明第一实施例提供的一种查询词权重值的确定方法的流程图，本实施例的方法可以由查询词权重值的确定装置来执行，该装置可通过硬件和/或软件的方式实现，并一般可以集成于用于提供查询词权重值确定服务的权重值确定服务器中，与用于提供搜索引擎服务的搜索服务器配合使用，其中，所述权重值确定服务器和所述搜索服务器可以相同也可以不同，对此并不进行限制。
[0024] 本实施例的方法具体包括如下操作：
[0025] 110、按照设定规则对查询日志信息进行分类处理。
[0026] 在本实施例中，权重值确定服务器按照设定规则对查询日志信息进行分类处理。
[0027] 其中，查询日志信息具体是指与用户通过搜索引擎查询信息时的用户行为操作所对应的行为日志信息。
[0028] -般来说，在可提供搜索引擎服务的搜索服务器端，通常会存储与用户的查询及点击操作对应的查询日志信息。典型的，在该查询日志信息中通常会记录有：用户通过哪种输入设备（Device，例如，台式机或者移动终端等），以哪种输入方式（InputMethod，例如，文本输入或者语音输入等），输入了哪种查询式（Query)，以及点击了所返回的搜索结果当中的哪条记录（URL)等参数。因此，在逻辑上，假定与一个用户对应的查询日志信息中共包括M条记录，则该M条记录的数据形式如下所示：
[0029] Devicel,InputMethodl,Queryl,URL1 ；
[0030] Device2,InputMethod2,Query2,URL2 ；
[0031] ;
[0032] DeviceM，InputMethodM，QueryM，URLM〇
[0033] 当然，可以理解的是，上述查询日志信息中还可以记录其他类型的参数，例如，用户标识、查询时间等，本实施例对此并不进行限制。
[0034] 在本实施例中，可以通过主动拉取或者被动接收的方式，获取搜索服务器中存储的所述查询日志信息。
[0035] 在本实施例中，按照设定规则对查询日志信息进行分类处理具体可以包括：根据查询日志信息中包括的设定参数，对所述查询日志信息进行分类处理。
[0036] 举例而言，可以仅根据查询日志信息中包括的URL参数，对所述查询日志信息进行分类，例如，可以将URL参数相同的查询日志信息分为一类。
[0037] 优选还可以同时根据查询日志信息中包括的URL参数、输入设备参数和/或输入方式参数对所述查询日志信息进行分类处理，例如，在获取URL相同的查询日志信息后，可以对上述查询日志信息按照不同的输入设备参数进行分类，以生成分类处理结果；也可以对上述查询日志信息按照不同的输入方式参数进行分类，以生成分类处理结果；还可以对上述查询日志信息同时按照输入设备参数和输入方式参数进行分类，以生成分类处理

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张军;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。