信息检索系统的排序方法及装置的制造方法_3

文档序号：9750801阅读：来源：国知局

有设置每个排序规则的优先级，则在获取排序规则集合中各个排序规则的优先级别之前，可以基于检索业务的需求事先确定每个排序规则的优先级别。规则间的优先关系可以通过权重表示。
[0060] 例如：需要了解一位多产作家的思想变化，该作家的作品包括不同时期的小说、散文、诗歌等，在查询到该作家所有的作品之后，如果确定的排序规则优先级是：时间顺序的优先级大于不同作品的优先级，则后排序的结果是按照该作家发表作品的先后顺序排列，如，越是新发表的作品越是排在前面，如果确定的排序规则优先级是：不同作品的优先级大于时间顺序的优先级，即首先考虑散文的优先级大于诗歌的优先级，诗歌的优先级大于小说，然后考虑在同一种类作品中按照时间顺序排列，如，散文排在前面，小说排在最后面，其中，属于同一种类的散文中，越是新发表的散文越是排在前面，属于同一种类的小说中，越是新发表的散文越是排在前面。
[0061] 上面只是一个简单的例子，在实际应用中，排序规则很多，即最终排序的结果需要满足很多方面的需求，针对不同的用户、或者不同的需求，对排序规则集合中各个规则的考虑的优先级别是不一样的，由于本实施方式将各个排序规则的优先级也以参数形式加入该优化的目标函数中，从而能够灵活而有效控制不同优先级的排序规则对最终排序的影响。
[0062] 下面以一个具体的例子来说明本发明信息检索系统的排序方法，例如：在通过融合初始排序的文档集合、排序规则集合中各个排序规则以及各个排序规则的优先级别，构造优化目标函数，可以是：
[0063] 根据Bradley-Terry模型，通过融合初始排序的文档集合、排序规则集合中各个排序规则以及各个排序规则的优先级别，构造优化目标函数，优化目标函数是：
[0064]
[0065] 其中，C是排序规则集合，c是排序规则集合C中的各个排序规则，σ⑴，σ (j) 是初始排序的文档集合中N个文档各自的初始排序得分，Θ是优化向量，且Θ = (Θ . . .，θ Ν)，Θ . . .，θ N分别表示初始排序的文档集合中N个文档各自的最终排序得分，θ = ( Θ . . .，θ N)表示将初始排序的文档集合中N个文档按照得分排序后生成的最终排序的文档集合，P是排序规则集合C中各个排序规则的优先级别，P表示排序规则集合导出的所有文档间的偏序关系的集合，1彡i彡N，1彡j彡N。
[0066] Bradley-Terry模型是一个参数化的概率模型，用来刻画N个文档在排序上的概率分布。设初始排序的文档集合中N个文档按照得分排序后生成的最终排序为Θ = Ν' (θη···，ΘΝ)，且满足 = 1，···，Ν，且￡身=1，则在 Bradley-Terry模型中，一个 iM 偏序对（i，j)(表示文档i排在文档j之前）的概率定义为：
[0067]
[0068] 对于N个文档上的全排序〇，Bradley-Terry模型定义整个全排序的概率正比于该全排序诱导出的所有偏序关系（或者偏序对）的概率的乘积，即：
[0069]
[0070] 对于某个排序规则c，它诱导（或者说规定）了文档集合上的一组偏序关系，由此构成一个偏序关系的集合（记为Ρ?，这时根据Bredley-Terry模型，也能推出其概率为：
[0071]
[0072] 不难看出，优化目标函数就是在Bradley-Terry模型的基础上构建的，它其实从初始排序σ和排序规则集合C的角度两次用到Bradley-Terry模型的原始形式，并通过对概率取log的方式将乘积转化为加和。
[0073]
[0074] 该优化函数中表示某个排序规则c所对应的优先级。对于每个排序规则c，它诱导（或者说规定）了文档集合上的一组偏序关系，由此构成一个偏序关系的集合（记为Ρ ε)。对于其中每个偏序关系（或者说偏序对其在优化目标函数的贡献即为其 log-概率，即1〇g i
J
[0075] 求解上述目标函数的最优解的过程如下：
[0076] 初始输入：初始排序的文档集合〇，排序规则集合C，学习率0〈 α〈1 ;
[0077] 1:SW，随机初始化
[0078] 2 :t - 1
[0079] 3 :循环
[0082] 5 : Y - 1，用回溯法搜索最优步长
[0080]
[0081]
[0083] 6 :当.
[0084] 7 ： Υ ^ α y
[0085] 8 :S(t 1} - S(t)_ Υ ▽ S
[0086] 9 :t - t+1
[0087] 10 :直到收敛
[0088] 11 :返[f
[0089] 通过上述方式，能够获得该优化目标函数唯一的最优解，从而获得最终排序的文档集合。
[0090] 其中，本发明信息检索系统的排序方法还可以包括：在用户界面，展示最终排序的文档集合。通过这种方式，可以最大程度使用户获得满足自己需求的文档集合。
[0091] 参阅图5,图5是本发明信息检索系统的排序装置100 -实施方式的结构示意图，该装置100包括：接收模块101、初始文档集合获取模块102、排序规则集合获取模块103以及最终文档集合生成模块104。
[0092] 需要说明的是，本实施方式的装置可以执行上述方法实施方式中的相应步骤。
[0093] 接收模块101用于接收查询信息。
[0094] 查询信息是指用户为了某种需求进行查询时输入的信息，例如：关键词、关键词组合等等。
[0095] 初始文档集合获取模块102用于根据接收模块101接收的查询信息进行检索得到初始排序的文档集合，初始排序的文档集合是按照检索结果文档与查询信息的相关性的大小，将检索结果文档进行排序后的文档集合。
[0096] 信息检索系统接收查询信息后，根据该查询信息进行检索,获得候选的检索结果文档，同时根据候选的检索结果文档与查询信息的相关性的大小，对检索结果文档进行排序，例如，检查结果文档与查询信息的相关性越大，该检查结果文档在排序时越靠前，据此获得的排序后的文档集合即为初始排序的文档集合。需要说明的是，此处的信息检索系统包括但不限于互联网搜索、垂直领域搜索、企业知识搜索等，以及任何以信息检索为组件的系统，包括但不限于自动问答系统、移动应用商店等。另外，如果检索结果小于等于一个，则无所谓排序问题，因此本方案不考虑该集合中子集为空或者为1情况。
[0097] 排序规则集合获取模块103用于在排序规则库中，获取与接收模块101接收的查询信息、初始文档集合获取模块102得到的初始排序的文档集合相关联的排序规则集合。 [0098] 排序规则库是指为满足各种需求所需要考虑的有关规则和知识的数据库，它是根据不同的信息检索的业务需要，由人工或者数据挖掘的方法产生的。比如，在网页搜索反作弊的业务中，排序规则库可能保存的是一些不同程度的作弊或有安全隐患的网页的统一资源定位符（Uniform Resource Locator,URL),以及将它们的排序位置置后的位置说明（比如，置于第5位以后、或第10位以后等）。又比如，在网页搜索多样性的业务中，排序规则库中保留一系列具有多样性的查询词，以及这些查询词对应的前10位置必须覆盖的主题：t匕如，对于"苹果"这个查询词，排在前10结果中必须包含"苹果"作为IT品牌的网页，也必须包括"苹果"作为水果的网页。在实际系统中，排序规则库通常包括多个业务维度上的规贝1J。因此，该排序规则库能够满足实际应用中复杂多变且动态变化的需求。另外，由于排序规则库能够独立存在，因此排序规则库在建立后，可以单独对排序规则库进行自动化的管理和维护，可以根据实际应用情况进行动态调整的，例如，可以新增有关的规则和知识，可以修改有关的规则和知识，可以删除有关的规则和知识等。
[0099] 输入查询信息和初始排序的文档集合，根据相关性分析，即可在排序规则库中查询到与该查询信息，初始排序的文档集合相关联的排序规则集合。排序规则集合中的各个规则之间没有任何顺序要求，只要与查询信息、初始排序的文档集合相关联，该规则即可选择进入排序规则集合中。
[0100] 最终文档集合生成模块104用于根据初始文档集合获取模块102得到的初始排序的文档集合和排序规则集合获取模块103获取的排序规则集合进行后排序，生成最终排序的文档集合。
[0101] 后排序是指在经过初始相关性排序获得初始排序的文档集合之后，根据知识和规则对初始排序的文档集合进行的后处理。与初始相关性排序不同，后排序能够考虑到如多样性、安全、运营、商业等诸多方面的需求。
[0102] 根据初始排序的文档集合和排序规则集合进行后排序，生成最终排序的文档集合，该最终排序的文档集合是在综合考虑排序规则集合中的各个规则后，对初始排序的文档集合进行后处理，即进行第二次排序后的结果。因此最

完整全部详细技术资料下载

当前第3页1 2 3 4 5