信息排序方法、用于生成信息排序模型的方法及装置的制造方法_2

文档序号：8922677阅读：来源：国知局

br>[0030]图5是示出本发明示例性实施例用于文章排序的装置的结构示意图；
[0031]图6是示出本发明示例性实施例用于生成信息排序模型的装置的结构示意图；
[0032]图7是示出本发明示例性实施例搜索处理装置的结构示意图。
【具体实施方式】
[0033]本发明提出一种在信息的排序处理和用于所述排序的信息排序模型训练处理中，选取不同粒度的主题词，根据选取的不同粒度的主题词来对进行信息排序模型的训练以及之后对召回文章的优化排序，以得到主题相关性强的排序效果。
[0034]下面结合附图对本发明示例性实施例的信息排序方法、用于生成信息排序模型的方法、搜索处理方法及装置进行详细描述。
[0035]实施例一
[0036]图1是示出本发明示例性实施例信息排序方法的流程示意图。
[0037]参照图1，在步骤S110，获取关联的多篇文章。
[0038]具体地，本步骤中的多篇文章即待排序的多篇文章。
[0039]在步骤S120，根据预设的主题词集，分别从所述多篇文章提取主题词，所述主题词集包括不同粒度的主题词。
[0040]可在线下通过以下处理生成所述主题词集:对多篇主题词样本文章中的语句进行自然语言分析(NLP)，将所述语句切分为不同粒度的分词，分别为所述不同粒度的分词计算评分，如归一化折扣累积增益(Normalized Discounted Cumulative Gain，简称NDCG)或平均准确率(Mean Average Precis1n，简称MAP)评分，并基于所述评分超过预定阈值的分词生成所述预设的主题词集。通过对不同粒度的分词进行评价来选取主题词，可生成优质的主题词集。所述主题词集的生成不是本发明的主要发明点，因此在此不予赘述。
[0041]具体地，步骤S120的处理可包括:对所述多篇文章中的任一篇文章中的语句进行自然语言分析，将所述语句切分为不同粒度的分词，并且根据所述主题词集对切分出的分词进行筛选，以提取所述多篇文章中任一篇文章的主题词。其中，根据所述主题词集对切分出的分词进行筛选，以提取所述多篇文章中任一篇文章的主题词的处理可包括:从所述切分出的分词中检索出与所述主题词集包括的不同粒度的分词相同或相似的分词作为所述多篇文章中任一篇文章的主题词。
[0042]为方面理解，下面以语句“人民代表大会制度是我国的根本政治制度”为例，对上述获取主题词的过程做进一步的说明。首先，将语句“人民代表大会制度是我国的根本政治制度”切分为不同粒度的分词，如“人民、代表、人民代表、大会、人民代表大会、制度、是、我国、的、根本、政治、制度、政治制度、根本政治制度”。假设主题词集中包括的分词有“人民、代表大会、人民代表大会、政治制度”，则筛选出的上述语句的主题词为“人民、人民代表大会、政治制度”。
[0043]由于在主题词的选取中，从文章提取多个粒度的分词，并且通过预设的主题词集对所述分词进行筛选，因此可获得质量相对高的主题词。
[0044]在步骤S130，分别将从所述多篇文章提取的主题词输入预先训练的信息排序模型，以分别获取所述多篇文章的相关度。
[0045]稍后将参照图3详细描述所述信息排序模型的训练。
[0046]在步骤S140，根据所述多篇文章的相关度对所述多篇文章进行排序。
[0047]本发明实施例提供的信息排序方法，根据预设的包括不同粒度的主题词的主题词集，分别从待排序的多篇文章提取在粒度上优化的主题词，并且在信息排序模型的训练以及对多篇文章的排序处理中，使用所述粒度优化的主题词，改善了文章排序的效果。
[0048]本发明的一个应用场景是对信息搜索结果的排序进行优化。因此，相应地，本发明实施例的信息排序方法还可包括:从客户端接收包括至少一个关键词的搜索词。相应地，步骤SllO的处理可包括:根据所述包括至少一个关键词的搜索词获取多篇文章。此后，所述排序方法还可包括:将经过排序的所述多篇文章发送给所述客户端。
[0049]具体地，上述搜索词在本发明具体实施中可以是包括文章的时间、地域、属性和/或媒体类型等信息的关键词。进一步地，基于上述搜索词获取多篇文章。当然上述搜索词在本发明具体实施中并不限于是包括文章的时间、地域、属性和/或媒体类型等信息的关键词，上述搜索词还可以是包括其他信息的关键词，例如可以是包括的用户输入的关键词。
[0050]下面以图2为例，对根据所述包括至少一个关键词的搜索词获取多篇文章加以说明。图2是示出基于搜索词获取的多篇文章的页面示意图。具体地，图2所示为搜索词时间关键词为“近24小时”，舆情属性关键词为“全部”，地域关键词为“全国”，媒体类型关键词为“全部”时获取的多篇文章的页面示意图。
[0051]具体地，本发明实施例的信息排序方法可应用于任何具有文章推荐的应用程序(Applicat1n，简称APP)、搜索引擎和网站等，也可应用于一个独立的模块或开放平台的应用程序编程接口(Applicat1n Programming Interface，简称 API)。
[0052]实施例二
[0053]图3是示出本发明示例性实施例用于生成信息排序模型的方法的流程示意图。
[0054]参照图3，在步骤S310，获取已标注相关度属性的多篇训练样本文章。
[0055]具体地，本步骤中的多篇训练样本文章的相关度属性可用数值来标注，也可用预先设置的其他符号来标注所述相关度属性。
[0056]在步骤S320，根据预设的主题词集，分别从所述多篇训练样本文章提取主题词，所述主题词集包括不同粒度的主题词。
[0057]具体地，本步骤中的预设的主题词集与实施例一种的预设的主题词集相同。本步骤中从所述多篇训练样本文章提取主题词的处理过程与实施例一中从所述多篇文章提取主题词的处理过程相同。
[0058]与步骤S120对文章内容的处理相似，步骤S320的处理可包括:对所述多篇训练样本文章中的任一篇训练样本文章中的语句进行自然语言分析，将所述语句切分为不同粒度的分词，并且根据所述主题词集对切分出的分词进行筛选，以提取所述多篇训练样本文章中任一篇训练样本文章的主题词。
[0059]通过步骤S320的处理，可从训练样本文章提取多粒度、质量较高的主题词，从而后续可以以这些主题词和标注的所述多篇训练样本文章作为训练特征对信息排序模型进行训练。
[0060]在步骤S330，根据标注的所述多篇训练样本文章以及为其提取的主题词训练信息排序模型。
[0061]具体地，将标注的所述多篇训练样本文章作为训练样本并且以为其分别提取的主题词作为训练特征的值，采用学习排序(Learning To Rank，简称LTR)方法训练所述信息排序模型。
[0062]本发明实施例的用于生成信息排序模型的方法，根据预设的包括不同粒度的主题词的主题词集，分别从已标注相关度属性的多篇训练样本文章提取在粒度上优化的主题词，并且在信息排序模型的训练处理中，使用所述粒度优化的主题词，提升了所述信息排序模型的质量。
[0063]可选地，本发明实施例的用于生成信息排序模型的方法还可包括:构建所述主题词集。
[0064]可选地，本发明实施例的构建所述主题词集的处理可包括:可在线下通过以下处理生成所述主题词集:对多篇主题词样本文章中的语句进行自然语言分析(NLP)，将所述语句切分为不同粒度的分词，分别为所述不同粒度的分词计算评分(如NDCG或MAP评分)，并基于所述评分超过预定阈值的分词生成所述预设的主题词集。通过对

完整全部详细技术资料下载

当前第2页1 2 3 4