信息排序方法、用于生成信息排序模型的方法及装置的制造方法_3

文档序号:8922677阅读:来源:国知局
不同粒度的分词进行评价来选取主题词,可生成优质的主题词集。
[0065]实施例三
[0066]图4是示出本发明示例性实施例搜索处理方法的流程示意图。
[0067]参照图4,在步骤S410,接收包括至少一个关键词的搜索词。
[0068]在步骤S420,对所述搜索词进行自然语言分析,将所述搜索词切分为不同粒度的分词。
[0069]在步骤S430,对切分出的分词进行筛选,以获取至少一个主题词。
[0070]具体地,对步骤S420中切分出的分词进行筛选,将筛选后剩余的分词作为所述搜索词的主题词。
[0071]可选地,步骤S430的处理可包括:分别计算切分出的分词的信息增益评分;选择所述信息增益评分超过预定阈值的分词作为所述至少一个主题词。
[0072]在步骤S440,根据所述至少一个主题词获取多篇文章的信息。
[0073]本发明实施例的搜索处理方法,对包括至少一个关键词的搜索词进行自然语言分析,将所述搜索词切分为不同粒度的分词;对切分出的分词进行筛选,以获取至少一个主题词;根据所述至少一个主题词获取多篇文章的信息。由于在上述搜索处理过程中,对所述包括至少一个关键词的搜索词进行了自然语言分析和筛选处理,所以获得的主题词的质量得到了有效的提高,根据所述获得的主题词获取的多篇文章的信息的质量更好,提高了搜索质量。
[0074]实施例四
[0075]图5是示出本发明示例性实施例用于文章排序的装置的结构示意图。
[0076]参照图5,本发明实施例的用于文章排序的装置可执行实施例一的信息排序方法。本发明实施例的用于文章排序的装置可包括:文章获取单元510、主题词提取单元520、相关度获取单元530和文章排序单元540。
[0077]文章获取单元510用于获取关联的多篇文章。
[0078]主题词提取单元520用于根据预设的主题词集,分别从所述多篇文章提取主题词,所述主题词集包括不同粒度的主题词。
[0079]相关度获取单元530用于分别将从所述多篇文章提取的主题词输入预先训练的信息排序模型,以分别获取所述多篇文章的相关度。
[0080]文章排序单元540用于根据所述多篇文章的相关度对所述多篇文章进行排序。
[0081]本发明实施例提供的文章的排序装置,根据预设的包括不同粒度的主题词的主题词集,分别从待排序的多篇文章提取在粒度上优化的主题词,并且在信息排序模型的训练以及对多篇文章的排序处理中,使用所述粒度优化的主题词,改善了文章排序的效果。
[0082]可选地,所述主题词提取单元520可包括:切分子单元,用于对所述多篇文章中的任一篇文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词;主题词提取子单元,用于根据所述主题词集对切分出的分词进行筛选,以提取所述多篇文章中任一篇文章的主题词。
[0083]可选地,本发明实施例的用于文章排序的装置还可包括:搜索词接收单元,用于从客户端接收包括至少一个关键词的搜索词;所述文章获取单元用于根据所述包括至少一个关键词的搜索词获取多篇文章。
[0084]可选地,本发明实施例的用于文章排序的装置还可包括:文章发送单元,用于将经过排序的所述多篇文章发送给所述客户端。
[0085]实施例五
[0086]图6是示出本发明示例性实施例用于生成信息排序模型的装置的结构示意图。
[0087]参照图6,本发明实施例的用于生成信息排序模型的装置可执行实施例二的用于生成信息排序模型的方法,本发明实施例的用于生成信息排序模型的装置可包括:训练样本文章获取单元610、提取单元620和信息排序模型训练单元630。
[0088]训练样本文章获取单元610用于获取已标注相关度属性的多篇训练样本文章。
[0089]提取单元620用于根据预设的主题词集,分别从所述多篇训练样本文章提取主题词,所述主题词集包括不同粒度的主题词。
[0090]信息排序模型训练单元630用于根据标注的所述多篇训练样本文章以及为其提取的主题词训练信息排序模型。
[0091]本发明实施例的用于生成信息排序模型的装置,根据预设的包括不同粒度的主题词的主题词集,分别从已标注相关度属性的多篇训练样本文章提取在粒度上优化的主题词,并且在信息排序模型的训练处理中,使用所述粒度优化的主题词,提升了所述信息排序模型的质量。
[0092]可选地,所述提取单元620可包括:第一切分子单元,用于对所述多篇训练样本文章中的任一篇训练样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词;提取子单元,用于根据所述主题词集对切分出的分词进行筛选,以提取所述多篇训练样本文章中任一篇训练样本文章的主题词。
[0093]可选地,本发明实施例的用于生成信息排序模型的装置还可包括:主题词集构建单元,用于构建所述主题词集。
[0094]可选地,所述主题词集构建单元可包括:主题词样本文章获取子单元,用于获取多篇主题词样本文章;第二切分子单元,用于分别对所述多篇主题词样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词;评分计算子单元,用于分别计算所述不同粒度的分词评分(如NDCG或MAP评分);主题词集生成子单元,用于根据所述(NDCG或MAP)评分超过预定阈值的分词生成所述预设的主题词集。
[0095]实施例六
[0096]图7是示出本发明示例性实施例搜索处理装置的结构示意图。
[0097]参照图7,本发明实施例的搜索处理装置可执行实施例三的搜索处理方法,本发明实施例的搜索处理装置可包括:接收单元710、切分单元720、主题词获取单元730和文章信息获取单元740。
[0098]接收单元710用于接收包括至少一个关键词的搜索词。
[0099]切分单元720用于对所述搜索词进行自然语言分析,将所述搜索词切分为不同粒度的分词。
[0100]主题词获取单元730用于对切分出的分词进行筛选,以获取至少一个主题词。
[0101]文章信息获取单元740用于根据所述至少一个主题词获取多篇文章的信息。
[0102]本发明实施例的搜索处理装置,对包括至少一个关键词的搜索词进行自然语言分析,将所述搜索词切分为不同粒度的分词;对切分出的分词进行筛选,以获取至少一个主题词;根据所述至少一个主题词获取多篇文章的信息。由于在上述搜索处理过程中,对所述包括至少一个关键词的搜索词进行了自然语言分析和筛选处理,所以获得的主题词的质量得到了有效的提高,根据所述获得的主题词获取的多篇文章的信息的质量更好,提高了搜索质量。
[0103]可选地,所述主题词获取单元730可包括:计算子单元,用于分别计算切分出的分词的信息增益评分;选择子单元,用于选择所述信息增益评分超过预定阈值的分词作为所述至少一个主题词。
[0104]需要指出,根据实施的需要,可将本申请中描述的各个步骤拆分为更多步骤,也可将两个或多个步骤或者步骤的部分操作组合成新的步骤,以实现本发明的目的。
[0105]上述根据本发明的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1