信息排序方法、用于生成信息排序模型的方法及装置的制造方法_4

文档序号:8922677阅读:来源:国知局
制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、R0M、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。
[0106]以上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
【主权项】
1.一种信息排序方法,其特征在于,所述方法包括: 获取关联的多篇文章; 根据预设的主题词集,分别从所述多篇文章提取主题词,所述主题词集包括不同粒度的主题词; 分别将从所述多篇文章提取的主题词输入预先训练的信息排序模型,以分别获取所述多篇文章的相关度; 根据所述多篇文章的相关度对所述多篇文章进行排序。2.根据权利要求1所述的方法,其特征在于,所述根据预设的主题词集,分别从所述多篇文章提取主题词的处理包括: 对所述多篇文章中的任一篇文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词,并且 根据所述主题词集对切分出的分词进行筛选,以提取所述多篇文章中任一篇文章的主题词。3.根据权利要求1所述的方法,其特征在于,所述方法还包括: 从客户端接收包括至少一个关键词的搜索词; 所述获取关联的多篇文章的处理包括:根据所述包括至少一个关键词的搜索词获取多篇文章。4.根据权利要求3所述的方法,其特征在于,所述方法还包括: 将经过排序的所述多篇文章发送给所述客户端。5.一种用于生成信息排序模型的方法,其特征在于,所述方法包括: 获取已标注相关度属性的多篇训练样本文章; 根据预设的主题词集,分别从所述多篇训练样本文章提取主题词,所述主题词集包括不同粒度的主题词; 根据标注的所述多篇训练样本文章以及为其提取的主题词训练信息排序模型。6.根据权利要求5所述的方法,其特征在于,所述根据预设的主题词集,分别从所述多篇训练样本文章提取主题词的处理包括: 对所述多篇训练样本文章中的任一篇训练样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词,并且 根据所述主题词集对切分出的分词进行筛选,以提取所述多篇训练样本文章中任一篇训练样本文章的主题词。7.根据权利要求5的所述的方法,其特征在于,所述方法还包括:构建所述主题词集。8.根据权利要求7的所述的方法,其特征在于,所述构建所述主题词集的处理包括: 获取多篇主题词样本文章; 分别对所述多篇主题词样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词; 分别计算所述不同粒度的分词的评分; 根据所述评分超过预定阈值的分词生成所述预设的主题词集。9.一种搜索处理方法,其特征在于,所述方法包括: 接收包括至少一个关键词的搜索词; 对所述搜索词进行自然语言分析,将所述搜索词切分为不同粒度的分词; 对切分出的分词进行筛选,以获取至少一个主题词; 根据所述至少一个主题词获取多篇文章的信息。10.根据权利要求9的所述的方法,其特征在于,所述对切分出的分词进行筛选,以获取至少一个主题词的处理包括: 分别计算切分出的分词的信息增益评分; 选择所述信息增益评分超过预定阈值的分词作为所述至少一个主题词。11.一种用于文章排序的装置,其特征在于,所述装置包括: 文章获取单元,用于获取关联的多篇文章; 主题词提取单元,用于根据预设的主题词集,分别从所述多篇文章提取主题词,所述主题词集包括不同粒度的主题词; 相关度获取单元,用于分别将从所述多篇文章提取的主题词输入预先训练的信息排序模型,以分别获取所述多篇文章的相关度; 文章排序单元,用于根据所述多篇文章的相关度对所述多篇文章进行排序。12.根据权利要求11所述的装置,其特征在于,所述主题词提取单元包括: 切分子单元,用于对所述多篇文章中的任一篇文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词; 主题词提取子单元,用于根据所述主题词集对切分出的分词进行筛选,以提取所述多篇文章中任一篇文章的主题词。13.根据权利要求11所述的装置,其特征在于,所述装置还包括: 搜索词接收单元,用于从客户端接收包括至少一个关键词的搜索词; 所述文章获取单元用于根据所述包括至少一个关键词的搜索词获取多篇文章。14.根据权利要求13所述的装置,其特征在于,所述装置还包括: 文章发送单元,用于将经过排序的所述多篇文章发送给所述客户端。15.一种用于生成信息排序模型的装置,其特征在于,所述装置包括: 训练样本文章获取单元,用于获取已标注相关度属性的多篇训练样本文章; 提取单元,用于根据预设的主题词集,分别从所述多篇训练样本文章提取主题词,所述主题词集包括不同粒度的主题词; 信息排序模型训练单元,用于根据标注的所述多篇训练样本文章以及为其提取的主题词训练信息排序模型。16.根据权利要求15所述的装置,其特征在于,所述提取单元包括: 第一切分子单元,用于对所述多篇训练样本文章中的任一篇训练样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词; 提取子单元,用于根据所述主题词集对切分出的分词进行筛选,以提取所述多篇训练样本文章中任一篇训练样本文章的主题词。17.根据权利要求15的所述的装置,其特征在于,所述装置还包括: 主题词集构建单元,用于构建所述主题词集。18.根据权利要求17的所述的装置,其特征在于,所述主题词集构建单元包括: 主题词样本文章获取子单元,用于获取多篇主题词样本文章; 第二切分子单元,用于分别对所述多篇主题词样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词; 评分计算子单元,用于分别计算所述不同粒度的分词的评分; 主题词集生成子单元,用于根据所述评分超过预定阈值的分词生成所述预设的主题词集。19.一种搜索处理装置,其特征在于,所述装置包括: 接收单元,用于接收包括至少一个关键词的搜索词; 切分单元,用于对所述搜索词进行自然语言分析,将所述搜索词切分为不同粒度的分词; 主题词获取单元,用于对切分出的分词进行筛选,以获取至少一个主题词; 文章信息获取单元,用于根据所述至少一个主题词获取多篇文章的信息。20.根据权利要求19的所述的装置,其特征在于,所述主题词获取单元包括: 计算子单元,用于分别计算切分出的分词的信息增益评分; 选择子单元,用于选择所述信息增益评分超过预定阈值的分词作为所述至少一个主题 O
【专利摘要】本发明提供一种信息排序方法、用于生成信息排序模型的方法及装置。所述信息排序方法包括:获取关联的多篇文章;根据预设的主题词集,分别从所述多篇文章提取主题词,所述主题词集包括不同粒度的主题词;分别将从所述多篇文章提取的主题词输入预先训练的信息排序模型,以分别获取所述多篇文章的相关度;根据所述多篇文章的相关度对所述多篇文章进行排序。本发明提供的信息排序方法、用于生成信息排序模型的方法、搜索处理方法及装置,由于所述主题词集包括不同粒度的主题词,即主题集的质量得到了提高,进而改善了从所述多篇文章中提取的关键词的质量,提升排序质量。
【IPC分类】G06F17/27, G06F17/30
【公开号】CN104899310
【申请号】CN201510325823
【发明人】宋元峰, 沈剑平, 李炫 , 莫洋, 郑楚煜, 车丽美, 齐沁芳
【申请人】百度在线网络技术(北京)有限公司
【公开日】2015年9月9日
【申请日】2015年6月12日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1