一种对新闻信息进行排序的方法及装置的制造方法_4

文档序号:9375754阅读:来源:国知局
并以计算得到的特征值组成该新闻信息主题的空间权重向量;
[0169] 本发明实施例中,计算新闻信息主题中各分词词组的特征值包括:
[0170] 分别获取所述新闻信息主题中各分词词组在抓取的新闻信息中出现的频次,将每 一分词词组的频次应用于逆文档频率计算公式,得到该分词词组的特征值。
[0171] 相似性计算子单元,用于计算该新闻信息主题的空间权重向量与其他新闻信息主 题的空间权重向量的相似度,如果相似度大于预先设置的相似度阈值,确定两个新闻信息 主题相近似;
[0172] 新闻信息聚类结果重要度获取子单元,用于统计包含相近似新闻信息主题的新闻 信息数量,查询预先设置的新闻信息数量与聚类重要级别的映射关系表,获取统计的新闻 信息数量映射的聚类重要级别,作为该新闻信息聚类结果重要度。
[0173] 新闻信息重要度获取模块,用于将新闻信息维度计算模块计算得到的该每一新闻 信息的网页重要度、版面重要度、新闻信息发布时间重要度以及新闻聚类结果重要度进行 加权求和,获取该每一新闻信息重要度;
[0174] 本发明实施例中,可以利用下式计算新闻信息重要度:
[0175]
[0176] 式中,
[0177] Φ i为第i个新闻信息的新闻信息重要度;
[0178] ξ i为第i个新闻信息的版面重要度的权重系数;
[0179] ξ 2为第i个新闻信息的版面重要度的权重系数;
[0180] ξ 3为第i个新闻信息的新闻信息发布时间重要度的权重系数;
[0181] W1为第i个新闻信息的新闻信息发布时间重要度;
[0182] ξ 4为第i个新闻信息的新闻聚类结果重要度的权重系数;
[0183] τ i为第i个新闻信息的新闻聚类结果重要度。
[0184] 较佳地,〇 π I1JtLOjt ξ2π1,〇π ξ3π1,〇π |4111,且 ξ^ξχ+ξ^ξ^^?ο
[0185] 新闻信息排序模块,用于对新闻信息重要度获取模块获取的新闻信息重要度进行 排序,以在接收到用户的新闻信息请求时,向用户返回排序的新闻信息重要度对应的新闻 信息。
[0186] 本发明实施例中,较佳地,作为一可选实施例,新闻信息排序模块包括:第一排序 列表构建单元、第一请求处理单元以及第一监测单元(图中未示出),其中,
[0187] 第一排序列表构建单元,用于构建按照新闻信息重要度进行排序的排序列表,在 排序列表中,显示新闻信息的新闻标题,并设置新闻标题超链接至发布该新闻信息的新闻 网页;
[0188] 本发明实施例中,进行排序的新闻信息重要度,包括当前抓取周期对应的新闻信 息重要度以及当前抓取周期之前对应的新闻信息重要度。
[0189] 第一请求处理单元,用于接收用户的新闻信息请求,将排序列表返回至用户;
[0190] 第一监测单元,用于监测到用户点击排序列表中的新闻标题,加载该新闻标题超 链接的发布该新闻信息的新闻网页。
[0191] 作为另一可选实施例,新闻信息排序模块也可以包括:链接信息重设置单元、第二 排序列表构建单元、第二请求处理单元以及第二监测单元(图中未示出),其中,
[0192] 链接信息重设置单元,用于在抓取的新闻信息中,将排序前M位的新闻信息重要 度对应的新闻信息设置为新闻标题超链接的网页;
[0193] 第二排序列表构建单元,用于构建按照新闻信息重要度进行排序的排序列表,在 排序列表中,显示新闻信息的新闻标题,并设置新闻标题超链接至设置的超链接对应的网 页;
[0194] 第二请求处理单元,用于接收用户的新闻信息请求,将排序列表返回至用户;
[0195] 第二监测单元,用于监测到用户点击排序列表中的新闻标题,加载设置的该新闻 标题超链接的网页。
[0196] 较佳地,新闻信息排序模块还可以进一步包括:
[0197] 更新单元,用于在排序列表中,删除与排序最前的新闻标题具有相同新闻信息主 题的其它新闻标题,并按照新闻信息重要度排序的方式补充新的新闻标题。
[0198] 作为再一可选实施例,新闻信息排序模块也可以包括:分类新闻信息集归类单元、 新闻信息集重要度计算单元、第三排序列表构建单元、第三请求处理单元以及第三监测单 元(图中未示出),其中,
[0199] 分类新闻信息集归类单元,用于将相近似的新闻信息主题对应的新闻信息进行归 类,得到分类新闻信息集;
[0200] 新闻信息集重要度计算单元,对于每一分类新闻信息集,对各新闻信息的新闻信 息重要度进行加权求和,获取该新闻信息集重要度;
[0201] 第三排序列表构建单元,用于构建按照新闻信息集重要度进行排序的排序列表, 在排序列表的新闻信息集重要度排序栏中,显示该新闻信息集中排序最高的新闻信息重要 度对应的新闻标题,并设置新闻标题超链接至发布该新闻信息的新闻网页;
[0202] 第三请求处理单元,用于接收用户的新闻信息请求,将排序列表返回至用户;
[0203] 第三监测单元,用于监测到用户点击排序列表中的新闻标题,加载该新闻标题超 链接的发布该新闻信息的新闻网页。
[0204] 作为再一可选实施例,新闻信息排序模块也可以包括:分类新闻信息集归类单元、 新闻信息集重要度计算单元、第四排序列表构建单元、第四请求处理单元以及第四监测单 元(图中未示出),其中,
[0205] 分类新闻信息集归类单元,用于将相近似的新闻信息主题对应的新闻信息进行归 类,得到分类新闻信息集;
[0206] 新闻信息集重要度计算单元,对于每一分类新闻信息集,对各新闻信息的新闻信 息重要度进行加权求和,获取该新闻信息集重要度;
[0207] 第四排序列表构建单元,用于在抓取的新闻信息中,将排序前M位的新闻信息集 中排序最高的新闻信息重要度对应的新闻信息设置为新闻标题超链接的网页;构建按照新 闻信息集重要度进行排序的排序列表,在排序列表的新闻信息集重要度排序栏中,显示该 新闻信息集中排序最高的新闻信息重要度对应的新闻标题,并设置新闻标题超链接至设置 的超链接对应的网页;
[0208] 第四请求处理单元,用于接收用户的新闻信息请求,将排序列表返回至用户;
[0209] 第四监测单元,用于监测到用户点击排序列表中的新闻标题,加载设置的该新闻 标题超链接的网页。
[0210] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以 通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质 中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁 碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
[0211] 以上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何 熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应 涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
【主权项】
1. 一种对新闻信息进行排序的方法,其特征在于,该方法包括: 按照预先设置的抓取周期,抓取网页中在上一抓取周期至当前抓取周期发布的新闻信 息,记录抓取的新闻信息的新闻属性信息; 针对每一抓取的新闻信息,依据记录的该每一新闻信息对应的新闻属性信息,分别计 算该每一新闻信息的网页重要度、版面重要度、新闻信息发布时间重要度以及新闻信息聚 类结果重要度; 将计算得到的该每一新闻信息的网页重要度、版面重要度、新闻信息发布时间重要度 以及新闻聚类结果重要度进行加权求和,获取该每一新闻信息重要度; 对获取的新闻信息重要度进行排序,以在接收到用户的新闻信息请求时,向用户返回 排序的新闻信息重要度对应的新闻信息。2. 根据权利要求1所述的方法,其特征在于,所述新闻信息包括:新闻标题以及新闻内 容,所述新闻属性信息包括:发布新闻信息的新闻网页信息、发布新闻信息的时间、新闻信 息在新闻网页的版面信息。3. 根据权利要求2所述的方法,其特征在于,所述抓取网页中在上一抓取周期至当前 抓取周期发布的新闻信息包括: 利用网络爬虫,抓取预先设置的新闻网页库中各链接信息对应的新闻网页发布的新闻 信息,提取抓取的新闻信息的发布时间,过滤在上一抓取周期之前发布的新闻信息。4. 根据权利要求2所述的方法,其特征在于,所述计算该每一新闻信息的网页重要度 包括: 提取该每一新闻信息对应的新闻属性信息中的发布新闻信息的新闻网页信息,确定提 取的新闻网页信息所属的新闻网站; 查询预先获取的网站排名库,获取确定的新闻网站的网站排名作为该每一新闻信息的 网页重要度。5. 根据权利要求2所述的方法,其特征在于,所述计算新闻信息的版面重要度包括: 查询版面重要级别映射库,分别获取新闻属性信息中的新闻标题字号、图片尺寸以及 新闻内容文字属性对应的版面重要级别,将获取的各版面重要级别进行加权求和,得到新 闻信息的版面重要度。6. 根据权利要求2所述的方法,其特征在于,所述计算新闻信息发布时间重要度包括: 计算当前时间与记录的该新闻信息对应的新闻属性信息中发布新闻信息的时间的时 间差,查询预先设置的时间差与时间重要级别的映射关系表,获取计算的时间差映射的时 间重要级别,作为新闻信息发布时间重要度。7. 根据权利要求2所述的方法,其特征在于,所述计算新闻信息聚类结果重要度包括: 对新闻信息中的新闻标题以及新闻内容进行分词切分处理,得到分词词组; 统计每一分词词组在新闻信息中出现的频次,选取出现频次前N位的分词词组作为该 新闻信息主题,其中,N为自然数; 统计包含相近似新闻信息主题的新闻信息数量,查询预先设置的新闻信息数量与聚类 重要级别的映射关系表,获取统计的新闻信息数量映射的聚类重要级别,作为该新闻信息 聚类结果重要度。8. 根据权利要求7所述的方法,其特征在于,确定所述相近似新闻信息主题包括: 在抓取的各新闻信息中,计算该新闻信息主题中各分词词组的特征值,并以计算得到 的特征值组成该新闻信息主题的空间权重向量; 计算该新闻信息主题的空间权重向量与其他新闻信息主题的空间权重向量的相似度, 如果相似度大于预先设置的相似度阈值,确定两个新闻信息主题相近似。9. 根据权利要求8所述的方法,其特征在于,所述以计算得到的特征值组成该新闻信 息主题的空间权重向量包括: 获取各新闻信息主题中的分词词组,合并相同的分词词组,以合并相同分词词组得到 的分词词组构建空间向量,将计算得到的特征值至于空间向量中相应分词词组位置。10. 根据权利要求8所述的方法,其特征在于,所述方法进一步包括: 将相近似的新闻信息主题对应的新闻信息进行归类,得到分类新闻信息集; 对于每一分类新闻信息集,对各新闻信息的新闻信息重要度进行加权求和,获取该新 闻信息集
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1