一种对新闻信息进行排序的方法及装置的制造方法_3

文档序号:9375754阅读:来源:国知局
新闻信息,按照该新闻信息的新闻信息重要度进行排序,在向 用户返回排序的新闻信息重要度对应的新闻信息时,可以选取排序前M位的新闻信息重要 度对应的新闻信息,其中,M为自然数。
[0115] 作为一可选实施例,对获取的新闻信息重要度进行排序,以在接收到用户的新闻 信息请求时,向用户返回排序的新闻信息重要度对应的新闻信息可以包括:
[0116] A31,构建按照新闻信息重要度进行排序的排序列表,在排序列表中,显示新闻信 息的新闻标题,并设置新闻标题超链接至发布该新闻信息的新闻网页;
[0117] 本步骤为对获取的新闻信息重要度进行排序的具体流程。
[0118] 本发明实施例中,进行排序的新闻信息重要度,包括当前抓取周期对应的新闻信 息重要度以及当前抓取周期之前对应的新闻信息重要度。
[0119] A32,接收用户的新闻信息请求,将排序列表返回至用户;
[0120] A33,监测到用户点击排序列表中的新闻标题,加载该新闻标题超链接的发布该新 闻信息的新闻网页。
[0121] 作为另一可选实施例,对获取的新闻信息重要度进行排序,以在接收到用户的新 闻信息请求时,向用户返回排序的新闻信息重要度对应的新闻信息也可以包括:
[0122] A41,在抓取的新闻信息中,将排序前M位的新闻信息重要度对应的新闻信息设置 为新闻标题超链接的网页;
[0123] 本步骤中,为排序前M位的新闻信息重新设置超链接信息,即将该新闻信息作为 一个新的新闻网页,并分配超链接信息。这样,在后续应用中,可以只将该新闻信息向用户 展示,而无需将发布该新闻信息的新闻网页向用户展示,可以有效减少用户的阅读量,从而 降低用户阅读所需的时间,提升用户阅读效率。
[0124] A42,构建按照新闻信息重要度进行排序的排序列表,在排序列表中,显示新闻信 息的新闻标题,并设置新闻标题超链接至设置的超链接对应的网页;
[0125] A43,接收用户的新闻信息请求,将排序列表返回至用户;
[0126] A44,监测到用户点击排序列表中的新闻标题,加载设置的该新闻标题超链接的网 页。
[0127] 本发明实施例中,由于是针对新闻信息进行排序,可能是的对于同一新闻主题的 新闻信息在排序列表中处于较靠前位置,导致用户浏览具有相似内容的新闻信息,从而减 少了向用户展示其它新闻信息的概率。因而,作为可选实施例,在对获取的新闻信息重要度 进行排序后,该方法还可以进一步包括:
[0128] 在排序列表中,删除与排序最前的新闻标题具有相同新闻信息主题的其它新闻标 题,并按照新闻信息重要度排序的方式补充新的新闻标题。这样,在得到的排序列表中,对 于同一新闻信息主题,只包含排序最前的新闻信息主题对应的新闻信息。
[0129] 作为可选实施例,该方法还可以进一步包括:
[0130] A51,将相近似的新闻信息主题对应的新闻信息进行归类,得到分类新闻信息集;
[0131] 本步骤中,将相近似的多个新闻信息主题对应的新闻信息归于一类,作为一类新 闻信息。
[0132] A52,对于每一分类新闻信息集,对各新闻信息的新闻信息重要度进行加权求和, 获取该新闻信息集重要度。
[0133] 这样,所述对获取的新闻信息重要度进行排序可以包括:
[0134] 构建按照新闻信息集重要度进行排序的排序列表,在排序列表的新闻信息集重要 度排序栏中,显示该新闻信息集中排序最高的新闻信息重要度对应的新闻标题,并设置新 闻标题超链接至发布该新闻信息的新闻网页。
[0135] 作为另一可选实施例,该方法还可以进一步包括:
[0136] 将相近似的新闻信息主题对应的新闻信息进行归类,得到分类新闻信息集;对于 每一分类新闻信息集,对各新闻信息的新闻信息重要度进行加权求和,获取该新闻信息集 重要度。
[0137] 这样,所述对获取的新闻信息重要度进行排序还可以包括:
[0138] 在抓取的新闻信息中,将排序前M位的新闻信息集中排序最高的新闻信息重要度 对应的新闻信息设置为新闻标题超链接的网页;构建按照新闻信息集重要度进行排序的排 序列表,在排序列表的新闻信息集重要度排序栏中,显示该新闻信息集中排序最高的新闻 信息重要度对应的新闻标题,并设置新闻标题超链接至设置的超链接对应的网页。
[0139] 图2为本发明实施例对新闻信息进行排序的逻辑架构示意图。参见图2,首先获取 数据(新闻信息)来源,其次,依据数据来源进行新闻信息重要度计算,包括四个方面的影 响因素,分别为:
[0140] 1、网站重要度(网页重要度),计算规则为:1、网站PR值(0~9) ;2、网站Alexa 排名尚低;
[0141] 2、版面重要度,计算规则为:文章(新闻信息)在网站版面的位置重要度;
[0142] 3、新闻发布时间(新闻信息发布时间重要度),计算规则为:新闻的发布时间,发 布越早新闻重要性越低;
[0143] 4、新闻聚类结果(新闻信息聚类结果重要度),计算规则为:计算属于同一个主题 的新闻,新闻数量越多,新闻重要度越高。
[0144] 最后,依据四个方面的影响因素,获取计算结果(新闻信息重要度):将新闻重要 度的计算结果,以分值(〇~1)从高至低进行排列,每10分钟重新计算一次,当应用端(用 户)请求数据时,按照分值从高至低的顺序进行输出。
[0145] 由上述可见,本发明实施例对新闻信息进行排序的方法,通过按照抓取周期动态 抓取新闻信息,并通过网页重要度、版面重要度、新闻信息发布时间重要度以及新闻信息聚 类结果重要度四个维度对新闻信息进行表征,每一维度对应计算出一个分值,通过对四个 分值的加权计算,得出每一新闻信息总的分数作为新闻信息重要度,并将新闻信息按照新 闻信息重要度从高到低进行排序,新闻信息重要度分值越高的新闻信息,重要度也就越高, 从而可以对时效新闻的新闻信息重要度进行动态评估,当用户请求新闻信息时,按照新闻 信息重要度从高到低,将新闻信息输出给用户。通过动态、多维度对新闻信息进行重要度计 算,使得新闻信息重要度的计算结果更加准确,可以更有效向用户提供重要时效性的新闻 信息,降低用户获取重要时效性新闻信息所需的时间,进而提升用户阅读新闻信息的效率。
[0146] 图3为本发明实施例对新闻信息进行排序的装置结构示意图。参见图3,该装置包 括:新闻信息抓取模块、新闻信息维度计算模块、新闻信息重要度获取模块以及新闻信息排 序模块,其中,
[0147] 新闻信息抓取模块,用于按照预先设置的抓取周期,抓取网页中在上一抓取周期 至当前抓取周期发布的新闻信息,记录抓取的新闻信息的新闻属性信息;
[0148] 本发明实施例中,新闻信息与新闻属性信息形成一一对应关系,其中,
[0149] 新闻信息包括:新闻标题以及新闻内容。
[0150] 新闻属性信息包括:发布新闻信息的新闻网页信息、发布新闻信息的时间、新闻信 息在新闻网页的版面信息等。其中,
[0151] 新闻信息在新闻网页的版面信息包括:新闻标题字号、图片尺寸、新闻内容文字属 性等。
[0152] 作为可选实施例,新闻信息抓取模块包括:抓取单元、提取过滤单元以及记录单元 (图中未示出),其中,
[0153] 抓取单元,用于利用网络爬虫,抓取预先设置的新闻网页库中各链接信息对应的 新闻网页发布的新闻信息;
[0154] 提取过滤单元,用于提取抓取的新闻信息的发布时间,依据提取的发布时间,过滤 在上一抓取周期之前发布的新闻信息;
[0155] 记录单元,用于记录提取过滤单元过滤得到的新闻信息的新闻属性信息。
[0156] 新闻信息维度计算模块,用于针对新闻信息抓取模块每一抓取的新闻信息,依据 记录的该每一新闻信息对应的新闻属性信息,分别计算该每一新闻信息的网页重要度、版 面重要度、新闻信息发布时间重要度以及新闻信息聚类结果重要度;
[0157] 本发明实施例中,作为可选实施例,新闻信息维度计算模块包括:网页重要度计算 单元、版面重要度计算单元、发布时间重要度计算单元以及新闻信息聚类结果重要度计算 单元(图中未示出),其中,
[0158] 网页重要度计算单元,用于提取该每一新闻信息对应的新闻属性信息中的发布新 闻信息的新闻网页信息,确定提取的新闻网页信息所属的新闻网站;查询预先获取的网站 排名库,获取确定的新闻网站的网站排名作为该每一新闻信息的网页重要度;
[0159] 本发明实施例中,网站排名库中存储有各网站的网站排名。网站排名可以是网页 级别值,也可以是Alexa排名值,还可以是网页级别值和Alexa排名值的加权值。
[0160] 版面重要度计算单元,用于查询版面重要级别映射库,分别获取新闻属性信息中 的新闻标题字号、图片尺寸以及新闻内容文字属性对应的版面重要级别,将获取的各版面 重要级别进行加权求和,得到新闻信息的版面重要度;
[0161 ] 本发明实施例中,版面重要级别映射库中,设置有各版面信息对应的版面重要级 别。
[0162] 发布时间重要度计算单元,用于计算当前时间与记录的该新闻信息对应的新闻属 性信息中发布新闻信息的时间的时间差,查询预先设置的时间差与时间重要级别的映射关 系表,获取计算的时间差映射的时间重要级别,作为新闻信息发布时间重要度;
[0163] 新闻信息聚类结果重要度计算单元,用于对新闻信息中的新闻标题以及新闻内容 进行分词切分处理,得到分词词组;统计每一分词词组在新闻信息中出现的频次,选取出现 频次前N位的分词词组作为该新闻信息主题,其中,N为自然数;统计包含相近似新闻信息 主题的新闻信息数量,查询预先设置的新闻信息数量与聚类重要级别的映射关系表,获取 统计的新闻信息数量映射的聚类重要级别,作为该新闻信息聚类结果重要度。
[0164] 本发明实施例中,对于抓取到的新闻信息,通过对新闻标题和新闻内容进行分词 切分处理,得到分词词组,并统计每一分词词组在该新闻信息中出现的频次,如果某一分词 词组出现的次数越多,认为该新闻信息与该分词词组的相关度越高,将出现次数排名前N 位的词组作为该新闻信息的主题。
[0165] 作为可选实施例,新闻信息聚类结果重要度计算单元包括:切分子单元、新闻信息 主题确定子单元、空间权重向量子单元、相似性计算子单元以及新闻信息聚类结果重要度 获取子单元,其中,
[0166] 切分子单元,用于对新闻信息中的新闻标题以及新闻内容进行分词切分处理,得 到分词词组;
[0167] 新闻信息主题确定子单元,用于统计每一分词词组在新闻信息中出现的频次,选 取出现频次前N位的分词词组作为该新闻信息主题,其中,N为自然数;
[0168] 空间权重向量子单元,用于在抓取的各新闻信息中,计算该新闻信息主题中各分 词词组的特征值,
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1