一种对新闻信息进行排序的方法及装置的制造方法

文档序号:9375754阅读:488来源:国知局
一种对新闻信息进行排序的方法及装置的制造方法
【技术领域】
[0001] 本发明涉及互联网应用技术,尤其涉及一种对新闻信息进行排序的方法及装置。
【背景技术】
[0002] 随着通信技术,尤其是移动第三代移动通信(3G,3rd Generation)、4G通信技术的 发展,互联网速度得到了极大的提升,用户通过移动电子设备,例如,智能移动电话、个人数 字助理、掌上电脑,可以越来越方便、快捷地接入互联网,享受快速网速带来的冲浪,并可从 互联网获取大量的信息,满足用户日常生活、休闲娱乐和工作的需要。
[0003] 但互联网在带给用户方便、快捷的同时,由于互联网信息的爆炸式增长,也给用户 从海量的互联网信息中获取所需的信息带来了不便。以新闻信息为例,由于目前互联网上 新闻类网页越来越多,新闻信息处于过载的程度,大量不重要的新闻信息充斥在各类新闻 网页上,用户如果需要从新闻网页获取有用的新闻信息,需要浏览整个新闻网页,才能从中 选择出对用户有用的新闻信息。这样,获取用户所需的信息时间较长,严重干扰了用户正常 的阅读、浪费了用户宝贵的时间,降低了用户的阅读效率,因而,为了避免用户阅读过量的 信息,向用户提供重要的新闻信息,成为各类新闻网页提升网页品质、强化用户体验的研究 热点。
[0004] 目前,对于一般的网页,在用户通过输入搜索关键词搜索相应网页时,采用计算网 页重要度的方法对搜索得到的各网页进行排序,按照排序结果将网页向用户展示,以使用 户依据排序选取排序靠前的网页进行阅读,从而使用户可以避免浏览或阅读一些包含较多 无用信息的网页,降低用户获取所需信息所需的时间,达到提升用户阅读效率的目的。该方 法中,一个网页(页面)的网页重要度由所有链向该网页的超链接数量来决定,链向该网 页的每一超链接,相当于对该网页投一票,如果该网页中,包含的链向该网页的超链接数越 多,则该网页重要度越高,在排序中的排序位越靠前,即该网页的等级越高;如果该网页中 包含的链向该网页的超链接数越少,表明该网页重要度越低,在排序中的排序位越靠后,即 该网页的等级越低,对于网页中包含的链向该网页的超链接数为零的情形,表明该网页的 网页重要度最低,该网页没有等级。
[0005] 但上述采用计算网页重要度的方法,对于新闻信息(新闻网页)来说,由于新闻信 息的时效性要求非常高,而新发布的新闻信息,是用户需要获取的有用的新闻信息,但由于 在较短时间内,该新闻网页(新闻信息)并没有足够的超链接数来提升新闻网页(新闻信 息)重要度,因而,在排序中,往往排名靠后,不能及时向用户提供有用的新闻信息;而在较 长时间后,当该新闻网页(新闻信息)有足够的超链接数来提升新闻网页(新闻信息)重 要度后,该新闻信息已过了时效性,使得新闻信息的重要度迅速下降,用户再获取该新闻信 息,已无多大意义。
[0006] 由上述可见,现有技术中,对于新闻信息,还没提出一种有效的过滤方法,向用户 提供具有时效性的新闻信息,使得用户获取有用的时效性新闻信息所需的时间较长,用户 阅读新闻信息的效率低。

【发明内容】

[0007] 有鉴于此,本发明实施例提供一种对新闻信息进行排序的方法及装置,降低用户 获取重要时效性新闻信息所需的时间,提升用户阅读新闻信息的效率。
[0008] 为达到上述目的,本发明的实施例采用如下技术方案:
[0009] -方面,本发明实施例提供一种对新闻信息进行排序的方法,包括:
[0010] 按照预先设置的抓取周期,抓取网页中在上一抓取周期至当前抓取周期发布的新 闻信息,记录抓取的新闻信息的新闻属性信息;
[0011] 针对每一抓取的新闻信息,依据记录的该每一新闻信息对应的新闻属性信息,分 别计算该每一新闻信息的网页重要度、版面重要度、新闻信息发布时间重要度以及新闻信 息聚类结果重要度;
[0012] 将计算得到的该每一新闻信息的网页重要度、版面重要度、新闻信息发布时间重 要度以及新闻聚类结果重要度进行加权求和,获取该每一新闻信息重要度;
[0013] 对获取的新闻信息重要度进行排序,以在接收到用户的新闻信息请求时,向用户 返回排序的新闻信息重要度对应的新闻信息。
[0014] 本发明实施例提供的对新闻信息进行排序的方法,通过按照抓取周期动态抓取新 闻信息,并通过网页重要度、版面重要度、新闻信息发布时间重要度以及新闻信息聚类结果 重要度四个维度对新闻信息重要度进行加权计算,并将新闻信息按照新闻信息重要度从高 到低进行排序,并将排序的新闻信息输出给用户,从而可以对时效新闻的新闻信息重要度 进行动态、多维度评估,使得新闻信息重要度的计算结果更加准确,降低用户获取重要时效 性新闻信息所需的时间,进而提升用户阅读新闻信息的效率。
[0015] 另一方面,本发明实施例提供一种对新闻信息进行排序的装置,包括:新闻信息抓 取模块、新闻信息维度计算模块、新闻信息重要度获取模块以及新闻信息排序模块,其中,
[0016] 新闻信息抓取模块,用于按照预先设置的抓取周期,抓取网页中在上一抓取周期 至当前抓取周期发布的新闻信息,记录抓取的新闻信息的新闻属性信息;
[0017] 新闻信息维度计算模块,用于针对新闻信息抓取模块每一抓取的新闻信息,依据 记录的该每一新闻信息对应的新闻属性信息,分别计算该每一新闻信息的网页重要度、版 面重要度、新闻信息发布时间重要度以及新闻信息聚类结果重要度;
[0018] 新闻信息重要度获取模块,用于将新闻信息维度计算模块计算得到的该每一新闻 信息的网页重要度、版面重要度、新闻信息发布时间重要度以及新闻聚类结果重要度进行 加权求和,获取该每一新闻信息重要度;
[0019] 新闻信息排序模块,用于对新闻信息重要度获取模块获取的新闻信息重要度进行 排序,以在接收到用户的新闻信息请求时,向用户返回排序的新闻信息重要度对应的新闻 信息。
[0020] 本发明实施例提供的对新闻信息进行排序的装置,新闻信息抓取模块通过按照抓 取周期动态抓取新闻信息,新闻信息维度计算模块以及新闻信息重要度获取模块通过网页 重要度、版面重要度、新闻信息发布时间重要度以及新闻信息聚类结果重要度四个维度对 新闻信息重要度进行加权计算,新闻信息排序模块将新闻信息按照新闻信息重要度从高到 低进行排序,并将排序的新闻信息输出给用户,从而可以对时效新闻的新闻信息重要度进 行动态、多维度评估,使得新闻信息重要度的计算结果更加准确,降低用户获取重要时效性 新闻信息所需的时间,进而提升用户阅读新闻信息的效率。
【附图说明】
[0021] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其它的附图。
[0022] 图1为本发明实施例对新闻信息进行排序的方法流程示意图;
[0023] 图2为本发明实施例对新闻信息进行排序的逻辑架构示意图;
[0024] 图3为本发明实施例对新闻信息进行排序的装置结构示意图。
【具体实施方式】
[0025] 下面结合附图对本发明实施例进行详细描述。
[0026] 应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基 于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其 它实施例,都属于本发明保护的范围。
[0027] 图1为本发明实施例对新闻信息进行排序的方法流程示意图。参见图1,该方法包 括:
[0028] 步骤101,按照预先设置的抓取周期,抓取网页中在上一抓取周期至当前抓取周期 发布的新闻信息,记录抓取的新闻信息的新闻属性信息;
[0029] 本步骤中,抓取周期可以根据实际需要进行设置,例如,可以设置为10分钟、20分 钟等。
[0030] 本发明实施例中,新闻信息包括:新闻标题以及新闻内容。
[0031] 新闻属性信息包括:发布新闻信息的新闻网页信息、发布新闻信息的时间、新闻信 息在新闻网页的版面信息等。其中,
[0032] 新闻信息在新闻网页的版面信息包括:新闻标题字号、图片尺寸、新闻内容文字属 性等。其中,新闻内容文字属性可以是新闻内容中的文字是否加粗、文字是否为斜体或具有 下划线或为不同颜色等区别于普通新闻网页中文字的一些属性信息。
[0033] 较佳地,新闻信息与新闻属性信息形成一一对应关系。
[0034] 作为一可选实施例,抓取网页中在上一抓取周期至当前抓取周期发布的新闻信息 包括:
[0035] 利用网络爬虫,抓取预先设置的新闻网页库中各链接信息对应的新闻网页发布的 新闻信息,提取抓取的新闻信息的发布时间,过滤在上一抓取周期之前发布的新闻信息。
[0036] 本步骤中,通过网络爬虫,收集各新闻网页发布的新闻信息。其中,网络爬虫是一 个自动提取网页的程序,能够按照预先设置的规则,自动抓取网页的程序或脚本,通过分析 抓取的程序或脚本,获取所需的信息。关于网络爬虫抓取网页的程序或脚本为公知技术,在 此略去详述。当然,实际应用中,也可以通过其他方式实现新闻信息的抓取。
[0037] 步骤102,针对每一抓取的新闻信息,依据记录的该每一新闻信息对应的新闻属性 信息,分别计算该每一新闻信息的网页重要度、版面重要度、新闻信息发布时间重要度以及 新闻信息聚类结果重要度;
[0038] 本步骤中,通过四个维度对新闻信息重要度进行分析,即通过识别新闻信息来源 网页的重要性(网页重要度)、新闻信息在新闻网页的版面位置的重要性(版面重要度)、 新闻信息发布时间的重要性(新闻信息发布时间重要度)以及同类主题的新闻信息数量的 重要性(新闻信息聚类结果重要度),对新闻信息进行表征,从而对新闻信息重要度进行动 态评估,以更有效向用户提供重要时效性的新闻信息,降低用户获取重要时效性新闻信息 所需的时间,进而提升用户阅读新闻信息的效率。
[0039] 计算该每一新闻信息的网页重要度包括:
[0040] All,提取该每一新闻信息对应的新闻属性信息中的发布新闻信息的新闻网页信 息,确定提取的新闻网页信息所属的新闻网站;
[0041] 本步骤中,对于抓取的每一新闻信息,对应有一新闻属性信息,从新闻属性信息 中,可以提取出发布该新闻信息的新闻网页信息,根据提取的新闻网页信息,可以确定该新 闻网页信息所属的新闻网站。例如,对于统一资源定位符中包含有sina. com字符的新闻网 页信息,可以确定该新闻网页信息属于新浪网站。
[0042] A12,查询预先获取的网站排名库,获取确定的新闻网站的网站排名作为该每一新 闻信息的网页重要度。
[0043] 本步骤中,预先获取的网站排名库中存储有
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1