动态计算新闻采集服务资源的方法、信息数据处理终端与流程

文档序号:15558385发布日期:2018-09-29 01:39阅读:167来源:国知局
本发明属于计算机软件
技术领域
,尤其涉及一种动态计算新闻采集服务资源的方法、信息数据处理终端。
背景技术
:目前,业内常用的现有技术是这样的:新闻网站每天更新数据频繁,站点数量众多,需要大量的服务器/带宽/ip资源进行采集,每一项都会涉及大量的成本;对新闻网站采集频率低,容易遗漏采集新闻;采集频率高,需要的服务器/带宽成本高,当采集频率过高时,为了减少新闻站点的误判,还需要使用代理ip进行采集。现有采集系统一般会按单一频率采集,优秀的系统会采用分级管理,对网站进行简单分类,针对每一类进行固定频率采集。综上所述,现有技术存在的问题是:(1)在目标网站发布新闻低的时候,还需要占用大量的服务器/带宽资源,造成了资源浪费。(2)在出现突发新闻事件/新闻发布频率加快的时候,在既定的采集频率下,采集新闻实效慢&容易丢失新闻。(3)固定采集频率,需要在以采集优先和资源节约两个策略中选择,无论选择那种的固定采集频率方案都有技术缺陷,固定采集频率采用单一频率采集,而目标网站数据量随时间发布不同,所以固定采集频率无法彻底解决采集效率和服务器资源节约,受限于技术方案无法彻底解决。解决上述技术问题的难度和意义:如何用最少的资源获得满意的采集效果,是本发明需要解决的。本发明通过动态评估采集数量,预测下一步采集数量,并对采集资源合理调用,在保证采集准确的前提下,降低所需要的采集资源。技术实现要素:针对现有技术存在的问题,本发明提供了一种动态计算新闻采集服务资源的方法、信息数据处理终端。本发明是这样实现的,一种动态计算新闻采集服务资源的方法,根据历史数据作为参考依据,按时间排序,时间越近对采集权重越高,结合网站的重要性进行人工权重补充修正,以现有采集量与历史数据进行对比,通过公式计算预测下一步所需采集资源,采集数量越多,需要的采集资源越大,动态调整所需资源。进一步,所述动态计算新闻采集服务资源的方法包括以下步骤:步骤一,计算历史上每天单位时刻的采集数量,作为横向对比数值,以上一年的历史量为准;步骤二,根据网站的重要性,给不同的网站设定不同的权重;步骤三,默认网站的采集频率,初始值,每个网站可以默认一个初始值,也可以人为干预调整,对实际采集数值有影响;步骤四,通过系统动态计算网站采集数量,作为参数提供;步骤五,调节系统的敏感度,遇到新闻突发,人为调节,增大系统的敏感性;步骤六,调节系统的敏感度,如果不调节调节因子设为1;自动调节因子基于历史信息分析而成,如果没有历史数据可以设为1,系统变量设为s。所述步骤二进一步包括:重要的新闻门户,政府宣传网站级别高,地方网站/行业网站级别低,按照重要程度从1-5人工标注,级别5采集权重最高,级别1采集权重最低;权重变量为w,w1-w5取值范围为0-2,如为1,则表示对系统不影响,大于1则提高网站的重要性,小于1则降低网站重要性。所述步骤六进一步包括:其中λ按斐波那列数列取值,斐波那契数列指的是数列1,1,2,3,5,8,13,21,34,55,89,144,233,377,610,987,1597,2584,4181,6765,10946,17711,28657,46368........这个数列从第3项开始,每一项都等于前两项之和;k从历史数据最早时刻取值,取到最新一年的数据:s=s1*a/λn-1;a为经验值取值范围为0-1,是调节系数,控制历史数据影响力;如果s>=2则意味网站采集量异常率比较高,s取1;如果1<s<2取值正常可以代入公式,网站资讯量在增长;如果0<s<1网站资讯量在下滑,取值正常;如果s<0人为网站采集量时刻超范围,s取1;分析动态计算网站采集频率:根据f的值,调节是否提升采集频率;根据服务器的配置不同,采集能力不同,评估出单位频率下的采集量。低于某一个区间降低采集频率,降低频率不低于初始值,高于此区间则提升采集频率。本发明的另一目的在于提供一种所述动态计算新闻采集服务资源的方法的动态计算新闻采集服务资源的系统,所述动态计算新闻采集服务资源的系统包括:历史记录模块,每个网站历史上这天的采集量,计算历史上每天单位时刻的采集数量;网站权重模块,根据网站的重要性,给不同的网站设定不同的权重;网站现有采集频率模块,默认网站的采集频率,初始值;网站单位时间采集数量模块,通过系统动态计算网站采集数量,作为参数提供;人为调节因子模块,人为的调节系统的敏感度;自动调节因子模块,自动调节系统的敏感度。本发明的另一目的在于提供一种实现所述动态计算新闻采集服务资源的方法的计算机程序。本发明的另一目的在于提供一种实现所述动态计算新闻采集服务资源的方法的信息数据处理终端,所述信息数据处理终端为论坛采集系统、社交媒体采集系统。本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的动态计算新闻采集服务资源的方法。综上所述,本发明的优点及积极效果为:服务器平均可以释放10-20%的cpu资源,节约10-15%的内存。特别是带宽效果更明显,可以减少30%-40%的网络带宽消耗。采集服务器资源固定采集频率动态调整采集频率空闲时cpu40-50%10%-15%繁忙时cpu40-60%40-50%空闲时内存50-60%20-40%繁忙时内存50-60%50%-60%空闲时带宽3-4兆1-2兆繁忙时带宽4-5兆5-6兆本发明的技术方案弥补了国内外的技术空白,国内外没有相关资料,对于推动业内的发展具有重大的意义。本技术方案需要在大规模采集系统部署情况下进行研究,需要有足够多的历史大数据(tb级别),采集长期的历史数据(数年)作为研究技术,技术研究基础门槛高,一般公司没有足够多数据和资源进行研究。采集服务器资源少,对系统采用此算法,效果不如大规模数据服务器明显,单台服务器性能提高性价比不高,因为本算法需要投入一定服务器计算资源,只有在大规模服务器部署情况下才会取得良好效果。附图说明图1是本发明实施例提供的动态计算新闻采集服务资源的方法流程图。图2是本发明实施例提供的动态计算新闻采集服务资源的系统结构示意图;图中:1、历史记录模块;2、网站权重模块;3、网站现有采集频率模块;4、网站单位时间采集数量模块;5、人为调节因子模块;6、自动调节因子模块。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。如图1所示,本发明实施例提供的动态计算新闻采集服务资源的方法包括以下步骤:s101:计算历史上每天单位时刻的采集数量,作为横向对比数值,以上一年的历史量为准;s102:根据网站的重要性,给不同的网站设定不同的权重;s103:默认网站的采集频率,初始值,每个网站可以默认一个初始值,也可以人为干预调整,对实际采集数值有影响;s104:通过系统动态计算网站采集数量,作为参数提供;s105:调节系统的敏感度,遇到新闻突发,人为调节,增大系统的敏感性;s106:调节系统的敏感度,如果不调节调节因子设为1。自动调节因子基于历史信息分析而成,如果没有历史数据可以设为1。系统变量设为s。如图2所示,本发明实施例提供的本发明实施例提供的动态计算新闻采集服务资源的系统包括:历史记录模块1,每个网站历史上这天的采集量,计算历史上每天单位时刻的采集数量(如一小时,或者15分钟,数值越小精度越高,但是消耗系统计算资源),作为横向对比数值,以上一年的历史量为准。变量设为h。网站权重模块2,根据网站的重要性,给不同的网站设定不同的权重,重要的新闻门户,政府宣传网站级别高,地方网站/行业网站级别低,按照重要程度从1-5人工标注,级别5采集权重最高,级别1采集权重最低。权重变量为w。w1-w5取值范围为0-2之间。如为1,则表示对系统不影响,大于1则提高网站的重要性,小于1则降低网站重要性。实际应用中可以根据不同的类型网站进行调整。网站现有采集频率模块3,默认网站的采集频率,初始值,每个网站可以默认一个初始值,也可以人为干预调整,对实际采集数值有影响。默认情况情况下,网站初始值为网站最低采集频率。频率变量设为f,系统根据采集系统模式,可以分为多档采集频率,如f1,f2,f3,f4,f5。f1为频率最低,f5为频率最高。网站单位时间采集数量模块4,通过系统动态计算网站采集数量,作为参数提供。采集变量设为c。时间单位需要跟历史记录采用时间相对应,比如历史按小时统计,则网站也要按小时进行统计,为提高精度可以提高单位间隔,如从1小时提升到15分钟。按我们调研需要评估,1小时的时间间隔可以满足系统需求。人为调节因子模块5,调节系统的敏感度,如果不调节调节因子设为1,表示完全依赖系统调节,没有人为干预。如果遇到可能会有新闻突发,如国内两会期间,奥运会期间等可以结合历史情况预测网站新闻会增长,可以认为调节,增大系统的敏感性。也可以结合历史情况,在通新闻量少期间降低敏感性,减少服务器资源消耗。参数变量设为p(0<p<2)。p>1表示提高系统敏感度,p<1,表示降低系统敏感度。例如奥运会期间可以提高p的值,增大系统敏感性。自动调节因子模块6,调节系统的敏感度,如果不调节调节因子设为1。自动调节因子基于历史信息分析而成,如果没有历史数据可以设为1。系统变量设为s。其中λ按斐波那列数列取值(斐波那契数列指的是这样一个数列1,1,2,3,5,8,13,21,34,55,89,144,233,377,610,987,1597,2584,4181,6765,10946,17711,28657,46368........这个数列从第3项开始,每一项都等于前两项之和。);k从历史数据最早时刻取值,取到最新一年的数据。s=s1*a/λn-1;a为经验值取值范围为0-1之间,主要是调节系数,控制历史数据影响力。如果s>=2,则意味网站采集量异常率比较高,s取1;如果1<s<2取值正常可以代入公式,网站资讯量在增长;如果0<s<1网站资讯量在下滑,取值正常;如果s<0人为网站采集量时刻超范围,s取1。分析动态计算网站采集频率:根据f的值,调节是否提升采集频率。根据服务器的配置不同,采集能力不同,可以评估出单位频率下的采集量。低于某一个区间降低采集频率,降低频率不低于初始值,高于此区间则提升采集频率。在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1