互联网话题趋势辅助预测方法及系统、信息数据处理终端与流程

文档序号:15463067发布日期:2018-09-18 18:38阅读:123来源:国知局
本发明属于信息检索及其数据库结构
技术领域
,尤其涉及一种互联网话题趋势辅助预测方法及系统、信息数据处理终端。
背景技术
:目前,业内常用的现有技术是这样的:互联网舆情发展趋势预测的目的是运用信息技术等手段,根据信息发展的历史数据和当前的数据,预测互联网上的话题在未来一段时间内发展的趋势,如信息数量、传播范围、传播时间等。话题趋势预测涉及到了多个方面的理论和技术,包括统计学、概率论、时间序列和信息传播理论等各个方面。预测技术是和社会经济发展、人们生活息息相关的一项技术,关于国民生产总值、股票价格以及石油价格等的预测对社会经济的发展具有重要的借鉴作用,而天气预测、地震预测和洪水预测等预测则直接关系到人们生活的安居乐业。在这些预测技术中提出了很多行之有效的预测手段,互联网信息发展趋势预测技术也是预测技术的一个方面,需要借鉴这些预测方法。常见的预测方法大多是基于时间序列的预测方法,即将所有相关信息的某一项指标按照时间的顺序进行排列、统计,以形成一个和时间相关的序列。基于时间序列的分析法是定量预测方法,是基于话题发展的延续性以及发展过程中的随机性,利用统计分析的方法来分析话题发展的规律,并且预测话题发展趋势变化、周期性变化以及随机性变化。针对互联网新闻发展趋势的预测,目前已经取得了一定的研究成果,主要的方法有两种:一种是分析新闻传播的时间间隔特点,构建对数正态分布等数学模型拟合已有数据,然后用拟合后的模型来预测新闻未来的发展趋势。只使用新闻传播时间间隔这一个特点进行分析时方法较为单一,不能对单篇新闻的话题趋势进行较为全面的预测。另一种则是将信息相关的特点组成时间序列,用神经网络等数学模型对时间序列进行拟合,使用拟合后的模型来预测时间序列的未来变化,以此来表示新闻的发展趋势。使用神经网络对新闻话题虽然有着一定的效果,在构建神经网络模型时需要内存较大的GPU,模型时间复杂度较高,成本较高而且预测的准确率往往并不能令人满意。因此有必要找到一种更加有效的方法来对互联网话题传播的发展趋势进行预测。综上所述,现有技术存在的问题是:现有的互联网新闻发展趋势的预测方法存在模型繁琐,预测的准确率并不能令人满意。解决上述技术问题的难度和意义:本发明对新闻事件的相关报道进行可视化预测时存在一定难度,因为对快慢线交叉点以及穿越横坐标轴的点进行亮点标记时存在多条曲线,因此在亮点标记时需要一定的技术处理。本发明生成的结果能够更加准确地反映新闻的发展趋势,在新闻大数据支持下能够取得较好的预测效果。技术实现要素:针对现有技术存在的问题,本发明提供了一种互联网话题趋势辅助预测方法及系统、信息数据处理终端。本发明是这样实现的,一种互联网话题趋势辅助预测方法,所述互联网话题趋势辅助预测方法将新闻事件相关报道的内容和情感特征,纳入到均线指标和指数平滑异同移动平均线指标的计算过程中;通过统计事件在不同时间段的频度信息,计算移动平均值进行平滑计算,通过快线和慢线的交叉点、倾斜角度对事件的发展趋势进行预测分析;实现网络报道预测分析之用的量化计算。通过本发明对新闻发展趋势预测,10000篇新闻中能正确预测出7000篇且预测效果较好。进一步,所述互联网话题趋势辅助预测方法包括以下步骤:步骤一,单篇报道的热度值量化计算,综合考虑报道的媒体权重和频道权重还有版面位置三个纬度的值,为每一篇报道赋予介于0和1的实数值;步骤二,事件相关报道的趋势指数平滑均线计算,通过计算信息热度值在不同时间周期下的离差值DIF、异同平均数DEA和MACD柱状图,计算指数平滑移动平均线指标EMA;EMAMt和EMANt分别为第t天的M日指数移动平均以及N日指数移动平均,其中M>N;步骤三,新闻话题趋势预测的可视化,计算出单篇舆情报道的热度值和指定时间段与时间周期内的DIF、DEA和DIFF值之后,采用Web可视化框架,按不同粒度的时间周期绘制曲线,并对快慢线交叉点和穿越横坐标轴的点,进行亮化突出显示,通过提供多条曲线的整体变化趋势和关键点的分布情况,辅助用户快速把握整个话题的发展演化和未来潜在的变化趋势。进一步,所述步骤一具体包括:(1)媒体权重的设置,依据Alexa排名将媒体权重分为10个阶梯,媒体权重最终得分,记为W1;(2)媒体频道权重,媒体频道的类型采用网络爬虫,按照广度优先遍历算法自动确定,媒体频道权重记为W2;(3)版面位置权重,根据报道的版面位置对其舆情价值进行合理赋值。进一步,所述(3)具体包括:通过中心网页中主题网页链接的抽取算法,自动抽取报道所在版面的报道链接;按照报道类型的链接在HTML源代码中的出现位置进行自动排序;令T表示所有主题链接的数量,linkr表示排序为r的链接,则第r个链接的重要性计算:将链接重要性变为一个50至100的数值,作为版面位置权重,记为W3:W3=sigmoid(W(linkr))*100;单篇文章的加权值:S=W1*α+W2*β+W3*γ;其中:α+β+γ=1;构造判断矩阵,利用几何平均法得到判断矩阵的元素权重,得到最终的参数数值;报道newsi的热度H(newsi)=sigmoid(S);利用S型函数得到每一篇报道报道newsi的趋势热度H(newsi)之后,就可以统计指定时间段内的汇总得分。进一步,所述步骤二具体包括:(1)计算EMA值,以指数式递减加权的移动平均:EMANt=EMANt-1(N-1)/(N+1)+2Ct/(N+1);EMAMt=EMAMt-1(M-1)/(M+1)+2Ct/(M+1);(2)计算DIF值,N日EMA数值减去M日EMA数值,当舆情加剧扩散时,N日EMA在M日EMA之上:DIFt=EMANt-EMAMt;(3)计算DEA值,是DIF线的-日指数平滑移动平均线:DEApt=DEAPt-1-(p-1)/(P+1)+2DIFt/(P+1);(4)计算移动平滑趋势值,令移动平滑趋势值表示舆情的整体发展态势,当前的趋势值用MACD计算:MACDt=2(DIFt-DEAPt);当短周期的EMA穿过较长周期的EMA时,会出现交叉信号。本发明的另一目的在于提供一种所述互联网话题趋势辅助预测方法的互联网话题趋势辅助预测他,所述互联网话题趋势辅助预测系统包括:单篇报道热度值量化计算模块,用于通过报道的媒体权重和频道权重还有版面位置权衡每一篇报道的实数值;事件相关报道趋势指数平滑均线计算模块,通过计算信息热度值在不同时间周期下的离差值、异同平均数和MACD柱状图,计算指数平滑移动平均线指标;新闻话题趋势预测可视化模块,用于采用Web可视化框架,按不同粒度的时间周期绘制曲线,并对快慢线交叉点和穿越横坐标轴的点,进行亮化突出显示。所述单篇报道热度值量化计算模块进一步包括:媒体权重设置单元,用于依据Alexa排名将媒体权重分阶梯,设置媒体权重;媒体频道权重单元,用于设置媒体频道权重;版面位置权重单元,用于报道原始链接的版面位置,反映报道的重要性;所述事件相关报道趋势指数平滑均线计算模块进一步包括:计算EMA值单元,以指数式递减加权的移动平均;计算DIF值单元,用于计算DIF线差离值;计算DEA值单元,用于计算DIF线的-日指数平滑移动平均线;计算移动平滑趋势值单元,用于计算移动平滑趋势值;本发明的另一目的在于提供一种实现所述互联网话题趋势辅助预测方法的计算机程序。本发明的另一目的在于提供一种实现所述互联网话题趋势辅助预测方法的信息数据处理终端。本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的互联网话题趋势辅助预测方法。综上所述,本发明的优点及积极效果为:本发明基于话题信息大数据,深入分析话题的情感和内容特征,对不同时间段的信息进行量化和平滑加权,形成反映舆情趋势的热度值,进一步通过新闻趋势热度值计算趋势相关的快线和慢线发展变化,将事件的整体演变趋势以可视化方式呈现,如实反映事件热度的升降变化,并提供不同周期下变化情况的对比图,辅助用户对事件发展趋势做出合理预判。通过本发明在实验环境下,数据源为100个国内新闻网站,做新闻辅助预测,辅助预测的准确率能够达到70%。综合考虑报道的内容和情感特征,计算报道的热度值,通过统计事件在不同时间段内的深层次内容情感特征,计算不同时间段内的平滑移动指标,通过快线和慢线的交叉点、倾斜角度对事件的发展趋势进行预测分析。采用这种方法生成的结果能够更加准确地反映新闻的发展趋势,在新闻大数据支持下能够取得较好的预测效果。附图说明图1是本发明实施例提供的互联网话题趋势辅助预测方法流程图。图2是本发明实施例提供的互联网话题趋势辅助预测系统结构示意图;图中:1、单篇报道热度值量化计算模块;2、事件相关报道趋势指数平滑均线计算模块;3、新闻话题趋势预测可视化模块。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。本发明综合考虑报道的媒体权重、频道权重、版面位置,将可以获取的网络报道进行量化,为每一篇报道赋予介于0-1之间的热度值,通过热度值计算的处理,为用户提供辅助趋势预测的可视化指标。如图1所示,本发明实施例提供的互联网话题趋势辅助预测方法包括以下步骤:S101:将新闻事件相关报道的内容和情感特征,纳入到均线指标和指数平滑异同移动平均线指标的计算过程中;S102:通过统计事件在不同时间段的频度信息,计算移动平均值进行平滑计算,通过快线和慢线的交叉点、倾斜角度对事件的发展趋势进行预测分析;实现网络报道预测分析之用的量化计算,为用户提供一种可行的辅助预测的定量和可视化相结合的趋势指标。如图2所示,本发明实施例提供的互联网话题趋势辅助预测系统包括:单篇报道热度值量化计算模块1,用于通过报道的媒体权重和频道权重还有版面位置权衡每一篇报道的实数值;单篇报道热度值量化计算模块1进一步包括:媒体权重设置单元,用于依据Alexa排名将媒体权重分阶梯,设置媒体权重;媒体频道权重单元,用于设置媒体频道权重;版面位置权重单元,用于报道原始链接的版面位置,反映报道的重要性;事件相关报道趋势指数平滑均线计算模块2,通过计算信息热度值在不同时间周期下的离差值(DIF)、异同平均数(DEA)和MACD柱状图,计算指数平滑移动平均线指标(EMA);计算EMA值单元,以指数式递减加权的移动平均;计算DIF值单元,用于计算DIF线差离值;计算DEA值单元,用于计算DIF线的-日指数平滑移动平均线;计算移动平滑趋势值单元,用于计算移动平滑趋势值;新闻话题趋势预测可视化模块3,用于采用Web可视化框架,按不同粒度的时间周期绘制曲线,并对快慢线交叉点和穿越横坐标轴的点,进行亮化突出显示。本发明实施例提供的互联网话题趋势辅助预测方法包括以下步骤:1、单篇报道的热度值量化计算综合考虑报道的媒体权重和频道权重还有版面位置,这三个纬度的值,做权衡来为每一篇报道赋予介于0和1之间的实数值。出如下热度值量化计算方法:(1)媒体权重的设置不同媒体的权重不一样,对舆情的价值也不同,如:BBC等全球知名网站报道的文章权重会更高。通过专家咨询,本发明依据Alexa排名将媒体权重分为10个阶梯,媒体权重最终得分,记为W1。(2)媒体频道权重报道在网站中所处的频道与其舆情价值具有高度相关性,例如,首页显示的文章通常具有更高的重要性。因此,按如下方式设置媒体频道权重:权重100806060减去深度链接位置首页频道页三级栏目其他规定首页中出现的报道,其重要性权重为100,通过首页可访问到的频道页中的报道,其重要性为80,其他报道为60。深度在三级以上的报道,其权重为60减去其距离首页的深度。媒体频道的类型采用网络爬虫,按照广度优先遍历算法自动确定。媒体频道权重记为W2。(3)版面位置权重访问报道的链接在来源页面的位置,即报道原始链接的版面位置,可以反映报道的重要性。例如,在一个网站中头版头条的报道,要比位于尾部的报道,具有更强的舆情影响力,因此,需要根据报道的版面位置对其舆情价值进行合理赋值。算法如下:通过中心网页中主题网页链接的抽取算法,自动抽取报道所在版面的报道链接;按照报道类型的链接在HTML源代码中的出现位置进行自动排序;令T表示所有主题链接的数量,linkr表示排序为r的链接,则第r个链接的重要性计算如下:进一步,采用如下公式将链接重要性变为一个50至100之间的数值,作为版面位置权重,记为W3:W3=sigmoid(W(linkr))*100;单篇文章的加权值:S=W1*α+W2*β+W3*γ;其中:α+β+γ=1;为确定参数α,β,γ的数值,采用层次分析法AHP,通过专家两两比较不同维度之间的相对重要程度,构造判断矩阵,利用几何平均法得到判断矩阵的元素权重,得到最终的参数数值。报道newsi的热度H(newsi)=sigmoid(S);利用上述的S型函数得到每一篇报道报道newsi的趋势热度H(newsi)之后,就可以统计指定时间段内的汇总得分,从而进一步应用后面的平滑均线计算算法,计算新闻话题的发展趋势。2、事件相关报道的趋势指数平滑均线计算在上述步骤计算出每篇信息热度值的基础上,通过计算信息热度值在不同时间周期下的离差值(DIF)、异同平均数(DEA)和MACD柱状图,来计算指数平滑移动平均线指标(EMA)。EMAMt和EMANt分别为第t天的M日指数移动平均以及N日指数移动平均,其中M>N。(1)计算EMA值EMA(ExponentialMovingAverage)指标,即指数平滑移动平均线,同时它也是一种趋势类指标,EMA是以指数式递减加权的移动平均。各数值的加权是随着时间指数式递减,越近期的数据加权越重,但较早的数据也给予一定的加权:EMANt=EMANt-1(N-1)/(N+1)+2Ct/(N+1)(1)EMAMt=EMAMt-1(M-1)/(M+1)+2Ct/(M+1)(2)(2)计算DIF值DIF线(Difference)就是差离值,N日EMA数值减去M日EMA数值。当舆情加剧扩散时,N日EMA在M日EMA之上。其间的正差离值(+DIF)会越来越大,反之在舆情趋于消亡时,差离值可能变负(-DIF)也越来越大:DIFt=EMANt-EMAMt(3)(3)计算DEA值DEA线(DifferenceExponentialAverage)异同平均线,是DIF线的-日指数平滑移动平均线:DEApt=DEAPt-1-(p-1)/(P+1)+2DIFt/(P+1)(4)(4)计算移动平滑趋势值令移动平滑趋势值表示舆情的整体发展态势,当前的趋势值可以用MACD计算,如下:MACDt=2(DIFt-DEAPt)(5)当短周期的EMA穿过较长周期的EMA时,会出现交叉信号。交叉信号的方向由移动平均交叉的方向决定。当较短周期的EMA线向上穿越较长周期的EMA线时,意味着舆情整体热度持续升温;当较短周期的EMA线向下穿越较长周期的EMA线时,则表示舆情整体热度进入下降通道。3、新闻话题趋势预测的可视化当计算出单篇舆情报道的热度值和指定时间段与时间周期内的DIF、DEA和DIFF值之后,采用Web可视化框架(d3.js),按不同粒度的时间周期绘制曲线,并对快慢线交叉点和穿越横坐标轴的点,进行亮化突出显示,通过提供多条曲线的整体变化趋势和关键点的分布情况,辅助用户快速把握整个话题的发展演化和未来潜在的变化趋势。在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1