影响力评价系统构建方法及系统、影响力评价方法与流程

文档序号:15349442发布日期:2018-09-04 23:09阅读:277来源:国知局
本发明涉及数据分析领域,特别涉及一种影响力评价系统构建方法及系统、影响力评价方法。
背景技术
:随着互联网的不断发展,信息在网络上的传播已经远远超过传统媒体的传播范围、传播速度、影响范围。在传统媒体里,信息的影响力很容易评估。比如报纸可以用发行量来描述,电视可以用收视率来描述。然而,如何有效的评价每一条网络信息,每一个新闻网站对社会的影响力则很难通过简单的方式完成。主要原因是,在互联网上每条信息的影响力要比传统媒体的影响力要丰富得多。比如可以用总体访问量、发文量、阅读量、点击量、点赞数、回复数、转发数等基础数据来描述一篇文章的影响力;可以用一个站点上的所有的文章数量,结合站点的访问量,独立ip访问量等信息来描述整个站点的影响力;可以用一个事件所有相关文章的基础数据,来衡量这个事件的影响力;可以用一篇文章或者一个事件的基础数据,结合文章的情感分类信息、敏感度等来衡量这篇文章或者事件的“紧急”程度。目前的方法都是通过人为设定权重,对相关的多个指标进行加权,进而计算出一个综合指数进行评价。但是,由于网络媒体影响力所涉及到的基础数据来源多样,现有方法的最主要缺点是确定每个指标的权重时没有严谨的数学分析与数学基础支撑,从而导致以下一些难以解决的具体问题:(1)主要依赖专家经验和不断修正调,难以合理科学的设置权重。(2)权重较难通用。不同应用场景,权重很难通用。相同应用场景下,不同数据集如果数据发生较大变化时,权重也难以通用。(3)难以科学的消除数据相关性。衡量媒体影响力的多个指标影响力维度之间往往具有很大的相关性,通过人工设定权重的方法很难科学的消除这些相关性。(4)物理含义不清晰。原有方法设置的权重和最终计算出的网络媒体影响力的物理含义模糊,不具备直观可解释性。因此,如何根据众多衡量指标,计算出一个通用的可用于衡量单条信息、事件或者网络媒体的影响力或者“紧急”程度的网络影响力指数,是本文要解决的技术问题。技术实现要素:本发明实施例的目的是提供一种影响力评价系统构建方法及系统、影响力评价方法,以通过数学方法解决在计算媒体影响力时人工加权的问题。本发明实施例提出一种影响力评价系统构建方法,包括:获取至少一个影响力维度中至少一个影响力指标的设定数量的历史数据;将获取的各个影响力维度的数据分别转换成分贝数;根据所述分贝数并通过降维算法构建影响力指数模型。依照本发明较佳实施例所述的影响力评价系统构建方法,所述的影响力维度包括广度、深度、速度、加速度、敏感度及时长;所述获取至少一个影响力维度中至少一个影响力指标的设定数量的历史数据的步骤包括:根据待构建的模型类型,获取广度、深度、速度、加速度、敏感度及时长中一种或多种影响力维度的设定数量的历史数据。依照本发明较佳实施例所述的影响力评价系统构建方法,所述将获取的各个影响力维度的数据分别转换成分贝数的步骤中,通过以下公式计算所述分贝数:l=blogcp其中,l为所述分贝数,p为待计算的影响力维度上的数据总数,b和c均为预设的常数值。依照本发明较佳实施例所述的影响力评价系统构建方法,所述根据所述分贝数并通过降维算法构建影响力指数模型的步骤包括:根据所述分贝数并通过主成分分析构建影响力指数模型。依照本发明较佳实施例所述的影响力评价系统构建方法,所述根据所述分贝数并通过降维算法构建影响力指数模型的步骤中,通过以下公式构建所述影响力指数模型:其中,l为所述分贝数,mid为所述影响力指数,mi为加权系数,且,m12+m22+……+mi2=1,ai为预设的业务权重。本发明另提出一种影响力评价方法,获取待评价对象的数据,并通过如权利要求1~5任一项所述的影响力评价系统构建方法构建的影响力指数模型计算待评价对象的影响力指数。本发明还提出一种影响力评价系统构建系统,包括:数据获取模块,用于获取至少一个影响力维度中至少一个影响力指标的设定数量的历史数据;分贝转换模块,用于将获取的各个影响力维度的数据分别转换成分贝数;模型构建模块,用于根据所述分贝数并通过降维算法构建影响力指数模型。依照本发明较佳实施例所述的影响力评价系统构建系统,所述的影响力维度包括广度、深度、速度、加速度、敏感度及时长;所述数据获取模块根据待构建的模型类型,获取广度、深度、速度、加速度、敏感度及时长中一种或多种影响力维度中至少一个影响力指标的设定数量的历史数据。依照本发明较佳实施例所述的影响力评价系统构建系统,所述模型构建模块根据所述分贝数并通过主成分分析构建影响力指数模型。依照本发明较佳实施例所述的影响力评价系统构建系统,所述模型构建模块通过以下公式构建所述影响力指数模型:其中,mid为所述影响力指数,mi为加权系数,且,m12+m22+……+mi2=1,ai为预设的业务权重,p为待计算的影响力维度上的数据总数,b和c均为预设的常数值。本发明通过阅读数、点赞数、转发数、评论数等基础数据,对文章、事件、媒体等媒体对象的综合影响力进行科学、定量的评估。本发明方法除了能保证数学上的最优以外,更重要的特点是不依赖于计算公式设计者自己的偏好。所有权重都是根据大规模的数据计算所得,因此具有客观性。最终计算的网络媒体影响力,即影响力指数,以特定的高影响力的媒体为基准,其值具备清晰的物理含义。本发明的特点和能解决的问题总结如下:(1)通过数学模型自动计算权重,具有严谨的数学基础。通过数学模型,建模和自动计算评价指数,自动确定权重。具有严谨的数学基础。解决了以上总结的人工设定权重的各种问题。(2)自动消除相关性。自动计算权重的过程中,通过数学模型,线性最优地消除相关性。(3)具有通用性。不同场景、不同数据集的情况下,权重都是自动计算的,所以本发明具有很强的通用性。(4)具有科学的影响力单位。用分贝作为影响力单位,更科学合理,更符合人对影响力的主观感受,解决了以往各种排行指数定义中指数含义不明确、指数大小与人主对影响力的观感受不一致的问题。(5)具有明确的物理含义。影响力指数的物理含义是:对由各个影响力数据相乘得到的“影响力体积”取自然对数,转换为影响力分贝;并且数据相乘的时候,由自动计算的系数对各个数据以指数方式进行加权。(6)设定指标媒体作为权威参考基准。计算指标媒体的平均影响力指数,为影响力指数提供权威的参考基准。(7)通过影响力级别直观评估影响力。可以通过影响力级别能很方便粗略估计影响力大小。例如1~10级,类似地震级别,非常直观。当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。附图说明图1为本发明实施例的一种影响力评价系统构建方法的流程图;图2为本发明实施例的一种影响力指数示意图;图3为本发明实施例的一种影响力评价方法计算过程示意图;图4为本发明实施例的一种影响力评价系统构建系统的结构示意图。具体实施方式有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图式的较佳实施例详细说明中将可清楚的呈现。通过具体实施方式的说明,当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本发明加以限制。本发明实施例中所述的数据,是指用于影响力评价的基础数据。比如具体的阅读数和转发数数据。本发明实施例中所述的指标,是指用以计算评价结果的基础数据变量及其各种运算的结果,比如新闻的阅读数、转发数、平均阅读数等。本发明实施例中所述的指数,是指用指数表示评价结果的高低。本发明基于影响力分贝指数模型的的影响力评价体系,旨在通过阅读数、点赞数、转发数、评论数等数据,对文章、事件等媒体的综合影响力进行科学、定量的评估。请参见图1,其为本发明实施例的一种影响力评价系统构建方法的流程图,其包括以下步骤:s100,获取至少一个影响力维度中至少一个影响力指标的设定数量的历史数据。s200,将获取的各个影响力维度的数据分别转换成分贝数。s300,根据所述分贝数并通过降维算法构建影响力指数模型。步骤s100中,需要选取一些基准作为参考标准。比如选取指标媒体,作为媒体影响力的参考基准。例如可以将14家中央重点新闻网站作为指标媒体,如表1所示:人民网新华网中国网国际在线中国日报网站中国网络电视台中国青年网中国经济网中国台湾网中国西藏网光明网央广网中国新闻网中青在线表1当然,数据的来源,即基准媒体的选择可以根据需求变化,根据不同的媒体类型选择不同的基准。比如对于微信公众号,我们可以手动选择最有代表性的30个账号作为基准。所述的影响力维度可以包括广度、深度、速度、加速度、敏感度及时长等。获取数据时,可以根据待构建的模型类型,获取广度、深度、速度、加速度、敏感度及时长中一种或多种影响力维度的设定数量的历史数据。每个影响力维度下,都可以包含一种或多种指标的数据。如表2所示:表2表2中,广度、深度、速度、加速度、敏感度及时长属于影响力维度。其中,维度广度下包括文章数、阅读数等多种影响力指标,维度深度下包括转载量、转发量、评论数、点赞数等多种影响力指标,维度速度、加速度、敏感度及时长下也同样包括一种或多种影响力指标。不同情况下,可以采用不同影响力维度的指标对影响力进行衡量。比如对文章影响力和媒体影响力,可以用广度和深度指标;对事件影响力,可以再增加速度、时长等指标;对于预警指数,可以再增加加速度和敏感度指标。如表3~表6所示:表3表4表5表6表3~表6分别示出了适合媒体、文章、事件、舆情预警指数采集数据的影响力维度和影响力指数。表2~表6的数据采集方式为本发明实施例的优选方案。但并不以此为限,数据采集可以包含其它类型的和影响力相关的数据,比如网站的访问量,独立ip访问量,每条新闻的访问量,每条新闻的长度等。步骤s200中,即所述将获取的各个影响力维度的数据分别转换成分贝数的步骤中,通过以下公式计算所述分贝数:l=blogcp其中,l为所述分贝数,p为待计算的影响力维度上的数据总数,b和c均为预设的常数值。本发明优选参考声音响度定义将数据转换为分贝数,也便于计算,即b取20,c取10:l=20log10p实验证明,声音的分贝数增加或减少一倍,人耳听觉响度也提高或降低一倍,即人耳听觉与声音功率分贝数成正比。所以,参考声音响度定义,定义影响力分贝作为影响力单位,可以更好的跟人对影响力的主观感受保持一致。步骤s300中,即根据所述分贝数并通过降维算法构建影响力指数模型的步骤,可以根据分贝数并通过主成分分析(principalcomponentanalysis,pca)构建影响力指数模型。当然,pca仅为本发明优选的分析算法,除了pca,本发明还可以用其他的降维方法。例如,locallylinearembedding,autoencoder,laplacianeigenmaps,localpreservingprojection,isomap,流形嵌入等。影响力指数计算,实质上是将输入的多个维度的指标组成的向量,映射到一维指数空间。所以采用pca进行建模和计算。pca是模式识别和机器学习领域非常经典的数学方法。本发明实施例优选可以通过以下公式构建所述影响力指数模型:其中,l为所述分贝数,mid为所述影响力指数,mi为加权系数,且,m12+m22+……+mi2=1,ai为预设的业务权重。为便于理解,以构建媒体的影响力模型为例,现采集广度下的点赞数和深度下的阅读数,用下面公式进行计算:mid=a1*m1*20log10rm+a2*m2*20log10vmrm、vm分别为该媒体所有文章总的阅读数和点赞数,m1、m2为加权系数通过pca自动求取(对应于图2,m1=cosθ,m2=sinθ),m12+m22=1,保证方差不变。a1和a2是业务权重,表示从业务需要的角度设置设置的指标重要性,即阅读数和点赞数哪一个更重要。默认取值为1,可以根据需要调整。比如0.5或者2,表示重要性降低一半或提升一倍。通过计算,就可以获得如图2所示的影响力指数示意图,从图2中可以看到,文章的阅读数和点赞数具有明显的线性相关性。通过分析数据分布,自动求解得到图2中蓝色的轴线,该轴线能最大限度的代表原有数据,这里采用该轴线代表影响力指数数据。例如,假设图2中文章a的阅读数是10万,点赞数都是1万,通过将a投影到指数轴上,即可得到影响力指数a’=127分贝。当有多个影响力维度多个影响力指标的数据时,通过类似上述原理,同样可以将多个影响力维度多个影响力指标的数据合成为一个影响力指数数据。通过影响力指数即可对媒体影响力进行排行,如表7如示:表7类似的,可以定义文章影响力分贝指数:aii(articleinfluencedb-index)、事件影响力分贝指数:eii(eventinfluencedb-index)和舆情预警分贝指数:ppi(public-opinionprecautiondb-index),计算方法类似。本发明实施例通过阅读数、点赞数、转发数、评论数等基础数据,对文章、事件、媒体等媒体对象的综合影响力进行科学、定量的评估。本发明方法除了能保证数学上的最优以外,更重要的特点是不依赖于计算公式设计者自己的偏好。所有权重都是根据大规模的数据计算所得,因此具有客观性。最终计算的网络媒体影响力,即影响力指数,以特定的高影响力的媒体为基准,其值具备清晰的物理含义。本发明的特点和能解决的问题总结如下:(1)通过数学模型自动计算权重,具有严谨的数学基础。通过数学模型,建模和自动计算评价指数,自动确定权重。具有严谨的数学基础。解决了以上总结的人工设定权重的各种问题。(2)自动消除相关性。自动计算权重的过程中,通过数学模型,线性最优地消除相关性。(3)具有通用性。不同场景、不同数据集的情况下,权重都是自动计算的,所以本发明具有很强的通用性。(4)具有科学的影响力单位。用分贝作为影响力单位,更科学合理,更符合人对影响力的主观感受,解决了以往各种排行指数定义中指数含义不明确、指数大小与人主对影响力的观感受不一致的问题。(5)具有明确的物理含义。影响力指数的物理含义是:对由各个影响力数据相乘得到的“影响力体积”取自然对数,转换为影响力分贝;并且数据相乘的时候,由自动计算的系数对各个数据以指数方式进行加权。(6)设定指标媒体作为权威参考基准。计算指标媒体的平均影响力指数,为影响力指数提供权威的参考基准。(7)通过影响力级别直观评估影响力。可以通过影响力级别能很方便粗略估计影响力大小。例如1~10级,类似地震级别,非常直观。本发明实施例另提出一种影响力评价方法,首先获取待评价对象的数据,并通过影响力评价系统构建方法构建的影响力指数模型计算待评价对象的影响力指数。如图3所示,本发明实施例的影响力评价方法的计算包括4个过程:(1)通过维度选择基础数据;(2)计算影响力分贝;(3)将多个基础数据合成为指数;(4)与指标媒体对比。本发明实施例的评价方法,可以定义每20分贝为一个影响力级别,可以将影响力划分为1~10一共10个级别。例如表1所示的于2015年9月采集的14家中央重点新闻网站,通过本发明实施例的评价方法,获得平均媒体影响力为150分贝。即,如果一家媒体,影响力分贝数达到150,就表示跟同时期的14家中央重点新闻网站的平均影响力相同。如果是130分贝,则表示影响力数据大约低10倍。本发明中基于影响力分贝指数模型的的影响力评价体系,旨在通过阅读数、点赞数、转发数、评论数等数据,对文章、事件、媒体的综合影响力进行科学、定量的评估。评价体系包括影响力维度、影响力数据、影响力单位、影响力指数、影响力基准和影响力级别6个要素。通过影响力维度和影响力数据,定义影响力计算所采用的数据;通过影响力单位、影响力指数、影响力基准和影响力级别定义影响力的计算和评估方法。本发明还提出一种影响力评价系统构建系统,请参见图4,其为本发明实施例的一种影响力评价系统构建系统的结构示意图,其包括:数据获取模块401、分贝转换模块402及模型构建模块403。数据获取模块401用于获取至少一个影响力维度中至少一个影响力指标的设定数量的历史数据。首先需要选取一些基准作为参考标准。比如选取指标媒体,作为媒体影响力的参考基准。例如可以将14家中央重点新闻网站作为指标媒体,如表1所示。当然,数据的来源,即基准媒体的选择可以根据需求变化,根据不同的媒体类型选择不同的基准。比如对于微信公众号,我们可以手动选择最有代表性的30个账号作为基准。所述的影响力维度可以包括广度、深度、速度、加速度、敏感度及时长等。获取数据时,可以根据待构建的模型类型,获取广度、深度、速度、加速度、敏感度及时长中一种或多种影响力维度的设定数量的历史数据。每个影响力维度下,都可以包含一种或多种指标的数据。如表2所示。表2中,广度、深度、速度、加速度、敏感度及时长属于影响力维度。其中,维度广度下包括文章数、阅读数等多种影响力指标,维度深度下包括转载量、转发量、评论数、点赞数等多种影响力指标,维度速度、加速度、敏感度及时长下也同样包括一种或多种影响力指标。不同情况下,可以采用不同影响力维度的指标对影响力进行衡量。比如对文章影响力和媒体影响力,可以用广度和深度指标;对事件影响力,可以再增加速度、时长等指标;对于预警指数,可以再增加加速度和敏感度指标。如表3~表6所示:表3~表6分别示出了适合媒体、文章、事件、舆情预警指数采集数据的影响力维度和影响力指数。表2~表6的数据采集方式为本发明实施例的优选方案。但并不以此为限,数据采集可以包含其它类型的和影响力相关的数据,比如网站的访问量,独立ip访问量,每条新闻的访问量,每条新闻的长度等。分贝转换模块402用于将获取的各个影响力维度的数据分别转换成分贝数。可以通过以下公式计算所述分贝数:l=blogcp其中,l为所述分贝数,p为待计算的影响力维度上的数据总数,b和c均为预设的常数值。本发明优选参考声音响度定义将数据转换为分贝数,也便于计算,即b取20,c取10:l=20log10p实验证明,声音的分贝数增加或减少一倍,人耳听觉响度也提高或降低一倍,即人耳听觉与声音功率分贝数成正比。所以,参考声音响度定义,定义影响力分贝作为影响力单位,可以更好的跟人对影响力的主观感受保持一致。模型构建模块403用于根据所述分贝数并通过降维算法构建影响力指数模型。模型构建模块403可以根据分贝数并通过主成分分析构建影响力指数模型。当然,pca仅为本发明优选的分析算法,除了pca,本发明还可以用其他的降维方法。例如,locallylinearembedding,autoencoder,laplacianeigenmaps,localpreservingprojection,isomap,流形嵌入等。影响力指数计算,实质上是将输入的多个维度的指标组成的向量,映射到一维指数空间。所以采用pca进行建模和计算。pca是模式识别和机器学习领域非常经典的数学方法。本发明实施例优选可以通过以下公式构建所述影响力指数模型:其中,l为所述分贝数,mid为所述影响力指数,mi为加权系数,且,m12+m22+……+mi2=1,ai为预设的业务权重。当有多个影响力维度多个影响力指标的数据时,通过类似上述原理,同样可以将多个影响力维度多个影响力指标的数据合成为一个影响力指数数据。通过影响力指数即可对媒体影响力进行排行,如表7如示:类似的,可以定义文章影响力分贝指数、事件影响力分贝指数和舆情预警分贝指数,计算方法类似。本发明实施例通过阅读数、点赞数、转发数、评论数等基础数据,对文章、事件、媒体等媒体对象的综合影响力进行科学、定量的评估。本发明方法除了能保证数学上的最优以外,更重要的特点是不依赖于计算公式设计者自己的偏好。所有权重都是根据大规模的数据计算所得,因此具有客观性。最终计算的网络媒体影响力,即影响力指数,以特定的高影响力的媒体为基准,其值具备清晰的物理含义。本发明的特点和能解决的问题总结如下:(1)通过数学模型自动计算权重,具有严谨的数学基础。通过数学模型,建模和自动计算评价指数,自动确定权重。具有严谨的数学基础。解决了以上总结的人工设定权重的各种问题。(2)自动消除相关性。自动计算权重的过程中,通过数学模型,线性最优地消除相关性。(3)具有通用性。不同场景、不同数据集的情况下,权重都是自动计算的,所以本发明具有很强的通用性。(4)具有科学的影响力单位。用分贝作为影响力单位,更科学合理,更符合人对影响力的主观感受,解决了以往各种排行指数定义中指数含义不明确、指数大小与人主对影响力的观感受不一致的问题。(5)具有明确的物理含义。影响力指数的物理含义是:对由各个影响力数据相乘得到的“影响力体积”取自然对数,转换为影响力分贝;并且数据相乘的时候,由自动计算的系数对各个数据以指数方式进行加权。(6)设定指标媒体作为权威参考基准。计算指标媒体的平均影响力指数,为影响力指数提供权威的参考基准。(7)通过影响力级别直观评估影响力。可以通过影响力级别能很方便粗略估计影响力大小。例如1~10级,类似地震级别,非常直观。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明实施例可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本发明实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或网络设备等)执行本发明实施例各个实施场景所述的方法。以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本申请技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本申请技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1