一种分析排名趋势和排名稳定性的影响因素的方法与流程

文档序号:13513455阅读:548来源:国知局
一种分析排名趋势和排名稳定性的影响因素的方法与流程
本发明涉及信息快速提取
技术领域
,特别涉及一种分析排名趋势和排名稳定性的影响因素的方法。
背景技术
:社会媒体,互联网,机构统计等产生了大量的排名集合数据。排名集合数据给人类带来丰富的信息时,同时也蕴含着巨大的挑战,在网站排名,导师排名,任务排名等多个任务和需求中,如何从庞大的时序排名集合数据快速选取到符合用户需求的实例排名,成为了互联网领域,统计领域的热门课题。目前对于某个实例的排名来说,可以由有不同的机构给出,也可以对于此实例不同的方面进行排名评估,也可以根据不同的规则来排名,这些所组成的实例的排名,叫做排名的集合。加入了时间参数之后,比如2008-2017年历年的排名等,即为时序排名集合。但是由于机构不同、规则不同,无法对排序进行有效的归类,也无法直观地向需求者展示。特别是现有技术中通常只有对高排名的对象进行选择和分析,但是却无法有效找出具有所需排名变化趋向的对象。技术实现要素:本发明提供了一种分析排名趋势和排名稳定性的影响因素的方法,可以快速选取所需特征的排名信息,特别是可以快速得到排名趋势信息。一种分析排名趋势和排名稳定性的影响因素的方法,包括以下步骤:步骤1:获取并筛选排名数据得到时序排名集合;步骤2:对经过步骤1处理的时序排名集合根据排名趋势进行聚类;步骤3:把步骤2的聚类信息进行存储,索引结构为聚类id,所述聚类id包含排名对象信息,排名标准信息,排名时间信息以及排名对象在所述排名标准和所述排名时间上的排名信息;步骤4:将步骤3的聚类分别进行可视化得到对应的第一可视化图像,第一可视化图像展示排名趋势和该聚类中所有排名对象的总排名稳定性;同时每一个第一可视化图像可展开得到第二可视化图像,第二可视化图像包括标记出该聚类中所有排名对象信息的时间范围,在每一个时间上,展现该时间对应的每一个排名对象的综合排名;在每个时间范围内用统计图展示每个排名标准对于此时间下所有排名对象的影响;步骤5:根据需求在步骤4的第一可视化图像中选择所需排名趋势和稳定性的图像,得到对应排名趋势的聚类;将第一可视化图像展开为第二可视化图像,可以得到各排名标准对该聚类中所有排名对象的排名稳定性的影响大小。排名稳定性代表此时间下排名对象在不同排名标准给出的排名的方差,方差越小,排名的稳定性越好。总排名稳定性是所有排名对象和时间下的稳定性叠加。本发明通过将排名数据进行聚类,得到可视化的结果,从而可以快速选取所需排名趋势和稳定性的对象。可以应用在导师或教授排名,学校排名等各类排名系统中,从而可以快速选取得到所需排名趋势和稳定性的导师,同时还可以快速地筛选出对该聚类中对排名造成较大影响的排名标准,而现有技术中,只有单一标准下的导师排名,而通过本方法可以选取到排名不高但是排名趋势较优秀的导师,例如最几年一直保持排名上升且稳定性较好的导师,还可以快速找出对排名造成较大影响的排名标准,从而可以矫正排名。其中排名标准包括几类,可以代表机构(例如某家公司对其的排名),角度(例如从学术角度,从影响力角度等),或排名方式(例如权重的不同,计算公式的不同)。第二可视化图像中,用统计图统计每个排名标准对于此时间下所有排名对象的影响,方法如下:先统计在此时间下每个排名标准对于单个排名对象的影响,即方差贡献统计图。为此年内所有的排名标准的集合,对于每一个排名对象m,为此排名对象拥有的排名标准的集合。计算排名对象的平均排名m代表排名标准,因此有此排名对象m的排名方差为那么不同排名标准m对于排名对象m的排名的影响,即对于方差的贡献为每个排名标准对于此时间下所有排名对象的影响为n为此年内排名对象的数量。并且有等式方差贡献统计图可以用折线图,直方图,散点图。鼠标移动到代表某个排名标准的小图形时,会显示对应的排名标准信息和影响,即对方差的贡献。数值越高,意味着对此时间下的排名对象排名影响越大。优选方案:用折线图,散点图不利于相互比较观察峰值,直方图占用面积过大,显得十分拥挤,难以观察。折线图中某个排名标准的峰值越高,意味着对整体排名对象的排名影响越大。为了方便地展示各排名对象的稳定性,优选的,第二可视化图像中每个排名对象用图形表示,圆形的填充色代表排名稳定性。优选的,第二可视化图像中的图形为圆形。优选的,步骤5中,所述第二可视化图像中的图形可以展开为第三可视化视图,所述第三可视化视图展示了对应的排名对象的所有排名信息,包括该排名对象包含的时间对应的排名坐标轴,坐标轴表示在这一时间中的排名,坐标轴两端表示排名从1到当时排名的最大值,在坐标轴上标注该排名对象的所有排名标准下的排名,把相邻时间内的相同排名标准的点进行连接。为了快速筛选出异常值,优选的,对于每个坐标轴上所有的排名标准,用盒须图来表示其分布情况,进而将异常值表示出来。盒须图带有标注信息,包括此时间下所有排名标准的排名数据中的最大值、最小值、中位数、下四分位数,上四分位数和异常值。通过设备指定移动到相同排名标准对应点的连线上时,会显示此排名标准在每个时间下的排名信息。其中,从第一可视化图像的方差的统计图中可以观察每一个时间下对所有排名对象影响较大的排名标准,多个时间下的排名方差统计图会展示出是否有共同的排名标准,对每一个时间下的所有排名对象的影响都很大。从而可以推测出此排名标准的准确性存疑。通过点击颜色浅的排名对象图形,即排名不稳定的排名对象;或者是某个排名对象排名一直上升,其中突然有一个时间排名下降这样的排名对象的图形得到第三可视化图像,可以通过盒须图和排名坐标轴发现其产生这样情况的原因,是因为不同排名标准的排名分布比较分散,或者分布中有异常值,即某个排名标准的排名和其他排名标准的排名相差太远,导致平均排名太低,或者方差更大,排名更不稳定。结合方差统计图中得到的结果,来结合判断。分析得到原因包括为:1.某些排名标准一直都不准确。2.某些排名标准在某个时间不准确。3.某些排名标准对于某些特定排名的人不准确。例如有的排名标准只统计了排名前100,排名100后的人都排名101;或者某些排名标准中的排名算法权重不合理。某些排名对象在某些排名标准中的排名和其他的排名相差较大,可推断此排名对象的一些情况。例如专注于某个细分领域,导致整体领域的排名下降;在某些排名标准的排名算法中对于新的排名对象的权重较低,导致排名较低。优选的,步骤1中,获取并筛选时序排名集合的具体步骤如下:将排名数据整理为时序排名集合,时序排名集合数据为:在t时间上,则有时序排名数据:m是时序排名集合数据中的排名对象的数量,m代表任一一个排名对象;对于任何一个排名集合数据n代表了排名标准的数量,n代表任一一个排名标准;为时序排名集合数据的排名对象m的排名集合,此时时序排名集合数据表示为每一层数据结构都赋予了语义,在操作时,是排名对象m所有时间上的排名集合,是指导师m在t时刻的排名集合,是排名对象m在t时刻下排名标准n的排名,rt是t时刻所有导师的排名集合。例如下表就表示了某导师的排名数据:某导师的排名数据2011年2012年2013年……某公司对其的排名31223……学术排名51013……影响力排名71620……x公式下的排名4810………………………………聚类的目的是可以让排名趋势相近的导师划分在同一个聚类中(例如都是一直上升,或者都是先上升后下降),在寻找符合特定排名的导师的时候可以缩小范围。优选的,步骤2中,采用动态时间规整算法进行聚类。还可以基于欧氏距离的聚类算法。用动态时间规整(dtw)算法时,可以比较趋势的相似性,而不是简单的把距离相减,对于动态时间规整(dtw)算法,定义了一种距离衡量标准,对于任一一对i,j为任一两个不同的排名对象,计算距离其中t1,t2属于各自集合的时间序列,所以在t1,t2上两个集合的距离表示为dtw是比较两个时间序列的相似性,每个时间序列上有多个排名集合,需要定义两个不属于同一时间序列的两个集合的距离的衡量标准也就是d。然后基于dtw算出的相似性,规定聚类的数量(就是聚成几类),用层次聚类方法进行聚类。用图形代表聚类,可以用圆,三角形,长方形等数学图形,优选的,步骤4中,所述第一可视化图像包括:用图形大小代表聚类中的排名对象的数量,图形中心用统计图表对该聚类的排名趋势进行表示,图形填充颜色代表稳定性,稳定性越好颜色越深;第一可视化图像中图形为圆形,半径代表排名对象的数量,统计图表采用折线图。用圆形代表聚类,在接下来对半径编码排名对象数量时,易于和其他聚类比较,不会像其他多边形一样有歧义。在接下来在图形中间用折线表示趋势时,可以让折线处于正中间。在多个聚类需要多个图形时,圆可以减小空间使用面积,以及不会造成边的重叠现象。用图形大小代表聚类中的排名对象的数量,可以用圆的半径,正方形的边长。用圆的半径进行编码,可以映射到面积上,易于比较。要连接的两侧图形过多的时候,线的交叉会增多,如果采用实心线条会十分杂乱,看不出两个相邻时间上排名对象的总和排名的变化情况。优选的,第二可视化图像中对于相邻时间上的同一个排名对象通过线条进行连接;所述线条为热力图线条,热力图线条的颜色代表在前时间的排名对象的排名稳定性。即方差越大,稳定性越差,此时所生成的热力图线条的颜色更淡,宽度更大。这样对于此相邻时间内所有的热力图线条来说,可以展现整体的排名趋势,同时尽可能让稳定性差的排名对象所带来的,对于排名趋势的影响变小。为了对已经选取的聚类进行进一步的筛选,从而得到更符合使用者需求的排名对象,优选的,对第二可视化图像可以进一步展开得到第四可视化图像,展开方式如下:对第二可视化图像任一时间的排名对象进行部分框选,框选后在所有时间上都只会保留框选的排名对象。从而可以在每个时间进行框选后,即得到更符合使用者需求的排名趋势的排名对象。本发明的有益效果:本发明的分析排名趋势和排名稳定性的影响因素的方法,可以从复杂的排名数据中快速得到所需排名趋势的排名对象以及该排名对象的稳定性,同时还可以快速查找出影响所选排名对象的影响因素,可以有效帮助用户快速找到适合自己的导师或学校。附图说明图1本实施例的方法中第一可视化图像的示意图。图2为本实施例的方法中第二可视化图像的示意图。图3是第二可视化图像进一步框选后得到的第四可视化图像的示意图。图4是第二可视化图像进一步框选后得到的第三可视化图像的示意图。具体实施方式下面通过实施例结合附图详细描述本发明,本实施例的排名对象是导师,本实施实例的分析排名趋势和排名稳定性的影响因素的方法,包括数据处理部分和系统操作部分,具体包括以下步骤:数据处理部分:步骤1:筛选数据,获取导师排名数据,数据必须包括,在不同排名标准中对于导师在不同时间的排名,其中排名标准包括代表机构(例如某家公司对其的排名),角度(例如从学术角度,从影响力角度等),或排名方式(例如权重的不同,计算公式的不同)。此种形式数据为时序排名集合数据,形式如下,时序排名集合数据为:对于为在t时间上,则有时序排名数据m是时序排名集合数据的人数,m代表第几个人,对于任何一个排名集合数据n代表了排名标准的数量,n代表第几个排名标准;为时序排名集合数据的排名对象m的排名集合,此时时序排名集合数据为具体的时序排名集合数据例如下表:某导师的排名数据2011年2012年2013年……某公司对其的排名31223……学术排名51013……影响力排名71620……x公式下的排名4810………………………………对于筛选后的导师排名数据进行处理,包括将排名标准较少的导师数据删除,对于数据上的错误进行更正。步骤2:对于处理好的导师排名数据进行聚类,目的是可以让排名趋势相近的导师划分在同一个聚类中,例如都是一直上升,或者都是先上升后下降,在寻找符合特定排名的导师的时候可以缩小范围。用动态时间规整(dtw)算法可以比较趋势的相似性,而不是简单的把距离相减。对于动态时间规整(dtw)算法,我们定义了一种距离衡量标准,对于每一对我们计算距离其中t1,t2属于各自集合的时间序列。所以在t1,t2上两个集合的距离表示为步骤3:把得到的多个聚类信息进行存储,索引结构为,聚类id,包含的导师信息,排名标准的信息,时间信息,导师在此排名标准下此时间上的排名。系统操作部分:步骤4:将步骤3得到的多个聚类进行可视化,其中排名随着时间逐渐增长的导师排名聚类的第一可视化图像如图1所示。在此基础上去分析影响排名趋势和排名稳定性的影响因素。用图形代表聚类,用圆形代表聚类,对半径编码导师数量,易于和其他聚类比较,不会像其他多边形一样有歧义。在图形中间用折线表示趋势时,可以让折线处于正中间。每年排名都很稳定的导师,排名稳定意味着,不同排名标准下的排名稳定性都比较高,导师的排名也更加准确。圆形内的填充颜色的深浅代表稳定性,每个聚类下所有导师在不同时间、不同排名标准给出的排名的方差的总和作为该聚类的稳定性,方差越小,颜色越深,也意味着排名的稳定性越好。步骤5:从聚类中选取符合用户需求的聚类,对于选择排名随着时间逐渐增长的导师,可以选择,导师数量多(更大的图形),图形中心的统计图中趋势上升更明显的一个或多个聚类进行下一步操作。因为聚类的导师数量多,同时总体导师的平均排名情况随着时间而上升,更容易在后面的操作中找到特定的导师。在步骤4中,可以对如图1所示的聚类进行进一步的可视化的展示得到第二可视化图像,如图2所示,标记出聚类中所有导师数据的时间范围,在每一个时间上,展现其时间对应的导师数据;同时,在每个时间下用统计图统计每个排名标准对于此时间下所有导师的影响,即方差贡献统计图4。用统计图统计每个排名标准对于此时间下所有导师的影响,先统计在此时间下每个排名标准对于单个导师的影响,即方差贡献统计图4。为此年内所有的排名标准的集合,对于每一个导师m,为此导师拥有的排名标准的集合。计算导师的平均排名m代表排名标准,因此有此导师m的排名方差为那么不同排名标准m对于导师m的排名的影响,即对于方差的贡献为每个排名标准对于此时间下所有导师的影响为n为此年内导师的数量。并且有等式方差贡献统计图4可以用折线图,直方图,散点图。鼠标移动到代表某个排名标准的小图形时,会显示对应的排名标准信息和影响,即对方差的贡献。数值越高,意味着对此时间下的导师排名影响越大。散点图不利于相互比较观察峰值,直方图占用面积过大,显得十分拥挤,难以观察。折线图中某个排名标准的峰值越高,意味着对整体导师的排名影响越大。另外,在每个时间的上,用统计图去表示在该聚类中所有导师在不同的排名标准给出的排名的总体的统计情况,可以辅助分析整体的导师排名情况。用统计图去表示对于不同的排名标准给出的排名的统计情况。同时统计图中的每个矩形线框3可以代表排名区间,并可以容纳下代表导师的图形。统计图可以用直方图,折线图,散点图等。用直方图可以满足多个需求,每个矩形线框3可以明确的表示排名区间,也可以容纳下代表导师的图形。折线图和散点图或者把矩形换成椭圆形,都难以区分不同排名区间下的导师。用图形代表此时间上的导师,可以用圆形,正方形,三角形等。本实施例中,用圆形1代表每一个导师,当导师数量很多时,用圆形可以节省面积,不会造成边的重叠现象,同时彼此之间有空隙,减少误选操作。圆形内的填充颜色的深浅代表此时间下某导师由不同排名标准给出的排名的方差,方差越小,颜色越深,也意味着排名的稳定性越好。图形的位置代表了导师在此时间上的平均排名,分布在统计图中对应的排名区间代表的矩形线框3。每个相邻时间下对同一个导师的图形进行连接。显示此导师相邻时间内平均排名的变化情况。可以用热力图,直线,曲线等方式,本实施例中,用热力图线条2进行连接,在生成热力图的时候,对于相邻时间的两个导师图形,时间在前的导师图形颜色越浅,即方差越大,稳定性越差,此时所生成的热力图线条的颜色更淡,宽度更大。这样对于此相邻时间内所有的热力图线条来说,可以展现整体的排名趋势,同时尽可能让稳定性差的导师所带来的,对于排名趋势的影响变小。从而使直线和曲线会有重叠现象,用热力图可以避免突兀的交叉和难以区分的重叠现象,热力图的颜色深浅代表了此区域的交叉和重叠的多少,可以看出相邻时间上导师的平均排名变化情况。对于统计图中的每一个矩形线框,代表统计的排名区间,排名区间的统计范围一样,相邻排名区间为连续的排名,图2中,可以设定第一个排名区间是1~50,第二个排名区间为51~100。同时用圆形代表每一个导师,根据这些导师在这个时间上的平均排名,把他们分布在统计图中每个小图形表示的排名区间中。对于相邻时间上的同一个导师进行连接,用来观察每一个导师的平均排名随着时间的变化情况。另外,本实施例还可以对图2这一类的第二可视化图像进行进一步展开,框选方式如下:对每个统计图中的排名区间进行框选,同时也框选得到了排名区间内的包含的导师,框选后在所有时间上只会保留和框选得到的导师一样的导师图形,同时包含导师图形的统计图中的矩形线框。可以对多个时间上的导师排名区间进行框选,从最后一年往前,依次选取越来越低的排名区间,并且可以对已选取排名区间进行调整,框选后的趋势效果如图3所示,从而得到所需趋势的导师。同时可以通过查看方差贡献统计图4来查看哪些排名标准对于整体导师的排名影响较大。另外,当鼠标移动到某个代表导师的图形上时,会用线串联每一个时间上的属于此导师的图形,可以观察到这个导师在每一年中平均排名的变化,同时显示此时间上导师的具体排名信息。每一个导师图形的颜色深浅,表明了此导师在这一年的排名稳定程度,通过比较每条连线上的导师图形颜色深浅,来确定哪些导师的总体排名稳定程度更好。点击此图形,会显示此代表的导师所有时间上由不同排名标准给出的排名信息。可以点击第二可视化图像或者第四可视化图像中的导师图形,会显示此导师的所有排名信息,用文字的方式进行展示,然后会将此导师的所有排名信息进行可视化的展示,其中包括,导师包含的时间对应的排名坐标轴5,坐标轴表示在这一时间中的排名,坐标轴两端表示排名从1到当时排名的最大值(即当时总的导师数量),在坐标轴上标注此导师所有排名标准下的排名,把相邻时间内的相同排名标准的点进行连接,用来表示某种排名标准的排名在不同时间的变化情况。对于每个坐标轴上所有的点(排名标准),用盒须图来表示其分布情况,盒须图6会把分布中的异常值7表示出来,如图4所示,盒须图是一种常用的描述数据分布的方法。鼠标移动到盒须图6上,会显示盒须图6的标注信息,包括此时间下所有排名标准的排名数据中的最大值、最小值、中位数、下四分位数,上四分位数和异常值。鼠标移动到相同排名标准对应点的连线上时,会显示此排名标准在每个时间下的排名信息。从方差统计图中可以观察每一个时间下对导师排名影响较大的排名标准,多个时间下的排名方差统计图会展示出是否有共同的排名标准,对每一个时间下的导师排名的影响都很大。可以推测出此排名标准的准确性存疑。通过点击颜色浅的导师图形,即排名不稳定的导师;或者是某个导师排名一直上升,其中突然有一个时间排名下降这样的导师图形,可以通过盒须图和排名坐标轴发现其产生这样情况的原因,是因为不同排名标准的排名分布比较分散,或者分布中有异常值,即某个排名标准的排名和其他排名标准的排名相差太远,导致平均排名太低,或者方差更大,排名更不稳定。结合方差统计图中得到的结果,来结合判断。分析得到原因包括为:1.某些排名标准一直都不准确。2.某些排名标准在某个时间不准确。3.某些排名标准对于某些特定排名的人不准确。例如有的排名标准只统计了排名前100,排名100后的人都排名101;或者某些排名标准中的排名算法权重不合理。4.某些导师在某些排名标准中的排名和其他的排名相差较大,可推断此导师的一些情况。例如专注于某个细分领域,导致整体领域的排名下降;在某些排名标准的排名算法中对于新的导师的权重较低,导致排名较低。在步骤4进行上述操作后,进而可以在步骤5中对聚类展开的图形做进一步的分析。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1