用于高维数据特征属性变化趋势的可视化呈现系统及方法

文档序号:9261441阅读:850来源:国知局
用于高维数据特征属性变化趋势的可视化呈现系统及方法
【技术领域】
[0001]本发明涉及的是一种信息处理领域的技术,具体是一种可用于新闻热点分析、文献分析、病毒分析等各类多维数据的趋势分析领域的高维数据特征属性变化趋势的可视化呈现系统及方法。这些领域的数据具有如下特点:可抽取的特征数量大,且各特征并不完全独立于其他特征,即特征间存在复杂的关联关系;特征的某些属性随时间不断变化,即某些属性与时间这一特征属性不断变化;并且随着时间的延长,数据集中会有新的特征出现,或者新的特征间关系出现。
【背景技术】
[0002]现有的对随时间变化数据进行可视化的方法都是针对单一维度或者有限数量的维度,显示特征数据的变化趋势,例如折线,或者用动画方式用多个画面来显示不同时刻的多个特征数据的大小,通过动画的变化来显示数据的变化。第一种方法可以全面地呈现较少数量特征的变化趋势,但随着特征数量的增多,数据呈现的可辨识度变差。第二种方法比第一种方法可呈现更多的特征,但由于某一时刻只能显示一个时刻的数据,用户无法获得多时刻的多特征数据变化趋势。一种相对静态和全面的呈现随时间变化数据的可视化方法在很多领域中都有需求。
[0003]经对现有技术的文献检索发现,中国专利文献号CN102693294A公开日2012.09.26,公开了一种长时间变化趋势曲线绘制方法,该技术提出一种显示长时间历史曲线的显示方法,但这个技术是对趋势曲线的绘制方法,没有针对趋势可视化提出新的方法。
[0004]中国专利文献号CN103733191A,公开日2014.04.16,公开了一种趋势图表的自动生成(方法),该技术提出根据用户指定的数据单元,根据该单元所关联的数据源中的元数据,自动识别时间结构,自动配置轴的设置并绘制趋势线,但这个技术所提及的趋势图是用趋势线来绘制的,不便应用于数据单元特别多的情况。
[0005]中国专利文献号CN103677795A公开日2014.03.26,公开了一种趋势图的动态创建,该技术提出如何通过压缩全部数据为可显示数据,从而在显示器中显示时间长度不等的趋势数据,但这个技术并未提出新的趋势显示方法。

【发明内容】

[0006]本发明针对现有技术存在的上述不足,提出一种用于高维数据特征属性变化趋势的可视化呈现系统及方法,能够在指定时间区间内,将多特征趋势变化情况进行静态地呈现,所呈现的数据集的每一个维度即是一个特征,时间作为其中一个参照性的维度特征,每一个特征的属性随时间不同而不同。通过对所有特征随时间变化属性值的计算和分析,根据属性值的取值和给定的时间区间,对所有特征进行一定的筛选,将选出的特征在二维空间中给予可视化呈现。特征的筛选原则和呈现的时间区间由用户给定。该可视化方法是一种交互式的可视化方法,可视化内容由时间区间和时间区间内的特征属性的分布决定。
[0007]本发明是通过以下技术方案实现的:
[0008]本发明涉及一种用于高维数据特征属性变化趋势的可视化呈现系统,包括:数据准备模块、特征初选模块以及可视化模块,其中:数据准备模块与特征初选模块相连,从数据集中读取数据并输出经过格式处理的数据,特征初选模块与可视化模块相连并传输经过筛选和计算的数据,可视化模块与计算机显示硬件相连并传输图形信息。
[0009]所述的数据准备模块包括:数据读取单元、数据整理单元和数据存储单元,其中:数据读取单元与数据整理单元相连,读取数据集中的数据并输出初始数据,数据整理单元与数据存储单元相连并传输整理好的数据,数据存储单元与特征初选模块相连并准备为其提供数据。
[0010]所述的数据集中的数据的属性值包括但不限于时间特征、词频特征等,通过从数据中抽取其他特征并分析计算各个特征随时间特征变化的属性值,随时间变化的属性值是指数据集中的某个特征的具体属性的量化值,该量化值具有随时间变化而变化的特点。文本数据中词汇出现的次数是一个随时间变化的属性。
[0011]所述的特征初选模块包括:数据提取单元、计算整理单元和特征存储单元,其中:数据提取单元接收并根据用户的请求从数据准备模块中的数据存储单元提取相应数据,将提取到的数据传输给计算整理单元处理,计算整理单元与特征存储单元相连并传输经过计算处理的特征信息,特征存储单元与可视化模块相连并准备为其提供特征信息。
[0012]所述的请求是指:明确指定在数据集中可视化的属性和时间区间,对给定时间区间之间属性取值的变化情况进行统计分析,根据统计结果对特征进行排序并进行初选选择。由于多维数据中特征数量众多,且每一个特征又有多个属性随时间变化,对特征进行初选可以降低可视化特征的数量。例如在文本热点分析中,用户可选择词汇出现频率的变化作为要呈现的属性,在给定时间区间前和时间区间内的词汇频率发生较大变化的词汇将被选择作为要呈现的特征。
[0013]所述的特征初选模块输出的经过筛选和计算的数据,其特征的选择是动态的,用户可以选择将所有的特征都显示在可视化空间中,也可以通过设置一定的属性阈值来增减可视化的特征数量,使得可视化结果在保证可辨识度高的情况尽可能多的呈现更多特征;
[0014]所述的可视化模块包括:特征映射子模块、特征描述子模块和绘制单元,其中:特征映射子模块接收来自特征初选模块的特征数据并向绘制单元传输映射后的坐标数据,特征描述子模块接收来自特征初选模块的特征数据并向绘制单元传输特征图标描述数据。
[0015]所述的特征映射子模块包括:坐标计算单元和坐标存储单元,其中:坐标计算单元根据特征数据计算出显示的图形在平面上的位置坐标,并将坐标数据传输给坐标存储单元进行保存,坐标存储单元和绘制单元连接并传输给其坐标数据。
[0016]所述的坐标计算单元根据属性值在用户指定的视野区间内随时间的变化情况,将特征映射到二维空间中各自位置,该位置通过待呈现的属性值在视野区间内的峰值来确定。
[0017]所述的视野区间是指:在用户指定可视化时间区间,即观察区间内范围更小的时间区间。
[0018]例如,用横坐标表示时间,纵坐标表示某属性值,在某一时刻该特征属性的值达到了最大,那么用以表示这个特征的横坐标就是该时刻,纵坐标就是这个峰值的值。因此在新闻热点分析中,视野区间内的热点将显示在二维空间的最上面,最新的热点将显示在前面(视野区间的右侧),即时间轴正方向位置。
[0019]所述的特征描述子模块包括:图标生成单元和图标存储单元,其中:图标生成单元根据特征数据计算出特征呈现图标的各个图形特征,并将图形数据传输给图标存储单元进行保存,图标存储单元和绘制单元连接并传输给其图标数据。
[0020]所述的图标生成单元根据特征及其随时间变化的属性值改变对应特征呈现图标的内部呈现特征,使其能够描述更多的属性变化情况。在将特征映射到二维空间中具体的位置之后,根据待呈现属性值在观察区间中的具体取值,确定表示特征的图标具体形状或者颜色。
[0021]所述的特征呈现图标包括:头部、中部和尾部,其中:图标朝向右侧,即时间轴的正方向的一侧称为头部,图标朝向左侧,即时间轴反方向的一侧称为尾部,头部和尾部的中间则是中部。
[0022]所述的特征呈现图标与X轴的夹角表示属性值在视野区间前和视野区间内数据总体的变化趋势。夹角为正,表明在观察区间内视野区间之前的区间内数据属性值相比于视野区间内的属性值总体偏小,表明属性
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1