一种基于平行坐标系的海量文件流转可视化方法

文档序号:10655366阅读:265来源:国知局
一种基于平行坐标系的海量文件流转可视化方法
【专利摘要】本发明专利涉及一种基于平行坐标系的海量文件流转可视化方法。首先,对文件流转数据进行预处理,转换为中间表示;其次,将中间表示数据集转换为虚拟坐标集合,作为平行坐标系的可视化数据源;然后,根据虚拟坐标集合绘制平行坐标系,平行坐标上的点表示单位,点与点之间的折线表示流转关系;最后,根据数据特征或人机交互对平行坐标系的报送流程进行高亮显示和过虑显示;本发明的优点是能够支持海量文件报送的可视化管理,提高管理效率。
【专利说明】
-种基于平行坐标系的海量文件流转可视化方法
技术领域
[0001] 本发明专利设及一种基于平行坐标系的海量文件流转可视化方法。首先,对文件 流转数据进行预处理,转换为中间表示;其次,将中间表示数据集转换为虚拟坐标集合,作 为平行坐标系的可视化数据源;然后,根据虚拟坐标集合绘制平行坐标系,平行坐标上的点 表示单位,点与点之间的折线表示流转关系;最后,根据数据特征或人机交互对平行坐标系 的报送流程进行高亮显示和过虑显示;本发明的优点是能够支持海量文件报送的可视化管 理,提高管理效率。
【背景技术】
[0002] 数据可视化是利用人眼的感知能力对数据进行交互的可视化表达W增强认知的 技术,它将不可见或难W直接显示的数据转化为可感知的图形、符号、颜色、纹理等,增强数 据识别效率,传递有效信息,其基本方法是将每一个数据项作为单个图像元素表示,将大量 的数据集合构成数据图像,同时将数据的各个属性值W多维数据的形式表示,可W从不同 的维度观察数据,从而对数据进行更深入的观察和分析。
[0003] 数据可视化分析是指在数据分析、数据挖掘时,利用支持信息可视化的用户界面 W及支持分析过程的人机交互方式与技术,有效融合计算机的计算能力和人的认知能力, 获得对于大规模数据集的桐察能力。
[0004] 随着互联网的快速发展和应用,政府部口和企事业单位部署了许多网上办公系 统,运些系统往往会产生海量文件,并在不同部口、不同单位之间进行流转,运些海量文件 的流转信息由于结构复杂、数据体量较大,难W依靠人来发现其中存在的规律,比如文件的 流向、文件的时间、文件处理的及时性等。为此,基于可视化技术将海量文件的流转W可视 化方式展现出来具有较重要的意义,运有助于直观的发现文件流转过程中的规律性知识。
[0005] 平行坐标技术在90年代初由Inse化erg和Dimsdale提出的,它克服了传统的笛卡 尔直角坐标系易耗尽空间、难W表达=维W上数据的难题,它将多维数据通过多条水平(或 者垂直)等距离的平行轴映射到二维平面上,每一条轴线代表一个属性维,轴线上的取值范 围从对应属性的最小值到最大值均匀分布。运样,每一个数据项都可W依据其属性维度取 值而用一条跨越多调平行轴的折线段表示,相似的对象就具有相似的折现走向趋势。平行 坐标系为分析多维数据提供了有效的可视化手段。
[0006] 国内外许多学者和研究机构对平行坐标系可视化也进行了相关的研究。Gen等人 (IEEE Transaction on Visualization and Computer Graphics,2011)建立了一种具有 多角度的柱状图平行坐标,进行具体的量化分析和处理,表示某个维度属性上的一个区域 内的数量,W及支持用户根据密度和角度进行多维分析,从而更直观高效的展现数据在某 个维度上的分布特征;化hMyung-Hoe(Computational Statistics and Data Analysis, 2008)提出了一种增强的平行坐标图,运种图对变量进行最优化重新排列,运些变量间的距 离是成比例的,并且把变量和数据点用光滑的曲线连接,此外,该文还提出了在平行坐标图 中各变量轴间可W是非等间距的思想;Xu Yonghong化ecture Notes in Computer Science, 2007)提出了基于平行坐标及其优化的平行筛可视化分类方法,该方法利用线性 判别进行子空间捜索,利用决策树进行分类;Harri Sii;rtola(Interacting with Computers,2006)主要介绍了当前平行坐标浏览器的可交互技术,并在文字上比较了其可 视化设计思想。同时,研究了可视化平行坐标的直接可用性;Natsuhiko Kumasakaa (Computational Statistics and Data Analysis,2008)提出了一种基于平行坐标图的新 的高维数据可视化方法一一纺织图,它是在平行坐标图的基础上调整和设置坐标轴的刻 度,并同时选择连接的线,用每一线代表一种属性,使它们尽可能水平的排列。奮旭君(计算 机应用研究,2005)等提出了一种分层平行坐标对数据集进行分层显示,克服当数据集很大 时显示的数据层次混乱,并应用到聚类分析中;陈谊(系统仿真学报,2013)等人提出了一种 简单、快捷的多视图协同可视化方法,充分利用各种可视化技术的优点,从不同的视角掲示 多维数据,在平行坐标中嵌入直方图等统计方法来解决局部可视化的缺陷。

【发明内容】

[0007] 本发明要克服现有技术的上述特点,提供一种基于平行坐标系的海量文件流转可 视化方法。
[0008] -种基于平行坐标系的海量文件流转可视化方法,包括W下步骤:
[0009] (1)对海量文件流转数据预处理;
[0010] 将海量文件、投递单位、接受单位进行预处理,转换为一个结构化数据集,该结构 化数据集所采用的数据结构可W表示为一个=元组:
[0011] Da1:aSubmision= (Fileld'FromDeptId'AcceptDeptId)
[0012] 其中:FileId表示流转文件标识,FromDeptId表示流转文件的投递单位, AcceptDeptId表示流转文件的接受单位;
[0013] (2)将结构化数据集转换为中间表示数据集;
[0014] 对结构化数据集进行重组,W流转文件标识为Key, W流转文件的投递单位和接受 单位为化Iue进行重组,可W表示为如下一个键值对列表:
[0015] !"611191)31:31 = <FileId,(FromD邱tId,Acc邱tD邱tid)〉
[0016] (3)对中间表示数据集进行重组;
[0017] (3.1) W流转文件标识为Key,将K巧相同的化Iue值作为ValueLi St,构建键值对列 表并按照流转Key从小到大进行排序,该表示如下:
[0018] !"611191)31:32 = (FileId)^lueLisO
[0019] 其中,Fi IeId流转文件标识,ValueLiSt= {(FYomDeptId)AcceptDeptId)}表示 Fi IeId相同的二元组列表集合;
[0020] (3.2)将键值对集合中文件流转过程相同的Key进行合并,合并为流转文件标识列 表K巧List,可表示为如下:
[0021 ] =
[0022] 其中,KeyLi St = {Fi leld}表示文件流转过程相同的流转文件标识列表, 化IueList表示文件流转过程集合;
[0023] (4)将中间表示键值对集合中的化IueList转换为一个虚拟坐标集合;
[0024] 遍历中间表示键值对集合中的ValueList,将其转换为相应平行坐标轴上的虚拟 坐标集合,该虚拟坐标集合对应平行坐标轴上面的虚拟坐标,表示如下:
[0025] VirDa1:a = <KeyList ,Vir 化 lueList〉
[0026] 其中:K巧List表示报送流程相同的文件列表,Vir化IueList=Ki,axisi) I i表示 坐标轴编号,axi SI表示该值在坐标轴i上的虚拟坐标};
[0027] (5)根据虚拟坐标轴集合绘制平行坐标系;
[00%] (5.1)设定平行坐标系坐标轴个数与轴距;
[0029] 根据虚拟坐标集合中VirValueList中坐标个数的最大值,设定为平行坐标轴的个 数,然后根据对应分辨率设置平行坐标轴的轴距;
[0030] (5.2)将虚拟坐标集合映射为平行坐标系的物理坐标集合;
[0031] 将虚拟坐标集合Vir化IueList映射为平行坐标系的物理坐标集合。相应的物理坐 标中X坐标是根据虚拟坐标集合每个坐标点的第一个分量得到平行坐标系中相对应的X轴 所对应的X坐标,即Xi ;相应的物理坐标中Y坐标根据虚拟坐标集合的第二个分量设定平行 坐标系中在Xi轴对应的坐标点的Y坐标。由此可得到相应的物理坐标点(Xi,Y);
[0032] (5.3)画出平行坐标系之间的折线;
[0033] 遍历每个虚拟坐标集合中相应的物理坐标点(Xi,Y),连成对应的折线;
[0034] (6)对平行坐标系的报送流程进行高亮显示和过虑显示;
[0035] (6.1)根据数据特征高亮显示平行坐标系中的可视化元素;
[0036] 根据文件数据特征,局部高亮显示平行坐标系中的点与折线,W凸显运些文件的 报送特征;
[0037] (6.2)根据用户输入过虑显示平行坐标系中的可视化元素;
[0038] 采取人机交互方式,筛选出用户感兴趣的平行坐标系的可视化元素,W提高人机 交互式体验。
[0039] 海量的文件的流转数据具有结构复杂体量巨大、流向参差不齐等特点,为了分析 挖掘海量文件流转数据中的规律性知识,本发明专利提供了一种基于平行坐标系的海量文 件流转可视化方法,通过对流转数据建模、流转数据映射、流转数据可视化、交互式分析等 手段提供了有效的可视化手段,运在大数据背景下分析海量文件的流转特征具有重要的作 用。
[0040] 本发明的优点主要表现是:本发明提出的可视化方法能够对海量文件在不同部口 之间的流转情况进行可视化管理,并结合文件特征、人机交互等对平行坐标系进行高亮显 示和过虑显示,提高管理效率和用户体验。
【附图说明】
[0041 ]图1.将虚拟坐标集合映射为平行坐标系的物理坐标集合
[0042] 图2.根据物理坐标集合绘制相应平行坐标系中的折线
[0043] 图3.基于平行坐标系的海量文件流转可视化结果
[0044] 图4.根据文件特征高亮显示平行坐标系
[0045] 图5.根据用户输入过虑显示平行坐标系;
【具体实施方式】
[0046] 下面结合附图,对本发明做进一步说明。
[0047] W表1所示的文件流转数据集为例,W两千份流转文件为数据源,对本发明专利的 实施方式进行说明,步骤如下:
[0048] 表1文件流转数据集
[0049]
[(K)加]注:n = 2000,m = 500分别为正整数
[0051] (1)对海量文件流转数据预处理;
[0052] 将海量文件、投递单位、接受单位进行预处理,转换为一个结构化数据集,表1中的 文件流转数据可W表示为如下=元组集合:
[0053] {(F1,D1,D2),(F1,D2,D3),(F1,D3,D4),(F2,D2,D3),
[0054] (F2,D3,D4),(F2,D4,D5),(F2,D5,D6),
[0化5] (F3,D3,D5),(F3,D5,D7),
[0化6] (F4,D3,D5),(F4,D5,D7)}
[0057] (2)将结构化数据集转换为中间表示数据集;
[0058] 对结构化数据集进行重组,W流转文件标识为Key, W流转文件的投递单位和接受 单位为化Iue进行重组,可表示为如下中间表示数据集:
[0059] KFl,(Dl,D2)>,<F1,(D2,D3)>,<F1,(D3,D4)>,
[0060] <F2,(D2,D3)〉,<F2,(D3,D4)〉,<F2,(D4,D5)〉,<F2,(D5,D6)〉,
[0061 ] <F3,(D3,D5)〉,<F3,(D5,D7)〉,
[0062] <F4,(D3,D5)〉,<F4,(D5,D7)〉}
[0063] (3)对中间表示数据集进行重组;
[0064] (3.1) W流转文件标识为Key,将K巧相同的化Iue值作为ValueList,构建键值对列 表并按照流转Key从小到大进行排序,得到:
[00化](<F1,{(D1,D2),(D2,D3),(D3,D4)}〉,
[0066] <F2,{(D2,D3),(D3,D4),(D4,D5),(D5,D6)}〉,
[0067] <F3,{(D3,D5),(D5,D7)}〉,
[006引 <F4,{(D3,D5),(D5,D7)}〉}
[0069] (3.2)将键值对集合中文件流转过程相同的Key进行合并,合并为流转文件标识列 表KeyList,得到:
[0070] (<{F1},{(D1,D2),(D2,D3),(D3,D4)}〉,
[0071] <{F2},{(D2,D3),(D3,D4),(D4,D5),(D5,D6)}〉,
[0072] <{F3,F4},{(D3,D5),(D5,D7)}〉}
[0073] (4)将中间表示键值对集合中的化IueList转换为一个虚拟坐标集合;
[0074] 遍历中间表示键值对集合中的ValueList,将其转换为相应平行坐标轴上的虚拟 坐标集合Vir化IueList,该集合对应平行坐标轴上面的虚拟坐标,得到:
[0075] {<{F1M(1,D1),(2,D2),(3,D3),(4,D4)}〉
[0076] <{F2},{(1,D2),(2,D3),(3,D4),(4,D5),(5,D6)}>
[0077] <{F3,F4},{(1,D3)(2,D5),(3,D7)}〉}
[0078] (5)根据虚拟坐标轴集合绘制平行坐标系;
[0079] (5.1)设定平行坐标系坐标轴个数与轴距;
[0080] 根据虚拟坐标集合中VirValueList中坐标个数的最大值,目阳2文件报送流程中虚 拟坐标集合中坐标个数5设定平行坐标轴的个数,包括X1、X2、X3、X4、X5,然后根据对应分辨 率设置平行坐标轴的轴距;
[0081] (5.2)将虚拟坐标集合映射为平行坐标系的物理坐标集合;
[0082] 将虚拟坐标集合Vir化IueList映射为平行坐标系的物理坐标集合。相应的物理坐 标中X坐标是根据虚拟坐标集合每个坐标点的第一个分量得到平行坐标系中相对应的X轴 所对应的X坐标,即Xi ;相应的物理坐标中Y坐标根据虚拟坐标集合的第二个分量设定平行 坐标系中在Xi轴对应的坐标点的Y坐标。W< {F1},{(1,Dl),(2,D2),(3,D3),(4,D4)}〉为例, 得到相应的物理坐标点,如图1所示;
[0083] (5.3)画出平行坐标系之间的折线;
[0084] 遍历每个虚拟坐标集合中相应的物理坐标点,连成对应的折线,如图2所示,海量 流转文件流转的平行坐标可视化结果如图3所示;
[0085] (6)对平行坐标系的报送流程进行高亮显示和过虑显示;
[0086] (6.1)根据数据特征高亮显示平行坐标系中的可视化元素;
[0087] 根据文件的报送时间段,高亮显示平行坐标系中的点与折线,W凸显运些文件在 整体报送中的报送特征,如图4所示;
[0088] (6.2)根据用户输入过虑显示平行坐标系中的可视化元素;
[0089] 采取人机交互方式,筛选出接收单位是D1、D2、D3的文件报送情况,显示结果如图5 所示。
【主权项】
1. 一种基于平行坐标系的海量文件流转可视化方法,包括以下步骤: (1) 对海量文件流转数据预处理; 将海量文件、投递单位、接受单位进行预处理,转换为一个结构化数据集,该结构化数 据集所采用的数据结构可以表示为一个三元组: DataSubmision=(FileId,FromDeptId,AcceptDeptId) 其中:?;1161(1表示流转文件标识,?1'〇111〇6。1:1(1表示流转文件的投递单位,4〇〇6。丨〇6口1:1(1 表示流转文件的接受单位; (2) 将结构化数据集转换为中间表示数据集; 对结构化数据集进行重组,以流转文件标识为Key,以流转文件的投递单位和接受单位 为Value进行重组,可以表示为如下一个键值对列表: TempDatal=〈FileId,(FromDeptId,AcceptDeptId)> (3) 对中间表示数据集进行重组; (3.1) 以流转文件标识为Key,将Key相同的Value值作为ValueList,构建键值对列表并 按照流转Key从小到大进行排序,该表示如下: TempData2 =〈FileId,ValueList> 其中,File Id流转文件标识,ValueList ={ (FromDeptlcUAcceptDeptld)}表不File Id 相同的二元组列表集合; (3.2) 将键值对集合中文件流转过程相同的Key进行合并,合并为流转文件标识列表 KeyList,可表示为如下: TempData3 =〈KeyList,ValueList> 其中,KeyList= {Fileld}表示文件流转过程相同的流转文件标识列表,ValueList表 示文件流转过程集合; (4) 将中间表示键值对集合中的ValueList转换为一个虚拟坐标集合; 遍历中间表示键值对集合中的ValueList,将其转换为相应平行坐标轴上的虚拟坐标 集合,该虚拟坐标集合对应平行坐标轴上面的虚拟坐标,表示如下: VirData = <KeyList ,VirValueList> 其中:KeyList表示报送流程相同的文件列表,VirValueList={(i,axisI) I i表示坐标 轴编号,axi s I表示该值在坐标轴i上的虚拟坐标}; (5) 根据虚拟坐标轴集合绘制平行坐标系; (5.1) 设定平行坐标系坐标轴个数与轴距; 根据虚拟坐标集合中VirValueLi st中坐标个数的最大值,设定为平行坐标轴的个数, 然后根据对应分辨率设置平行坐标轴的轴距; (5.2) 将虚拟坐标集合映射为平行坐标系的物理坐标集合; 将虚拟坐标集合VirValueList映射为平行坐标系的物理坐标集合。相应的物理坐标中 X坐标是根据虚拟坐标集合每个坐标点的第一个分量得到平行坐标系中相对应的X轴所对 应的X坐标,即Xi ;相应的物理坐标中Y坐标根据虚拟坐标集合的第二个分量设定平行坐标 系中在Xi轴对应的坐标点的Y坐标。由此可得到相应的物理坐标点(Xi,Y); (5.3) 画出平行坐标系之间的折线; 遍历每个虚拟坐标集合中相应的物理坐标点(Xi,Y),连成对应的折线; (6)对平行坐标系的报送流程进行高亮显示和过虑显示; (6.1) 根据数据特征高亮显示平行坐标系中的可视化元素; 根据文件数据特征,局部高亮显示平行坐标系中的点与折线,以凸显这些文件的报送 特征; (6.2) 根据用户输入过虑显示平行坐标系中的可视化元素; 采取人机交互方式,筛选出用户感兴趣的平行坐标系的可视化元素,以提高人机交互 式体验。
【文档编号】G06Q10/06GK106021529SQ201610354920
【公开日】2016年10月12日
【申请日】2016年5月25日
【发明人】张元鸣, 高亚琳, 肖刚, 陆佳炜, 徐俊, 叶成龙
【申请人】浙江工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1