一种基于可视分析的文物集成信息的交互探索方法

文档序号:6629176阅读:191来源:国知局
一种基于可视分析的文物集成信息的交互探索方法
【专利摘要】本发明公开了一种基于可视分析的文物集成信息的交互探索方法,包括步骤:建立文物基础数据库;从文物基础数据库中读取某一类型文物的结构化数据;利用平行轴可视化导航设计将上述特征表征出来;步骤三、将用户在平行轴可视化导航设计中选择的特定元素信息在force-directed Graph中得到尽的展示和发掘;通过文本分析对文物相关的历史记载、铭文故事等信息进行深入挖掘,并在Scatter plot视图中表征出来;计算每两个文物特征的几何距离来确定两个文物的相似度,根据相似度的计算结果确定阈值,将高于阈值的代表两个文物之间做连线,形成storytelling的可视化视图。本发明能够实现专家或一般用户学习研究文化文物,以及信息的聚类和可视化分析方法,并且将两者集成。
【专利说明】一种基于可视分析的文物集成信息的交互探索方法

【技术领域】
[0001] 本发明可视化的信息分析技术,特别是涉及一种采用可视分析和交互技术手段实 现文物信息的分析系统。

【背景技术】
[0002] 博物馆里收藏了各种文物,这些文物都是文化的瑰宝,记录了人类优秀的历史和 过去的故事。文物的收集、保护、研宄,以及公共教育是博物馆的四大职能之一。为了更好 地组织文物,博物馆将文物分成许多的种类,包括青铜器、陶器、瓷器、玉器、金器、绘画和书 法等类型。素有博物馆收藏的文物数量是未知的,但无疑是大量的。
[0003] 可视分析是一项近几年发展起来的新技术,是信息可视化和科学可视化领域发展 的产物,是人们理解和诠释大规模复杂情况的重要手段和途径。它主要借助于交互式用户 界面对复杂数据对象进行分析推理决策,从海量和动态的数据中整合信息,获取对复杂信 息的更深层的理解。信息可视化技术是在现代信息处理平台的基础上,根据用户对信息的 需要,利用适当的可视化符号表示各种信息和信息内外部的关系,使人们更方便、快速地与 信息源进行交互,发现隐藏在信息中的各类知识,进行更有效的交流。计算机对于信息的可 视化展示与人的观察和分析结合,形成了高效地可视分析方法用来解决各种难题。
[0004]目前,已经有一些研宄方法用于探索文物数据的可视化,但是,这些文物的信息一 般都是从不同的地方、博物馆、研宄机构等地方的考古专家处获取,因此难免被束缚到单一 的机构中去。因此也不能得到公共的认可,不能更加深入地挖掘文物的知识和文物之间的 故事;但是实际需求中的用户倾向于有联系地挖掘文物信息,而不是孤立、单独地孤岛信 息。同时,当数据量很大时,如果人们不能很好地理解文物之间的关系,挖掘深入的信息,许 多有价值的信息就会被这样被忽略掉。
[0005] 利用本发明能够很好地解决以上这些问题。


【发明内容】

[0006] 为了克服上述现有技术,本发明提出了一种基于可视分析的文物集成信息的交互 探索方法,针对大数据实现了分布式求解支持向量机的有效途径。
[0007] 本发明提出了一种基于可视分析的文物集成信息的交互探索方法,该方法包括以 下步骤:
[0008] 步骤一、建立文物基础数据库,包括文物的结构化文本和图像数据,结构化数据代 表不同的多元高维的特征;
[0009] 步骤二、从上述文物基础数据库中读取某一类型文物的结构化数据,将其与数据 库中其他同类型的文物数据的特征进行比较,同时通过文本分析技术匹配出相关的文物的 信息,根据用户的兴趣点从文物的不同层面、不同特征衍生出不同的个性化的观点;利用平 行轴可视化导航设计将上述特征表征出来:包括分别表示年代、类型、出土地点以及收藏地 点/者四个轴,特征轴之间的连线是半透明的;通过边界捆绑edgebundling的方法对具有 同一类型特征的文物连线进行聚类绑定;
[0010] 步骤三、将用户在平行轴可视化导航设计中选择的特定元素信息在力导向图 force-directedGraph中展示和发掘,其中:每个结节点代表着一个文物,节点之间的连线 代表节点之间共有的特征;
[0011] 步骤四、通过文本分析对文物相关的历史记载、铭文故事等信息进行深入挖掘,并 在散点图Scatterplot视图中表征出来;彩色散点图ColoredScatter-plots代表着铭文 中或历史资料中先关字段出现的频率特征,根据频率特征可分为:用户指定的字段、数据库 中的常见字段,出现的频率可用散点plots的透明度表示;
[0012] 步骤五、计算每两个文物特征在故事线storypath视图的几何距离来确定两个文 物的相似度,根据相似度的计算结果确定阈值,将高于阈值的代表两个文物之间做连线,形 成讲故事storytelling的可视化视图;这个故事线storylines是用户自定义生成的。
[0013] 与现有技术相比,本发明为专家或一般用户,提供了一种探索文物之间关系以及 文物知识的可视化分析框架;其次,这个方法是探索集成的、高维的、多分辨率的信息的一 种新方法,第一次将博物馆的历史资料和互联网联合起来建立一种公共的平台,让专家或 一般用户学习研宄文化文物;再次,信息的聚类和可视化分析方法,两者被集成在一个传统 的文化领域。这个方法使得文物信息的探索、学习,以及表征更加综合、合理;最后,这个方 法关注用户或专家对相关文物知识的兴趣,同时根据用户的关注点进行Storytelling。

【专利附图】

【附图说明】
[0014] 图1为本发明实施例中的组成元素示意图:
[0015] (a)是导航一的平行轴设计;
[0016] (b)是导航二的force-directed graph ;
[0017] (c)是基于文本分析的Scatter plot视图;
[0018] (d)是控制面板以及推荐信息;
[0019] (e)是交互式的storytelling ;
[0020] (f)是一个特定文物的详细信息;
[0021] 图2为本发明实施例中表现平行轴采用edgebundling的效果示意图;
[0022] (a)特征轴之间的关系线大量重复;
[0023] (b)采用edgebundling技术大量减少轴之间关系线的重复和聚合;
[0024]
[0025] 图3为本发明实施例中的Force-directedGraph表现出的表一中文物的特征和 它们之间的关系示意图;黄色表示年代,红色类型,绿色出土地,蓝色博物馆;
[0026] 图4为scatterplot视图,表现了选择的文物的铭文和历史资料的对比文本分析 结果;
[0027] 图5为本发明实施例中的展示storypath中的几种不同形态示意图;
[0028] (a)是NengYuanBo的四个特征;
[0029] (b)是Zhong Cymbal和Tian Ding从Cymbal和the Late of Shang这两种不同 的特征衍生出来;
[0030] (c)Zhong Cymbal和Tian Ding具有相同的朝代特征the Late of Shang ;
[0031] (d)TaipeiMuseum这个特征和Bell特征联系起来,因为它们都是Bell的两个属 性。
[0032] 图6为本发明实施例中的青铜器和数据展现出的一些规律的表现效果示意图;
[0033] 图7为本发明实施例中的通过在导航一中选定的文物或特征的详细信息在 Force-directedGraph视图的表现效果示意图,展示了具有相同名称ChuTaiShiDeng Bell的青铜器;
[0034] 图8为本发明实施例中的是武王伐纣的历史事件的表现效果示意图;
[0035] 图9本发明实施例中的用户产生的storypath的一个实例的表现效果示意图。

【具体实施方式】
[0036] 下面结合附图和【具体实施方式】对本发明进行详细说明,但本发明的实施范围并不 局限于此。
[0037] 本发明的主要贡献在于:首先,为专家或一般用户提供了一种探索文物之间关系 以及文物知识的可视化分析框架;其次,这个方法是探索集成的、高维的、多分辨率的信息 的一种新方法。这项技术第一次将博物馆的历史资料和互联网联合起来建立一种公共的 平台,让专家或一般用户学习研宄文化文物;再次,信息的聚类和可视化分析方法,两者被 集成在一个传统的文化领域。这个方法使得文物信息的探索、学习,以及表征更加综合、合 理;最后,这个方法关注用户或专家对相关文物知识的兴趣,同时根据用户的关注点进行 storytelling。
[0038] 本发明一种基于可视分析的文物集成信息的交互探索方法,包括以下步骤:
[0039] 步骤一、建立集成的文物信息基础数据库:
[0040] 首先进行文物基础数据的预处理,包括文本和图像数据。文本数据包括文物的名 称、文物类型、年代、出土地点、收藏地点、铭文内容,以及其他详细的介绍性描述;图像数 据包括文物的的高清图片和文物铭文的高清图片,这些图片可以给用户更直观的理解和认 识。这些数据均是编写定制的爬虫软件,在主要博物馆或研宄院的网站上获取的。这些数 据是高维多分辨率的、多元的和异构的,数据集非常大,存在很大程度上的冗余,它们不能 直接进行信息检索和分析。因此,我们首先将数据从网站上扒下来以后,采用编写的自动化 数据处理提取软件将大量的数据结构化,并去除冗余。
[0041] 结构化的数据库中包括文物的不同类型,根据每个类型的自身特点建立独立的数 据表结构,例如青铜器的数据库,包括了青铜器的名称、青铜器类型、年代、出土地点、收藏 地点、青铜器铭文的内容、简单的介绍描述,以及青铜器的高清图片、铭文的高清拓片。这些 文物的信息都是高维、多分辨率的,并且是多元的。
[0042] 步骤二、如同步骤一说言,文物所有有价值的信息都可以结构化成许多不同的多 元高维的特征。用户的兴趣点可以从文物的不同层面、不同特征衍生出不同的个性化的 观点。所以,平行轴可视化设计可以从不同的特征,以及文物之间不同的关系出发,为用户 建立关注点的背景导航。在平行轴视图(图2)中,四个轴分别表示年代(Dynasty)、类型 (Type)、出土地点(UnearthSite)以及收藏地点/者(Authority),特征轴之间的连线是半 透明的,这样如果两条线重合,用户也可以根据关注点清晰地分别出重合的关系。同时,为 了避免更多的重叠和不必要的冗余,我们采用"edgebundling"技术,将特征间相同的关系 捆绑成一条线,这条线的宽度属性表示关系的文物个数。相同特征关系的文物的个数差别 很大,所以特征轴之间的连线宽窄差别也比较大。同时,这个设计也能体现出一些特征和数 量上的规律。最后,用户也可以交换特征轴的位置,运用不同的组合查看文物之间的关系和 规律。
[0043] 总之,平行轴的可视化设计展示了文物数据的整体状态,并且为其他试图提供背 景。然而,当用户选择了特定的文物想要查看它们之间的关系时,这个视图会被重新定义, 展现特定这些文物之间的详细关系和共同特征。
[0044] 步骤三、用户在导航一中选择的特定元素信息将在可视化导航二的 force-directedGraph中得到更加详尽的展示和发掘。这个Graph中,每个node(文物的 名称和图片)代表着一个文物,node之间的连线代表节点之间共有的特征,比如是同一个 年代的青铜器,都是青铜鼎的类型。导航二的graph设计中用不同的颜色代表不同的特征。 当两个文物之间具有多于一个的共同特征时,多个特征关系线也会展现出来。用户通过选 择某个特定的node来查看该文物详细的信息,包括文物图片,尺寸,收藏历史等其他一些 详细的描述信息。表一列举出一些文物的一些特征信息,如果将这些信息体现在这个graph 的可视化设计中,将会得到图3的视图。表一和图3均可以看出JingShiTianWangBell 和NengYuanBo具有同样的朝代特征,用连线连接起来;同样的,ZheJianBell和Zhu TaiZaiBell是一样的类型、年代和收藏博物馆,分别用不同的颜色一一红色、黄色和蓝色 表不。
[0045] 步骤四、通过文本分析对文物相关的历史记载、铭文故事等信息进行深入挖掘,并 在Scatterplot视图中表征出来。ColoredScatter-plots代表着铭文中或历史资料中先 关字段出现的频率特征,根据频率特征可分为:用户指定的字段、数据库中的常见字段,出 现的频率可用plots的透明度表示。
[0046] 文物的一些文本信息,比如历史记录等,都为文物自身的价值和承载的历史故事 提供第一手的资料,所以我们研宄这些历史文本信息是有很大的价值的。传统地,考古学 家研宄和分析这些资料,都很耗时,并且需要大量的经验,效率也不高。在一些情况下,历 史资料还有可能被破坏或者残缺,这些情况都使得分析过程极端复杂。在这个文本分析的 scatterplot视图中,我们呈现文物本体的信息和历史资料的记载,并允许用户选择一些 关键词。该方法首先建立一个关键词库,词库中时常见的关键字,涉及到姓名、地名、国家年 号、官方年号等类型。关键字之间通过匹配程度来配对,关键字的出现频率的权重大于一半 字符出现的频率的权重。公式定义如下:
[0047] Fk代表关键字出现频率,F_代表文集词汇出现频率,F^表示在目标铭文和历史 资料中词汇出现的频率。Wk是用户选择的关键词的权重,W_是词汇的权重,W_是一般词 汇的权重。C表示目标铭文和其他文物铭文或历史资料的相关关系。C用以下公式计算:
[0048] C(i) =Fk(i) *Wk+Fcor(i) *ffcor+FCOffl(i) -Wcoffl
[0049] 在上面的公式中,i代表第i个文本来源,每个文本都会和目标文本进行比较得到 C值,不同文本来来源的C可排序得到最接近的文本。(图4)scatterplot视图表现了选择 的文物的铭文和历史资料的对比文本分析结果。
[0050] 步骤五、通过计算每两个文物的特征的几何距离来确定两个文物的相似度,根据 相似度的计算结果确定阈值,将高于阈值的代表两个文物之间做连线,形成storytelling 的可视化视图。人们探索文化遗产信息的方式主要有两种:第一种是关注文物的,用户关 心的是某个特定文物的详细基本信息;另一种方式是基于历史时间或历史人物,主要是文 物和历史能够联系上的事实。同样地,用户行为具有不确定性:他们或者沿着单个的story path,或者回过头来追溯另一个storypath,还有可能一条path根本不能满足用户的需 求。因此,我们设计的storypath视图(如图5所示)不仅可以推荐用户path,同时允许 用户自己设计自己的探索路线,随着关注点的不同,探索不同的storypath。不同的节点 代表不同的文物,向外延伸出的探索路径代表了两个文物之间的关系,随着路径不断延长, storypath也不断丰满起来。有两种方式可以选择下一个path文物节点:
[0051] 向前:用户首先选择现有path上的某种信息,如果选择的是一个文物,与该文 物相关的文物以及特征会显示出来,用户可以根据关注点选择自己关心的元素,继续延伸 storypath。或者从前两个视图中拖拽感兴趣的文物到可视化视图中,同样都允许用户根 据自己的关注点和兴趣延伸探索storypath。
[0052] 回溯:当用户想要探索该path的其他分支时,用户可以回溯要之前的文物节点, 选择另外的path。
[0053] 图5展示storypath中的几种不同形态。(a)是NengYuanBo的四个特征,(b) 是ZhongCymbal和TianDing从Cymbal和theLateofShang这两种不同的特征衍生出 来。(c)ZhongCymbal和TianDing具有相同的朝代特征theLateofShang。(d)Taipei Museum这个特征和Bell特征联系起来,因为它们都是Bell的两个属性。
[0054] 下面通过研宄材料进一步印证本发明具有其科学性、准确性及重复再现性。以下 实例都是通过该发明,在四个不同的视图中发现的,并与四个视图一一对应:
[0055] 实例 1、
[0056] 图6(a)中,EarlyWesternZhoudynasty被选定看一看到,这个朝代的青铜器 数量巨大,出土在全中国的大部分地方,被不同的博物馆收藏。(b)图可以发现Jiangsu出 土的青铜器大部分都还收藏于Jiangsu。图6(d)可以发现青铜纹饰符号起源于theLate Shangdynasty,Shangdynasty是青铜时代的第一个王朝,在晚商时期,青铜纹饰符号被大 量应用于青铜器的铸造上。但是,在Shangdynasty之后,青铜器纹饰符号不再流行。其中 有一个原因可能是,这些朝代有不同的文化。图(e)我们可以发现,被高亮指出的这些地区 拥有很少的文物收藏,但是这些地区大量出土不同类型的文物,并且这些文物分布在不同 的年代。这可能说明历史文化遗产的保护程度和一个博物馆的经济状况是分不开的。同样 地,青铜时代早期,青铜器大多被用来祭祀和装饰用。但是在青铜时代的晚期,青铜器被大 量铸造成武器。图6(f)中thewarringstatesperiod可以很清晰得体现出这个规律。原 因可能在于青铜器晚期,各诸侯割据一方,战争冲突不断。
[0057] 实例 2、
[0058] 图7是通过在导航一中选定的文物或特征在这个视图中详细信息的表现,展示了 具有相同名称ChuTaiShiDengBell的青铜器。图7(a) (1)它们被许多蓝色的线聚合在 一起,因为它们保存在同一个博物馆,共有九件相同名字的钟。(2)显示八件RongSheng Bell被保存在同一个博物馆(Beijing,PolyArtMuseum)。重复名字的青铜器在中国的 青铜器中很常见,它们或是拥有同一个主人,或是属于同一个系列。例如上述例子中,这几 个钟都属于一个编钟系列,所以拥有一样的名字。同样地它们也总是同时在一个地方出土。 但是(3)显示了九件ZheJianBell中的一件被收藏在Shanghai博物馆,其他八件被收藏 于TaipeiPalaceMuseum,这九件都出土于Jiangxi省,可以想象其中会有一些收藏的坎 坷和故事。图7(6)是春秋晚期的青铜器情况,它们聚类成6组。特殊地,这里有两件Neng YuanBo没有任何联系,因为它们既不出土于同一个地点,也没有收藏于同一个博物馆。
[0059] 另外,图7(a) (4)和图7(b) (6) (7) (8) (9)均显示了出土于同一地点并收藏于同一 地点的文物。
[0060] 实例 3、
[0061] Scatterplot视图是展现历史资料的一个基础并有效的可视化设计。拿武王伐商 作为一个例子。LiGui甲骨文上有一些记载是和该著名事件有关的,记载了武王发动了一 场战争并战胜了商,这个著名的历史事件发生在甲子年二月。如果专家想要发现其他和这 个历史事件有关的文物或者记载,就可以使用我们这个Scatterplot工具。用户可以选择 LiGui,然后scatteredplot会展示出具有相似文本记录的其他青铜器和历史资料。对于 LiGui铭文上的单个字符,用户指定的字符和铭文在词库中的字符都会和其他资料匹配, 并展现出来(图8)。专家可以指定词语,比如武王,商,甲子,武,克,史,鼎,这些词语用黄色 和红色高亮出来。高频的词语比如武王,商,克等。这些词语都指向了武王伐纣这个历史事 件,同时这个时间也是历史史料中多次出现。
[0062] 实例 4、
[0063] 当用户使用本发明的storypath可视化工具去构建自己的path,探索文化遗产 和文物中的信息并获取知识,用户可以从一个特定的文物或者文物的一个特征开始这个 story。如同图9所示,第一个接节点是在前几个视图中选择的一些春秋早期的文物。像 前面实例中所说,两个钟具有相同的名字,但是其中一个收藏在TaipeiMuseum,另一个在 BeijingPalaceMuseum。用户可以选择一个有趣的属性或文物以延伸这个探索过程。 在这个实例中,系统根据用户选择的感兴趣的特征,推荐了文物ZheJianBell和MoGan Bo。对这两个推荐出来的文物,其中一个收藏在ShanghaiMuseum,另一个收藏在Taipei Museum。但是其中仅有一个是春秋晚期的。很显然,北京的专家对于这些收藏于上海和台 北的文物具有不同的观点。前两个Graph和文本分析工具都展示了ZheJianBell是春秋 晚期的,从本发明的方法可以推断出,ZheJianBell和四组钟有联系,并且它们都是春秋 晚期的。
[0064] 在继续探索这个storypath的过程中,用户可能想要从现有path中的某个节点 开始另外一条path,比如path中的ZhuTaiZaiBell。选择出一个节点可以成为新的path 的根节点。Jiangxi省的ZhangshuCity是文物NengYuanBo的出土地,系统推荐的文物, 包括ZheJianBell,都是出土于这个地点。鼠标双击文物节点,系统会展示出该文物详细 的描述信息,比如出土时间,铭文内容等。
[0065] 整个storypath突出强调了用户的兴趣点。比如,用户对春秋时期、 Jiangxi-ZhangshuCity遗址、以及该遗迹出土的文物感兴趣。同时,用户想要了解有关 古代乐器的信息,比如钟、縛等,这些都是古代乐器中的典型代表。如果用户想要通过这个 文物的关系深入延伸storypath,用户可以使用文本分析视图、以及系统的推荐继续这条 storypath〇
[0066] 表1、选出的一些文物的特征
[0067]

【权利要求】
1. 一种基于可视分析的文物集成信息的交互探索方法,其特征在于,该方法包括以下 步骤: 步骤一、建立文物基础数据库,包括文物的结构化文本和图像数据,结构化数据代表不 同的多元高维的特征; 步骤二、从上述文物基础数据库中读取某一类型文物的结构化数据,将其与数据库中 其他同类型的文物数据的特征进行比较,同时通过文本分析技术匹配出相关的文物的信 息,根据用户的兴趣点从文物的不同层面、不同特征衍生出不同的个性化的观点;利用平行 轴可视化导航设计将上述特征表征出来:包括分别表示年代、类型、出土地点以及收藏地点 /者四个轴,特征轴之间的连线是半透明的;通过边界捆绑的方法对具有同一类型特征的 文物连线进行聚类绑定; 步骤三、将用户在平行轴可视化导航设计中选择的特定元素信息在力导向图中展示和 发掘,其中:每个结节点代表着一个文物,节点之间的连线代表节点之间共有的特征; 步骤四、通过文本分析对文物相关的历史记载、铭文故事等信息进行深入挖掘,并在散 点图视图中表征出来;彩色散点图代表着铭文中或历史资料中先关字段出现的频率特征, 根据频率特征可分为:用户指定的字段、数据库中的常见字段,出现的频率可用散点的透明 度表示; 步骤五、计算每两个文物特征在故事线视图的几何距离来确定两个文物的相似度,根 据相似度的计算结果确定阈值,将高于阈值的代表两个文物之间做连线,形成讲故事的可 视化视图;这个故事线是用户自定义生成的。
【文档编号】G06F17/30GK104484326SQ201410520397
【公开日】2015年4月1日 申请日期:2014年9月30日 优先权日:2014年9月30日
【发明者】张加万, 赵昉宇, 刘大健, 杨思琪 申请人:天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1