多元异构丝绸遗产时空要素统一组织表达和检索方法

文档序号:30583713发布日期:2022-06-29 14:06阅读:105来源:国知局
多元异构丝绸遗产时空要素统一组织表达和检索方法

1.本发明涉及数据组织检索领域,特别涉及一种多元异构丝绸遗产时空要素统一组织表达和检索方法。


背景技术:

2.丝绸是中华文化源远流长的重要代表之一,以丝绸为原动力的丝绸之路大大促进了东西方文化、经济等各方面的交流和融合,为人类文明发展做出了重要贡献。以丝绸之路为骨架的全球范围内的丝绸遗产丰富多样,而从栽桑、养蚕、缫丝、织造、印染到缝制成丝绸成品决定了丝绸遗产的多元性,包括考古文物、文献记载、图像遗存、生产工具、丝绸染料等在内造就了丝绸遗产的多类别;丝绸遗产时间起源从新石器时代到现代分布广泛,空间在遍布全球各大洲。
3.一方面,当前丝绸遗产信息化建设正面临着数据量大、来源广泛、专题种类繁多等问题,由于结构化、半结构化和非结构化并存以及丝绸遗产数据的多元异构属性导致传统的文化遗产数据组织和表达无法适应数据的存储和统一组织。另一方面,丝绸遗产数据时空分布广泛性时空尺度不一致,包含丰富时空信息的同时具有丰富的图像图案、染料成分和专题属性信息,深入分析丝绸遗产时空数据间存在的关联关系,建立多维度的相似度计算方法,是实现丝绸遗产要素间关联关系探索的有效模式。
4.基于此,立足多维度构建多元丝绸遗产数据的多态存储和统一组织方法,实现丝绸遗产数据的多尺度检索,多元异构丝绸遗产数据成果集成管理、表达与检索。


技术实现要素:

5.本发明的目的是为了克服现有丝绸遗产数据组织表达和检索的问题,提供多元异构丝绸遗产时空要素统一组织表达和检索方法。
6.为了实现上述发明目的,本发明具体采用的技术方案如下:
7.一种多元异构丝绸遗产时空要素统一组织表达和检索方法,其包括如下步骤:
8.s1:根据丝绸遗产要素的时间、空间和专题属性特征,建立可扩展的元数据实体模型;
9.s2:将多元异构丝绸遗产要素进行数据入库,其中元数据按照所述元数据实体模型存储于关系型数据库中,非结构化数据关联存储于分布式对象存储系统中,从而实现多态存储和统一组织;
10.s3:针对入库后的多元异构丝绸遗产要素,基于时空和专题特征构建丝绸遗产要素的时间和空间表达模型,用于展示丝绸要素的时空分布及时空变化规律;
11.s4、遍历入库后的多元异构丝绸遗产要素,对任意两个丝绸遗产要素计算其时间关联度、空间关联度和主题关联度并通过加权求和得到综合关联度;
12.s5:当收到检索请求时,从检索请求中解析检索条件,并根据检索条件的类型进行丝绸遗产要素的时空检索或主题检索,返回检索结果;同时,当收到相似物推荐请求时,遍
历当前丝绸遗产要素与其他丝绸遗产要素的所述综合关联度并进行排序,按照综合关联度从高到低的顺序进行相似物推荐。
13.作为优选,所述s1具体实现方法为:
14.s11:针对多元异构的所有丝绸遗产要素,按照预设的专题分类,提取不同专题的丝绸遗产要素公共属性,构建基础的元数据实体模型,其中所述公共属性包含各丝绸遗产要素的标识信息、内容信息、分发信息和其他元数据信息;
15.s12:针对每一个专题特征,自定义扩展专题设计属性描述,形成专题元数据规范。
16.作为优选,所述元数据实体模型中,以共同属性唯一标识符序号作为数据引用标识,以丝绸遗产要素的发现地、收藏地或产地对应的地理位置信息为地理描述标识信息,以丝绸遗产要素名称、年代、关键词、说明和参考文献作为内容信息字段,以非结构化数据在线路径和原始路径作为分发元数据信息,以数据创建日期、更新日期、联系人和联系方式为其他元数据信息。
17.作为优选,所述s2具体实现方法为:
18.s21:将多元异构丝绸遗产要素中的元数据进行清洗、转换和规范化处理,然后按专题统一存储于空间数据库postgresql中;
19.s22:将多元异构丝绸遗产要素中的非结构化数据按照专题类型、年代和区域划分形成多层级数据资源目录,统一存储于分布式对象存储系统中;
20.s23:通过丝绸遗产要素的唯一标识码,实现空间数据库postgresql中存储的元数据与分布式对象存储系统中存储的非结构化数据之间的关联组织。
21.作为优选,所述s3具体实现方法为:
22.s31、将所有丝绸遗产要素的年代字段通过时间语义转换模型转换成公元纪年,作为统一的时间语义表达基准,构建包含丝绸遗产要素完整年代分布范围的时间轴,并将每个丝绸遗产要素对应的公元纪年区间端点均映射至时间轴上,用于展示要素之间的时间分布及关联;
23.s32、在全球范围内按照预设规则进行区域划分,并获取不同历史时期的历史地图和地名变迁关系;获取每一个丝绸遗产要素的地理描述标识信息,按照其中记录的发现地、收藏地或产地的地理位置信息在地图上建立点要素,并根据设定的展示需求提供点、点面结合或点线面结合的多尺度空间表达方式,用于展示丝绸要素点分布、区域分布及时空变化规律。
24.作为优选,所述多尺度空间表达方式中,对于能精确搜索到的地点,直接在地图上以点的形式表达;对于无法精确描述的产地,若产地属于国家级别以上,则设置按照产地的区域矢量范围生成中心点,以点面结合、点为中心进行扩散的形式进行表达,若产地属于国家及其级别以下,则仍以点的形式表达;对于丝绸遗产起源、交流、传播的时空规律,则以点线面结合的形式进行表达。
25.作为优选,所述s4具体实现方法为:
26.s41:针对入库后的多元异构丝绸遗产要素,对任意两个丝绸遗产要素计算其时间关联度
27.28.其中,αn为时间关联衰减因子,范围为0~1;[t1,t2]为第i个丝绸遗产要素的年代范围,[t3,t4]为第j个丝绸遗产要素的年代范围;
[0029]
s42:针对入库后的多元异构丝绸遗产要素,对任意两个丝绸遗产要素计算其空间关联度
[0030][0031][0032]
其中,β为空间关联衰减因子,范围为0~1;j(spatiala,spatialb)和b(spatiala,spatialb)分别表示两个丝绸遗产要素的空间范围spatiala和spatialb之间的交集和并集;
[0033]
s43、针对入库后的多元异构丝绸遗产要素,对任意两个丝绸遗产要素计算其丝绸图案相似度、丝绸染料相似度和专题属性相似度,其中所述丝绸图案相似度通过卷积神经网络对丝绸图案进行特征提取并计算特征图之间的相似度得到,所述丝绸染料相似度通过对丝绸染料组成成分和颜色信息进行词向量编码并计算词向量之间的相似度得到,所述专题属性相似度通过对丝绸专题属性字段信息进行词向量编码并计算词向量之间的相似度得到;并将丝绸图案相似度、丝绸染料相似度和专题属性相似度的加权和作为两个丝绸遗产要素之间的主题关联度p
sim

[0034]
p
sim
=ω1×
p
pattern
+ω2×
p
dye
+ω3×
p
attribute
[0035]
其中,ω1、ω2、ω3分别表示丝绸图案相似度、丝绸染料相似度和专题属性相似度的权重,ω1+ω2+ω3=1;
[0036]
s44、遍历入库后的多元异构丝绸遗产要素,构建记录有任意两个丝绸遗产要素之间的综合关联度的综合关联度矩阵,其中两个丝绸遗产要素p之间的综合关联度为对应的时间关联度pa、空间关联度ps和主题关联度p
sim
的加权和:
[0037]
p=ωa×
pa+ωs×
ps+ω
sim
×
p
sim
[0038]
其中,ωa、ωs、ω
sim
分别表示丝绸图案相似度、丝绸染料相似度和专题属性相似度的权重,ωa+ωs+ω
sim
=1。
[0039]
作为优选,所述s5具体实现方法为:
[0040]
s51、服务器实时接收客户端发送的检索请求,当收到检索请求时,从检索请求中解析检索条件和类型,并根据检索条件及类型返回对应的检索结果,其中:
[0041]
若检索条件的类型为时间检索,则从数据库中检索出年代与检索请求中的时间检索条件t相匹配的所有丝绸遗产要素,并将其作为检索结果返回客户端;
[0042]
若检索条件的类型为空间检索,则从数据库中检索出地理描述标识信息与检索请求中的空间检索条件s相匹配的所有丝绸遗产要素,并将其作为检索结果返回客户端;
[0043]
若检索条件的类型为时空检索,则先从时空检索请求中解析出时间检索条件t和空间检索条件s,再从数据库中检索出年代与时间检索条件t相匹配的所有丝绸遗产要素作为中间结果,最后从中间结果中检索出地理描述标识信息与空间检索条件s相匹配的所有丝绸遗产要素,作为检索结果返回客户端;
[0044]
s52、服务器实时接收客户端发送的相似物推荐请求,当收到相似物推荐请求时,从相似物推荐请求中解析出当前待推荐的目标丝绸遗产要素,并从所述综合关联度矩阵中
查找目标丝绸遗产要素与其他每个丝绸遗产要素之间的综合关联度,对查找到的所有综合关联度进行排序,按照综合关联度从高到低的顺序选择排序靠前的若干个丝绸遗产要素作为推荐结果返回至客户端。
[0045]
作为优选,计算所述丝绸图案相似度时,先对所有丝绸图案进行统一的归一化、去噪、分割预处理,形成分辨率一致的图像数据集c,然后利用卷积神经网络对图像数据集c进行图像特征提取,并利用主成分分析进行特征压缩,得到每张丝绸图案的特征图,最后以闵氏距离度量特征图之间的丝绸图案相似度。
[0046]
作为优选,计算所述丝绸染料相似度和所述专题属性相似度时,均利用word2vec模型进行词向量编码。
[0047]
本发明与现有技术相比具有的有益效果包括:
[0048]
本发明拓展了传统文化遗产数据的组织的存储方式、关联表达,有效实现了多元异构丝绸遗产数据的统一组织存储和多维度的时空、属性关联。
附图说明
[0049]
图1是本发明多元异构丝绸遗产时空要素统一组织表达和检索方法的步骤流程图;
[0050]
图2是本发明的非结构化数据统一资源目录组织示意图;
[0051]
图3是本发明的时间语义转换模型示意图;
[0052]
图4是本发明的时间关联示意图;
[0053]
图5是本发明的空间关联示意图;
[0054]
图6是本发明的主题关联计算流程示意图;
具体实施方式
[0055]
下面结合附图和具体实施例对本发明作进一步详细说明。
[0056]
如图1所示,在本发明一个较佳实施例中,提供了一种多元异构丝绸遗产时空要素统一组织表达和检索方法,其包括如下步骤:
[0057]
s1:根据丝绸遗产要素的时间、空间和专题属性特征,建立可扩展的元数据实体模型。
[0058]
在本发明中,所述s1具体实现方法为:
[0059]
s11:针对多元异构的所有丝绸遗产要素,按照预设的专题分类,提取不同专题的丝绸遗产要素公共属性,构建基础的元数据实体模型,其中所述公共属性包含各丝绸遗产要素的标识信息、内容信息、分发信息和其他元数据信息。
[0060]
作为本发明的一种示例,丝绸遗产数据专题可以划分为丝绸文物、丝绸图像、丝绸史料文献、丝绸工艺、遗址、染料和纤维七个类别。
[0061]
作为本发明的一种示例,在元数据实体模型中,以共同属性唯一标识符序号作为数据引用标识,以丝绸遗产要素的地理位置信息(如出土/发现地、收藏地和产地)为地理描述标识信息,以丝绸遗产要素名称、年代、关键词、说明和参考文献作为内容信息字段,以非结构化数据在线路径和原始路径作为分发元数据信息,以数据创建日期、更新日期、联系人和联系方式为其他元数据信息。
[0062]
s12:针对每一个专题特征,自定义扩展专题设计属性描述,形成专题元数据规范。
[0063]
作为本发明的一种示例,由于专题设计属性的特殊性,根据专题特征设计可扩展的元数据信息。需要注意的是,对于每一个专题,其中自定义扩展的专题设计属性可以根据实际进行调整。以丝绸文物为例,文物相关材质、技术、图案主题和尺寸作为专题设计属性,形成七大专题各自的元数据规范。
[0064]
s2:将多元异构丝绸遗产要素进行数据入库,其中元数据按照所述元数据实体模型存储于关系型数据库中,非结构化数据关联存储于分布式对象存储系统中,从而实现多态存储和统一组织。
[0065]
在本发明中,所述s2具体实现方法为:
[0066]
s21:将多元异构丝绸遗产要素中的元数据进行清洗、转换和规范化处理,然后按专题统一存储于空间数据库postgresql中;
[0067]
s22:将多元异构丝绸遗产要素中的非结构化数据按照专题类型、年代和区域划分形成多层级数据资源目录,统一存储于分布式对象存储系统中;
[0068]
s23:通过丝绸遗产要素的唯一标识码,实现空间数据库postgresql中存储的元数据与分布式对象存储系统中存储的非结构化数据之间的关联组织。
[0069]
作为本发明的一种示例,丝绸遗产各专题通过数据质量规范化检查洗后以序号为唯一标识符分别录入postgresql数据库中,专题数据分别存放于对应元数据表中;非结构化数据以图片和视频为主,非结构化数据以唯一标识符_序号进行命名,按照专题类别、年代和区域等多级层次目录方式统一存储与分布式对象存储系统中;由此,根据唯一标识符实现元数据和非结构化数据的关联组织和访问。
[0070]
s3:针对入库后的多元异构丝绸遗产要素,基于时空和专题特征构建丝绸遗产要素的时间和空间表达模型,用于展示丝绸要素的时空分布及时空变化规律。
[0071]
在本发明中,所述s3具体实现方法为:
[0072]
s31、将所有丝绸遗产要素的年代字段通过时间语义转换模型转换成公元纪年,作为统一的时间语义表达基准,构建包含丝绸遗产要素完整年代分布范围的时间轴,并将每个丝绸遗产要素对应的公元纪年区间端点均映射至时间轴上,用于展示要素之间的时间分布及关联;
[0073]
s32、在全球范围内按照预设规则进行区域划分,并获取不同历史时期的历史地图和地名变迁关系;获取每一个丝绸遗产要素的地理描述标识信息,按照其中记录的发现地、收藏地或产地的地理位置信息在地图上建立点要素,并根据设定的展示需求提供点、点面结合或点线面结合的多尺度空间表达方式,用于展示丝绸要素点分布、区域分布及时空变化规律。
[0074]
需注意的是,时间语义转换模型转换的标准时间形式可以根据实际进行调整,其中时间轴的长度需范围也可以根据所需展示的时段进行调整。作为本发明的一种示例,对于时间表达而言,年代的划分以中国历史朝代顺序为依据,根据丝绸遗产数据时空分布特点选取史前5000年到21世纪作为时间跨度。多元异构的年代描述,如国内外年号纪年、干支纪年和公历纪年通过时间语义转换统一为以公元纪年作为统一的时间语义表达基准。
[0075]
[0076][0077][0078]
进一步,所有丝绸遗产要素的年代字段不能为空,所有要素的年代通过语义转换对应到时间轴上,包含起始时间t1和终止时间t2,判断不同要素之间时间区间[t1,t2]的关联关系。如要素a和b,分别对应时间段为[t1,t2]、[t3,t4],则两个要素的时间关联存在在前(before)、再后(after)、包含(contains)、临近(meet)、相交(overlap)、相等(equal)几种状态,其具体判断逻辑如下:
[0079]
[t1,t2]before[t3,t4],t2《t3
[0080]
[t1,t2]after[t3,t4],t4《t1
[0081]
[t1,t2]meet[t3,t4],t2=t3 or t1=t4
[0082]
[t1,t2]equal[t3,t4],t1=t2 and t3=t4
[0083]
[t1,t2]overlap[t3,t4],t1《t3《t2《t4 or t3《t1《t4《t2
[0084]
[t1,t2]contains[t3,t4],t1《t3《t4《t2 or t3《t1《t2《t4
[0085]
作为本发明的一种示例,对于空间表达而言,在具体采用的多尺度空间表达方式中,对于能精确搜索到的地点,可以直接在地图上以点的形式表达;对于无法精确描述的产地,若产地属于国家级别以上,则可以设置按照产地的区域矢量范围生成中心点,以点面结合、点为中心进行扩散的形式进行表达,若产地属于国家及其级别以下,则可仍以点的形式表达;对于丝绸遗产起源、交流、传播的时空规律,则可以点线面结合的形式进行表达。
[0086]
举例而言,第一层次区域可以划分为中亚、东亚、南亚、北亚、西亚、欧洲、北美、南美和非洲,不同地区下级根据国家划分区域。搜集公开发布的全球范围内各时期疆域地图和古地名,形成以朝代划分的历史地图和地名变迁表,便于展现版图变化及地名搜索。进一步,所有丝绸遗产要素的出土/发现地、收藏地和产地中至少有一个字段不能为空。对精确描述的位置信息如中国丝绸博物馆、大都会艺术博物馆等获取相关经纬度构建点要素point(lon,lat);洲际层面的大范围区域如产地描述为欧洲、亚洲则在获取该区域大致矢量范围后,生成中心点,以点面结合、点为中心按序进行扩散迁移的形式进行表达;丝绸遗产起源、交流、传播的时空规律则以点线面结合的形式进行表达,如对于描述丝绸起源生成的规律,丝绸在距今5000多年前在黄河流域起源,随后在长江流域发现,距今2000年左右遍布全国走出国门,至今遍布全球,通过零星点的起源逐渐往外传播的轨迹,通过点线面结合的形式展现。
[0087]
另外,要素之间的空间关联可以通过拓扑关系进行判断。基于出土/发现、收藏或产地等地点的空间化将所有丝绸遗产要素落地与地图,通过点、线、面的拓扑关系判断不同要素之间空间关联关系,则两个要素的空间关联主要存在包含、临近、相交、相等的状态。
[0088]
s4、遍历入库后的多元异构丝绸遗产要素,对任意两个丝绸遗产要素计算其时间关联度、空间关联度和主题关联度并通过加权求和得到综合关联度。
[0089]
在本发明中,所述s4具体实现方法为:
[0090]
s41:针对入库后的多元异构丝绸遗产要素,对任意两个丝绸遗产要素计算其时间关联度
[0091][0092]
其中,αn为时间关联衰减因子,范围为0~1;[t1,t2]为第i个丝绸遗产要素的年代范围,[t3,t4]为第j个丝绸遗产要素的年代范围;
[0093]
s42:针对入库后的多元异构丝绸遗产要素,对任意两个丝绸遗产要素计算其空间关联度
[0094][0095]
其中,β为空间关联衰减因子,范围为0~1;j(spatiala,spatialb)和b(spatiala,spatialb)分别表示两个丝绸遗产要素的空间范围spatiala和spatialb之间的交集和并集;
[0096]
基于时间关联度和空间关联度,可以加权计算时空关联度:
[0097][0098]
式中:γ
ij
为数据i和j之间的时空关联度,c
t
,ck分别是时间和空间关联度的加权权重参数,范围为0~1。
[0099]
s43、针对入库后的多元异构丝绸遗产要素,对任意两个丝绸遗产要素计算其丝绸图案相似度、丝绸染料相似度和专题属性相似度,其中所述丝绸图案相似度通过卷积神经网络对丝绸图案进行特征提取并计算特征图之间的相似度得到,所述丝绸染料相似度通过对丝绸染料组成成分和颜色信息进行词向量编码并计算词向量之间的相似度得到,所述专题属性相似度通过对丝绸专题属性字段信息进行词向量编码并计算词向量之间的相似度得到;并将丝绸图案相似度、丝绸染料相似度和专题属性相似度的加权和作为两个丝绸遗产要素之间的主题关联度p
sim

[0100]
p
sim
=ω1×
p
pattern
+ω2×
p
dye
+ω3×
p
attribute
[0101]
其中,ω1、ω2、ω3分别表示丝绸图案相似度、丝绸染料相似度和专题属性相似度的权重,ω1+ω2+ω3=1;这三个权重的具体取值可根据实际的侧重点进行优化,各自取值均在0~1范围内。
[0102]
作为本发明的一种较佳实现方式,计算所述丝绸图案相似度时,先对所有丝绸图案进行统一的归一化、去噪、分割预处理,形成分辨率一致的图像数据集c,然后利用卷积神经网络对图像数据集c进行图像特征提取,并利用主成分分析进行特征压缩,得到每张丝绸图案的特征图,最后以闵氏距离度量特征图之间的丝绸图案相似度。
[0103]
作为本发明的一个示例,卷积神经网络的卷积过程如下:
[0104][0105]
其中为l层j通道卷积特征图,mj为l-1层特征图集合,为权值矩阵,为的偏置。细化卷积提取公式为:
[0106][0107]
其中d为卷积深度,f为卷积宽度与高度,w
d,m,n
为d层m行n列的权重。经过卷积提取图像特征计算获得新的图像数据集c,遍历图像数据集c,以ci作为待分析图像为例,利用闵
氏距离度量ci与数据集中其余图像特征的相似性,得到的相似性排序矩阵p
pattern
;n维空间x,y两点的闵式距离为:
[0108][0109]
其中p为常数。
[0110]
作为本发明的一种较佳实现方式,计算所述丝绸染料相似度和所述专题属性相似度时,均利用word2vec模型进行词向量编码。
[0111]
作为本发明的一个示例,丝绸染料相似度主要对丝绸遗产所用丝绸的染料组成成分和染料颜色构成的字段信息进行相似判断,专题属性相似度判断可对名称、材质、使用的织造技术、说明介绍和图案主题等丝绸专题属性字段信息进行相似判断。丝绸染料相似度和专题属性相似度计算采用word2vec模型计算获得。训练完成之后,word2vec模型可用来映射每个词到一个向量,表示词对词之间的关系,该向量为神经网络之隐藏层。简而言之就是把一个词语转换成对应向量的表达形式,来让机器读取数据。编码后的词向量可以通过余弦距离等方式来度量相似度,进而作为染料相似度或专题属性相似。
[0112]
s44、遍历入库后的多元异构丝绸遗产要素,构建记录有任意两个丝绸遗产要素之间的综合关联度的综合关联度矩阵,其中两个丝绸遗产要素p之间的综合关联度为对应的时间关联度pa、空间关联度ps和主题关联度p
sim
的加权和:
[0113]
p=ωa×
pa+ωs×
ps+ω
sim
×
p
sim
[0114]
其中,ωa、ωs、ω
sim
分别表示丝绸图案相似度、丝绸染料相似度和专题属性相似度的权重,ωa+ωs+ω
sim
=1。
[0115]
这三个权重ωa、ωs、ω
sim
的具体取值可根据实际的侧重点进行优化,各自取值均在0~1范围内。需特别说明的是,ωa、ωs、ω
sim
也可以部分设置成0值,例如ωa=0,ωs=0,ω
sim
=1,由此该综合关联度实际为主题关联度。此时,基于该综合关联度进行后续的相似物推荐时,实际是基于主题关联度进行推荐。
[0116]
s5:当收到检索请求时,从检索请求中解析检索条件,并根据检索条件的类型进行丝绸遗产要素的时空检索或主题检索,返回检索结果;同时,当收到相似物推荐请求时,遍历当前丝绸遗产要素与其他丝绸遗产要素的所述综合关联度并进行排序,按照综合关联度从高到低的顺序进行相似物推荐。
[0117]
在本发明中,所述s5具体实现方法为:
[0118]
s51、服务器实时接收客户端发送的检索请求,当收到检索请求时,从检索请求中解析检索条件和类型,并根据检索条件及类型返回对应的检索结果,其中:
[0119]
若检索条件的类型为时间检索,则从数据库中检索出年代与检索请求中的时间检索条件t相匹配的所有丝绸遗产要素,并将其作为检索结果返回客户端;
[0120]
若检索条件的类型为空间检索,则从数据库中检索出地理描述标识信息与检索请求中的空间检索条件s相匹配的所有丝绸遗产要素,并将其作为检索结果返回客户端;
[0121]
若检索条件的类型为时空检索,则先从时空检索请求中解析出时间检索条件t和空间检索条件s,再从数据库中检索出年代与时间检索条件t相匹配的所有丝绸遗产要素作为中间结果,最后从中间结果中检索出地理描述标识信息与空间检索条件s相匹配的所有
丝绸遗产要素,作为检索结果返回客户端;
[0122]
s52、服务器实时接收客户端发送的相似物推荐请求,当收到相似物推荐请求时,从相似物推荐请求中解析出当前待推荐的目标丝绸遗产要素,并从所述综合关联度矩阵中查找目标丝绸遗产要素与其他每个丝绸遗产要素之间的综合关联度,对查找到的所有综合关联度进行排序,按照综合关联度从高到低的顺序选择排序靠前的若干个丝绸遗产要素作为推荐结果返回至客户端。
[0123]
为了进一步展示本发明的优点,下面将上述s1~s5所示的多元异构丝绸遗产时空要素统一组织表达和检索方法,应用于一个具体实例中,以展示其所能实现的技术效果。
[0124]
实施例
[0125]
本实施例中,多元异构丝绸遗产时空要素统一组织表达和检索方法的基本流程步骤如前述s1~s5所示,不再完全重复赘述,下面主要展示其在细节层面的具体实现。
[0126]
第一步:按照前述s1,分析丝绸遗产要素特征,建立可扩展的元数据模型
[0127]
丝绸遗产数据由于生产多环节、遗产多类别具有多元异构、时间跨度大、空间分布广特点,可以划分为丝绸文物、丝绸图像、丝绸史料、织造工艺、桑蚕遗址、天然染料和蚕丝纤维七大类。提取公共属性构建基础元数据实体模型,包括标识信息、内容信息、分发信息和其他元数据信息。其中,提取共同属性唯一标识符序号作为数据引用标识,出土/发现地、收藏地和产地为地理描述标识信息,丝绸遗产要素名称、年代、关键词、说明、染料成分和参考文献作为主要内容信息,非结构化数据在线路径和原始路径作为分发元数据信息,数据创建日期、更新日期、联系人和联系方式为共同其他元数据信息。
[0128]
各个专题属性鲜明,在基础元数据实体基础上,根据专题设计属性特征设计可拓展的专题元数据规范。以丝绸文物为例,典型代表包括传世品和考古发掘品,不同文物均有织造技术、图案主题和功能材质属性。
[0129]
第二步:按照前述s2,在统一的时空参考框架下,丝绸遗产各专题通过数据质量规范化检查洗后以序号为唯一标识符分别录入postgresql数据库中,专题数据分别存放于对应元数据表中;非结构化数据以图片和视频为主,如图2所示,非结构化数据以唯一标识符_序号进行命名,按照专题类别、年代和区域等多级层次目录方式统一存储与分布式对象存储系统oss中;根据唯一标识符实现元数据和非结构化数据的关联组织和访问。
[0130]
第三步,按照前述s3,选取史前5000年到21世纪作为时间跨度,以中国历史朝代顺序为依据构建统一时间轴。如图3所示,针对丝绸遗产要素年代描述的多元异构特性,将干支纪年表示法通过自然序列法转换为公历纪年,帝王年号纪年则通过查表法转换为公历纪年,其他纪年方式通过天文历法等转换为公历纪年,实现以公元纪年作为统一的时间语义表达基准。如魏黄初三年

公元222年。
[0131]
如图4所示,对于丝绸要素a和b,所处年代区间分别为[t1,t2]、[t3,t4],那么在时间状态上存在[t1,t2]before[t3,t4],[t1,t2]meet[t3,t4],[t1,t2]overlap[t3,t4],[t1,t2]after[t3,t4],[t1,t2]equal[t3,t4]和[t1,t2]contains/contained by[t3,t4]几种时间关系。
[0132]
明确全球区域划分,其中中亚、东亚、南亚、北亚、西亚、欧洲、北美、南美和非洲,不同地区下级根据国家划分区域。搜集公开发布的全球范围内各时期疆域地图和古地名,形成以朝代划分的历史地图和地名变迁表,便于展现版图变化及地名搜索。
[0133]
同时,对于丝绸要素的空间表达,主要分为三种形式:1)能精确搜索到的地点如中国丝绸博物馆、浙江省博物馆、美国纽约大都会艺术博物馆等收藏地点通过空间化在地图上以点的形式表达;2)对于无法精确描述产地,设置国家级别以上如中亚、东亚、欧洲、北美等在获取该区域矢量范围后,生成中心点,以点面结合、点为中心进行扩散的形式进行表达,国家及其级别以下如中国、浙江等则仍以点的形式表达;3);丝绸遗产起源、交流、传播的时空规律则以点线面结合的形式进行表达,如对于描述丝绸起源生成的规律,丝绸在距今5000多年前在黄河流域起源,随后在长江流域发现,距今2000年左右遍布全国走出国门,至今遍布全球,通过零星点的起源逐渐往外传播的轨迹,通过点线面结合的形式展现。
[0134]
如图5所示,在明确丝绸遗产要素空间表达的基础上,通过点、线、面的拓扑关系判断不同要素之间空间关联关系,要素a和b的空间范围分别为spatiala、spatialb,那么空间关系包括相等、分离、包含、相交、相接几种状态。
[0135]
第四步,按照前述s4,遍历入库后的多元异构丝绸遗产要素,对任意两个丝绸遗产要素计算其时间关联度、空间关联度和主题关联度并通过加权求和得到综合关联度。
[0136]
时间关联度、空间关联度的计算方式如前所述,不再赘述。
[0137]
对于主题关联度,如图6所示,从丝绸图案、丝绸遗产染料成分和专题属性三方面建立主题关联度:
[0138]
1)丝绸图案相似度:丝绸遗产专题记录构成要素中获取丝绸遗产图像数据集b,所有图像进行统一的归一化、去噪、分割等预处理,形成分辨率一致的数据集c;利用卷积神经网络对数据集c进行图像特征提取,并利用主成分分析进行特征压缩;遍历数据集c,以ci作为待分析图像为例,利用闵氏距离度量ci与数据集中其余图像特征的相似性,得到的相似性排序矩阵p
pattern
;对文物图片卷积过程如下:
[0139][0140]
其中为l层j通道文物图片卷积特征图,mj为l-1层文物图片特征图集合,为文物图片权值矩阵,为的偏置。
[0141]
对文物图片细化卷积提取:
[0142][0143]
其中d为卷积深度,f为卷积宽度与高度,w
d,m,n
为文物图片卷积d层m行n列的权重。经过卷积提取文物图片卷积图像特征计算获得新的数据集c,遍历数据集c,以ci作为待分析图像为例,利用闵氏距离度量ci与数据集中其余图像特征的相似性,得到的相似性排序矩阵p
pattern
;n维空间x,y两点的闵式距离为:
[0144][0145]
其中p为常数。
[0146]
2)丝绸染料相似度:分析丝绸遗产使用的染料组成成分和颜色,构建丝绸染料成分相似度指标p
dye

[0147]
3)专题属性相似度:基于丝绸遗产时空要素的元数据信息,包含丝绸遗产名称、材质、使用的制造技术、说明介绍和图案主题等字段信息计算专题属性的相似度指标p
attribute
。上述两种相似度均采用word2vec模型,为用来产生词向量的浅而双层的神经网络的相关模型。用来训练以重新建构语言学之词文本。简单来说就是把一个词语转换成对应向量的表达形式,来让机器读取数据。以专题属性相似度为例,字段信息为:
[0148][0149]
例如字段名称(“丝绸遗产名称”、“出土地点”、“出土年代”、“材质”、“使用的技术”、“图案主题”、“收藏地”),其中一条记录对应的字段信息记录为(“团狮纹锦”、“敦煌莫高窟”、“五代”、“丝”、“辽式斜纹纬锦”、“狮”、“维多利亚阿伯特博物馆”)。将编码后的词向量经过余弦距离计算,得到专题属性的相似度指标p
attribute

[0150]
最后,根据丝绸图案相似度、丝绸染料相似度和专题属性相似度三方面度量丝绸遗产要素之间的主题相似度值,要素a与b间的相似度计算公式如下所示:
[0151]
p
sim
(a,b)=ω1×
p
pattern
(a,b)+ω2×
p
dye
(a,b)+ω3×
p
attribute
(a,b)
[0152]
其中,ω1+ω2+ω3=1,分别表示图案相似度、染料成分相似度和属性相似度的权重,根据具体要素集合测试确定。
[0153]
两个丝绸遗产要素p之间的综合关联度为对应的时间关联度pa、空间关联度ps和主题关联度p
sim
的加权和:
[0154]
p=ωa×
pa+ωs×
ps+ω
sim
×
p
sim
[0155]
其中,ωa、ωs、ω
sim
分别表示丝绸图案相似度、丝绸染料相似度和专题属性相似度的权重,ωa+ωs+ω
sim
=1。
[0156]
第五步,按照前述s5步骤,服务器对客户端发送的检索请求和相似物推荐请求进行解析、匹配和结果返回。
[0157]
在本实例中,基于上述方法构建了丝绸互动地图平台。在该平台中进行时间检索时检索匹配过程为:对于各丝绸遗产专题记录构成要素集合,判断每个要素ai的出土/发现或记录年代ai是否与时间检索条件t处于时间关联关系中相匹配的状态,相交、相等、包含均可视为匹配,若匹配则向客户端返回要素ai作为检索结果a
out

[0158][0159]
例如,选中时间轴上的某一时间段如“宋”,筛选出与宋朝时间区间相匹配的所有记录。
[0160]
在该平台中进行空间检索时检索匹配过程为:判断要素ai的空间位置si是否与空间检索条件s处于空间关联关系中相匹配的状态,相交、相等、包含均可视为匹配,若满足匹配,则向客户端返回要素ai作为检索结果a
out

[0161][0162]
例如,选中地图上的某一地点如“甘肃敦煌莫高窟”,筛选出出土/发现地、收藏地和产地中与敦煌莫高窟相匹配的所有记录。
[0163]
在该平台中进行时空检索时检索匹配过程为:对于待检索条件为时空检索条件st,需从中解析时间检索条件t和空间检索条件s,按照先时间后空间的匹配顺序,判断要素
ai的出土/发现或记录年代和空间位置是否同时满足与条件st相交、相等或包含的匹配关系,若满足匹配,则返回要素ai作为检索结果a
out

[0164][0165]
例如选中某一时间段的基础上再对地点进行检索,如搜索宋代在亚洲出土或生产的所有丝绸要素。
[0166]
在该平台中进行相似物推荐时的过程为:当收到相似物推荐请求时,从相似物推荐请求中解析出当前待推荐的目标丝绸遗产要素,并从所述综合关联度矩阵中查找目标丝绸遗产要素与其他每个丝绸遗产要素之间的综合关联度,对查找到的所有综合关联度进行排序,按照综合关联度从高到低的顺序选择排序靠前的若干个丝绸遗产要素作为推荐结果返回至客户端。
[0167]
另外,此处还可以提供主题检索,对于丝绸遗产要素集合a,通过全文检索判断各要素与待检索主题条件相似度,从高到低进行排序返回集合a1,获得的主题相似度对集合a1中每个要素进行相似物推荐。如在搜索关键主题“经皮”,返回与经皮相匹配的所有记录,按照相似度从高到低排序,查看某一记录的详细信息如“缠枝牡丹八吉祥两色缎经皮”,根据主题相似度度量规则返回匹配度最高的5条相似物。
[0168]
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1