一种基于机器学习的空间数据匹配方法

文档序号：6525585阅读：405来源：国知局

一种基于机器学习的空间数据匹配方法
【专利摘要】本发明涉及一种基于机器学习的空间数据匹配方法，包括四个步骤：1）自动生成匹配训练样本，2）通过机器学习建立分类器模型及其参数，3）应用分类器模型对输入空间数据进行目标匹配，4）顾及逻辑和领域约束对匹配结果的过滤和改善。其中机器学习采用以空间目标的位置、大小、形状和方位等多种指标作为特征提取。具有如下优点：可避免量纲标准化和多指标加权中的主观任意性，匹配精度较加权平均方法更高；匹配模型基于样本数据学习建立，数据的自适应性较高；建立模型的典型样本数量少，可大规模应用；利用空间数据的内在几何信息，无需额外属性信息，使用准入性低。
【专利说明】—种基于机器学习的空间数据匹配方法
【技术领域】
[0001]本发明属于地理信息处理【技术领域】，特别是涉及一种基于机器学习的空间数据匹配方法。
【背景技术】
[0002]空间数据集成融合是目前地理信息应用的一项触发技术，在整个地理信息处理、加工、分析、挖掘中处于核心地位，其中的关键技术问题在于多源空间数据的目标匹配。目标匹配的常见应用包括:空间数据增量式更新、多重表达数据库、多尺度空间分析、跨数据库一致性维护、VGI数据质量评价、跨数据库属性传输与数据增强等。然而，由于空间数据采集的数学基础、精度、建库目的以及对数据细节的概括化简程度等不同，多源空间数据在目标级别上进行匹配十分困难，具有较大不确定性。
[0003]现有的数据匹配方法有两个层次，第一个层次是从空间参考系上对空间数据进行统一，比如通过重新投影或者进行基准面的转换，如使用Helmert七参数，或Molodensky-Badekas十参数变换等,来对空间数据的数学基础进行统一，可认为是对空间数据的整体配准、定位。然而，该层次的配准较为粗糙，并不能完全解决上述目标级别的匹配问题:在空间数据的数学基础统一后仍然存在大量目标级别的空间位移，不能简单通过位置关系进行匹配，对空间数据的集成融合带来极大困难。
[0004]第二个层次的匹配是直接操作空间目标，通过除位置信息外的其他信息对不同数据源的目标间的相似性进行评估，从而得到目标匹配结果。这类目标匹配方法所使用的相似性指标主要分为空间几何(包括位置、角度、形状、拓扑等)、语义和上下文关系指标。
[0005]基于语义的匹配方法依赖空间数据库的属性信息，而当前大多数测绘数据，无论是官方、商业或众包地理数据(如OpenStreetMap等),其属性信息采集或内容不完善,或分布不均一，或质量参差不齐，这使得语义匹配方法在实际应用中有较大局限性。
[0006]上述方法中在涉及多个相似性指标时必须在系统的某个时刻将多指标进行融合，并最终决定在何种指标相似性主导下得到匹配结论。然而，上述方法在多目标决策中一般采用加权平均，专家定权这种较为传统的手段进行处理，使得多指标决策问题往往没有得到较好解决。问题的核心在于，不同指标的量纲标准化(normalization)以及权重确定存在极大的主观任意性，导致匹配结果并非最优。此外，基于单一相似性指标的方法不能解决复杂情况下的目标匹配问题。因此，有必要研发更加合理的方法来解决匹配中的多指标决策问题。

【发明内容】

[0007]本发明主要针对上述不足之处，提供一种基于机器学习的空间数据匹配方法，在多源空间数据目标匹配中克服单一指标匹配精度低，多指标决策中的量纲标准化和权重确定中的主观任意性问题。
[0008]本发明通过以下技术方案达到上述目标:[0009]一种基于机器学习的空间数据匹配方法，其特征在于，定义两个待匹配的两个空间数据集，分别记作:目标集合D= {dj ,0≤i≤η,和集合G= {gj} ,0≤j≤m ;这两个集合中形成的所有关系属于这两个集合的笛卡尔乘积:
[0010]riJ=<di, gj> e DXG,
[0011]具体包括以下步骤:
[0012]步骤1，根据输入数据生成训练样本数据:即从两个待匹配的两个空间数据集分别进行随机采样数据，构成两个随机采样子数据集；根据两个两个随机采样子数据集建立正确匹配目标对数据库和错误匹配目标对数据库:并根据建立的正确匹配目标对数据库和错误匹配目标对数据库建立训练样本模式TP=Kf1, C1),..., (fn, Cn)}，其中fi (I≤i≤η)为样本集合中第i个样本的特征向量，Ci为该样本的分类类别，取值为匹配或不匹配；Ci取值为匹配的类别定义为正样本TP+ ；Ci取值为不匹配的类别定义为负样本TP-；
[0013]步骤2，基于机器学习建立匹配模型:即针对步骤I中简历的训练样本模式TP进行机器学习，来建立一个分类器函数g:DXG —C ;其中，C={匹配，不匹配}，亦即样本目标对的分类类别集合；所述分类器函数g的匹配结果为两种，即匹配和不匹配；
[0014]步骤3，将两个待匹配的两个空间数据集中的目标两两进行任意组合，形成目标对〈屯，gj>的集合，然后计算每对目标的特征向量，并输入已建立的分类器模型，通过分类器算法计算得到初步匹配结果；
[0015]步骤4，根据逻辑约束条件，对步骤3中的初步匹配结果进行过滤与改善后结束；
[0016]所述逻辑约束条件指匹配结果中出现明显不合逻辑的多对多匹配结果，其规则为:合理的多对多匹配形式为m:n，其中m为多对多匹配中包含的(Ii的数目，η为g]的数目，条件m古η必须满足；若出现了多对多的匹配关系，而m和η是相等的，即判定为违反了逻辑约束条件，应把该类多对多关系分解为多个一对一匹配关系；
[0017]在上述的一种基于机器学习的空间数据匹配方法，所述步骤I中，针对待匹配的两个空间数据集中，考虑所有潜在匹配关系集合，应属于DXG的子集，故任意目标对rij被归结为C={匹配，不匹配}两种类别；同时，对可提取其η维特征向量(即目标对的多种相似性指标)，记作模式Cri^fkI fkl,...，fkn)。根据模式在η维特征空间中的分布,可将!Tij标记为一个特定类别ck e C，此为目标匹配问题的模式分类定义，该定义下目标匹配的关键在于找到合适的映射函数g:DXG — C，以实现从输入模式(rij;fk)到类别Ck的映射，从而获得匹配结果。
[0018]在上述的一种基于机器学习的空间数据匹配方法，所述的步骤I包括以下子步骤:
[0019]步骤1.1，建立正确匹配目标对数据库:在待匹配的两个数据集中通过样本匹配模块进行初步匹配，并从中选取无二义性的匹配对来建立正样本库:TP+={(fk，ck) I Ck=匹配}，其中无二义性用匹配候选集中位置和面积相似度最高或者唯一的匹配对来表示；具体是通过计算(Ii和gj之间的位置LocSim和大小SizeSim相似性来建立正样本库；具体的，每个匹配目标Cli有多个候选匹配目标gp对于每对目标〈屯，g>，计算LocSim (屯，gj)*|l-SizeSim(di, g」)|，选择计算结果最小的〈屯，g」>,认为其相似度最高,并记录在正样本库TP+中；
[0020] 步骤1.2，建立错误匹配目标对数据库:除了步骤1.1中的正样本TP+，还必须建立负样本TP-= {(fk, Ck) I Ck=不匹配}，负样本集由落入当前匹配目标gj —定范围内的非正样本构成:Kdi, gj> I gj e TP+, di^TP+, dist (di，gj)≤dT}，其中dT为距离阈值，大小设置为两个匹配数据集中目标间最小距离的均值加两倍标准差；
[0021]步骤1.3,导出训练样本模式TP:定义fk为目标对的相似性指标向量,包括目标间的距离、大小、形状、方位的相似性；分别对正负样本中每一对目标关系ru，计算Cli和gj的多种相似性，得出关于的特征向量fk，最终合并导出为训练样本集TP。
[0022]在上述的一种基于机器学习的空间数据匹配方法，所述步骤1.3中，特征向量包括四个相似性指标，其具体步骤如下:
[0023]相似性指标一:位置相似性，
[0024]所述位置相似性定义为构成的两个目标中心点的欧式距离，计算公式如下:
[0025]
【权利要求】
1.一种基于机器学习的空间数据匹配方法，其特征在于，定义两个待匹配的两个空间数据集，分别记作:目标集合D= {dj ,O≤i≤η,和集合G= {gj} ,O≤j≤m ;这两个集合中形成的所有关系属于这两个集合的笛卡尔乘积:
Tij=<di, gj> ∈DXG, 具体包括以下步骤: 步骤1，根据输入数据生成训练样本数据:即从两个待匹配的两个空间数据集分别进行随机采样数据，构成两个随机采样子数据集；根据两个两个随机采样子数据集建立正确匹配目标对数据库和错误匹配目标对数据库:并根据建立的正确匹配目标对数据库和错误匹配目标对数据库建立训练样本模式TP=Kf1, Cl)，...，(fn，cn)}，其中fi(1≤i≤η)为样本集合中第i个样本的特征向量，Ci为该样本的分类类别，取值为匹配或不匹配；Ci取值为匹配的类别定义为正样本TP+ ；Ci取值为不匹配的类别定义为负样本TP-；步骤2，基于机器学习建立匹配模型:即针对步骤I中简历的训练样本模式TP进行机器学习，来建立一个分类器函数g:DXG —C;其中，C= {匹配，不匹配}，亦即样本目标对的分类类别集合；所述分类器函数g的匹配结果为两种，即匹配和不匹配；步骤3，将两个待匹配的两个空间数据集中的目标两两进行任意组合，形成目标对〈屯，gj>的集合，然后计算每对目标的特征向量，并输入已建立的分类器模型，通过分类器算法计算得到初步匹配结果；步骤4，根据逻辑约束条件，对步骤3中的初步匹配结果进行过滤与改善后结束；所述逻辑约束条件指匹配结果中出现明显不合逻辑的多对多匹配结果，其规则为:合理的多对多匹配形式为m:n，其中m为多对多匹配中包含的(Ii的数目，η为g]的数目，条件m^n必须满足；若出现了多对多的匹配关系，而m和η是相等的，即判定为违反了逻辑约束条件，应把该类多对多关系分解为多个一对一匹配关系。
2.根据权利要求1所述的一种基于机器学习的空间数据匹配方法，其特征在于，所述步骤I中，针对待匹配的两个空间数据集中，考虑所有潜在匹配关系集合，应属于DXG的子集，故任意目标对被归结为C={匹配，不匹配}两种类别；同时，对可提取其η维特征向量，记作模式(ru;fk|fkl，...，fto);根据模式在η维特征空间中的分布，可将标记为一个特定类别ck e C，此为目标匹配问题的模式分类定义，该定义下目标匹配的关键在于找到合适的映射函数g:DXG — C，以实现从输入模式(rij;fk)到类别Ck的映射，从而获得匹配结果。
3.根据权利要求1所述的一种基于机器学习的空间数据匹配方法，其特征在于，所述的步骤I包括以下子步骤: 步骤1.1，建立正确匹配目标对数据库:在待匹配的两个数据集中通过样本匹配模块进行初步匹配，并从中选取无二义性的匹配对来建立正样本库:TP+= {(fk，Ck) I Ck=匹配}，其中无二义性用匹配候选集中位置和面积相似度最高或者唯一的匹配对来表示；具体是通过计算di和gj之间的位置LocSim和大小SizeSim相似性来建立正样本库；具体的,每个匹配目标(Ii有多个候选匹配目标gj，对于每对目标〈屯，gj>,计算LocSim((Ii, gj) * l-SizeSim(di，gj) I，选择计算结果最小的〈屯，gj>,认为其相似度最高，并记录在正样本库TP+中；步骤1.2，建立错误匹配目标对数据库:除了步骤1.1中的正样本TP+，还必须建立负样本TP-= {(fk, ck) I Ck=不匹配}，负样本集由落入当前匹配目标gj —定范围内的非正样本构成:Kc^gplgj e TP+, diiTP+，dist(di,gJ.)≤dT}，其中dT为距离阈值，大小设置为两个匹配数据集中目标间最小距离的均值加两倍标准差；步骤1.3,导出训练样本模式TP:定义fk为目标对的相似性指标向量,包括目标间的距离、大小、形状、方位的相似性；分别对正负样本中每一对目标关系ru，计算Cli和g]的多种相似性，得出关于的特征向量fk，最终合并导出为训练样本集TP。
4.根据权利要求3所述的一种基于机器学习的空间数据匹配方法，其特征在于，所述步骤1.3中，特征向量包括四个相似性指标，其具体步骤如下: 相似性指标一:位置相似性，所述位置相似性定义为构成的两个目标中心点的欧式距离，计算公式如下:
5.根据权利要求3所述的一种基于机器学习的空间数据匹配方法，其特征在于，所述步骤1.3中，导出为训练样本集TP的具体方法是: 步骤1.31,对于每个gj e TP+,在空间数据库中查询所有满足distd gj) <dT条件的Φ，并将Cli加入集合Dc ；步骤1.32，对于每个di e Dc,根据目标对〈di，gj>计算其多种相似性关系，即的特征向量fk; 步骤1.33，如果目标对〈屯，gj> e TP+,则赋ck为匹配，反之赋Ck为不匹配；步骤1.34，建立ru，fk和ck三元组，存储于匹配样本库TP中。
6.根据权利要求1所述的一种基于机器学习的空间数据匹配方法，其特征在于，所述的步骤2采用基于概率的贝`叶斯分类器模型进行机器学习。
【文档编号】G06F17/30GK103646109SQ201310726445
【公开日】2014年3月19日申请日期:2013年12月25日优先权日:2013年12月25日
【发明者】张翔, 艾廷华, 赵羲, 杨敏申请人:武汉大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张翔;艾廷华;赵羲;杨敏
技术所有人：武汉大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。