基于k-近邻的水利普查行业能力数据融合方法

文档序号:8339688阅读:338来源:国知局
基于k-近邻的水利普查行业能力数据融合方法
【技术领域】
[0001] 本发明涉及信息处理技术,具体涉及一种基于k-近邻的水利普查行业能力数据 融合方法。
【背景技术】
[0002] 第一次全国水利普查主要查清了中华人民共和国境内(未含香港、澳门特别行政 区和台湾地区)的河流湖泊、水利工程、经济社会用水、河流湖泊治理保护、水土保持、水利 行业能力建设、灌区及地下水等8大项基础信息,为加强水利基础设施建设与管理、实行最 严格的水资源管理制度等提供了科学权威的数据支撑。
[0003] 水利单位是结合水利工程设施特性与行业发展规模等各类管理信息,分析水利单 位与水利工程设施、资产、从业人员等发展状况的关键节点。因此,厘清水利单位,通过建立 水利工程对象的工程管理单位与行业能力的水利单位之间的匹配关系,实现普查水利工程 数据与行业能力数据融合,对科学研判水利管理能力和水平具有重要的意义。
[0004] 由于不同专业普查的填报范围规定不同、规范性要求存在差异,因此部分水利单 位普查数据存在组织机构代码不完整、重复,以及不同专业填报的水利单位名称不能完全 一致等问题,同时由于水利普查数据量大,直接完全通过人工方式建立匹配关系费时费 力。

【发明内容】

[0005] 发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种基于k-近邻 的水利普查行业能力数据融合方法。实现水利普查中行业能力单位与水利工程管理单位信 息的一致匹配,实现水利工程和行业能力普查数据的有效衔接,为分析水利发展现状,制定 水利及经济社会发展规划等提供支撑。所谓数据融合就是利用计算机技术将来自多个传感 器或多源的观测信息进行分析、综合处理,从而得出决策和估计任务所需的信息的处理过 程。
[0006] 其中,数据融合包含三个层次,即,数据层融合、特征层融合以及决策层融合。数据 层融合是低层次的融合,直接在采集到的原始数据层上进行的融合,在各种传感器的原始 测报未经预处理之前就进行数据的综合与分析。特征层融合属于中间层次的融合,它先对 来自传感器的原始信息进行特征提取(特征可以是目标的边缘、方向、速度等),然后对特 征信息进行综合分析和处理;特征层融合的优点在于实现了可观的信息压缩,有利于实时 处理,并且由于所提取的特征直接与决策分析有关,因而融合结果能最大限度的给出决策 分析所需要的特征信息。决策层融合通过不同类型的传感器观测同一个目标,每个传感器 在本地完成基本的处理,其中包括预处理、特征抽取、识别或判决,以建立对所观察目标的 初步结论。然后通过关联处理进行决策层融合判决,最终获得联合推断结果。
[0007] 本发明基于数据挖掘中的k_近邻搜索完成数据融合。所谓k_近邻搜索是指在对 象数据集S中查询与指定查询对象q最相似的k个对象。k_近邻是相似性搜索的一种,相 似性搜索就是在对象数据集S中查询与指定查询对象q相似的对象。相似性搜索一般包括 两类任务:一是k_近邻查询(k Nearest Neighbor Query, kNN);另一种是范围查询(Range Query),即在对象数据集S中查询与指定查询对象q相似距离小于等于ε的所有对象。在 相似性查询中,通常使用相似距离度量D来计算两个对象的距离,即对象s与查询对象q的 距离被描述为D(s,q)。对于范围查询即是查询所有满足D(s,q)< ε的对象s。在k-近 邻查询过程中,对对象s按照D (s,q)排序,前k个即为q的k_近邻。目前常见的相似距离 度量有欧式距离,最长公共子串,编辑距离等。
[0008] 技术方案:本发明的一种基于k_近邻的水利普查行业能力数据融合方法,包括以 下步骤:
[0009] (1)对水利普查行业能力数据以及水利工程数据中的单位名称进行逐级分解;
[0010] ⑵选择水利普查中行业能力数据和水利工程数据样本,并建立样本中水利工程 管理单位和行业能力单位的匹配;
[0011] (3)基于步骤⑵中的样本训练编缉距离权重;
[0012] (4)对步骤⑴中分解出的单位名称信息以带权重的编缉距离作为相似性度量距 离,以行业能力单位名称为数据集,以水利工程管理单位名称为查询集,进行k_近邻相似 搜索,并结合人工对数据进行匹配。
[0013] 进一步的,所述步骤(1)中的行业能力数据以及水利工程数据中的单位名称被逐 级分解成行政地名信息和精简的单位名称;且对不包含行政区划名的单位名称直接分解成 非精简单位名。
[0014] 进一步的,所述步骤(2)中选择水利普查中行业能力数据和水利工程数据样本 (例如可以选择10%的水利普查数据作为样本),并通过组织机构代码、普通的编辑距离以 及人工匹配等方式,建立样本中水利工程管理单位名称和行业能力单位名称之间的匹配, 作为编辑距离权重学习的数据集。
[0015] 而在上述样本选择的过程中,以县级数据为基本单位来选择用于训练最优权重向 量的样本数据,即从总体数据涉及的所有县中,首先选择样本县,然后每个样本县的所有行 业能力和水利工程数据作为样本数据,且选择样本县时需要考虑水利发展现状上的代表 性。
[0016] 进一步的,所述步骤(3)中采用1-近邻方法训练最优的编缉距离权重,进而获得 最优编缉距离中的删除、插入和替换操作的最优权重。
[0017] 进一步的,所述步骤(4)中对单位名称进行k_近邻相似搜索时,对精确单位名 称按照水利普查的"在地原则",在分解出的单位所在级别的县或市或省或全国匹配;对非 精简单位名称按照县、市、省以及国家逐级匹配即对一个非精简的水利工程管理单位查询 k_近邻时,优先在其所在县级的行业能力单位数据中匹配,然后到市、省以及全国范围的行 业能力单位数据中匹配。
[0018] 有益效果:本发明通过相似性搜索建立行业能力普查单位与水利工程管理单位的 一致匹配,实现水利工程和行业能力普查数据的有效衔接,为分析水利发展现状,制定水利 及经济社会发展规划等提供支撑。
【附图说明】
[0019] 图1为本发明实施例中能够行业能力单位名称匹配框架图;
[0020] 图2为实施例中省1的样本数据的匹配准确率对比图;
[0021] 图3为实施例中省2的样本数据的匹配准确率对比图。
【具体实施方式】
[0022] 下面结合具体实施例,进
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1