一种数据目录的分类方法、装置、系统、设备和存储介质与流程

文档序号:33110648发布日期:2023-02-01 02:06阅读:36来源:国知局
一种数据目录的分类方法、装置、系统、设备和存储介质与流程

1.本发明涉及数据处理技术领域,具体涉及一种数据目录的分类方法、装置、系统、设备和存储介质。


背景技术:

2.在进行自然资源信息规划时,数据目录是探索和使用数据的主要方式,数据目录包含数据的分类,主要包括大类和小类的划分,比如大类包括管理数据、规划数据、现状数据等。往下还会有细分的小类,比如现状数据下有水资源、海洋、气候、灾害等。规划数据下有土地利用规划、城乡规划、林地规划等,管理数据下有不动产登记、自然资源确权登记等,目录下的分类是非常多的。在分类存储时需要通过人工识别出数据所属的类别后,再放入对应的分类目录下。而自然资源体系下的数据来源以及数据目录的分类体系呈现越来越复杂的趋势,通过人工识别来生产数据目录的方式不仅成本高而且效率低。


技术实现要素:

3.为了解决现有技术存在的成本高、效率低的问题,本发明提供了一种数据目录的分类方法、装置、系统、设备和存储介质,其具有自动分类、效率更高等特点。
4.根据本发明具体实施方式提供的一种数据目录的分类方法,包括:
5.获取待分类的空间数据文件;
6.将所述待分类的空间数据文件转换为预设格式的数据文件,所述预设格式的数据文件中具有表征空间数据特征的属性数据;
7.将所述预设格式的数据文件输入至预先构建的目录分类模型中进行目录类别识别,以得到和所述属性数据相匹配的目录类别;
8.将所述目录分类模型输出的所述目录类别和所述待分类的空间数据文件相关联后存储。
9.进一步地,所述将所述预设格式的数据文件输入至预先构建的目录分类模型中进行目录类别识别,以得到和所述属性数据相匹配的目录类别,包括:
10.基于机器学习算法构建至少两个初始分类模型;
11.基于分类训练数据集合对每个所述初始分类模型分别进行训练和测试;
12.将所述预设格式的数据文件输入至正确率最高的初始分类模型中进行目录类别识别,以得到和所述属性数据相匹配的目录类别。
13.进一步地,所述基于分类训练数据集合对每个所述初始分类模型分别进行训练和测试,包括:
14.将所述分类训练数据集中的一部分数据进行每个所述初始分类模型的训练,另一部分数据进行每个所述初始分类模型的测试,所述分类训练数据集中每个包含属性数据的文档具有唯一的目标标签。
15.进一步地,所述基于分类训练数据集合对每个所述初始分类模型分别进行训练和
测试,还包括:
16.若得到的每个所述初始分类模型的正确率均小于预设阈值,则重新调整所述分类训练数据集合中的数据构成后,基于调整后的分类训练数据集合对每个所述初始分类模型进行训练和测试。
17.进一步地,所述将所述目录分类模型输出的所述目标类别和所述待分类的空间数据文件相关联后存储,包括:
18.将所述目录类别作为键,所述待分类的空间数据文件的标识作为与所述键相对应的值存储至数据库中。
19.根据本发明具体实施方式提供的一种数据目录的分类装置,包括:
20.文件获取模块,用于获取待分类的空间数据文件;
21.格式转换模块,用于将所述待分类的空间数据文件转换为预设格式的数据文件,所述预设格式的数据文件中具有表征空间数据特征的属性数据;
22.目录分类模块,用于将所述预设格式的数据文件输入至预先构建的目录分类模型中进行目录类别识别,以得到和所述属性数据相匹配的目录类别;以及
23.数据存储模块,用于将所述目录分类模型输出的所述目标类别和所述待分类的空间数据文件相关联后存储。
24.根据本发明具体实施方式提供的一种数据目录的分类系统,包括:用户终端和服务器,所述服务器中设有如上所述的数据目录的分类装置,所述用户终端用于将用户输入的待分类的空间数据文件发送至所述服务器,并接收所述服务器发送的目录类别。
25.根据本发明具体实施方式提供的一种设备,包括:存储器和处理器;
26.所述存储器,用于存储程序;
27.所述处理器,用于执行所述程序,实现如上所述的数据目录的分类方法的各个步骤。
28.根据本发明具体实施方式提供的一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如山所述的数据目录的分类方法的各个步骤。
29.本发明所提供的数据目录的分类方法,可以获取待分类的空间数据文件,然后将待分类的空间数据文件转换为预设格式的数据文件。将包含属性数据的预设格式的文档输入至预先构建的目录分类模型中进行目录类别识别,以得到和属性数据相匹配的目录类别。将目录分类模型输出的目录类别和待分类的空间数据文件相关联后存储。该数据目录的分类方法可将预处理后得到的属性数据直接通过目录分类模型进行目录分类的识别,实现了空间数据的自动分类,不再依靠人工进行目录的识别,在节省人工成本的同时,提高了分类效率。
附图说明
30.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
31.图1是根据一示例性实施例提供的数据目录的分类方法的流程图;
32.图2是根据一示例性实施例提供的目录分类模型的构建流程图;
33.图3是根据一示例性实施例提供的数据目录的分类装置的结构图;
34.图4是根据一示例性实施例提供的数据目录的分类系统的结构图;
35.图5是根据一示例性实施例提供的设备的结构图。
具体实施方式
36.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
37.参照图1所示,本发明的实施例提供了一种数据目录的分类方法,该方法可以包括以下步骤:
38.101、获取待分类的空间数据文件。
39.在自然资源领域的规划中最常使用的就是某块区域的空间数据,按照数据业务类型来说,空间数据可包含土地资源、矿产资源、地质环境、不动产、海洋等空间数据。按照数据类型来说可包含文本坐标空间数据、栅格图形数据、矢量图形数据、图纸扫描件档案等。在空间数据中包含了该区域的特征数据,可以表明该区域的特征。
40.102、将待分类的空间数据文件转换为预设格式的数据文件。
41.因为空间数据文件常用的为.shp后缀的文件,需要将该类型的文件转换为geojson的格式文件,因为在geojson的格式文件中有编码各种地理数据结构的数据,可以更好的进行特征的识别。geojson数据文件样例如下:
42.{"type":"featurecollection","features":[
[0043]
{"type":"feature","id":"che","properties":{"name":"switzerland"},"geometry":{"type":"polygon","coordinates":[[[9.594226,47.525058],[9.632932,47.347601],[9.47997,47.10281],[9.932448,46.920728],[10.442701,46.893546],[10.363378,46.483571],[9.922837,46.314899],[9.182882,46.440215],[8.966306,46.036932],[8.489952,46.005151],[8.31663,46.163642],[7.755992,45.82449],[7.273851,45.776948],[6.843593,45.991147],[6.5001,46.429673],[6.022609,46.27299],[6.037389,46.725779],[6.768714,47.287708],[6.736571,47.541801],[7.192202,47.449766],[7.466759,47.620582],[8.317301,47.61358],[8.522612,47.830828],[9.594226,47.525058]]]}},
[0044]
{"type":"feature","id":"lsne","properties":{"name":"lausanne"},"geometry":{"type":"point","coordinates":[6.6339863,46.5193823]}}
[0045]
]}
[0046]
从中可以看出该文件中记载了空间数据的类型、标识、多个面的位置等信息。
[0047]
103、将预设格式的数据文件输入至预先构建的目录分类模型中进行目录类别识别,以得到和属性数据相匹配的目录类别。
[0048]
可使用开源的机器学习算法库构建目录分类模型,其中可使用有支持向量机、近邻算法、随机森林等分类算法进行目录分类模型的构建。将转换得到的预设格式的数据文
件直接通过目录分类模型进行识别即可得到该空间数据的所归属的目录。从而实现了目录分类的自动化,在节省人工的同时提高了目录分类的效率。
[0049]
104、将目录分类模型输出的目录类别和待分类的空间数据文件相关联后存储。
[0050]
最后可将空间数据的目录类别和该空间数据相关联后存储,供用户进行查看等操作。
[0051]
参照图2所示在发明的另一具体实施例中将包含属性数据的文档输入至预先构建的目录分类模型中进行目录类别识别,以得到和属性数据相匹配的目录类别,可包括以下步骤:
[0052]
201、基于机器学习算法构建至少两个初始分类模型。
[0053]
202、基于分类训练数据集合对每个所述初始分类模型分别进行训练和测试。
[0054]
203、将包含属性数据的文档输入至正确率最高的初始分类模型中进行目录类别识别,以得到和属性数据相匹配的目录类别。
[0055]
具体的,可采用支持向量机、近邻算法、随机森林算法分别得到三个初始分类模型,然后将分类训练数据集中的一部分数据进行每个初始分类模型的训练,另一部分数据进行每个初始分类模型的测试,其中分类训练数据集中每个包含属性数据的文档具有唯一的目标标签。从geojson文件中提取属性字段形成如下格式的属性数据文档:
[0056][0057]
然后对上述文档进行标注形成一个训练数据文档如下:
[0058]
文本:
[0059][0060][0061]
标签:城乡总体规划。
[0062]
可采用如上格式的2000条训练数据,其中1400数据作为训练数据,600条作为测试数据,对得到的初始分类模型进行训练,将分类准确率最高的初始分类模型作为目录分类模型进行分类。
[0063]
其中若得到的每个初始分类模型的正确率均小于预设阈值例如90%,则重新调整分类训练数据集合中的数据构成后,基于调整后的分类训练数据集合对每个初始分类模型进行训练和测试。其中调整的方式可包括增加数据、合并数据等方式,优化训练数据的特征,从而达到优化模型训练结果的目的。
[0064]
再将目录分类模型输出的目录类别和待分类的空间数据文件相关联后存储时,可将目录类别作为键,待分类的空间数据文件的标识作为与键相对应的值存储至数据库中。即可采用键值存储的方式进行数据的存储。当然还可采用其他存储方式进行,本发明在此不做限制。
[0065]
基于同样的设计思路参照图3所示,本发明的实施例还提供了一种数据目录的分类装置,该装置在运行时可以实现上述数据目录的分类方法的各个步骤,该装置可以包括:
[0066]
文件获取模块301,用于获取待分类的空间数据文件。
[0067]
格式转换模块302,用于将待分类的空间数据文件转换为预设格式的数据文件,预设格式的数据文件中具有表征空间数据特征的属性数据。
[0068]
目录分类模块303,用于将预设格式的数据文件输入至预先构建的目录分类模型中进行目录类别识别,以得到和属性数据相匹配的目录类别;以及
[0069]
数据存储模块304,用于将目录分类模型输出的目标类别和待分类的空间数据文件相关联后存储。
[0070]
该数据目录的分类装置具有和上述数据目录的分类方法相同的有益效果,其具体实现方式可参照上述数据目录的分类方法的实施例,本发明在此不再赘述。
[0071]
参照图4所示,本发明的实施例还提供了一种数据目录的分类系统,包括:用户终端401和服务器402,其中服务器402中设有如上所述的数据目录的分类装置,用户终端401
用于将用户输入的待分类的空间数据文件发送至所述服务器,并接收服务器402发送的目录类别。其中用户终端401可为用户计算机中的浏览器,通过浏览器访问服务器,进行空间数据的识别和识别结果的交互。
[0072]
参照图5所示,本发明的实施例还提供了一种设备,该设备可以包括:存储器501和处理器502。
[0073]
存储器501,用于存储程序;
[0074]
处理器502,用于执行该程序,实现如上实施例所述的数据目录的分类方法的各个步骤。
[0075]
本发明的实施例还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如上实施例所述的数据目录的分类方法的各个步骤。
[0076]
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
[0077]
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0078]
本发明各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,各实施例中记载的技术特征可以进行替换或者组合。
[0079]
本发明各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
[0080]
本发明所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0081]
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
[0082]
另外,在本发明各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。
[0083]
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些
功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0084]
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
[0085]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0086]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1