本发明涉及数据处理领域,尤其涉及一种多源地理实体语料库构建方法、介质及设备。
背景技术:
1、在生态文明建设背景下,自然资源规划部门要实现部门调动中的协同、统一,也要在工作实践中做到高效、实用,因此需要依靠新型基础测绘的产品体系突破空间规划和资源管理等工作中的瓶颈。根据自然资源规划部门实际工作需求,构建地理实体-关系-属性的实体关系网络,探索广州新型基础测绘“地理实体”应用场景,实现多专业标准融合、语境切换、智能搜索等功能,助力自然资源规划部门实现自动化数据治理与智能化业务办理。
2、现有技术中构建的不同地理实体之间的关系数据库不够精准,进一步导致在将其用于为检索提供服务时,检索结果不够精准。
技术实现思路
1、为了解决上述技术问题,本发明实施例提出了一种多源地理实体语料库构建方法、介质及设备,能够构建更丰富、更精准的地理实体语料库。
2、为了实现上述目的,本发明实施例提供了一种多源地理实体语料库构建方法,包括:
3、获取第一自发地理信息语料数据;其中,所述第一自发地理信息语料数据包括多个地理实体术语;
4、计算所述多个地理实体术语之间的语义相似度;
5、根据所述多个地理实体术语之间的语义相似度,对所述第一自发地理信息语料数据进行对齐处理,得到第二自发地理信息语料数据;
6、基于预先获取的第一gis数据和所述第二自发地理信息语料数据,构建多源地理实体语料库。
7、进一步的,所述计算所述多个地理实体术语之间的语义相似度,具体包括:
8、获取每一所述地理实体术语的描述术语集;
9、对每一所述地理实体术语的描述术语集进行词性处理,得到每一所述地理实体术语的定义术语集;
10、根据每一所述地理实体术语的定义术语集,构建每一所述地理实体术语的向量;
11、根据每一所述地理实体术语的向量,构建所述多个地理实体术语两两之间的相似矩阵;
12、基于所述多个地理实体术语两两之间的相似矩阵和每一所述地理实体术语的向量,计算所述多个地理实体术语两两之间的语义相似度。
13、进一步的,所述词性处理包括词性还原处理和词性标签处理。
14、进一步的,所述根据每一所述地理实体术语的定义术语集,构建每一所述地理实体术语的向量,具体包括:
15、基于预先获取的文本语料库和每一所述地理实体术语的定义术语集,计算每一所述地理实体术语的定义术语集所对应的权重分布;
16、采用预先配置的词性过滤器,对每一所述地理实体术语的定义术语集进行过滤;
17、基于每一所述权重分布和过滤后的每一所述地理实体术语的定义术语集,构建每一所述地理实体术语的向量。
18、进一步的,所述根据每一所述地理实体术语的向量,构建所述多个地理实体术语两两之间的相似矩阵,具体包括:
19、基于预先配置的第一相似度函数和每一所述地理实体术语的向量,构建所述多个地理实体术语两两之间的相似矩阵。
20、进一步的,所述基于所述多个地理实体术语两两之间的相似矩阵和每一所述地理实体术语的向量,计算所述多个地理实体术语两两之间的语义相似度,具体包括:
21、基于预先配置的第二相似度函数、所述多个地理实体术语两两之间的相似矩阵和每一所述地理实体术语的向量,计算所述多个地理实体术语两两之间的语义相似度。
22、进一步的,所述基于预先获取的第一gis数据和所述第二自发地理信息语料数据,构建多源地理实体语料库,具体包括:
23、对所述第一gis数据和所述第二自发地理信息语料数据进行实体对齐操作,以使所述第一gis数据对应于所述第二自发地理信息语料数据;
24、根据所述第二自发地理信息语料数据,对所述第一gis数据中的gis属性数据进行扩充处理,得到第二gis数据;
25、基于所述第二gis数据和所述第二自发地理信息语料数据,构建多源地理实体语料库。
26、进一步的,还包括:
27、采用关系型数据库存储从所述第二gis数据中提取的gis空间数据,以及从所述第二自发地理信息语料数据中提取的结构化语义信息;
28、采用图数据库存储从所述第二gis数据中提取的空间关系,以及从所述第二自发地理信息语料数据中提取的语义关系。
29、本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述的多源地理实体语料库构建方法的步骤。
30、本发明实施例还提供了一种计算机设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的多源地理实体语料库构建方法的步骤。
31、综上,本发明具有以下有益效果:
32、采用本发明实施例,能够更精准地计算得到不同地理实体术语之间的语义相似度,进而提高语料数据对齐的效率与准确性,并利用对齐后的语料数据扩充gis数据,从而构建更丰富、更精准的多源地理实体语料库,进一步的,在将上述多源地理实体语料库应用于相应的检索时,能够得到更精确的检索结果,最终为国土空间规划与自然资源管理等业务工作赋能
1.一种多源地理实体语料库构建方法,其特征在于,包括:
2.如权利要求1所述的多源地理实体语料库构建方法,其特征在于,所述计算所述多个地理实体术语之间的语义相似度,具体包括:
3.如权利要求2所述的多源地理实体语料库构建方法,其特征在于,所述词性处理包括词性还原处理和词性标签处理。
4.如权利要求2所述的多源地理实体语料库构建方法,其特征在于,所述根据每一所述地理实体术语的定义术语集,构建每一所述地理实体术语的向量,具体包括:
5.如权利要求2所述的多源地理实体语料库构建方法,其特征在于,所述根据每一所述地理实体术语的向量,构建所述多个地理实体术语两两之间的相似矩阵,具体包括:
6.如权利要求2所述的多源地理实体语料库构建方法,其特征在于,所述基于所述多个地理实体术语两两之间的相似矩阵和每一所述地理实体术语的向量,计算所述多个地理实体术语两两之间的语义相似度,具体包括:
7.如权利要求1所述的多源地理实体语料库构建方法,其特征在于,所述基于预先获取的第一gis数据和所述第二自发地理信息语料数据,构建多源地理实体语料库,具体包括:
8.如权利要求7所述的多源地理实体语料库构建方法,其特征在于,还包括:
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至8任一项所述的多源地理实体语料库构建方法。
10.一种计算机设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的多源地理实体语料库构建方法。