一种基于语义的多源表格自动匹配方法、装置及存储介质与流程

文档序号:36463839发布日期:2023-12-21 19:59阅读:22来源:国知局
一种基于语义的多源表格自动匹配方法与流程

本说明书涉及计算机,尤其涉及一种基于语义的多源表格自动匹配方法、装置、存储介质及电子设备。


背景技术:

1、目前,基于表格的结构化特性存储数据,以方便数据利用。因此,以表格结构化的存储数据,被广泛用于组织和呈现系统数据库中的数据。

2、在现有技术中,不同表格之间可能存在关联数据,通过确定关联数据,可以进一步确定存在关联的表格,使得在基于表格执行业务时的效率更高。

3、但是,目前对于不同源的表格,由于表格结构、数据结构存在差异,因此难以确定表格间存在关联的数据。而一般采用的方法是,将不同表格中的数据列逐一匹配,或者是人工匹配对表格进行匹配。不仅耗时费力,且效率低下。如何实现更加快速准确高效的表格相似度匹配是一个亟待解决的问题。


技术实现思路

1、本说明书提供一种基于语义的多源表格自动匹配方法、装置、存储介质及电子设备,以至少部分地解决现有技术存在的上述问题。

2、本说明书采用下述技术方案:

3、本说明书提供了一种基于语义的多源表格自动匹配方法,包括:

4、获取待匹配的两个表格,并针对每个表格,确定该表格的表格结构,所述表格结构至少表征所述表格中的实体单元格;

5、将该表格输入训练完成的语义注释模型,确定该表格中各实体单元格的语义,以及该表格中各列的列类型;

6、根据所述两个表格中各列的列类型以及所述各实体单元格的语义,对所述两个表格中的列进行初步匹配,确定所述两个表格中存在初步匹配关系的列,作为目标列;

7、通过训练完成的特征提取模型分别确定所述两个表格中的目标列的列标识特征,并确定所述两个表格中的目标列的列标识特征之间的第一相似度,以及根据所述两个表格中的目标列的内容,确定所述两个表格中的目标列的第二相似度;

8、根据所述第一相似度以及所述第二相似度,确定所述两个表格中的目标列是否匹配。

9、可选地,确定该表格的表格结构,具体包括:

10、根据自然语言处理库的识别工具,对该表格的每个单元格进行实体类型识别,确定该表格包含的各实体单元格;

11、根据预设的标题行识别规则,对该表格的每行进行识别,确定该表格中的标题行,以及根据预设的主题列识别规则,对该表格的每列进行识别,确定该表格中的主题列;

12、根据识别出的所述实体单元格、所述标题行以及所述主题列,确定该表格的表格结构。

13、通过所述语义注释模型,确定各实体单元格对应的各第一实体特征,以及知识图谱中的各实体对应的第二实体特征;

14、将所述各第一实体特征和所述各第二实体特征进行逐一比对,确定各第一实体特征对应的第二实体特征;

15、根据所述各第一实体特征对应的第二实体特征,确定各实体单元格对应的知识图谱中的实体,以及该实体的属性和与该实体存在关系的其他实体。

16、可选地,根据所述两个表格中各列的列类型以及所述各实体单元格的语义,对所述两个表格中的列进行初步匹配,确定所述两个表格中存在初步匹配关系的列,作为目标列,具体包括:

17、根据所述两个表格中各列的列类型,确定所述两个表格中列类型相同的两列,作为列分组;

18、针对每个列分组,确定该列分组中两列分别包含的各实体单元格的语义;

19、判断两列分别包含的各实体单元格的语义之间是否存在相同的语义;

20、若是,则确定该列分组中的两列为满足初步匹配关系的列,将该列分组中的两列作为目标列;

21、若否,则确定该列分组中的两列为不满足初步匹配关系的列。

22、可选地,所述表格包括第一表格和第二表格,所述目标列中属于第一表格的列为第一目标列,所述目标列中属于第二表格的列为第二目标列;

23、通过训练完成的特征提取模型分别确定所述两个表格中的目标列的列标识特征,并确定所述两个表格中的目标列的列标识特征之间的第一相似度,以及根据所述两个表格中的目标列的内容,确定所述两个表格中的目标列的第二相似度,具体包括:

24、将所述第一目标列和所述第二目标列输入所述特征提取模型,对所述第一目标列和所述第二目标列的列标识进行特征提取,得到所述第一目标列对应的第一列标识特征,以及所述第二目标列对应的第二列标识特征,并确定所述第一列标识特征和所述第二列标识特征之间相似度,作为第一相似度;

25、确定所述第一目标列和所述第二目标列的内容的数据类型,根据所述数据类型选择对应的相似度匹配方式,并根据所述相似度匹配方式,确定所述第一目标列和所述第二目标列之间的相似度,作为第二相似度。

26、可选地,根据所述数据类型选择对应的相似度匹配方式,并根据所述相似度匹配方式,确定所述第一目标列和所述第二目标列之间的第二相似度,具体包括:

27、若目标列内容为数值型,从所述第一目标列和所述第二目标列分别随机抽取第一指定数量单元格的数值内容,将所述第一指定数量单元格的数值内容按照特定方式转换为向量表示,得到第一数值向量和第二数值向量,并确定第一数值向量和第二数值向量之间的相似度,作为所述第一目标列和所述第二目标列之间的第二相似度;

28、若目标列内容为字符型,从所述第一目标列随机抽取第二指定数量单元格的字符内容作为第一段落,从所述第二目标列随机抽取第二指定数量单元格的字符内容作为第二段落,将所述第一段落和所述第二段落输入所述特征提取模型进行特征提取,得到第一段落特征和第二段落特征,并确定所述第一段落特征和所述第二段落特征之间的相似度,所述第一目标列和所述第二目标列之间的第二相似度;

29、若目标列内容为其他类型,所述其他类型包括日期型、布尔型、空间数据类型等,将目标列内容的数据类型相同的所述第一目标列和所述第二目标列之间的第二相似度设为预设相似度。

30、可选地,所述表格包括第一表格和第二表格,所述目标列中属于第一表格的列为第一目标列,所述目标列中属于第二表格的列为第二目标列;

31、根据所述第一相似度以及所述第二相似度,确定所述两个表格中的目标列是否匹配,具体包括:

32、将所述第一相似度和所述第二相似度进行加权平均操作,确定所述第一目标列和所述第二目标列之间的相似度,作为匹配相似度;

33、若各第一目标列中存在重复的列或各第二目标列中存在重复的列,利用二分匹配算法,求解各第一目标列和各第二目标列间的最大匹配,将所述最大匹配中存在匹配关系的第一目标列和第二目标列,作为匹配列;

34、若各第一目标列中没有重复的列且各第二目标列中也没有重复的列,将存在匹配关系的第一目标列和第二目标列,作为匹配列;

35、若所述匹配列的所述匹配相似度低于指定阈值,则确定所述匹配列中的所述第一目标列和所述第二目标列为互相不匹配的列;

36、若所述匹配列的所述匹配相似度高于指定阈值,则确定所述匹配列中的所述第一目标列和所述第二目标列为互相匹配的列。

37、本说明书提供了一种基于语义的多源表格自动匹配装置,包括:

38、结构确定模块,获取待匹配的两个表格,并针对每个表格,确定该表格的表格结构,所述表格结构至少表征所述表格中的实体单元格;

39、语义确定模块,将该表格输入训练完成的语义注释模型,确定该表格中各实体单元格的语义,以及该表格中各列的列类型;

40、初步匹配模块,根据所述两个表格中各列的列类型以及所述各实体单元格的语义,对所述两个表格中的列进行初步匹配,确定所述两个表格中存在初步匹配关系的列,作为目标列;

41、匹配模块,通过训练完成的特征提取模型分别确定所述两个表格中的目标列的列标识特征,并确定所述两个表格中的目标列的列标识特征之间的第一相似度,以及根据所述两个表格中的目标列的内容,确定所述两个表格中的目标列的第二相似度;

42、判断模块,根据所述第一相似度以及所述第二相似度,确定所述两个表格中的目标列是否匹配。

43、本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于语义的多源表格自动匹配方法。

44、本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于语义的多源表格自动匹配方法。

45、本说明书采用的上述至少一个技术方案能够达到以下有益效果:

46、在本说明书提供的基于语义的多源表格自动匹配方法中,首先获取两个待匹配的表格,针对每个待匹配的表格,确定该表格的结构和该表格中实体单元格的语义以及列类型。根据每个表格的列类型,进行初步匹配得到初步匹配结果,并将初步匹配结果中存在匹配关系的列作为目标列,计算目标列之间的第一相似度和第二相似度,确定两个表格中的目标列是否匹配。从上述方法中可以看出,本技术对两个表格进行相似度匹配前,先确定出了表格语义和列类型,以对全表格的语义信息进行解析,在语义信息的基础上进行相似度匹配,使得多源表格相似度匹配更加高效准确,方便后续对多源表格进行关联分析。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1