语义匹配系统和方法与流程

文档序号：24552186发布日期：2021-04-06 12:04阅读：来源：国知局

技术特征：

1.一种基于计算机的方法，所述方法用于确定至少两个异构非结构化数据记录之间的相似性并且用于优化处理性能，所述方法包含：

由至少一个处理器生成多个职业数据记录，所述处理器通过执行存储在非暂时性处理器可读介质上的代码来配置；

由所述至少一个处理器为所述职业数据记录中的每一个创建表示所述职业数据记录的相应向量；

由所述至少一个处理器将所述向量中的每一个分片成多个组块；

由所述至少一个处理器并行地对所述组块中的每一个执行语义匹配，以同时且基本上实时地比较至少一个职业数据记录和至少一个其它职业数据记录；以及

由所述至少一个处理器输出表示所述职业数据记录中的至少两个之间相似性的值。

2.根据权利要求1所述的方法，其中，所述向量中的每一个具有大小和方向。

3.根据权利要求1所述的方法，其进一步包含创建n维非正交单位向量空间。

4.根据权利要求3所述的方法，其中，通过计算对应于来自本体的概念的单位向量之间的点积来创建所述n维非正交单位向量空间。

5.根据权利要求1所述的方法，其中，每个向量在高维非正交单位向量空间中。

6.根据权利要求1所述的方法，其进一步包含应用从本体提供的信息中导出的相关系数。

7.根据权利要求1所述的方法，其进一步包含加权向量表示的概念。

8.根据权利要求1所述的方法，其进一步包含存储与大于零或至少等于预定阈值的点积相关联的信息。

9.根据权利要求1所述的方法，其中，匹配步骤包括执行不对称比较。

10.根据权利要求9所述的方法，其中，所述不对称比较基于余弦相似性。

11.根据权利要求1所述的方法，其中，基于相似性的程度对所述输出进行排序。

12.一种基于计算机的系统，所述系统用于确定至少两个异构非结构化数据记录之间的相似性并用于优化处理性能，所述系统包含：

至少一个处理器，所述处理器被配置成访问非暂时性处理器可读介质，当执行存储在所述非暂时性处理器可读介质上的指令时，所述至少一个处理器进一步被配置成：

生成多个职业数据记录；

为所述职业数据记录中的每一个创建表示所述职业数据记录的相应向量；

将所述向量中的每一个分片成多个组块；

并行地对所述组块中的每一个执行语义匹配，以同时且基本上实时地比较至少一个职业数据记录和至少一个其它职业数据记录；和

输出表示所述职业数据记录中的至少两个之间相似性的值。

13.根据权利要求12所述的系统，其中，所述向量中的每一个具有大小和方向。

14.根据权利要求12所述的系统，其中，所述至少一个处理器进一步被配置成：

创建n维非正交单位向量空间。

15.根据权利要求14所述的系统，其中，通过计算对应于来自本体的概念的单位向量之间的点积来创建所述n维非正交单位向量空间。

16.根据权利要求13所述的系统，其中，每个向量在高维非正交单位向量空间中。

17.根据权利要求13所述的系统，其中，所述至少一个处理器进一步被配置成：

应用从本体提供的信息中导出的相关系数。

18.根据权利要求13所述的系统，其中，所述至少一个处理器进一步被配置成：

加权向量表示的概念。

19.根据权利要求12所述的系统，其中，所述至少一个处理器进一步被配置成：

存储与大于零或至少等于预定义阈值的点积相关联的信息。

20.根据权利要求12所述的系统，其中，匹配步骤包括执行不对称比较。

技术总结
本申请公开了语义匹配系统和方法。基于计算机的系统和方法，其用于确定至少两个异构非结构化数据记录之间的相似性并用于优化处理性能。生成多个职业数据记录，并且对于所述职业数据记录中的每一个，创建相应的向量来表示所述职业数据记录。所述向量中的每一个被分片成多个组块。此后，所述组块的语义匹配并行发生，以同时且基本实时地比较至少一个职业数据记录和至少一个其它职业数据记录。此后，输出表示所述职业数据记录中的至少两个之间相似性的值。

技术研发人员：S·温森里德;A·霍苏
受保护的技术使用者：简茨公司
技术研发日：2019.11.20
技术公布日：2021.04.06

完整全部详细技术资料下载

当前第2页1 2