1.一种基于计算机的方法,所述方法用于确定至少两个异构非结构化数据记录之间的相似性并且用于优化处理性能,所述方法包含:
由至少一个处理器生成多个职业数据记录,所述处理器通过执行存储在非暂时性处理器可读介质上的代码来配置;
由所述至少一个处理器为所述职业数据记录中的每一个创建表示所述职业数据记录的相应向量;
由所述至少一个处理器将所述向量中的每一个分片成多个组块;
由所述至少一个处理器并行地对所述组块中的每一个执行语义匹配,以同时且基本上实时地比较至少一个职业数据记录和至少一个其它职业数据记录;以及
由所述至少一个处理器输出表示所述职业数据记录中的至少两个之间相似性的值。
2.根据权利要求1所述的方法,其中,所述向量中的每一个具有大小和方向。
3.根据权利要求1所述的方法,其进一步包含创建n维非正交单位向量空间。
4.根据权利要求3所述的方法,其中,通过计算对应于来自本体的概念的单位向量之间的点积来创建所述n维非正交单位向量空间。
5.根据权利要求1所述的方法,其中,每个向量在高维非正交单位向量空间中。
6.根据权利要求1所述的方法,其进一步包含应用从本体提供的信息中导出的相关系数。
7.根据权利要求1所述的方法,其进一步包含加权向量表示的概念。
8.根据权利要求1所述的方法,其进一步包含存储与大于零或至少等于预定阈值的点积相关联的信息。
9.根据权利要求1所述的方法,其中,匹配步骤包括执行不对称比较。
10.根据权利要求9所述的方法,其中,所述不对称比较基于余弦相似性。
11.根据权利要求1所述的方法,其中,基于相似性的程度对所述输出进行排序。
12.一种基于计算机的系统,所述系统用于确定至少两个异构非结构化数据记录之间的相似性并用于优化处理性能,所述系统包含:
至少一个处理器,所述处理器被配置成访问非暂时性处理器可读介质,当执行存储在所述非暂时性处理器可读介质上的指令时,所述至少一个处理器进一步被配置成:
生成多个职业数据记录;
为所述职业数据记录中的每一个创建表示所述职业数据记录的相应向量;
将所述向量中的每一个分片成多个组块;
并行地对所述组块中的每一个执行语义匹配,以同时且基本上实时地比较至少一个职业数据记录和至少一个其它职业数据记录;和
输出表示所述职业数据记录中的至少两个之间相似性的值。
13.根据权利要求12所述的系统,其中,所述向量中的每一个具有大小和方向。
14.根据权利要求12所述的系统,其中,所述至少一个处理器进一步被配置成:
创建n维非正交单位向量空间。
15.根据权利要求14所述的系统,其中,通过计算对应于来自本体的概念的单位向量之间的点积来创建所述n维非正交单位向量空间。
16.根据权利要求13所述的系统,其中,每个向量在高维非正交单位向量空间中。
17.根据权利要求13所述的系统,其中,所述至少一个处理器进一步被配置成:
应用从本体提供的信息中导出的相关系数。
18.根据权利要求13所述的系统,其中,所述至少一个处理器进一步被配置成:
加权向量表示的概念。
19.根据权利要求12所述的系统,其中,所述至少一个处理器进一步被配置成:
存储与大于零或至少等于预定义阈值的点积相关联的信息。
20.根据权利要求12所述的系统,其中,匹配步骤包括执行不对称比较。