一种基于树状图的数据相似度匹配方法及装置与流程

文档序号：14911289发布日期：2018-07-10 23:29阅读：414来源：国知局

本发明涉及数据相似度计算领域，具体涉及一种基于树状图的数据相似度匹配方法及装置。

背景技术：

语义网Web，其存在及互联的目的是使计算机能够自动处理、集成不同数据源的数据。本体是解决语义层次上信息共享和互换的基础也是实现语义Web的关键技术，通过结构化的描述实现对某个领域知识的共同认识，辅助人们在语法或者语义上与计算机实现精确的交流，是人与计算机交流的语义基础。本体构建者的知识和使用背景的不同导致相同的语义概念在应用不同的本体中可能使用不同的标示符或者以不同的形式存在。

领域本体的膨胀和异构的事实降低了知识共享和重用的效率。随着本体规模的扩大，数目的增多，信息交流已经成为当前亟待解决的首要课题，相似度和相关度计算是本体间有效信息交流的基础性工作，如何整合并且充分利用目前的本体资源都需要概念语义相似度和相关度计算的支持。

因此，相似度算法得到了大力发展，由于本体中的相似度算法中的双方均置于同一树状图下，因此，基于树状图的数据相似度匹配方法得到了极大的应用，但是目前的相似度匹配方法利用面较狭窄，准确度不高，使得人们迫切需要一种准确率更高的对树状图的数据进行相似度匹配的方法及装置。

鉴于上述缺陷，本发明创作者经过长时间的研究和实践终于获得了本发明。

技术实现要素：

为解决上述技术缺陷，本发明采用的技术方案在于，首先提供一种基于树状图的数据相似度匹配方法，其包括：

步骤S1，对需要进行相似度匹配的数据，建立以所述数据为部分节点的树状图；

步骤S2，以信息量为基础，对所述数据进行相似度计算；

步骤S3，以属性为基础，对所述数据进行相似度计算；

步骤S6，对所述数据相似度进行加权计算，得到总相似度。

较佳的，还包括：步骤S4，以语义距离为基础，对所述数据进行相似度计算。

较佳的，还包括步骤S5，以语义密度为基础，对数据进行相似度计算。

较佳的，所述步骤S6中，所述总相似度计算公式为：

sim(i，j)＝α×sim1(i，j)+β×sim2(i，j)+γ×sim3(i，j)+δ×sim4(i，j)

α+β+γ+δ＝1

其中sim(i，j)为数据i和数据j的总相似度；sim1(i，j)为数据i与数据j的基于信息量的相似度；sim2(i，j)为数据i与数据j的基于属性的相似度；sim3(i，j)为数据i与数据j的基于语义距离的相似度；sim4(i，j)为数据i与数据j的基于语义密度的相似度；α、β、γ、δ分别为与sim1(i，j)、sim2(i，j)、sim3(i，j)、sim4(i，j)对应的调节因子。

较佳的，所述步骤S2中，所述相似度计算公式为：

其中，sim1(i，j)为数据i与数据j的基于信息量的相似度；Anc(i，j)为数据i和数据j在所述树状图中的最近共同祖先节点；I(i)、I(j)、I[Anc(i，j)]分别为数据i、数据j、Anc(i，j)的信息量。

较佳的，所述步骤S3中，所述相似度计算公式为：

其中，sim2(i，j)为数据i与数据j的基于属性的相似度；Attr(i)、Attr(j)分别为数据i、数据j的属性的属性值的总数。

较佳的，所述步骤S4中，所述相似度计算公式为：

其中，sim3(i，j)为数据i与数据j的基于语义距离的相似度；DIS(i，j)为数据i与数据j在树状图中的最短路径的边数；Depth(T)为树状图的深度。

其次提供一种与上述所述的基于树状图的数据相似度匹配方法对应的基于树状图的数据相似度匹配装置，其包括：

树状图建立单元，其对需要进行相似度匹配的数据，建立以所述数据为部分节点的树状图；

信息量相似度计算单元，其以信息量为基础，对所述数据进行相似度计算；

属性相似度计算单元，其以属性为基础，对所述数据进行相似度计算；

总相似度计算单元，其对所述数据相似度进行加权计算，得到总相似度。

较佳的，还包括：语义距离相似度计算单元，其以语义距离为基础，对所述数据进行相似度计算。

较佳的，还包括：语义密度相似度计算单元，其以语义密度为基础，对数据进行相似度计算。

与现有技术比较本发明的有益效果在于：这样，可以综合影响所述数据相似度的多个因素，得到更准确的总相似度；在对数据的相似度进行计算时，将语义距离也作为影响相似度的变量加入进来，增加了计算相似度时的考量变量，提高了相似度的准确性；在对数据的相似度进行计算时，将语义密度也作为影响相似度的变量加入进来，增加了计算相似度时的考量变量，提高了相似度的准确性。

附图说明

为了更清楚地说明本发明各实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1是本发明树状图的具体实例；

图2是本发明基于树状图的数据相似度匹配方法的流程图；

图3是本发明基于树状图的数据相似度匹配方法实施例2的流程图；

图4是本发明基于树状图的数据相似度匹配方法实施例3的流程图；

图5是本发明基于树状图的数据相似度匹配装置的结构图；

图6是本发明基于树状图的数据相似度匹配装置实施例10的结构图；

图7是本发明基于树状图的数据相似度匹配装置实施例11的结构图。

具体实施方式

以下结合附图，对本发明上述的和另外的技术特征和优点作更详细的说明。

树状图是一种数据结构，也称为树，它是由至少一个有限节点组成一个具有层次关系的集合。如图1所示，其为树的一个实例，我们根据图1来解释树的相关术语：

节点(Node)：表示树中的数据元素，由数据项和数据元素之间的关系组成。在图1中，共有10个节点。

节点的度(Degree of Node)：节点所拥有的子树的个数，在图1中，节点A的度为3。

树的度(Degree of Tree)：树中各节点度的最大值。在图1中，树的度为3。

叶子节点(Leaf Node)：度为0的节点，也叫终端节点。在图1中，节点E、F、G、H、I、J都是叶子节点。

分支节点(Branch Node)：度不为0的节点，也叫非终端节点或内部节点。在图1中，节点A、B、C、D是分支节点。

孩子节点(Child)：节点子树的根。在图1中，节点B、C、D是节点A的孩子节点。

双亲节点(Parent)：节点的上层节点叫该节点的双亲节点。在图1中，节点B、C、D的双亲节点是节点A。

祖先节点(Ancestor)：从根到该节点所经分支上的所有节点。在图1中，节点E的祖先节点是A和B。

共同祖先节点：所有祖先节点中相同的节点；在图1中，节点E和节点F的共同祖先节点是A和B。

最近祖先节点：共同祖先节点中距离根最远的节点；在图1中，节点E和节点F的最近共同祖先节点是B。

子孙节点(Descendant)：以某节点为根的子树中的任一节点。在图1中，除A之外的所有节点都是A的子孙节点。

兄弟节点(Brother)：同一双亲的孩子。在图1中，节点B、C、D互为兄弟节点。

节点的层次(Level of Node)：从根节点到树中某节点所经路径上的分支数称为该节点的层次。根节点的层次规定为1，其余节点的层次等于其双亲节点的层次加1。

堂兄弟(Sibling)：同一层的双亲不同的节点。在图1中，G和H互为堂兄弟。

树的深度(Depth of Tree)：树中节点的最大层次数。在图1中，树的深度为3。

实施例1

如图2所示，其为本发明基于树状图的数据相似度匹配方法的流程图，其中，所述基于树状图的数据相似度匹配方法，包括：

步骤S1，对需要进行相似度匹配的数据，建立以所述数据为部分节点的树状图；

需要对数据进行相似度匹配，就说明这些数据之间必然有所联系，也即是说，存在以这些数据为部分节点的树状图，以阐述这些数据之间的关系。因此，可以建立或寻找到以这些数据为部分节点的树状图。

步骤S2，以信息量为基础，对所述数据进行相似度计算；

每个数据均有其信息量，可以根据信息量来计算两个数据之间的相似度。

步骤S3，以属性为基础，对所述数据进行相似度计算；

每个数据均有其属性，不同数据之间也存在相同的属性或属性值，如果两个事物有很多属性相同，则说明这两个事物很相似，反之则相反。因此，基于属性的相似度的计算的基本原理也就是通过判断两个概念对应的属性集的相似程度。这样，可以根据属性来计算两个数据之间的相似度。

步骤S6，对所述数据相似度进行加权计算，得到总相似度；

将通过上述步骤得到的相似度进行加权，确定以不同基础计算得到的相似度的权重，从而计算总相似度；该总相似度的准确度要高于通过上述步骤得到的相似度的，是与两个数据的实际相似度最接近的。

这样，可以综合影响所述数据相似度的多个因素，得到更准确的总相似度。

实施例2

如上述所述的基于树状图的数据相似度匹配方法，本实施例与其不同之处在于，如图3所示，所述基于树状图的数据相似度匹配方法还包括：

步骤S4，以语义距离为基础，对所述数据进行相似度计算；

语义距离是指在本体树中连接相应的两个节点的通路中的最短路径所经历的边数。同一树状图的两个数据之间的语义距离，与其相似度相关，因此可以根据语义距离来计算两个数据之间的相似度。

这样，在对数据的相似度进行计算时，将语义距离也作为影响相似度的变量加入进来，增加了计算相似度时的考量变量，提高了相似度的准确性。

实施例3

如上述所述的基于树状图的数据相似度匹配方法，本实施例与其不同之处在于，如图4所示，所述基于树状图的数据相似度匹配方法还包括：

步骤S5，以语义密度为基础，对数据进行相似度计算。

语义密度是指数据的兄弟节点的个数。在树状图中不同的分支节点的子节点的数量是不同的，如果在树状图中，某一局部的节点密度越大，说明对该节点的概念细化就越大，对应的语义相似度就越高。因此可以根据语义密度来计算两个数据之间的相似度。

这样，在对数据的相似度进行计算时，将语义密度也作为影响相似度的变量加入进来，增加了计算相似度时的考量变量，提高了相似度的准确性。

实施例4

如上述所述的基于树状图的数据相似度匹配方法，本实施例与其不同之处在于，所述步骤S2中，所述相似度计算公式为：

通过该公式可以迅速计算出相似度，提高计算效率，且计算方便、准确。

对数据i所包含的信息量I(i)定义如下：

I(i)＝-log(p(i))

其中p(i)为数据i在与所述树状图对应的数据库中出现的概率。

freq(i)＝∑count(w)，w∈words(i)

p(i)＝freq(i)/N

其中：freq(i)为数据i的出现频率，count(w)为数据w的出现次数，words(i)为数据i的子节点集合，包括直接或间接的子节点，w∈words(i)，N为所述数据库出现的包含在树状图中的总节点数。

要生成树状图，必然存在与之对应的数据库；要根据实际情况找到或生成树状图，也必然存在一个收录所有实际情况的数据库。

实施例5

如上述所述的基于树状图的数据相似度匹配方法，本实施例与其不同之处在于，所述步骤S3中，所述相似度计算公式为：

其中，sim2(i，j)为数据i与数据j的基于属性的相似度；Attr(i)、Attr(j)分别为数据i、数据j的属性的属性值的总数。

通过该公式可以迅速计算出相似度，提高计算效率，且计算方便、准确。

其中，Attr(i)∩Attr(j)表示数据i和数据j所拥有的相同的属性中相同的属性值的总数；Attr(i)∪Attr(j)表示数据i和数据j所有的拥有的所有属性中所有属性值的总数。

比如，数据i拥有三个属性，每个属性有两个属性值，数据j拥有两个属性，每个属性有两个属性值，数据i的第二个属性和数据j的第二个属性相同且数据i的第二个属性中的两个属性值与数据j的第二个属性中的两个属性值相同；则数据i的所有属性的属性值的总数为6个，数据j的所有属性的属性值的总数为4个，数据i和数据j所拥有的相同的属性中相同的属性值的总数为2个，数据i和数据j所有的拥有的所有属性中所有属性值总数为8个。

实施例6

如上述所述的基于树状图的数据相似度匹配方法，本实施例与其不同之处在于，所述步骤S4中，所述相似度计算公式为：

其中，sim3(i，j)为数据i与数据j的基于语义距离的相似度；DIS(i，j)为数据i与数据j在树状图中的最短路径的边数；Depth(T)为树状图的深度。

通过该公式可以迅速计算出相似度，提高计算效率，且计算方便、准确。

本实施例中，Depth(i)表示数据i在树状图中的深度，用Upper(i)表示数据i的双亲节点。设根节点为R，令根节点R的深度为1，即Depth(R)＝1，

则任一非根节点i在树状图中的深度公式为：

Depth(i)＝Depth(Upper(i))+1

对于树状图T的深度Depth(T)为：

Depth(T)＝Max(Depth(i))

即树状图的深度等于树中节点的最大深度，其中数据i为树状图T中的任一节点。

实施例7

如上述所述的基于树状图的数据相似度匹配方法，本实施例与其不同之处在于，所述步骤S5中，所述相似度计算公式为：

其中，sim4(i，j)为数据i与数据j的基于语义密度的相似度；Width(i)、Width(j)分别为数据i、数据j的兄弟节点数目。

通过该公式可以迅速计算出相似度，提高计算效率，且计算方便、准确。

实施例8

如上述所述的基于树状图的数据相似度匹配方法，本实施例与其不同之处在于，所述步骤S6中，所述总相似度计算公式为：

sim(i，j)＝α×sim1(i，j)+β×sim2(i，j)+γ×sim3(i，j)+δ×sim4(i，j)

α+β+γ+δ＝1

这样，通过该公式可以迅速计算出相似度，提高计算效率，且计算方便、准确。

其中，调节因子可以根据实际情况确定或调整。

实施例9

如上述所述的基于树状图的数据相似度匹配方法，本实施例与其不同之处在于，其为与所述的基于树状图的数据相似度匹配方法对应的基于树状图的数据相似度匹配装置，如图5所示，其中，所述基于树状图的数据相似度匹配装置，包括：

树状图建立单元1，其对需要进行相似度匹配的数据，建立以所述数据为部分节点的树状图；

信息量相似度计算单元2，其以信息量为基础，对所述数据进行相似度计算；

属性相似度计算单元3，其以属性为基础，对所述数据进行相似度计算；

总相似度计算单元6，其对所述数据相似度进行加权计算，得到总相似度。

这样，可以综合影响所述数据相似度的多个因素，得到更准确的总相似度。

树状图建立单元1中，需要对数据进行相似度匹配，就说明这些数据之间必然有所联系，也即是说，存在以这些数据为部分节点的树状图，以阐述这些数据之间的关系。因此，可以建立或寻找到以这些数据为部分节点的树状图。

信息量相似度计算单元2中，每个数据均有其信息量，可以根据信息量来计算两个数据之间的相似度。

属性相似度计算单元3中，每个数据均有其属性，不同数据之间也存在相同的属性或属性值，如果两个事物有很多属性相同，则说明这两个事物很相似，反之则相反。因此，基于属性的相似度的计算的基本原理也就是通过判断两个概念对应的属性集的相似程度。这样，可以根据属性来计算两个数据之间的相似度。

总相似度计算单元6中，将得到的相似度进行加权，确定以不同基础计算得到的相似度的权重，从而计算总相似度；该总相似度的准确度要高于通过上述单元得到的相似度的，是与两个数据的实际相似度最接近的。

实施例10

如上述所述的基于树状图的数据相似度匹配装置，本实施例与其不同之处在于，如图6所示，所述基于树状图的数据相似度匹配装置还包括：

语义距离相似度计算单元4，其以语义距离为基础，对所述数据进行相似度计算。

这样，在对数据的相似度进行计算时，将语义距离也作为影响相似度的变量加入进来，增加了计算相似度时的考量变量，提高了相似度的准确性。

实施例11

如上述所述的基于树状图的数据相似度匹配装置，本实施例与其不同之处在于，如图7所示，所述基于树状图的数据相似度匹配装置还包括：

语义密度相似度计算单元5，其以语义密度为基础，对数据进行相似度计算。

这样，在对数据的相似度进行计算时，将语义密度也作为影响相似度的变量加入进来，增加了计算相似度时的考量变量，提高了相似度的准确性。

实施例12

如上述所述的基于树状图的数据相似度匹配装置，本实施例与其不同之处在于，所述信息量相似度计算单元2中，所述相似度计算公式为：

通过该公式可以迅速计算出相似度，提高计算效率，且计算方便、准确。

对数据i所包含的信息量I(i)定义如下：

I(i)＝-log(p(i))

其中p(i)为数据i在与所述树状图对应的数据库中出现的概率。

freq(i)＝∑count(w)，w∈words(i)

p(i)＝freq(i)/N

要生成树状图，必然存在与之对应的数据库；要根据实际情况找到或生成树状图，也必然存在一个收录所有实际情况的数据库。

实施例13

如上述所述的基于树状图的数据相似度匹配装置，本实施例与其不同之处在于，所述属性相似度计算单元3中，所述相似度计算公式为：

其中，sim2(i，j)为数据i与数据j的基于属性的相似度；Attr(i)、Attr(j)分别为数据i、数据j的属性的属性值的总数。

通过该公式可以迅速计算出相似度，提高计算效率，且计算方便、准确。

实施例14

如上述所述的基于树状图的数据相似度匹配装置，本实施例与其不同之处在于，所述语义距离相似度计算单元4中，所述相似度计算公式为：

其中，sim3(i，j)为数据i与数据j的基于语义距离的相似度；DIS(i，j)为数据i与数据j在树状图中的最短路径的边数；Depth(T)为树状图的深度。

通过该公式可以迅速计算出相似度，提高计算效率，且计算方便、准确。

本实施例中，Depth(i)表示数据i在树状图中的深度，用Upper(i)表示数据i的双亲节点。设根节点为R，令根节点R的深度为1，即Depth(R)＝1，

则任一非根节点i在树状图中的深度公式为：

Depth(i)＝Depth(Upper(i))+1

对于树状图T的深度Depth(T)为：

Depth(T)＝Max(Depth(i))

即树状图的深度等于树中节点的最大深度，其中数据i为树状图T中的任一节点。

实施例15

如上述所述的基于树状图的数据相似度匹配装置，本实施例与其不同之处在于，所述语义密度相似度计算单元5中，所述相似度计算公式为：

其中，sim4(i，j)为数据i与数据j的基于语义密度的相似度；Width(i)、Width(j)分别为数据i、数据j的兄弟节点数目。

通过该公式可以迅速计算出相似度，提高计算效率，且计算方便、准确。

实施例16

如上述所述的基于树状图的数据相似度匹配装置，本实施例与其不同之处在于，所述总相似度计算单元6中，所述总相似度计算公式为：

sim(i，j)＝α×sim1(i，j)+β×sim2(i，j)+γ×sim3(i，j)+δ×sim4(i，j)

α+β+γ+δ＝1

这样，通过该公式可以迅速计算出相似度，提高计算效率，且计算方便、准确。

其中，调节因子可以根据实际情况确定或调整。

实施例17

如上述所述的基于树状图的数据相似度匹配方法及装置，本实施例为将其应用于领域本体中的相似度匹配中。

领域本体的膨胀和异构的事实降低了知识共享和重用的效率。随着本体规模的扩大，数目的增多，信息交流已经成为当前亟待解决的首要课题，相似度和相关度计算是本体间有效信息交流的基础性工作，如何整合并且充分利用目前的本体资源都需要概念语义相似度和相关度计算的支持。因此，一个优良的相似度匹配算法将会极大的提高本体交流的效率，本实施例的核心是进一步改良基于本体的相似度算法。

(1)以信息量为基础的相似度计算：

其中Anc(i，j)表示概念节点i和j在层次网络中的最近共同祖先节点。

对概念c所包含的信息量I(c)定义如下：

I(c)＝-log(p(c))

其中p(c)为概念c的实例在文本集或语料库中出现的概率。

freq(c)＝∑count(w)，w∈words(c)

p(c)＝freq(c)/N

其中：freq(c)为概念c的出现频率，count(w)为概念w的出现次数，words(c)为概念c的子概念集合，包括直接或间接的子概念，w∈words(c)，N为文本集中出现的包含在本体中的总概念数。

(2)基于属性的相似度计算：

如果两个事物有很多属性相同，则说明这两个事物很相似，反之则相反。因此，基于属性的语义相似度的计算的基本原理也就是通过判断两个概念对应的属性集的相似程度。

用Attr(i)表示实例i的属性的值的个数，Attr(i)∩Attr(j)表示概念i和概念j所拥有的相同的属性的个数或概念i和概念j的某一个相同属性的相同的属性值的个数，Attr(i)∪Attr(j)表示概念i和概念j所有的拥有的属性的个数或概念i和概念j的某一个相同属性的所有属性值的个数。

得到基于属性的相似度计算公式：

(3)基于语义距离计算：语义距离是指在本体树中连接相应的两个节点的通路中的最短路径所经历的边数。用DIS(i，j)表示实例i与实例j在本体树中的最短路径的边数。

用Depth(i)表示实例i在本体树中的深度，用Upper(i)表示实例i的父节点。设根节点为R，令根节点R的深度为1，即Depth(R)＝1，

则任一非根节点i在本体树中的深度公式为：

Depth(i)＝Depth(Upper(i))+1

对于本体树T的深度Depth(T)为：

Depth(T)＝Max(Depth(i))

即本体树的深度等于树中节点的最大深度，其中概念i为树T中的任一节点。

(4)基于语义密度的计算：语义密度是指概念的兄弟节点的个数。在本体树中不同的分支节点的子节点的数量是不同的，如果在本体树中，某一局部的节点密度越大，说明对该节点的概念细化就越大，对应的语义相似度就越高。用Width(i)表示实例i的兄弟节点(实例)数目，语义密度对应的相似度公式为

(5)综合上面的基于距离的语义相似度的各个影响因素，提出基于距离的语义相似度的计算模型如下：

sim(i，j)＝α*sim1(i，j)+β*sim2(i，j)+Y*sim3(i，j)+δ*sim4(i，j)

其中α、β、Y和δ为对应的概念的信息重合度、属性相似程度、语义距离和语义密度的调节因子，其中α+β+Y+δ＝1。

本实施例中的方法实现了基于本体库的相似度计算算法层面上的优化。利用多种算法的有机结合让匹配的准确率得到提升，从而提升信息检索领域的工作的准确率。

以上所述仅为本发明的较佳实施例，对本发明而言仅仅是说明性的，而非限制性的。本专业技术人员理解，在本发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效，但都将落入本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨婉;李青海;黄超;潘宇翔;王平;张晓亭
技术所有人：广东精点数据科技股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。