一种基于相似度的实体共指消解方法与流程

文档序号：12748082阅读：来源：国知局

技术特征：

1.一种基于相似度的实体共指消解方法，其特征在于，其实现过程为，

首先对数据集中的数据进行预处理，形成数据对形式，这里的数据对为实体对；

设定权重，进行相似度值计算，并将相似度值与设定的阈值进行比较；

当达到指定阈值时，进行实体统一，即对所有达到阈值的数据对融合为一条数据；

当未达到指定阈值时，则进行实体汇总，将数据对数据汇总到一起，形成一个新的数据集，其中，汇总结果包括合并的数据和小于阈值的数据这两个部分。

2.根据权利要求1所述的一种基于相似度的实体共指消解方法，其特征在于，所述数据预处理的过程为：

以数据的描述对象作为实体，将数据集中的数据进行预处理，选择每一条数据中的k个字段作为key，整条数据记录作为value，形成<key，value>键值对形式，这里的k取值范围为小于组成该数据的数据项数目，然后计算数据集的笛卡尔积，将每一条数据进行两两配对，形成数据对形式。

3.根据权利要求1所述的一种基于相似度的实体共指消解方法，其特征在于，所述相似度值计算过程为：

对k个字段分别赋予对应的权重w，且每一个字段的w均不相同；

根据k个w_i就可以计算每个实体对的相似度，其公式为：

$<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>e</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>Σ</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>w</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>Σw</mi> <mi>i</mi> </msub> </mrow> </mfrac> <mo>,</mo> <mrow> <mo>(</mo> <mn>0</mn> <mo><</mo> <mi>i</mi> <mo><</mo> <mi>n</mi> <mo>;</mo> <mn>0</mn> <mo><</mo> <mi>j</mi> <mo><</mo> <mi>n</mi> <mo>;</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>></mo> <mn>0</mn> <mo>;</mo> <msub> <mi>w</mi> <mi>j</mi> </msub> <mo>></mo> <mn>0</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>$

在上述公式中，e_i和e_j表示实体对，当它们两个的k字段信息的内容越相近时，则两个实体越接近同一个实体。

4.根据权利要求1所述的一种基于相似度的实体共指消解方法，其特征在于，所述实体统一的过程为：对所有达到阈值的数据对进行实体统一，即把相同的实体对融合为一条数据，融合过程是将相同类别的实体对进行合并，形成一个实体统一数据集。

完整全部详细技术资料下载

当前第2页1 2 3