一种基于相似度的实体共指消解方法与流程

文档序号:12748082阅读:来源:国知局

技术特征:

1.一种基于相似度的实体共指消解方法,其特征在于,其实现过程为,

首先对数据集中的数据进行预处理,形成数据对形式,这里的数据对为实体对;

设定权重,进行相似度值计算,并将相似度值与设定的阈值进行比较;

当达到指定阈值时,进行实体统一,即对所有达到阈值的数据对融合为一条数据;

当未达到指定阈值时,则进行实体汇总,将数据对数据汇总到一起,形成一个新的数据集,其中,汇总结果包括合并的数据和小于阈值的数据这两个部分。

2.根据权利要求1所述的一种基于相似度的实体共指消解方法,其特征在于,所述数据预处理的过程为:

以数据的描述对象作为实体,将数据集中的数据进行预处理,选择每一条数据中的k个字段作为key,整条数据记录作为value,形成<key,value>键值对形式,这里的k取值范围为小于组成该数据的数据项数目,然后计算数据集的笛卡尔积,将每一条数据进行两两配对,形成数据对形式。

3.根据权利要求1所述的一种基于相似度的实体共指消解方法,其特征在于,所述相似度值计算过程为:

对k个字段分别赋予对应的权重w,且每一个字段的w均不相同;

根据k个wi就可以计算每个实体对的相似度,其公式为:

<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>e</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>&Sigma;</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>w</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&Sigma;w</mi> <mi>i</mi> </msub> </mrow> </mfrac> <mo>,</mo> <mrow> <mo>(</mo> <mn>0</mn> <mo>&lt;</mo> <mi>i</mi> <mo>&lt;</mo> <mi>n</mi> <mo>;</mo> <mn>0</mn> <mo>&lt;</mo> <mi>j</mi> <mo>&lt;</mo> <mi>n</mi> <mo>;</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>&gt;</mo> <mn>0</mn> <mo>;</mo> <msub> <mi>w</mi> <mi>j</mi> </msub> <mo>&gt;</mo> <mn>0</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

在上述公式中,ei和ej表示实体对,当它们两个的k字段信息的内容越相近时,则两个实体越接近同一个实体。

4.根据权利要求1所述的一种基于相似度的实体共指消解方法,其特征在于,所述实体统一的过程为:对所有达到阈值的数据对进行实体统一,即把相同的实体对融合为一条数据,融合过程是将相同类别的实体对进行合并,形成一个实体统一数据集。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1