1.一种基于相似度的实体共指消解方法,其特征在于,其实现过程为,
首先对数据集中的数据进行预处理,形成数据对形式,这里的数据对为实体对;
设定权重,进行相似度值计算,并将相似度值与设定的阈值进行比较;
当达到指定阈值时,进行实体统一,即对所有达到阈值的数据对融合为一条数据;
当未达到指定阈值时,则进行实体汇总,将数据对数据汇总到一起,形成一个新的数据集,其中,汇总结果包括合并的数据和小于阈值的数据这两个部分。
2.根据权利要求1所述的一种基于相似度的实体共指消解方法,其特征在于,所述数据预处理的过程为:
以数据的描述对象作为实体,将数据集中的数据进行预处理,选择每一条数据中的k个字段作为key,整条数据记录作为value,形成<key,value>键值对形式,这里的k取值范围为小于组成该数据的数据项数目,然后计算数据集的笛卡尔积,将每一条数据进行两两配对,形成数据对形式。
3.根据权利要求1所述的一种基于相似度的实体共指消解方法,其特征在于,所述相似度值计算过程为:
对k个字段分别赋予对应的权重w,且每一个字段的w均不相同;
根据k个wi就可以计算每个实体对的相似度,其公式为:
在上述公式中,ei和ej表示实体对,当它们两个的k字段信息的内容越相近时,则两个实体越接近同一个实体。
4.根据权利要求1所述的一种基于相似度的实体共指消解方法,其特征在于,所述实体统一的过程为:对所有达到阈值的数据对进行实体统一,即把相同的实体对融合为一条数据,融合过程是将相同类别的实体对进行合并,形成一个实体统一数据集。