1.一种资料集的同义词识别方法,其特征在于,包括:
获取包括N份资料的资料集,N为正整数;
分别提取每份资料中的所有关键词;
分别确定每个关键词的所有同生词,其中,任一个关键词的同生词为与该关键词同时出现在同一份资料中的关键词;
分别计算每个关键词与该关键词所对应的同生词之间的同生值;其中,同生值用来衡量任意两个关键词在同一份资料中出现的概率;
分别确定每个关键词的高值词群,其中,任一个关键词的高值词群为按照同生值从大到小的排列顺序,对该关键词的所有同生词进行排序后得到的词群;
对所述资料集中任意两个关键词之间是否为同义词进行识别,得到相应的同义词库,其中,若第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值,并且所述第一关键词和所述第二关键词之间的同生值为0,则将所述第一关键词和所述第二关键词识别为同义词;
并且,在所述分别确定每个关键词的高值词群的过程之后,还包括:
分别计算每个关键词的同生指数,其中,任一个关键词的同生指数为该关键词对应的高值词群中的所有同生词与该关键词之间的同生值的平均值。
2.根据权利要求1所述的资料集的同义词识别方法,其特征在于,任意两个关键词之间的同生值的计算公式为:
Eij=Cij2/(Ci×Cj);
式中,Cij表示所述资料集中同时出现关键词Ki和关键词Kj的资料的总份数,Ci表示所述资料集中出现所述关键词Ki的资料的总份数;Cj表示所述资料集中出现所述关键词Kj的资料的总份数;Eij表示所述关键词Ki和所述关键词Kj之间的同生值。
3.根据权利要求1所述的资料集的同义词识别方法,其特征在于,在所述第一关键词的高值词群与所述第二关键词的高值词群之间的相似度不小于所述预设相似度阈值的情况下,还包括:
若所述第一关键词和所述第二关键词之间的同生值不为0,则计算所述第一关键词的同生指数和所述第二关键词的同生指数之间的平均值,得到相应的平均同生指数;
计算所述平均同生指数与当前同生值之间的比值,其中,所述当前同生值为所述第一关键词和所述第二关键词之间的同生值;
判断所述比值是否不小于预设比值阈值,如果是,则将所述第一关键词和所述第二关键词识别为同义词,如果否,则将所述第一关键词和所述第二关键词识别为非同义词。
4.根据权利要求3所述的资料集的同义词识别方法,其特征在于,
所述预设相似度阈值为80%,所述预设比值阈值为10。
5.一种资料集的同义词识别系统,其特征在于,包括:
资料集获取模块,用于获取包括N份资料的资料集,N为正整数;
关键词提取模块,用于分别提取每份资料中的所有关键词;
同生词确定模块,用于分别确定每个关键词的所有同生词,其中,任一个关键词的同生词为与该关键词同时出现在同一份资料中的关键词;
同生值计算模块,用于分别计算每个关键词与该关键词所对应的同生词之间的同生值;其中,同生值用来衡量任意两个关键词在同一份资料中出现的概率;
高值词群确定模块,用于分别确定每个关键词的高值词群,其中,任一个关键词的高值词群为按照同生值从大到小的排列顺序,对该关键词的所有同生词进行排序后得到的词群;
同义词识别模块,用于对所述资料集中任意两个关键词之间是否为同义词进行识别,得到相应的同义词库,其中,若第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值,并且所述第一关键词和所述第二关键词之间的同生值为0,则将所述第一关键词和所述第二关键词识别为同义词;
并且,所述同义词识别系统还包括:
同生指数计算模块,用于在所述高值词群确定模块分别确定每个关键词的高值词群之后,分别计算每个关键词的同生指数,其中,任一个关键词的同生指数为该关键词对应的高值词群中的所有同生词与该关键词之间的同生值的平均值。
6.根据权利要求5所述的资料集的同义词识别系统,其特征在于,所述同生值计算模块在计算任意两个关键词之间的同生值时,相应的计算公式为:
Eij=Cij2/(Ci×Cj);
式中,Cij表示所述资料集中同时出现关键词Ki和关键词Kj的资料的总份数,Ci表示所述资料集中出现所述关键词Ki的资料的总份数;Cj表示所述资料集中出现所述关键词Kj的资料的总份数;Eij表示所述关键词Ki和所述关键词Kj之间的同生值。
7.根据权利要求5所述的资料集的同义词识别系统,其特征在于,所述同义词识别模块还包括:
平均值计算单元,用于在所述第一关键词的高值词群与所述第二关键词的高值词群之间的相似度不小于所述预设相似度阈值,并且,所述第一关键词和所述第二关键词之间的同生值不为0的情况下,计算所述第一关键词的同生指数和所述第二关键词的同生指数之间的平均值,得到相应的平均同生指数;
比值计算单元,用于计算所述平均同生指数与当前同生值之间的比值,其中,所述当前同生值为所述第一关键词和所述第二关键词之间的同生值;
比值判断单元,用于判断所述比值是否不小于预设比值阈值,如果是,则将所述第一关键词和所述第二关键词识别为同义词,如果否,则将所述第一关键词和所述第二关键词识别为非同义词。
8.根据权利要求7所述的资料集的同义词识别系统,其特征在于,
所述预设相似度阈值为80%,所述预设比值阈值为10。