一种基于同义词词林语义相似度的文本聚类方法与流程

文档序号：20189560发布日期：2020-03-27 19:30阅读：来源：国知局

技术特征：

1.一种基于同义词词林语义相似度的文本聚类方法，其特征在于，包括步骤：

a1、获取原始文本集；所述原始文本集包括多篇不同类别的文本；

a2、对所述原始文本集中的每篇文本，进行预处理，得到每篇文本的文本特征词集；所述文本特征词集包括与所述文本特征词集对应的文本中的多个特征词项；

a3、针对所述每个文本特征词集，采用tf-idf方法获取每一特征词项在所属的文本中出现的频率的权值并存储在hashmap中；

a4、根据hashmap中每一文本特征词集中的特征词项权值，得到每一文本特征词集中的特征词项权值由高到低排列的第一序列，并获取与所述文本特征词集对应的文本的关键特征词；

所述文本的关键特征词：为所述第一序列中的前n个特征词项权重值所对应的特征词项；

其中，n为预先设定的第一序列中特征词项权值数量的百分比；

a5、基于所述原始文本集，获取k个初始聚类中心；其中，k为预先设定值；所述每个初始聚类中心均包括：所述原始文本集中的任意一篇文本；

a6、基于所述初始聚类中心和第二文本集，分别获取第二文本集中的每篇文本与每一初始聚类中心的的语义相似度；

其中，所述第二文本集中的文本包括：所述原始文本集中的k个初始聚类中心所对应k篇文本的其余文本；

a7、基于第二文本集中的文本与每个初始聚类中心的语义相似度，将所述第二文本集中的文本分别分配给与所述第二文本集中的文本相似度最大的初始聚类中心所属的类簇，获取k个类簇；

a8、获取所述k个类簇中的关键特征词权值的平均值；

a9、基于所述k个类簇中的关键特征词权值的平均值，获取新的聚类中心，并重复步骤a6至a9直至新的聚类中心相对稳定。

2.根据权利要求1所述的方法，其特征在于，所述预处理包括：分词、去除停用词、歧义消除。

3.根据权利要求2所述的方法，其特征在于，所述步骤a6包括：

a6-1、根据每一文本的文本特征词集，获取所述第二文本集中的每篇文本中的特征词项和初始聚类中心的特征词项；

a6-2、基于所述第二文本集中的每篇文本中的特征词项和初始聚类中心的特征词项以及预先设定的同义词词林树状结构，分别获取所述同义词词林树状结构中与所述第二文本集中的每篇文本中的特征词项所对应的编码和所述同义词词林树状结构中与所述初始聚类中心的特征词项所对应的编码；

其中，所述同义词词林树状结构包括具有多个分支层的多层结构和多个树状结构；

所述每层结构中均具有多个词语项；

所述多个词语项包括：多个特征词项；

所述词语项均具有编码；

所述编码为识别具有编码的词语项在所述同义词词林树状结构中分支层位置和树状位置的编码；

a6-3、基于所述第二文本集中的文本中的特征词项和初始聚类中心的的特征词项在所述同义词词林结构中所对应的编码，获取所述特征词项在所述同义词词林中的分支层位置或树状位置；

a6-4、基于所述词语项在同义词词林中的分支层位置和/或树状位置或编码，获取所述所述第二文本集中的文本中的特征词项和初始聚类中心的的特征词项的相似度值；

a6-5、判断所述第二文本集中的文本中的特征词项和初始聚类中心的特征词项的相似度是否满足预先设定阈值；

a6-6、若满足，则利用tf-idf方法获取所述满足预先设定阈值的词语项在所述特征词项所属的文本中的权值；

a6-7、根据公式(1)和(2)，分别获取所述第二文本集中的每一篇文本中满足预先设定的阈值的特征值数据和初始聚类中心满足预先设定的阈值的特征值数据；

其中，|ai|,|aj|分别表示这两个集合中满足阈值条件的特征值数据；

a6-8、基于公式(3)获取第二文本集中的文本和初始聚类中心的相似度；

tsim(di,dj)＝tf×sim(di,dj)(3)；

其中tf为权值因子；

且

其中，di＝[(ti1,wi1),(ti2,wi2),…,(tim,wim)代表第二文本集中的第i个文本的向量；dj＝[(tj1,wj1),(tj2,wj2),…,(tjm,wjm)代表k个初始聚类中心中的第j个初始聚类中心的向量；

sim(di,dj)表示di,dj两个文本的余弦相似度。

4.根据权利要求3所述的方法，其特征在于，所述步骤a6-4步骤具体包括：

若文本中的特征词项和初始聚类中心的特征词项不在同义词词林相同树状位置上，则根据公式(4)获取所述所述第二文本集中的文本中的特征词项和初始聚类中心的的特征词项的相似度值；

wsim(w1,w2)＝g(4)；

其中g为常数；

若文本中的特征词项和初始聚类中心的特征词项在同义词词林相同树状位置上，并位于第二层分支，则根据公式(5)获取所述所述第二文本集中的文本中的特征词项和初始聚类中心的特征词项的相似度值；

其中，

其中，freq(w)＝∑count(w)，w为从特征词项w1所在的分支层到特征词项w2所在的分支层之间包含的词语项，∑count(w)为词语项的总数，n为w1和w2所在分支的全部词语项总数；b为第一系数；n代表分支层的节点总数；

若文本中的特征词项和初始聚类中心的特征词项在同义词词林相同树状位置上，并位于第三层分支，则根据公式(6)获取所述第二文本集中的文本中的特征词项和初始聚类中心的特征词项的相似度值；

其中，c为第二系数；

若文本中的特征词项和初始聚类中心的特征词项在同义词词林相同树状位置上，并位于第四层分支，则根据公式(7)获取所述所述第二文本集中的文本中的特征词项和初始聚类中心的特征词项的相似度值；

其中，d为第三系数；

若文本中的特征词项和初始聚类中心的特征词语项在同义词词林相同树状位置上，并位于第五层分支，则根据公式(8)获取所述第二文本集中的文本中的特征词项和初始聚类中心的特征词项的相似度值；

其中，e为第四系数；

若文本中的特征词项和初始聚类中心的特征词语项在同义词词林中所对应的编码相同，且所述编码具有第一预设标签时，则所述第二文本集中的文本中的特征词项和初始聚类中心的特征词项的相似度值为1；

若文本中的词语项和初始聚类中心的的特征词项在同义词词林中所对应的编码相同，且所述编码具有第二预先标签时，则所述第二文本集中的文本中的特征词项和初始聚类中心的特征词项的相似度值为f。

5.根据权利要求4所述的方法，其特征在于，

所述b为0.54，c为0.77，d为0.84，e为0.89，g为0.001，f为0.42。

6.根据权利要求5所述的方法，其特征在于，所述步骤a6-4中预先设定的阈值为0.7。

完整全部详细技术资料下载

当前第2页1 2 3