1.一种文本标签的确定方法,其特征在于,所述方法包括:
将分词后的预设语料库作为基于语义的词转换向量工具用于训练词向量模型的训练语料库,得到词向量训练模型,所述词向量训练模型为将词转换为词向量的模型;
根据所述词向量训练模型将语料库中文本对应的标签词转换对应的标签词向量;
根据预设聚类算法对语料库中所有标签词对应的标签词向量进行聚类,得到多个标签组,每个标签组对应一类标签词向量;
为每个标签组分配一个聚类词,确定聚类词与所述标签词的对应关系;
根据标签词与聚类词的对应关系,将语料库中每个文本的标签词对应的聚类词确定为对应文本的新的标签词。
2.根据权利要求1所述的方法,其特征在于,所述预设聚类算法为K均值K-means聚类算法,所述根据预设聚类算法对语料库中所有标签词对应的标签词向量进行聚类,得到多个标签组包括:
从所有标签词向量中随机选择预设数量的标签词向量确定为第一聚类质心向量,每个第一聚类质心向量对应一个第一标签组;
将标签词向量归类到与标签词向量距离最近的第一聚类质心向量对应的第一标签组中,得到多个第一标签组;
计算每个第一标签组中包含的所有标签词向量的均值向量,得到第二聚类质心向量;
计算所有标签词向量分别与对应的第一聚类质心向量的第一距离总和以及与对应的第二聚类质心向量的第二距离总和;
若所述第二距离总和与第一距离总和的差值小于等于预设阈值,则将多个第一标签组确定为聚类后的多个标签组。
3.根据权利要求2中所述的方法,其特征在于,所述方法还包括:
若所述第二距离总和与第一距离总和的差值大于预设阈值,则以第二聚类质心向量作为新的第一聚类质心向量从执行将标签词向量归类到与标签词向量距离最近的第一聚类质心向量对应的第一标签组中,得到多个第一标签组开始,继续执行后续步骤,直至确定聚类后的多个标签组为止。
4.根据权利要求2所述的方法,其特征在于,在计算每个第一标签组中包含的所有标签词向量的均值向量,得到第二聚类质心向量之后,所述方法还包括:
以第二聚类质心向量作为新的第一聚类质心向量迭代执行将标签词向量归类到与标签词向量距离最近的第一聚类质心向量对应的第一标签组中,得到多个第一标签组以及计算每个第一标签组中包含的所有标签词向量的均值向量,得到第二聚类质心向量;
当迭代的次数超过预设次数,则将最后一次归类得到的多个第一标签组确定为聚类后的多个标签组。
5.根据权利要求3或4所述的方法,其特征在于,所述为每个标签组分配一个聚类词包括:
计算每个标签组中所有标签词向量的均值向量;
将每个标签组中与对应的均值向量距离最小的标签词向量确定为聚类词向量;
将所述聚类词向量对应的标签词分配给对应标签组,作为对应标签组的聚类词。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在对预设语料库分词前,判断用于分词的分词器对应的预设词典中是否包含预设语料库中所有的标签词;
若不包含所有的标签词,则将未包含的标签词添加到预设词典中。
7.一种文本标签的确定装置,其特征在于,所述装置包括:
模型获取单元,用于将分词后的预设语料库作为基于语义的词转换向量工具用于训练词向量模型的训练语料库,得到词向量训练模型,所述词向量训练模型为将词转换为词向量的模型;
转换单元,用于根据所述词向量训练模型将语料库中文本对应的标签词转换对应的标签词向量;
聚类单元,用于根据预设聚类算法对语料库中所有标签词对应的标签词向量进行聚类,得到多个标签组,每个标签组对应一类标签词向量;
分配单元,用于为每个标签组分配一个聚类词,确定聚类词与所述标签词的对应关系;
第一确定单元,用于根据标签词与聚类词的对应关系,将语料库中每个文本的标签词对应的聚类词确定为对应文本的新的标签词。
8.根据权利要求7所述的装置,其特征在于,所述聚类单元包括:
第一确定模块,用于所述预设聚类算法为K均值K-means聚类算法,从所有标签词向量中随机选择预设数量的标签词向量确定为第一聚类质心向量,每个第一聚类质心向量对应一个第一标签组;
归类模块,用于将标签词向量归类到与标签词向量距离最近的第一聚类质心向量对应的第一标签组中,得到多个第一标签组;
第一计算模块,用于计算每个第一标签组中包含的所有标签词向量的均值向量,得到第二聚类质心向量;
第二计算模块,用于计算所有标签词向量分别与对应的第一聚类质心向量的第一距离总和以及与对应的第二聚类质心向量的第二距离总和;
第二确定模块,用于若所述第二距离总和与第一距离总和的差值小于等于预设阈值,则将多个第一标签组确定为聚类后的多个标签组。
9.根据权利要求8中所述的装置,其特征在于,所述装置还包括:
第二确定单元,用于若所述第二距离总和与第一距离总和的差值大于预设阈值,则以第二聚类质心向量作为新的第一聚类质心向量从执行将标签词向量归类到与标签词向量距离最近的第一聚类质心向量对应的第一标签组中,得到多个第一标签组开始,继续执行后续步骤,直至确定聚类后的多个标签组为止。
10.根据权利要求8所述的装置,其特征在于,所述装置还包括:
迭代单元,用于在计算每个第一标签组中包含的所有标签词向量的均值向量,得到第二聚类质心向量之后,以第二聚类质心向量作为新的第一聚类质心向量迭代执行将标签词向量归类到与标签词向量距离最近的第一聚类质心向量对应的第一标签组中,得到多个第一标签组以及计算每个第一标签组中包含的所有标签词向量的均值向量,得到第二聚类质心向量;
第三确定单元,用于当迭代的次数超过预设次数,则将最后一次归类得到的多个第一标签组确定为聚类后的多个标签组。