1.一种基于专用语料库字向量的无监督中文分词方法,其特征在于,所述方法包括如下步骤:
步骤一、预处理语料库,得到在语料库上的每个字对应的字向量;
步骤二、根据所述字向量计算出字间粘连度;
步骤三、计算出最佳分词路径实现无监督中文分词。
2.根据权利要求1所述的基于专用语料库字向量的无监督中文分词方法,其特征在于,所述步骤一还包括,将语料库预处理,将每个字分隔开,利用开源库gensim中的word2vec模型来进行字向量的训练,由此得到在语料库上的每个字对应的字向量。
3.根据权利要求1所述的基于专用语料库字向量的无监督中文分词方法,其特征在于,所述根据所述字向量计算出字间粘连度包括通过一定窗范围内的多个字向量余弦距离综合计算出一个字间粘连度。
4.根据权利要求3所述的基于专用语料库字向量的无监督中文分词方法,其特征在于,所述通过一定窗范围内的多个字向量余弦距离综合计算出一个字间粘连度,具体为,对于一个字间隔,给定窗宽度2L,则字间隔前后L个字共可求得L个字向量的余弦距离,对这L个余弦距离进行加权求和平均的操作,得到该字间隔对应的字间粘连度。
5.根据权利要求4所述的基于专用语料库字向量的无监督中文分词方法,其特征在于,所述计算字间粘连度具体过程如下:
Q={q0,q1,…,qn}为粘连度向量,qi表示第i个字符和第i+1个字符之间的粘连度,qi的具体计算方法如下:
di,j=cos<vi,vj> (2)
其中,a∈(0,1)为距离衰减系数,当两个字距离较远时,将他们的相似度进行衰减;vi表示句子中第i个字符的字向量,vj表示句子中第j个字符的字向量,di,j表示vi与vj的余弦距离,L为语句中假设的最长语义依赖距离。
6.根据权利要求1所述的基于专用语料库字向量的无监督中文分词方法,其特征在于,所述计算出最佳分词路径实现无监督中文分词,具体为,
设Q为对每一个字间隔求出的字间粘连度qi组成的向量,S为标记字间隔是否为分词间隔的分割标记si组成向量,若待分词的语句长度为n,
则两个向量的长度均为n-1,其中qi为字间粘连度,qi∈[0,1];si为分割标记,si∈{0,1},w为最大词长,则最佳分词路径的计算如下:
目标函数:maxS QS (3)
约束条件:
根据上述公式(3)、(4)求出最佳分词路径即分割向量S,从而实现无监督中文分词。