中文分词系统的制作方法

文档序号：18740729发布日期：2019-09-21 01:44阅读：来源：国知局

技术特征：

1.一种中文分词系统，其特征在于，其包括字向量提取模块、字向量分类模块及模型输出模块；

所述字向量提取模块，用于提取中文句子的字特征得到中文句子的字向量，字特征维度包括四种词位置分类，分别为：词的首字B、词的中间字M、词的尾字E、单字成词S；

所述字向量分类模块，用于根据中文句子的字向量，得到每个字向量的各种词位置分类的概率；

所述模型输出模块，用于对中文句子的每个字向量的各种词位置分类的概率根据上下文信息进行修订，得到中文句子的目标字向量模型，中文句子的目标字向量模型的维度为(m,4),m为中文句子的字数，每个字对应4个浮点值，分别表示对应四种词位置分类BMES的概率。

2.根据权利要求1所述的中文分词系统，其特征在于，

所述字向量提取模块使用word2vec算法的CBOW模型提取中文句子的字特征得到中文句子的字向量。

3.根据权利要求2所述的中文分词系统，其特征在于，

所述字向量分类模块，将中文句子的字向量的字特征输入到BiLSTM网络中，得到每个字向量的各种词位置分类的概率。

4.根据权利要求3所述的中文分词系统，其特征在于，

使用word2vec对所述字向量提取模块得到的中文句子的字向量进行字嵌入，使字向量的字特征维度增加；用字特征维度增加后的字向量的字特征输入到BiLSTM网络中，对中文句子的字向量进行分类，得到每个字向量的各种词位置分类的概率。

5.根据权利要求4所述的中文分词系统，其特征在于，

所述模型输出模块，通过对BiLSTM网络输出的隐藏层中加一个CRF层，对中文句子的每个字向量的各种词位置分类的概率根据上下文信息进行修订，得到中文句子的目标字向量模型。

6.根据权利要求5所述的中文分词系统，其特征在于，

所述模型输出模块，对BiLSTM网络输出的隐藏层中加一个线性层，最后加一个CRF层，对中文句子的每个字向量的各种词位置分类的概率根据上下文信息进行修订，得到中文句子的目标字向量模型。

完整全部详细技术资料下载

当前第2页1 2 3