中文分词系统的制作方法

文档序号：18740729发布日期：2019-09-21 01:44阅读：来源：国知局

技术总结
本发明公开了一种中文分词系统，其包括字向量提取模块、字向量分类模块及模型输出模块；字向量提取模块用于提取中文句子的字特征得到中文句子的字向量，字特征维度包括四种词位置分类，分别为：词的首字B、词的中间字M、词的尾字E、单字成词S；字向量分类模块，用于根据中文句子的字向量，得到每个字向量的各种词位置分类的概率；模型输出模块，用于对中文句子的每个字向量的各种词位置分类的概率根据上下文信息进行修订，得到中文句子的目标字向量模型，中文句子的目标字向量模型的维度为(m,4),m为中文句子的字数，每个字对应4个浮点值，分别表示对应四种词位置分类BMES的概率。本发明的中文分词系统，能降低中文分词的人工特征工程量，并能够捕捉更远上下文的语义，提高分词的准确率。

技术研发人员：王志伟
受保护的技术使用者：交通银行股份有限公司太平洋信用卡中心
技术研发日：2019.05.17
技术公布日：2019.09.20

完整全部详细技术资料下载

当前第3页1 2 3