一种中文分词方法与流程

文档序号:11250875阅读:来源:国知局

技术特征:

技术总结
中文分词是将连续的中文字符串按照一定的规范分割成词序列的过程。因为中文句子结构较为复杂,词间没有形式上的分界符,而且有时甚至需要联系下文的信息才能做出分词判断,所以现有中文分词方法在准确率方面还有待提高。该方法首先将待分词的中文文本输入到系统中作为序列A;第二,将序列A传递给词向量查找层,把输入的字符转化为词向量,得到序列B;第三,将序列B作为输入序列传递给基于注意力机制的双向长短期记忆神经网络,并随后通过一层隐藏层,得到输出序列C;第四,将序列C作为输入序列传递到条件随机场解码层,生成分词标记标签序列D;最后将序列D转化为用空格隔开的文本序列E。

技术研发人员:金宸;李维华;王顺芳;郭延哺;邓春云
受保护的技术使用者:云南大学
技术研发日:2017.06.12
技术公布日:2017.09.15
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1