一种基于嵌入式表示的自适应中文分词方法与流程

文档序号:11230436阅读:来源:国知局

技术特征:

技术总结
本发明实施例公开了一种基于嵌入式表示的自适应中文分词方法。属于信息处理领域。该方法的特征包括:分词网络和字符语言模型共享一个字符的嵌入式表示层。字符的嵌入式表示,一方面通过基于卷积神经网络的分词网络,得到待分词文本的隐多粒度局部特征;再经过一个前向网络层,得到字符的标签概率;最后应用标签推断,得到句子级别上的最优分词结果。另一方面,我们随机抽取未标注的文本,通过一个基于长短期记忆单元(LSTM)循环神经网络的字符语言模型,预测该字符下一个位置的字符,对分词网络进行约束;本发明通过字符语言模型建模中文不同领域文本中的字符共现关系,并通过嵌入式表示将信息传递给分词网络,使得分词的领域迁移能力得到提升,具有很大的实用价值。

技术研发人员:李思;包祖贻;徐蔚然;高升
受保护的技术使用者:北京邮电大学
技术研发日:2017.04.24
技术公布日:2017.09.08
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1