基于机器学习的新词识别方法及终端设备与流程

文档序号:17131213发布日期:2019-03-16 01:15阅读:来源:国知局

技术特征:

技术总结
本发明提供了一种基于机器学习的新词识别方法及终端设备,包括:通过深度神经网络分词模型,对待处理文本进行分词处理,得到多个字符串;对多个字符串进行筛选,获得字符串长度在预设长度范围内的字符串作为候选字符串;针对候选字符串中的任一字符串,将字符串与预设停用词库中的前停词、后停词和广义停词进行比对;若字符串不属于广义停词、字符串的第一个字不属于前停词、以及字符串的最后一个字不属于后停词,则判断字符串为新词,将字符串收录至新词词库。本发明通过深度神经网络分词模型对待处理文本进行分词,通过筛选字符串的长度降低计算量,以及将字符串与预设停用词库进行比对,快速精准的获取新词。

技术研发人员:吴壮伟;陈志辉;钟宇;凌羽;赵小梅;满龙林
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2018.10.15
技术公布日:2019.03.15
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1