技术总结
本发明涉及一种高效的新术语识别系统和方法,其系统包括对输入文本库RCorpus中的每篇文档进行分词,形成文本词序列模块A;对分词后的文本库TCorpus中的每篇文档词语序列进行新术语识别模块B;对识别的新术语进行验证模块C;其方法包括以下步骤:第一步:文本词序列模块A对输入文本库RCorpus中的每篇文本进行分词,形成文本词序列;第二步:新术语识别模块B对分词后的文本库TCorpus中的每篇文本词语序列进行新术语识别;第三步:验证模块C对识别的新术语进行验证;本发明提出了一种精度高、召回率高的新术语识别方法和系统。新术语的识别精度为93.8%。
技术研发人员:符建辉;王卫明;曹阳
受保护的技术使用者:镇江诺尼基智能技术有限公司
文档号码:201510845390
技术研发日:2015.11.27
技术公布日:2017.06.09