一种基于语义信息的机构名抽取方法和装置与流程

文档序号:12470418阅读:来源:国知局
技术总结
本发明公开了一种基于语义信息的机构名抽取方法和装置,该装置包括简称词典构建模块、词语聚类模块、CRF训练模块和CRF识别模块4个模块;该发明一种基于语义信息的机构名抽取方法和装置与现有技术相比,提出了基于语义信息的机构名抽取装置,并且提出了使用维基百科自动构建机构名词典的方法;使用了基于图的聚类算法进行词语聚类,并且使用词语的类别特征作为语义特征;改进了图聚类算法CW,解决了其存在的震荡问题;构建了包含大量未登录机构名的测试语料,该语料更具有说服力;而且本发明提出的装置与目前最好的开源工具相比,F1值提高了8%左右。

技术研发人员:毛立花;唐旋;崔乐乐
受保护的技术使用者:浪潮软件集团有限公司
文档号码:201610634682
技术研发日:2016.08.04
技术公布日:2016.12.21

当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1