技术总结
本发明公开了一种基于语义信息的机构名抽取方法和装置,该装置包括简称词典构建模块、词语聚类模块、CRF训练模块和CRF识别模块4个模块;该发明一种基于语义信息的机构名抽取方法和装置与现有技术相比,提出了基于语义信息的机构名抽取装置,并且提出了使用维基百科自动构建机构名词典的方法;使用了基于图的聚类算法进行词语聚类,并且使用词语的类别特征作为语义特征;改进了图聚类算法CW,解决了其存在的震荡问题;构建了包含大量未登录机构名的测试语料,该语料更具有说服力;而且本发明提出的装置与目前最好的开源工具相比,F1值提高了8%左右。
技术研发人员:毛立花;唐旋;崔乐乐
受保护的技术使用者:浪潮软件集团有限公司
文档号码:201610634682
技术研发日:2016.08.04
技术公布日:2016.12.21