基于有向有权图发现新词的方法与流程

文档序号:11950232阅读:来源:国知局
技术总结
本发明公开一种基于有向有权图发现新词的方法,本发明通过分词开源工具对语料进行分词,对分词的结果进行停用词过滤;根据分词结果建立词之间的关联关系以及权重,生成有向有权图;采用边权重门限阀值对有向有权图的边进行筛选,保留语料中同现频率比较高的词项搭配;筛选有向权重图中的孤立点以及自环,生成子图;根据子图中相邻节点间的边权重以及节点强度建立假设检验模型,从子图中筛选出可能的新词;根据词性标注规则对可能的新词进行筛选,生成最终的新词。本发明能够从语料库中准确地发现新词,减少了人工维护新词库的工作量,具有很好的可用性。

技术研发人员:郭泽豪;王振宇;李风环;戴瑾如
受保护的技术使用者:华南理工大学
文档号码:201610575404
技术研发日:2016.07.19
技术公布日:2016.12.07

当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1