一种地名新词的发现方法与流程

文档序号:15636713发布日期:2018-10-12 21:33阅读:来源:国知局

技术特征:

技术总结
本发明涉及一种地名新词的发现方法,包括以下步骤:S1:构建原始文档集合:利用网络爬虫程序或RSS的方法从互联网中对网页文本进行爬取,并利用网页解析软件对爬取的文本进行解析,形成原始的文档集合;S2:预处理原始文档:对步骤S1中构建的原始文档集合中的文档进行预处理;S3:分词处理:采用基于字符串匹配的方法和概率统计相结合的方法进行中文分词处理,设计分词词典;S4:提取地名新词:利用步骤S3中生成的分词词典,对分词词典进行分类,并将词典进行分割,得到有益于处理的长度,然后提取出地名新词。利用互联网上容易获取的网页资源进行地名新词的发现,提高了发现新词汇的机会且有效提高新词发现的精度与准确率。

技术研发人员:李俊;孙海峰;徐忠建;朱必亮;冯建亮
受保护的技术使用者:江苏速度信息科技股份有限公司
技术研发日:2018.03.23
技术公布日:2018.10.12
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1