一种科技论文语料库的构建方法与流程

文档序号:16609305发布日期:2019-01-14 21:27阅读:来源:国知局

技术特征:

技术总结
本发明涉及语言数据处理领域,提出一种科技论文语料库的构建方法,包括以下步骤:通过人工下载和爬虫抓取科技论文文档,构建论文集;导入论文集,转换论文格式,清洗冗余和错误信息,提取结构信息;对论文文本进行分词、去除停用词和过滤无语义段落;对所选领域的论文语料数据进行聚类,将研究主题相似的论文放进相同的簇中,构建分类类目主题;对聚类后的语料数据进行自分类测试,验证分类体系的准确性,确定最终该分类系统的类目数目;验证语料库的稳定性、扩展性和内容质量。本发明从语义的角度提出了较为完整的语料库验证体系,验证语料库的准确性、稳定性、扩展性和文本内容质量。

技术研发人员:路永和;郑梦慧
受保护的技术使用者:中山大学
技术研发日:2018.08.28
技术公布日:2019.01.11
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1