一种自由定制的中文预处理方法及其系统与流程

文档序号:13446218阅读:来源:国知局

技术特征:

技术总结
本发明涉及一种自由定制的中文预处理方法,包括:步骤1)从配置文件中读取参数列表并记录;步骤2)判断输入是否为一个文件夹;步骤3)经过处理后,生成分词后的结果和带词频的结果,分别保存在用户指定的seg文件夹、tf文件夹;生成一个全局词典,保存在outputdir文件夹下的df文件夹中;步骤4)根据df文件夹中的全局词典和dfTheshold阈值,生成全局停用词词典,将其保存在df文件夹中;判断每个文件或子文件中的每个词是否在停用词词典中,将滤除后的文件或子文件保存到remove_words文件夹中;步骤5)判断步骤2)的输入是否为单文件且多进程;当步骤2)输入为单个文件且多进程时,合并remove_words文件夹中的子文件成一个大文件,并将这些子文件删除;否则,程序结束。

技术研发人员:何峻青;涂曼姝;赵学敏;颜永红
受保护的技术使用者:中国科学院声学研究所
技术研发日:2017.09.14
技术公布日:2018.01.12
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1