一种基于词频的数字出版物词汇抽取方法与流程

文档序号:13661329阅读:来源:国知局

技术特征:

技术总结
本发明公开了一种基于词频的数字出版物词汇抽取方法,其减少了按章节、页码抽取数字出版物中词汇所花费的计算量,便于各词汇在重新排版后实现快速无误地页码定位,提高了出版工作效率。此方法包括步骤:判断待出版的数字出版物的语言以及其阅读等级,根据判断结果调取对应的高频词典、中频词典和低频词典;将数字出版物的原始文档转换成XML格式文档,通过排版XML格式文档获得页码标记,形成带有章节、段落和页码标记的XML格式文件,并保存为文档副本;对文档副本进行词汇抽取,生成高频词汇表、中频词汇表、低频词汇表和新增词汇表:词汇抽取完成,数字出版物等待出版。

技术研发人员:孙继兰
受保护的技术使用者:北京工商大学
技术研发日:2017.10.11
技术公布日:2018.02.09
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1