基于大规模术语语料库对译稿自动碎片化分类的方法

文档序号:6386410阅读:183来源:国知局
专利名称:基于大规模术语语料库对译稿自动碎片化分类的方法
技术领域
本发明涉及文档划分领域,具体而言,涉及一种基于大规模术语语料库对译稿自动碎片化分类的方法。
背景技术
目前,现有技术中的语料库的生产一般包括以下几个过程:语料搜集:语料可以来自国家标准、行业标准及其他标准文献,也可以来自正式出版发行的辞典、百科全书、期刊、教材、报刊及其他工具书和权威性网站发布的相关文献;还可以通过与其他术语语料库联网、交换语料数据及记录载体等方式获得。规范化处理:按照已定的标准格式或规则,对从各种途径获取的语料进行初加工。例如语料的查重、文件格式的统一转换等。信息标注:对规范化处理后的原始语料,结合项目研究的近远期目标可采用里标语言进行篇章级、术语级等的信息标注。术语语料库是语料库中的一种,其按照一定的格式和要求生成。术语语料库的组织:为便于术语研究、语料交换和术语语料库系统开发,术语语料库中语料的存储和管理应尽量采用通用的分类法进行分类组织。通用的分类方法如:中国标准文献分类法(ccs)、国际标准分类法(ICS)、GB/T13745学科分类与代码等。由于大型语料库的规模非常大,术语语料数一般在百万到千万级别,大的甚至可以达到亿级,以术语语料为关键词在待译文稿中进行匹配要占用大量的存储空间而且花费的查询时间也非常多,实际效果非常不理想。由于大型语料库内的语料数量巨大,而且待译稿件是个无序的文本空间,不利于将语料库中的术语作为关键词在待译稿件中进行术语匹配,以确定待译稿件的碎片化分类。

发明内容
本发明旨在提供一种基于大规模术语语料库对译稿自动碎片化分类的方法,以解决上述不利于译稿碎片化分类方法的问题。 在本发明的实施例中,提供了 一种基于大规模术语语料库对译稿自动碎片化分类的方法,包括:提取译稿每段的各个关键词,建立每个段落与其包含的各个关键词的对应关系;将所述译稿的各个关键词逐个在术语语料库中匹配,将每个关键词匹配的术语的行业类别属性,作为该关键词在其对应的每个段所归属的行业类别属性;根据所述对应关系,确定每个段包含相同的最多的行业类别属性;将最多的行业类别属性对该段分类。优选地,判断所述译稿内的每段的词数;如果所述词数小于阈值,则与相邻的下一段合并作为新的一段;
直到所述新的一段的词数大于阈值。优选地,为每个段落建立ID ;建立属于同一个行业类别属性的多个段落的ID的集合,得到多个集合。优选地,所述提取关键词的过程包括:对译稿进行分词处理,去除停用词和不表示具体概念的词语,得到分词后的关键词集合。由于待译文稿的词语数要远小于术语语料库的词语数;而且术语语料库具备按字母顺序查找的功能,在其中进行关键词匹配不需要采用模式匹配算法,可以极大的减少查询时间。缩短对译稿分类的时间,提高分类效率。


此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:图1示出了实施例的流程图;图2示出了实施例的方法采用的系统框架结构图;图3示出了实施例中合并段的流程图。
具体实施例方式下面将参考附图并结合实施例,来详细说明本发明。参见图1,实施例的流程包括:Sll:提取译稿每段的各个关键词,建立每个段落与其包含的各个关键词的对应关系;S12:将所述译稿的各个关键词逐个在术语语料库中匹配,将每个关键词匹配的术语的行业类别属性,作为该关键词在其对应的每个段所归属的行业类别属性;S13:根据所述对应关系,确定每个段包含相同的最多的行业类别属性;S14:将最多的行业类别属性对该段分类。由于待译文稿的词语数要远小于术语语料库的词语数,经过分词处理后的词语数量还要大为减少;而且术语语料库具备按字母顺序查找的功能,在其中进行关键词匹配不需要采用模式匹配算法,可以极大的减少查询时间。缩短对译稿分类的时间,提高分类效率。优选地,参见图2,由系统中的分词处理模块提取关键词,包括:对译稿进行分词处理,去除停用词和不表示具体概念的词语,得到分词后的关键词集合。优选地,在实施例中,计算每个词语在文稿中的出现次数即词频,记录每个词语的段落属性,即其所属的段落号;建立待译文档的关键词列表,列表项包括:词语、词频、词语在段落属性、列表如表I所示:表I
权利要求
1.一种基于大规模术语语料库对译稿自动碎片化分类的方法,其特征在于,包括: 提取译稿每段的各个关键词,建立每个段落与其包含的各个关键词的对应关系; 将所述译稿的各个关键词逐个在术语语料库中匹配,将每个关键词匹配的术语的行业类别属性,作为该关键词在其对应的每个段所归属的行业类别属性; 根据所述对应关系,确定每个段包含相同的最多的行业类别属性; 将最多的行业类别属性对该段分类。
2.根据权利要求1所述的方法,其特征在于,判断所述译稿内的每段的词数; 如果所述词数小于阈值,则与相邻的下一段合并作为新的一段; 直到所述新的一段的词数大于阈值。
3.根据权利要求1或2所述的方法,其特征在于,为每个段落建立ID; 建立属于同一个行业类别属性的多个段落的ID的集合,得到多个集合。
4.根据权利要求1所述的方法,其特征在于,所述提取关键词的过程包括: 对译稿进行分词处理,去除停用词和不表示具体概念的词语,得到分词后的译稿的关键词集合。
全文摘要
本发明提供了一种基于大规模术语语料库对译稿自动碎片化分类的方法,包括对译稿进行分词处理,去除停用词,获得其关键词集合,提取译稿每段的各个关键词,建立每个段落与其包含的各个关键词的对应关系;将所述译稿的各个关键词逐个在术语语料库中匹配,将每个关键词匹配的术语的行业类别属性,作为该关键词在其对应的每个段所归属的行业类别属性;根据所述对应关系,确定每个段包含相同的最多的行业类别属性;将最多的行业类别属性对该段分类。由于译稿的词语数要远小于术语库的词语数;且术语库具备按字母顺序查找的功能,在其中进行关键词匹配不需要采用模式匹配算法,可以极大的减少查询时间。缩短对译稿碎片化的时间,提高碎片化效率。
文档编号G06F17/30GK103106245SQ201210591759
公开日2013年5月15日 申请日期2012年12月31日 优先权日2012年12月31日
发明者江潮 申请人:武汉传神信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1