一种术语识别抽取方法及系统与流程

文档序号:14950653发布日期:2018-07-17 22:28阅读:3414来源:国知局

本发明属于语言识别技术领域,尤其涉及一种术语识别抽取方法及系统。



背景技术:

实际工作中发现,本地化译员在翻译文档时需要对文档中的专业术语进行手工筛选,然后再对其挨个进行专业翻译,工作过程中发现该操作不近程序繁琐而且耗时耗力,最重要的是要做很多重复性工作。现有技术本地化译员工作中,翻译效率低;准确性差。

综上所述,现有技术存在的问题是:现有技术最主要的缺陷是在术语提取时,存在相邻术语的组合是一个整体术语的情况,在处理过后就把这个大的术语拆成了多个术语,但实际是一个术语,缺陷的原因在于只是对分词之后的单个词汇做了术语分析,没有考虑临近词之间的术语关系,难点在于通过计算临近词汇的关系来判定相邻词汇的组合是否是术语。而且现有技术不能通过术语提取算法,通过计算相邻术语权重的方式来判定相邻术语组成的字符串是否是一个术语。



技术实现要素:

针对现有技术存在的问题,本发明提供了一种术语识别抽取方法及系统。

本发明是这样实现的,一种术语识别抽取方法,所述术语识别抽取方法包括:对术语进行多次识别抽取;识别出多术语组合术语;匹配出翻译译文;并进行术语提取。

进一步,所述专业术语识别抽取包括:

a)准备:整理各语种各领域术语库、对应的翻译内容、语种及领域:

b)领域的划分;

c)操作领域和分词,通过词性标注算法对分词进行检测(分词之后对每个词通过词性标注算法进行词性标注,去除数词、量词、副词、介词、连词、助词、叹词等词性的词。),判断该分词是术语概率有多少,如果低,直接忽略,概率高的则保留;

d)根据步骤c)产生的词汇,与所述语种、领域的术语库进行匹配(拿到产生的词汇挨个去术语库匹配查询是否存在),如果匹配,认定为术语,剩余的词汇进行下一步操作;

e)步骤d)剩余的词汇,通过非术语词汇表,进行匹配过滤(拿到剩余的词汇挨个去非术词汇表查询是否存在,如果存在,那该词汇不属于术语),如果词汇存在非术语词汇表,认定该词汇不是术语;

f)与术语库、非术语库的匹配,确定出两组数据:术语、非术语。

g)将文档的术语、非术语数据通过术语提取方法重新再进行一次术语的提取。

进一步,术语提取方法进一步包括:

1)把给定的文本t按照完整句子进行分割(按照标点符号进行断句分割),t=[s1,s2,...,sm];

2)对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词(分词之后对每个词通过词性标注算法进行词性标注,去除数词、量词、副词、介词、连词、助词、叹词等词性的词。),si=[ti,1,ti,2,...,ti,m],其中ti,j∈sj是保留后的候选术语;

3)构建候选术语图g=(v,e),其中v为节点集,由生成的所述候选术语组成;然后采用共现关系构造任两点之间的边(通过共现关系以当前词为中心构造出一个窗口,比如左右各移动两个词的距离,那这个窗口里面就存在了5个词),两个节点之间存在边仅当它们对应的词汇在长度为k的窗口中共现,k表示窗口大小,最多共现k个单词;

4)根据公式并结合庞大的语料库,迭代传播各节点的权重(在每个词的窗口内,依次计算该词跟窗口内每个词的权重关系),直至收敛;

5)对节点权重进行倒序排序(按照权重大小进行倒叙排序,权重大的排在前面),得到最重要的t个单词,作为候选术语;

6)由5)得到最重要的t个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词术语;加入术语序列;

7)确定出两组数据:术语、非术语;

8)对两次术语处理产生的术语数据进行整合,排重,然后合并(两次术语处理之后得到两组结果,将两组结果合并,去除重复词语只留一个),最后得到所有术语。

本发明的另一目的在于提供一种所述的术语识别抽取方法的语言翻译系统。

本发明为改善本地化译员工作,提高翻译效率,现提供一种术语识别抽取方法,程序自动对文档进行分析,抽取专业术语,快速匹配出翻译译文,为本地化译员提高了工作效率,以及翻译的准确性,以前译员翻译一篇文章需要3天,现在1天就可以满足。

本发明对术语进行多次识别抽取,提高准确率。本发明能准确识别多术语组合术语。

附图说明

图1是本发明实施例提供的术语识别抽取方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

现有技术最主要的缺陷是在术语提取时,存在相邻术语的组合是一个整体术语的情况,在处理过后就把这个大的术语拆成了多个术语,但实际是一个术语;而且现有技术不能通过术语提取算法,通过计算相邻术语权重的方式来判定相邻术语组成的字符串是否是一个术语。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示,本发明实施例提供的术语识别抽取方法,包括:

一)专业术语识别抽取:

a)准备:整理各语种各领域术语库、对应的翻译内容、语种及领域:

例如:计算机技术领域的术语:苹果,对应的翻译内容可能为:appletechnolegy。

b)食品领域的属于:苹果,对应的翻译内容可能为:applefruit;

程序处理文档,对文档中的文本内容进行分词处理(剔除各种标点符号并分词)。

c)操作领域和分词,通过词性标注算法对分词进行检测,判断该分词是术语概率有多少,如果低,直接忽略,概率高的则保留。

d)根据步骤c)产生的词汇,与该语种、领域的术语库进行匹配,如果匹配上的,认定其为术语,剩余的词汇进行下一步操作。

e)步骤d)剩余的词汇,通过非术语词汇表,进行匹配过滤,如果词汇存在非术语词汇表,则认定该词汇不是术语。

f)经过前几步骤与术语库、非术语库的匹配可以确定出两组数据:术语、非术语;

g)将文档的数据通过术语提取算法重新再进行一次术语的提取,步骤如下:

术语提取算法:

1)把给定的文本t按照完整句子进行分割,即t=[s1,s2,...,sm]。

2)对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,即si=[ti,1,ti,2,...,ti,m],其中ti,j∈sj是保留后的候选术语。

3)构建候选术语图g=(v,e),其中v为节点集,由②生成的候选术语组成,然后采用共现关系构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为k的窗口中共现,k表示窗口大小,即最多共现k个单词。

4)根据上面公式,并结合庞大的语料库,迭代传播各节点的权重,直至收敛。

5)对节点权重进行倒序排序,从而得到最重要的t个单词,作为候选术语。

6)由5)得到最重要的t个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词术语。例如,文本中有句子“matlabcodeforplottingambiguityfunction”,如果“matlab”和“code”均属于候选术语,则组合成“matlabcode”加入术语序列。

7)可以确定出两组数据:术语、非术语,其中术语组中包含了多个词语或者多个术语组成的术语。

8)对两次术语处理产生的术语数据进行整合,排重,然后合并,最后得到本篇文章中的所有术语。

下面结合具体实施例对本发明作进一步描述。

本发明实施例提供的术语识别抽取方法,包括:

1、测试数据:程序员是从事程序开发、维护的专业人员。一般将程序员分为程序设计人员和程序编码人员,但两者的界限并不非常清楚,特别是在中国。软件从业人员分为初级程序员、高级程序员、系统分析员和项目经理四大类。

2、首先对该段话进行分词:[程序员,是,从事,程序,开发,、,维护,的,专业,人员,。,一般,将,程序员,分为,程序,设计,人员,和,程序,编码,人员,,,但,两者,的,界限,并,不,非常,清楚,,,特别,是,在,中国,。,软件,从业,人员,分为,初级,程序员,、,高级,程序员,、,系统,分析员,和,项目,经理,四,大/a,类,。]。

3、去除标点符号、形容词、动词、感叹词等。

4、处理之后剩余词组为:[程序员,英文,程序,开发,维护,专业,人员,程序员,程序,设计,人员,程序,编码,人员,界限,特别,中国,软件,人员,分为,程序员,高级,程序员,系统,分析员,项目,经理]。

5、通过本发明的术语提取算法,计算相邻词的权重,先进行第一轮术语的提取。

6、提取之后的数组则为:[专业人员,程序设计人员,程序编码人员,中国软件人员,高级程序员,系统分析员,项目经理]。

7、将剩余的词汇与术语表进行匹配,剔除非术语,这样就完成了对术语的提取。

8、最后得到的结果为:[程序员,英文,程序,专业人员,程序设计人员,程序编码人员,中国软件人员,高级程序员,系统分析员,项目经理]。

9、再对第4步产生的词组进行与术语库匹配的操作,匹配出术语,拿到该术语与第8步产生的术语词组进行排重合并,得到最后的术语结果。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1