一种特定词汇的识别方法与流程

文档序号:14071043阅读:313来源:国知局

本发明属于词汇识别领域,特别是涉及一种待译文档中的特定词汇的识别方法。



背景技术:

在翻译工作中经常碰到一些特殊词汇的翻译问题。这些特殊词汇既不是传统的英文词汇,也不是传统的汉语拼音词汇。对其进行翻译时,如果遵照现有的传统翻译语料库,这些词汇都很难找到对应的符合原文意思的翻译。因此,不管是机器翻译,还是人工翻译,由于语料库的限制或者翻译人员的水平所限,都难免出现偏差。

一个翻译人员所熟知的例子就是对于“chiangkai-shek”的翻译。著名历史学教授王奇于2008年10月出版的《中俄国界东段学术史研究:中国、俄国、西方学者视野中的中俄国界东段问题》一书中,将蒋介石(采用韦氏拼音的原文为chiangkai-shek)翻译为“常凯申”;无独有偶,“mencius”曾经也被其他著名学者翻译成“门修斯”(原文意思应当为“孟子”)。可见,在翻译工作中对于此类词汇的处理,对于相关专家尚且是一个难题,更不用广大的普通翻译工作者和机器翻译工具了。

因此,这类特殊词汇的翻译也需要特殊处理,不能采用英译甚至硬译的形式。由于这类特殊词汇总量相对较少,一种可能的解决方案是,在翻译时,先跳过这类词汇,直接保留原文表达,得到一个初步的翻译结果,然后再对其中的特殊词汇进行识别以便后期处理;或者,在翻译之前,就识别出其中的特殊词汇,进行重点标注等处理,避免出现上述翻译错误。这种专门的处理方式降低了文档的翻译速度和质量,而且专门为少量的特殊词汇进行人工处理也费时费力。



技术实现要素:

针对上述问题,本发明提出了一种特殊词汇的识别方法,该方法可以准确识别出待译文档中的特殊词汇,以避免翻译错误。

这里所说的特殊词汇,主要是指既不是传统英文单词,也不构成汉语拼音方案的词汇。

这里所述的“传统”英文单词,是指常规语言学习中常见的单词,例如,广州的常规英文单词为“guangzhou”,或者说,还有相当部分人能够知晓“canton”,但是由于历史原因,单词“kwangchow”,“kuang-chou”作为地名准确的翻译也应当是“广州”,但是,对于大部分人而言,这2个单词都是“非传统”的单词。

同样的,对于“maotse-tung”“iching”“chunghwa”均不是一个满足汉语拼音方案的词汇,也属于特殊词汇。

发明人通过大量的统计研究发现,大部分特殊词汇都为名词,包括地名,人名,机构名称等。因此,将特殊词汇的识别范围首先限定在名词上,符合实际工作需要。

因此,本发明所提出识别方法,首先包括如下步骤:

对所述待译文件进行切分,识别出其中的名词,将所述识别出的所有名词按照其在所述待译文件中的位置顺序存储在一个有序列表中。

关于对待译文件进行切分并识别出其中的名词,本领域存在多种常见的算法。例如,将文件首先切分为句子,再通过对句子进行语义分析,包括句子成分分析,识别出其中各个结构部分,例如主谓宾等,再从宾语部分寻找名词;或者,识别出其中的介词部分,在介词之外的其他特定位置识别出名词,例如主语等;再或者,通过分析不同字词之间的连接度,通过连接度是否超过一定阈值来判断连接字词是否是名词或者连接字词前后的字词是否是名词,或者直接通过词典、词库、语料库查询是否属于名词,等等。在此不再赘述。

识别出名词之后,并不是所有的名词都是特殊词汇,因此,可以进行一定的预处理,筛选出潜在的特殊词汇,从而减少后续工作量。

具体来说,可以采取如下预处理手段:

判断所述名词是否包含拉丁字母,如果不包含,则该名词无需存储。

如果包含,则继续判断该名词是否符合汉语拼音方案,如果符合汉语拼音方案,则该名词无需存储。

经过上述预处理之后的名词序列表集合中的名词,都是潜在的可能特殊词汇,进入下一步分析:依次读取所述有序列表中的名词,对该名词进行语义分析,以确定该名词是否属于特定词汇;

此时,本发明采取的手段和判断方法是:对该名词以字节为单位进行切分得到多个特征字段;如果所述多个特征字段中的至少一个满足预定条件,则确定该名词属于特定词汇。

在本发明中,首次提出了特定词汇的具体识别方式。首先,对名词以字节为单位进行切分,保证了所获得特征字段的最大程度的精确性;其次,根据字节单位的特征字段是否满足预定条件,也最大程度的识别了该名词的“特殊”性。

对于前者,对该名词以字节为单位进行切分得到的多个特征字段,由如下多个字段的其中之一或者多个组成:拉丁字母,空格,附加符号,连接符。

对于后者,所述满足预定条件,是指至少满足如下条件之一:

所述多个特征字段包含多个拉丁字母,同时包含连接符;

所属多个特征字段包含多个拉丁字母以及至少一个附加符号,所述附加符号位于至少一个拉丁字母的上部或者右上角。

经过上述步骤,本发明至少能识别诸如“maotse-tung”“kuang-chou”“chiangkai-shek”“ch'engt'ien-fang”之类的特殊词汇。

此处所指的“附加符号”,其重点在于“附加”,“附加”应当理解为,按照传统的拼写方式,不应当出现这种符号,例如,英文文献中一般不会出现各种送气符号(‘)(’),也不会在字母上部或者右上角或者其他位置有附加标记。

因此,本发明的附加符号并不限于所述送气符号(‘)(’),也不限于位于至少一个拉丁字母的上部或者右上角的位置的其他符号,其也可以出现在其他位置。

上述预定条件是特殊词汇最显著的特点之一。但是还是可能存在遗漏的情况,例如,前述提到的“kwangchow”,“iching”“chunghwa”,此时则需要进一步判断:如果所述多个特征字段均不满足所述预定条件,则继续如下识别步骤:

判断所述多个特征字段是否包含空格;

如果不包含空格,则判断所述多个特征字段组成的字符是否满足汉语拼音方案;如果不满足,则确定该名词属于特定词汇;

如果包含空格,则判断该空格前后的特征字段组成的两个字符中是否至少一个不满足汉语拼音方案,如果是,则确定该名词属于特定词汇。

根据此标准可知,“kwangchow”“chunghwa”虽然不包含空格,但是组成字符不符合汉语拼音方案;“iching”包含空格,但是空格之后的“ching”不满足汉语拼音方案,同时单独的i也不能构成拼音方案。

因此,本发明可以继续识别出此类特殊词汇。

可以看出,本发明提出的上述识别方法可以通过计算机程序自动实现。通过上述方法,可以准确识别出待译文档中的大部分特殊词汇。

在本发明的另一个方面,还提供了一种特定词汇识别系统,用于识别待译文件中的特定词汇,所述特定词汇包含至少一个拉丁字母;所述系统包括如下模块:

识别模块,对所述待译文件进行切分,识别并输出其中的名词;

预处理模块,对切分模块输出的名词进行预处理;所述预处理包括:判断该名词是否包含拉丁字母;以及判断该名词是否符合汉语拼音方案;

存储模块,将经过预处理模块处理后的名词按照其在所述待译文件中的位置顺序存储在一个有序列表中;

语义分析模块,依次读取所述有序列表中的名词,对该名词进行语义分析,以确定该名词是否属于特定词汇;

其特征在于,所述于语义分析模块包括字节切分模块,判断模块和结果输出模块,

所述字节切分模块对该名词以字节为单位进行切分得到多个特征字段;

所述判断模块,判断所述多个特征字段中的至少一个是否满足预定条件;

所述结果输出模块根据所述判断模块输出词汇的识别结果。

上述识别系统可以用于执行本发明前述提出的识别方法,并包含相应的功能模块,采用计算机硬件或者软件实现。采用软件实现时,可以通过一种计算机可读存储介质,其上存储有计算机可读存储指令,通过存储器和处理器执行所述指令,来实现上述方法。

需要指出的是,本发明所指出的特定词汇,不仅是指相对于传统词汇而言,而且是相对于翻译人员当前的认知程度而言。举例来说,对于“chiangkai-shek”的翻译,著名历史学教授王奇在翻译时,基于当时的认知程度而言,“chiangkai-shek”就是一个本发明定义的“特定词汇”。然而,经过文化广泛传播和时间的推移,到现在,即使对于本领域的普通技术人员来说,“chiangkai-shek”也已经不算是一个特定词汇了,而是一个普通词汇,因为相关的翻译语料库/翻译工具等,都已经将“chiangkai-shek”的正确翻译结果“蒋介石”存储并保存。对于“mencius”也是如此,现有的翻译工作都能够将其正确识别并翻译成“孟子”。

但是,正如初次翻译“chiangkai-shek”/“mencius”一样,由于历史原因,还有很多待译文档中包含大量类似的特定词汇。当这样的词汇被初次翻译时,翻译人员仍然可能因为没有任何参考而出现错误;同时,现有的翻译语料库/翻译工具也没有办法提前预知此类情况。鉴于这种情况,依然要依靠本发明的方法在翻译过程中不断识别特定词汇。

对于识别出的特定词汇,可以判断是否已经存在准确翻译;例如,可以建立一个特定词汇语料库,将现有的特定词汇翻译结果保存;同时将识别出的新的特定词汇不断加入,从而更新该特定词汇翻译语料库。

因此,采用本发明的方法和系统,能够准确识别出翻译过程中出现的大部分特定的非常规词汇,并且所述方法可以采用计算机软件和/或硬件系统实现自动识别输出。在实际翻译工作中采用本发明,可以避免相关特殊词汇的翻译错误,提高翻译工作的准确性。此外,可以在翻译过程中逐步建立非常规词汇库,并通过识别过程不断丰富该库的内容;从而通过不断更新的非常规词汇库,最终实现包括非常规词汇在内的所有待译文本的全自动翻译。

附图说明

图1是本发明所述识别方法的一种流程图。

图2是本发明所述识别系统的框架图。

具体实施方式

参照图1,本发明的提出的识别方法步骤如下:

s1,对所述待译文件进行切分,识别出其中的名词;

s2,判断当前名词是否包含拉丁字母;如果不包含,则该名词无需存储,进行下一个名词判断;否则进入步骤s3;

s3:判断该名词是否符合汉语拼音方案,如果符合汉语拼音方案,则该名词无需存储,进入下一个名词判断否则进入步骤s4:

s4:将所述识别出的所有名词按照其在所述待译文件中的位置顺序存储在一个有序列表中;

s5:依序读取有序列表中的名词;

s6:对该名词以字节为单位进行切分得到多个特征字段;

s7:判断所述多个特征字段中的至少一个是否满足预定条件;如果是,则输出该名词为特殊词汇;否则,读取下一个名词继续判断,直到序列表中所有名词均已识别完毕。

图1的执行步骤仅仅是本发明所述方法的其中一种具体实现方式。在实际实现中,所述步骤s2,步骤s3的顺序可以调换;可以在目前的顺序中,将s3移到步骤s4之后执行,也可以将步骤s2移到步骤s4之后;同样的,还可以将s2或者s3在步骤s7的判断结果为否之后在执行。本领域技术人员可以理解,上述不同的组合步骤可以分开或者合并执行,只要最终能够按照预定条件识别出特殊词汇即可。

例如,本发明的方法可以不在一开始进行步骤s3的判断,而在在执行到步骤“当前如果所述多个特征字段均不满足所述预定条件”之后,再继续如下识别步骤:

判断所述多个特征字段是否包含空格;

如果不包含空格,则判断所述多个特征字段组成的字符是否满足汉语拼音方案;如果不满足,则确定该名词属于特定词汇;

如果包含空格,则判断该空格前后的特征字段组成的两个字符中是否至少一个不满足汉语拼音方案,如果是,则确定该名词属于特定词汇。

图2则给出了本发明的识别系统,包括如下模块:

识别模块,对所述待译文件进行切分,识别并输出其中的名词;

预处理模块,对切分模块输出的名词进行预处理;所述预处理包括:判断该名词是否包含拉丁字母;以及判断该名词是否符合汉语拼音方案;

存储模块,将经过预处理模块处理后的名词按照其在所述待译文件中的位置顺序存储在一个有序列表中;

语义分析模块,依次读取所述有序列表中的名词,对该名词进行语义分析,以确定该名词是否属于特定词汇;

其特征在于,所述于语义分析模块包括字节切分模块,判断模块和结果输出模块,

所述字节切分模块对该名词以字节为单位进行切分得到多个特征字段;

所述判断模块,判断所述多个特征字段中的至少一个是否满足预定条件;

所述结果输出模块根据所述判断模块输出词汇的识别结果。

总体来说,采用本发明的方法和系统,能够准确识别出翻译过程中出现的大部分特定的非常规词汇,并且所述方法可以采用计算机软件和/或硬件系统实现自动识别输出。在实际工作中采用本发明,可以避免类似于本发明背景技术中提到的翻译错误,提高翻译工作的准确性;此外,可以在翻译过程中逐步建立非常规词汇库,并通过识别过程不断丰富该库的内容;从而通过不断更新的非常规词汇库,最终实现包括非常规词汇在内的所有待译文本的全自动翻译。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1