本发明涉及翻译技术领域,具体是一种PDA翻译系统的中文分词方法。
背景技术:
在翻译系统中,词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。
以中文翻译为其它语言为例,拼音语言文字各单词之间可通过空格进行区分,而中文有由于句子中每个字都是直接连接在一起的,因此要对输入的中文句子进行分词。
中文分词技术的分类:基于字典、词库匹配的分词方法;基于词频度统计的分词方法和基于知识理解的分词方法。
基于字典、词库匹配的分词方法,目前常用的有正向匹配和逆向匹配,无论是正向还是逆向,都是在开始的局部范围内的最大匹配,即每个句子的前N个字符或者后N个字符进行匹配。翻译系统中采用双向匹配方法进行分词还没有检索到技术公开。
技术实现要素:
本发明要解决的技术问题是提供一种PDA翻译系统的中文分词方法,提高分词的匹配度和精准性。
本发明采用的技术方案如下:
一种PDA翻译系统的中文分词方法,所述的翻译系统包括中文与东盟各国语言的互译词典数据库,各个互译词典数据库中均设置有索引,索引字段为定长字段型,索引对应的翻译字段为变长字段型;所述的中文分词方法包括以下步骤:
(1)正向分词:设句子长度为L,句子字数为n,句子分词的总数有2n-1,在2n-1分词方式中,只有唯一的一个正确的分词;
正向分词采用中文翻译为东盟各国语言的中文词典作为正向分词词典;
设k=1,2,……,n,并设a1,a2,……,an为句子的单字,将a1作为匹配条件与正向分词词典中的单词比较,若正向分词词典中两有相等的词,则认为a1为一个词,然后再将a1a2两个字作为匹配条件在正向分词词典中扫描,若正向分词词典中两有相等的词,则认为a1a2为一个词,不断增加k(k<=n)的数值,直至a1a2……ak+1在词典中无匹配的词,则认为a1a2……ak为切分到的最长单词,也是最可能的单词,取a1a2……ak为单词后对句子中余下的字继续分词,最后完成整个句子的分词;
(2)逆向分词:与正向分词相似,采用逆向最大匹配法从被处理文档的末端开始匹配扫描,逆向分词采用东盟各国语言翻译为中文的中文词典作为逆向分词词典;
先从句子最后一个字an开始分词,然后按句子逆向取anan-1,取词后对anan-1进行正向处理:将anan-1逆序调整为an-1an,然后将an-1an按逆向分词词典中的中文单词进行分词,不断逆向取词,最后完成逆向分词;
(3)当逆向分词与正向分词结果相同时,此结果为最后的分词结果;当逆向分词与正向分词结果不相同时,则进入步骤(4);
(4)歧义分析:
设正向分词结果为向量Z=(z1,z2,...,zm);
反向分词结果为向量F=(f1,f2,...,fn);
正反向反词中包含共同相同的分词为:XTword(Z,F)=Z∩F;
相同词相同词序
正向分词相同词比率:ZSameword=(XTword(Z,F)/m)×100%;
反向分词相同词比率:FSameword=(XTword(Z,F)/n)×100%;
正向分词词序相同词比率:ZCXSameword=(CXZWORD/m)×100%;
反向分词词序相同词比率:FCXSameword=(CXZWODR/n)×100%;
分别计算正向分词与反向分词加权值:
SimZSameword=λ1×ZSameword+λ2×ZCXSameword
SimFSameword=λ1×FSameword+λ2×FCXSameword
λ1,λ2为加权常数,且λ1+λ2=1;
当(SimZSameword>SimFSameword)时,取正向分词为最后分词的结果,否则取反向分词为最后的分词结果。
所述的东盟各国语言包括越南文、泰国文、马来西亚文及印度尼西亚文。
所述的正向分词词典为中文—越南文、中文—印度尼西亚文、中文—马来西亚文、中文—泰文四个中文词典。
所述的逆向分词词典为越南文—中文、印度尼西亚文—中文、马来西亚文—中文、泰文—中文四个中文词典。
本发明采用双向匹配法实现中文分词,能够提高分词匹配的精准性。
具体实施方式
以下结合实施例对本发明的技术方案做进一步的说明。
一种PDA翻译系统的中文分词方法,所述的翻译系统包括中文与东盟各国语言的互译词典数据库,各个互译词典数据库中均设置有索引,索引字段为定长字段型,索引对应的翻译字段为变长字段型;所述的东盟各国语言包括越南文、泰国文、马来西亚文及印度尼西亚文;
所述的中文分词方法包括以下步骤:
(1)正向分词:设句子长度为L,句子字数为n,句子分词的总数有2n-1,在2n-1分词方式中,只有唯一的一个正确的分词;
正向分词采用中文翻译为东盟各国语言的中文词典作为正向分词词典;所述的正向分词词典为中文—越南文、中文—印度尼西亚文、中文—马来西亚文、中文—泰文四个中文词典;
设k=1,2,……,n,并设a1,a2,……,an为句子的单字,将a1作为匹配条件与正向分词词典中的单词比较,若正向分词词典中两有相等的词,则认为a1为一个词,然后再将a1a2两个字作为匹配条件在正向分词词典中扫描,若正向分词词典中两有相等的词,则认为a1a2为一个词,不断增加k(k<=n)的数值,直至a1a2……ak+1在词典中无匹配的词,则认为a1a2……ak为切分到的最长单词,也是最可能的单词,取a1a2……ak为单词后对句子中余下的字继续分词,最后完成整个句子的分词;
(2)逆向分词:与正向分词相似,采用逆向最大匹配法从被处理文档的末端开始匹配扫描,逆向分词采用东盟各国语言翻译为中文的中文词典作为逆向分词词典;所述的逆向分词词典为越南文—中文、印度尼西亚文—中文、马来西亚文—中文、泰文—中文四个中文词典;
先从句子最后一个字an开始分词,然后按句子逆向取anan-1,取词后对anan-1进行正向处理:将anan-1逆序调整为an-1an,然后将an-1an按逆向分词词典中的中文单词进行分词,不断逆向取词,最后完成逆向分词;
(3)当逆向分词与正向分词结果相同时,此结果为最后的分词结果;当逆向分词与正向分词结果不相同时,则进入步骤(4);
(4)歧义分析:
设正向分词结果为向量Z=(z1,z2,...,zm);
反向分词结果为向量F=(f1,f2,...,fn);
正反向反词中包含共同相同的分词为:XTword(Z,F)=Z∩F;
相同词相同词序
正向分词相同词比率:ZSameword=(XTword(Z,F)/m)×100%;
反向分词相同词比率:FSameword=(XTword(Z,F)/n)×100%;
正向分词词序相同词比率:ZCXSameword=(CXZWORD/m)×100%;
反向分词词序相同词比率:FCXSameword=(CXZWODR/n)×100%;
分别计算正向分词与反向分词加权值:
SimZSameword=λ1×ZSameword+λ2×ZCXSameword
SimFSameword=λ1×FSameword+λ2×FCXSameword
λ1,λ2为加权常数,且λ1+λ2=1;
当(SimZSameword>SimFSameword)时,取正向分词为最后分词的结果,否则取反向分词为最后的分词结果。