一种汉语到盲文的自动翻译转换方法

文档序号:6405031阅读:1006来源:国知局
专利名称:一种汉语到盲文的自动翻译转换方法
技术领域
本发明涉及一种实现汉语到盲文的自动翻译转换方法,特别涉及一种采用连写统计词库来提高转换效率的汉盲自动翻译转换方法,属于计算机文字处理技术领域。
背景技术
我国是世界上盲人最多的国家。广大盲人需要借助盲文这一工具来吸收人类社会的优秀文明成果。但是长期以来,盲文书籍的出版工作仍然面临效率低下、出版周期过长、工作量大等困难,难以满足广大盲人日益增长的需求。如何能够更加有效地实现汉语与盲文之间的转换,将更多的文明成果呈献给盲人朋友,一直是人们致力解决的课题。
盲文是一种以六个凸凹点为基本结构,按照一定的规则排列,由盲人通过触觉感受的文字。由于六个凸凹点的组合可以表达出26=64种不同的信息,对于一般的拼音文字而言,这么多的组合完全够用,而汉语则不同,仅常用的汉字就多达数千个,因此现有的汉语盲文采用拼音文字的方案,根据汉字的读音进行编码,用六个凸凹点代表汉语拼音的声母、韵母和音调。国标GB/T15720-1995所定义的盲文编码表就是这样的一种汉语盲文编码方案,在其中定义了汉语声母、韵母和音调、标点符号、数字符号对应的盲文点字,从而实现拼音、符号到盲文编码的转换。下面就是该盲文编码表中一些常见拼音和符号的实际例子声母zh 韵母ong 声调阴平 句号 逗号数字3 人们很早就尝试利用计算机完成自然语言与盲文之间的转换,但这方面的工作在国内开展得比较晚,汉语与汉语盲文之间进行转换的技术还不成熟。中国发明专利01118675.5公开了一种中文汉语到盲文的自动转换方法。该方法的特点是首先对非汉语符号进行预切分处理,读入一段连续的汉字串,根据词汇表分别用MM法和RMM法进行分词;比较MM和RMM分词结果是否相同,相同,记录分词结果;分词结果不相同,构造歧义字段的歧义树,搜索最优分词结果,记录分词结果;判断文本分词是否完毕,若是,按照盲文分词连写规则对分词结果进行修改,生成与分词结果对应的盲文点字。与此相类似的技术还有一些,但这些技术仍然存在分词连写的正确率不高,不能满足专业排版系统的需要;只适用于现行盲文或双拼盲文,不能处理国语点字盲文和粤语盲文等方面的缺陷,仍有进一步改进的必要。

发明内容
本发明的目的在于提供一种新的汉语到盲文的自动翻译转换方法。
为实现上述的发明目的,本发明采用下述的技术方案一种汉语到盲文的自动翻译转换方法,其特征在于包括如下步骤(1)输入汉语字符串;(2)将字符串分割;(3)判断分割后的字符串是否是标点符号、ASCII码字符等特殊符号,如果是,根据特殊符号与盲文的对照表将其直接转换为相应类型的盲文点字,转入步骤(9);如果否,转入步骤(4);(4)对汉语字符串进行分词处理;(5)对分词后的词块进行词性标注;(6)按照盲文分词连写规则组合连写词块;(7)利用连写统计词库对组合后的词块进行二次组合连写;(8)根据盲文的拼法和标调规则将组合后的词块转换为盲文点字;(9)将生成的盲文点字对外输出。
所述步骤(4)包括如下子步骤a.参照词典,利用正向最大匹配算法对语句进行拆分;b.利用组合歧义词库进行歧义判断;c.根据歧义规则,通过推理消除歧义;d.输出分词结果。
所述步骤(6)中,对所述分词连写规则进行统一形式化描述。
所述步骤(7)中,所述连写统计词库分为基础词库、专业词库和用户词库。
所述步骤(7)中,所述连写统计词库中包含连写词块及其相应的拼音、相应类型的盲文点字。
所述步骤(8)中,所述盲文的拼法和标调规则为现行盲文、双拼盲文、国语点字盲文、粤语盲文的拼法和标调规则中的一种。
本发明所述的汉语到盲文的自动翻译转换方法与现有技术相比,由于采用了本申请人独有的分词算法,分词准确率高,词性歧义少。它还根据连写统计词库对初次组合后的词块进行二次组合连写,可以保证较快的转换速度和较高的转换正确率。


下面结合附图和具体实施方式
对本发明作进一步的说明。
图1为本发明中使用的分词算法的流程图。
图2为实施本发明所述汉盲自动翻译转换方法的效果示意图。
图3为本汉盲自动翻译转换方法的流程示意图。
具体实施例方式
在对本发明所述的汉盲自动翻译转换方法进行具体说明之前,先对实现本发明所依赖的分词算法加以简单说明。
分词是指将汉语语句拆分为独立的词。这是机器翻译中最基础的一项工作。本发明中使用的分词算法在本申请人的另一项发明专利“一种全自动汉字分词系统”(专利号ZL96100831.8,申请日1996年1月30日,授权日2003年4月30日)中有详细的说明,其基本内容如图1所示,包括如下步骤(1)输入汉字语句;(2)参照词典,利用正向最大匹配算法对语句进行拆分;(3)利用组合歧义词库进行歧义判断;(4)根据歧义规则,通过推理消除歧义;(5)输出分词结果。
上面所述的词典中建有词典索引和最大词长信息域、词的词性特征,以识别以某字开头的词在词典中的最大长度,并完成高速度查询请求,标注出分词结果的词性。
上述正向最大匹配算法是这样的结合词典最大词长信息和在句中的最大可能边长,确定一个最优最大边长N,在词典中查找。若词典中有这样的一个N字词,则匹配成功,匹配字段作为一个词被切分出来;如果词典中找不到这样的一个N字词,则匹配失败。匹配字段去掉最后一个汉字,剩下的N-1个字符作为新的匹配字段,进行新的匹配,如此进行下去,直至切分到成功为止。即完成一轮匹配切分出一个词,然后再按上面的步骤进行下去,直到切分出所有词为止。
在求解的过程中,还要进行歧义判断。所谓歧义判断是由于汉语本身在组合上复杂多样,同样的文字组合由于断句不同,含义上有很大差别,例如“我看到你那年才六岁”,可以理解为“那年”“我”六岁,也可理解为“你”六岁。类似这样的歧义现象可以概括分为交叉歧义和组合歧义两种。交叉歧义是形如字串AXB,其中AX构成一个词,同时XB也构成一个词,这类歧义现象即为交叉歧义。其中,A、X、B的长度大于等于一个字长。如“有时间”、“不同情况”、“大脑袋”等。组合歧义是形如AB的词串,其中A,B分别独立成词。如“个人”、“阵风”。交叉歧义是根据其特征来判断的。组合歧义的判断则根据组合歧义词库。该词库统计了本算法所用词典数据下几乎所有的组合歧义词,并按有效结构进行组织和查询。
通过推理消除歧义是解决歧义问题的另一手段。推理是根据歧义规则库进行的。歧义规则库包含了在某些特定词、词类或属性情况下的歧义切分规则,如NP(将来),NP(PLA)→DWD(A),该规则表示当词“将来”的后面跟一个表示地点的名词时,该词要切分开。
在利用上述分词算法完成分词工作之后,后续的工作是根据上述词典标注出每个词的词性特征,如将名词标注为NP,形容词标注为AP,动词标注为VP等。
上述分词过程完成之后,虽然可以利用计算机将各个单个的词转换为盲人所使用的点字。但这样形成的点字只是一些孤立的语素,并不能直接形成盲人实际使用的盲文。因此,还需要使用本发明提供的分词连写方法对分词结果进行组合连写,并根据盲文的拼法和标调规则将组合后的分词转换为正确的盲文码输出。
盲人使用的汉语盲文与我们通常使用的汉语在使用上存在一些差别。盲人阅读盲文时,首先要靠触觉触摸到六个点字,根据这六个点字拼出发音,再根据自己的知识、经验和语言能力判断出语义,是一个“触觉→发音→语义”的过程。为了让盲人比普通人更容易、准确和清晰地理解盲文,以及使盲人文字更加精密化、科学化,汉语盲文中采用分词连写规则。该分词连写规则是汉语盲文所特有的规则,它规定了盲文词在什么情况下分开写,什么情况下组合在一起。所谓分词即是上面所述的按照汉语语法把一个一个的词分开来写;所谓连写,即按照盲文的特殊性,为避免音节结构过于松散、便于摸读,将一部分音节较少,在意义上结合较为紧密的短词组连写在一起,以减少一些零散的单音节形式。如汉语句子“伟大的中国共产党带领全国人民推翻了封建阶级的统治,建立了社会主义新中国”按照现代汉语的分词规范,分为“伟大 的 中国 共产党 带领 全国 人民 推翻 了 封建 阶级 的 统治,建立 了 社会主义 新 中国”按照汉语盲文分词连写规则,部分词需要组合在一起,采用分词连写后为(采用‘|’隔开)“伟大|的|中国|共产党|带领|全国|人民|推翻了|封建阶级|的|统治,建立了|社会主义|新中国|”。
分词连写规则一定要符合汉语语法和语言的逻辑性、习惯性,并且要考虑音节长短适度,适当减少一些零散的单音节词。为此,国家颁布了国标GB/T15720-1995,在其中规定了分词连写的一般规则 普通话基本上以词为单位拼写,每个词的各个词素或音节连写; 表示一个整体概念,由多音节词组成的固定词组,按词分开写; 表示一个整体概念的双音节和三音节结构,已经词化的,连写; 表示一个整体概念,其音节在四个以上的名称,按词(或语节)分写,不能按词划分时,均应连写; 为了便于摸读和理解,使词意迅速地形成概念,将一部分音节较好,在意义上结合得较为紧密的短语词组连写在一起,以减少一些零散的单音节形式。
在此基础上,根据词类还派生出100多条具体的规则。这些规则的具体内容可以参照上述国家标准,在此就不重复了本发明为方便计算机的处理,保证分词连写的准确性,对各类词和词组的具体分词连写规则进行分析和统一形式化描述,如上述国家标准中一个形容词的分词连写规则为形容词重叠式中间插入否定副词“不”,不论单音节重叠式还是双音节不完全重叠式,都连写;双音节完全重叠式中间插入的“不”,跟前面的词分开,跟后面的词连写。如好不好 明不明白 热不热闹 漂亮|不漂亮 清楚|不清楚本发明将其形式化为下面两条规则AP(1,1,same)+(’不’;)+AP(1,1,same)->CONNECT(CH) 好不好AP(1,1,same)+(’不’;)+AP(2,1,same)->CONNECT(CH) 漂不漂亮AP(2,1,same)+(’不’;)+AP(2,1,same)->AP+CONNECT(CH) 漂亮|不漂亮类似的形式化规则还有很多。这种形式化规则是为了计算机处理的需要,在此不一一详细说明。
本发明所述的汉盲自动翻译转换方法在完成分词和词性标注的工作之后,下一步要解决的技术问题就是将分割后的单个语素组合成符合盲文要求的词块。这部分工作虽然可以参照上述的国家标准GB/T15720-1995来进行,但仅仅套用该标准显然是不够的。为此,本发明提出了采用分词连写统计词库进行二次组合连写的解决方案,即首先运用上述的分词连写规则完成第一步的词素组合,然后利用连写统计词库,对第一步组合后的词再进行第二次组合连写,从而得到分词连写的最后结果,最后根据盲文的拼法和标调规则把组合后的分词转换为正确的盲文码输出。
这里的连写统计词库是利用计算机大量统计盲文书籍中分词连写后的词和词组而得到的,包含各个连写词块及其相应的拼音、相应类型的盲文点字。该连写统计词库可以分为基础词库和专业词库、用户词库。本翻译转换方法采用词库动态扩展的技术思路,除了基础词库必须安装之外,专业词库可以根据用户的需要随时挂接。用户词库可以根据用户的使用习惯随时进行动态扩充,即用户一旦把连写的分词加入到用户词库中,该方法便按照用户定义的分词进行连写,从而保证分词连写符合用户的要求。
为便于盲人读准音调,从而准确理解词意,本发明采用了标准的盲文标调规则。该规则对现行盲文的标调规定如下1)对生疏的词语、成语标调;2)对古汉语实词标调;3)在文内首次出现的专有名词(极普通的除外)应标调;4)为了区别同音、同形字,应对一些词标调;5)以两个单字母组成的词语,前者为声母,后者为韵母,其间必须标调;6)单音节词一般要标调,经常使用的单音节词可不标调;7)双音节词和多音节词须标调时首先考虑在第一字上标调;有时为了区别同形字,则其他字也应标调;8)带词、副词、时态助词、结构助词、介词、连词、叹词、象声词一般不标调;9)外国专有名词一般不标调。
按照上述规则标调后的盲文便于盲人识别和理解。在标调工作完成之后,后续的工作就是通过计算机将转换成功的盲文对外输出,如图2所示的那样。
在汉盲翻译转换的过程中,有一种情况必须要预先考虑到,就是实际的汉语文章中不仅仅是汉语词句,有时还会包含标点符号和ASCII码字符,这些是可以直接转换为盲文点字对外输出的。因此,本汉盲自动翻译转换方法首先要对输入的汉语字符串进行分割,并判断分割后的字符串是否是标点符号、ASCII码字符等特殊符号,如果是,将其按照盲文编码表直接转化为盲文编码对外输出。
概括上述对本汉盲自动翻译转换方法的说明,本汉盲自动翻译转换方法如图3所示,可以归结为如下步骤(1)输入汉语字符串;(2)将字符串分割;(3)判断分割后的字符串是否是标点符号、ASCII码字符等特殊符号,如果是,根据特殊符号与盲文的对照表将其直接转换为相应类型的盲文点字,转入步骤(9);如果否,转入步骤(4);(4)对汉语字符串进行分词处理;(5)对分词后的词块进行词性标注;(6)按照盲文分词连写规则组合连写词块;(7)利用连写统计词库对组合后的词块进行二次组合连写;(8)根据盲文的拼法和标调规则将组合后的词块转换为盲文点字;(9)将生成的盲文点字对外输出。
使用本汉盲自动翻译转换方法,不仅可以将汉语转换为现行盲文,还可以将其转换为双拼盲文,台湾地区使用的国语点字盲文以及港澳地区使用的粤语盲文。在转换为双拼盲文,国语点字盲文或粤语盲文时,所采取的步骤与上述的方法步骤完全一样,所不同的仅仅是拼法和标调规则的不同。对此,将实现本发明方法的计算机程序中预设的拼法和标调规则进行修改即可达到目的。
上面对本发明所述的汉语到盲文的自动翻译转换方法进行了详细的说明,但显然本发明的具体实现形式并不局限于此。对于本技术领域的一般技术人员来说,在不背离本发明所述方法的精神和权利要求范围的情况下对它进行的各种显而易见的改变都在本发明的保护范围之内。
权利要求
1.一种汉语到盲文的自动翻译转换方法,其特征在于包括如下步骤(1)输入汉语字符串;(2)将字符串分割;(3)判断分割后的字符串是否是标点符号、ASCII码字符等特殊符号,如果是,根据特殊符号与盲文的对照表将其直接转换为相应类型的盲文点字,转入步骤(9);如果否,转入步骤(4);(4)对汉语字符串进行分词处理;(5)对分词后的词块进行词性标注;(6)按照盲文分词连写规则组合连写词块;(7)利用连写统计词库对组合后的词块进行二次组合连写;(8)根据盲文的拼法和标调规则将组合后的词块转换为盲文点字;(9)将生成的盲文点字对外输出。
2.如权利要求1所述的汉语到盲文的自动翻译转换方法,其特征在于所述步骤(4)包括如下子步骤a.参照词典,利用正向最大匹配算法对语句进行拆分;b.利用组合歧义词库进行歧义判断;c.根据歧义规则,通过推理消除歧义;d.输出分词结果。
3.如权利要求1所述的汉语到盲文的自动翻译转换方法,其特征在于所述步骤(6)中,对所述分词连写规则进行统一形式化描述。
4.如权利要求1所述的汉语到盲文的自动翻译转换方法,其特征在于所述步骤(7)中,所述连写统计词库分为基础词库、专业词库和用户词库。
5.如权利要求4所述的汉语到盲文的自动翻译转换方法,其特征在于所述步骤(7)中,所述连写统计词库中包含连写词块及其相应的拼音、盲文点字。
6.如权利要求1所述的汉语到盲文的自动翻译转换方法,其特征在于所述步骤(8)中,所述盲文的拼法和标调规则为现行盲文、双拼盲文、国语点字盲文、粤语盲文的拼法和标调规则中的一种。
全文摘要
本发明公开了一种汉盲自动翻译转换方法,该方法包括如下步骤(1)输入汉语字符串;(2)将字符串分割;(3)判断分割后的字符串是否是标点符号、ASCII码字符等特殊符号,如果是,将其直接转换为盲文点字,转入步骤(9);如果否,转入步骤(4);(4)对汉语字符串进行分词处理;(5)对分词后的词块进行词性标注;(6)按照盲文分词连写规则组合连写词块;(7)利用连写统计词库对组合后的词块进行二次组合连写;(8)根据盲文的拼法和标调规则将组合后的词块转换为盲文点字;(9)将生成的盲文点字对外输出。本方法采用独有的分词算法,分词准确率高,词性歧义少;应用分词连写统计词库进行二次组合连写,大大提高了汉字转换为盲文的正确率。
文档编号G06F17/28GK1591414SQ20041004606
公开日2005年3月9日 申请日期2004年6月3日 优先权日2004年6月3日
发明者黄河燕 申请人:华建电子有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1