一种形式化拼音和汉字对应识别的方法

文档序号:9326500阅读:518来源:国知局
一种形式化拼音和汉字对应识别的方法
【技术领域】:
[0001] 本发明涉及一种用形式化的拼音直接输入汉语的方法,尤其涉及用形式化的拼音 直接输汉字的方法。形式化的拼音是和汉字一一对应、可以准确表示普通话语音并且可以 代表汉字以单字节的形式进行存储和计算、符合国际标准的数字化文字形式。
【背景技术】:
[0002] 目前我们使用的各种汉字输入法都是编码输入(语音输入除外),但是,所有编码 输入汉字的方法都不能消除重码,特别是不能表示字音(或不能准确表示字音),实际上就 是:所有编码都不能直接、准确地输入语言和文字、不能自动转换为符合国际标准的、唯一 准确的数字化形式在电脑上进行存储和运算。在汉字能够输入电脑之后,我国许多研究机 构就先后开始了大规模的汉字信息处理的研究,(包括语音识别研究的首要目标也是如何 将语音流准确识别为汉字的形式),国家有关部门也先后制定出了和汉字一一对应的国家 标准字符集的双字节机内码和扩展字符集的四字节机内码,希望将输入的汉字由计算机自 动转换成双字节或四字节二进制码之后就可以象拼音文字一样进行语言信息处理了。但 是,多年来大规模研究的实践经验告诉我们,中文的信息、处理远比拼音文字的信息处理要 困难得多。这是因为在现代汉语中双音词占绝对优势,还有数量可观的多音词(包括使用 频率很高的成语在内),单音词数量有限。因为"词义不是别的,它就是语音物化的思想,是 语言的一个最小单位的实际内容。这个内容是被一定的语音物质形式固定下来的。没有词 的形式也就没有词的意义。词义是在历史上形成并在集体中承受下来,用音组固定下来的 关于对象的概括。换言之,词用它的物质-音组-概括着整个一类对象的最一般的和特殊 的足以确定适合于该词的概念的外延的特征。"见著名语言学家孙常叙著《汉语词汇》第43 页。所以说,只有词才是语言信息处理的最小单位,汉字文章信息处理的首要任务是分词。 因此,近几年来,国内许多研究机构、大专院校都进行了汉语自动分词的深入研究。但是由 于汉字的多音多义性和相互组合成词的灵活性,书面上汉字无间隔的等距离排列等因素都 是造成分词不可避免的出现失误的原因。前国家语委主任许嘉璐在谈到目前我国中文信息 处理的现状时说:"虽然经过几十年的努力,目前中文信息处理还停留在字处理的阶段,"更 为重要的是:"一个汉字在计算机中需要至少两个字节表示,尤其需要强调的是在计算机中 表示汉字的两个字节、四个字节是必须捆绑在一起使用的二进制无序码,因此它只能作为 这个汉字的标识码而没有任何运算价值"见《可计算中文映射字典》前言。国际标准ASCII 码是单字节编码系统,并且每个字符的数字化编码都只占用了一个字节的后7位,同时字 节的最高位置"〇"可用做数据传输中的效验码来确保传输的正确性。为了解决汉字编码和 国际标准码不兼容的问题,非ASCII码(两字节以上)字节全部高位置"1"以示区别。但 是,因为汉字两字节及四字节的编码不可拆分、不可错位,这就同时还需要各种标识表示置 " 1"码的特征,其繁琐程度和安全隐患可想而知。因为数据传输中信号的衰减是随机的,也 是不可避免的。并且,代表汉字的双字节还可能和扩充了的ASCII代码发生混淆,这些都会 造成中文乱码,甚至导致系统锁死或系统崩溃的严重后果。
[0003] 2012年9月,史颖先生根据他的发明专利(ZL2007 I 0000310. 3)编写出版了《汉 语拼字方案》,又名《可计算中文映射字典》,其编码规则为:
[0004] 行、列、纵、序四个西文大写字母表示每个汉字:其中行为声母,使用23个西文大 写字母表示,无声母将第一字符作为行来表示,字母IVU作为特殊用途。对应关系如下:
[0005] A :a B :b C :c, c h D :d E :e F :f G :g H :h J : j K :k L :1 M :m N :n0 :〇
[0006] P :p Q :q R :r T :t ff :w X :x Y :y S :s, sh Z :z, zh
[0007] 其中列为韵母,使用26个西文大写字母表示,对应关系如下:
[0008] A :a B :an C :ang D :ao E :e F :ei G :en H :eng L :j J :ia ua K :ianM :iao
[0009] L :iang,uang N :ie,uai 0 :〇, er P :in Q :ing R :iong,ong S :iu T :ouU :u
[0010] V :uan ff :ue, ui X :un Y :uo Z :ai
[0011] 其中纵为四声。使用26个西文字母表示,对应关系如下:
[0012] A B C D E F顺序表示阴平(一声)声调。G H I J K L顺序表示阳平(二声) 声调。
[0013] M N 0 P Q R S顺序表示上声(三声)声调。T U V W X Y Z顺序表示去声(四 声)声调。
[0014] 其中轻声归入S。行、列、纵三位确定为特定该声调字母。声母为ch,sh,zh及韵 母U使用D,J中,P,W开始的后部声调字母。
[0015] 其中序为该声调顺序码。词用表示连接。特殊词可用特殊符号连接。后缀 字加
[0016] u "连接。全部字集按GB2312加对应繁体字和《汉字标准字典》
[0017] (ISBN7-5619-3502-2)音序检字表排列。同时将常用字、词(可调整)分别进行一 位(声族)、二位(声韵族)、三位(声韵调族)简码表示。部首及全角字符归入BS族,特 殊韵母字归入EN族。
[0018] 上述编码方法就声母来说,有6个声母分别用3个字母代替,增加了辨识的难度。 就韵母来说,除了两个韵母a和A,e和E直接对应外,全部韵母需要记住和那个字母对应, 并且需要记住其中6个字母分别对应的是哪两个韵母。完全没有规律,很难直接读或写出 来。特别是用6或7个字母都分别代表一个声调,在拼音时怎样选择?最后一个编码字母 是按照自己排序的字表第一个汉字对应西文的第一个字母,以此类推。一旦这个音节的字 超过西文字母的数目时,就把表示同声调的第一个字母换做第二个,编码的第四个字母再 从A开始往下排,以此类推。这样虽然解决了重码的问题,但是,什么时候用那个声调字母? 哪个汉字排在第几位,应该用哪个字母做编码的第四个字母,就得查码表来确定了。所以, 给每个汉字编码的四个字母,基本上都得死记硬背下来,才能复写出这个汉字的编码。如果 使用这种编码对应输入汉字,可能是所有输入法中记忆量最大的一种了。这种编码,如果 有人能象汉字一样流利地朗读出来的话,应该有资格上最强大脑的赛场了。所以,这种编码 推广使用的难度可想而知。它和我们的编码方法本质上的区别在于:第一,百分之八十以 上的韵母都用一个和这个韵母的发音或字形上毫无关联的字母重新定义,并且韵母ia-ua、 iang-uang、ie-uai、o_er、iong-ong、Ue-uei 及声母 zh_z、ch_c、sh_s 都是用一个字母代表 两个韵母或声母,例如:"咂和扎、擦和插、仨和杀的拼音都分别是"za、ca、sa",并且和声母 "zh、ch、sh"相拼的所有韵母组成的1500多个汉字的音节在拼读时都和声母"z、c、s"组 成的音节相混淆。这和作者前言中所说:"《汉语拼字方案》是将汉字本身进行了数字量化 拆分组合,是对汉语拼音方案的优化和完善,它完全遵循汉语拼音规则,完全遵循汉字笔画 标准顺序"的说法相矛盾。第二,用六、七个字母依次表示同一个声调,用主观拟定的顺序排 列字库(因为所有繁体字都夹杂其中,所以已经打乱了国家标准字符集汉字编排的顺序编 号)通过声调字母的替换,按照西文字母顺序周而复始地区别同音字的方法,并非遵循语 音规律或遵循世界公认的拼音文字普遍采用的形式和方法,也不能给文字的输入、处理和 识别带来更大的便利,所以属于一种智力
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1