一种形式化拼音和汉字对应识别的方法

文档序号：9326500阅读：518来源：国知局

一种形式化拼音和汉字对应识别的方法
【技术领域】：
[0001] 本发明涉及一种用形式化的拼音直接输入汉语的方法，尤其涉及用形式化的拼音直接输汉字的方法。形式化的拼音是和汉字一一对应、可以准确表示普通话语音并且可以代表汉字以单字节的形式进行存储和计算、符合国际标准的数字化文字形式。
【背景技术】：
[0002] 目前我们使用的各种汉字输入法都是编码输入（语音输入除外），但是，所有编码输入汉字的方法都不能消除重码，特别是不能表示字音（或不能准确表示字音），实际上就是：所有编码都不能直接、准确地输入语言和文字、不能自动转换为符合国际标准的、唯一准确的数字化形式在电脑上进行存储和运算。在汉字能够输入电脑之后，我国许多研究机构就先后开始了大规模的汉字信息处理的研究，（包括语音识别研究的首要目标也是如何将语音流准确识别为汉字的形式），国家有关部门也先后制定出了和汉字一一对应的国家标准字符集的双字节机内码和扩展字符集的四字节机内码，希望将输入的汉字由计算机自动转换成双字节或四字节二进制码之后就可以象拼音文字一样进行语言信息处理了。但是，多年来大规模研究的实践经验告诉我们，中文的信息、处理远比拼音文字的信息处理要困难得多。这是因为在现代汉语中双音词占绝对优势，还有数量可观的多音词（包括使用频率很高的成语在内），单音词数量有限。因为"词义不是别的，它就是语音物化的思想，是语言的一个最小单位的实际内容。这个内容是被一定的语音物质形式固定下来的。没有词的形式也就没有词的意义。词义是在历史上形成并在集体中承受下来，用音组固定下来的关于对象的概括。换言之，词用它的物质-音组-概括着整个一类对象的最一般的和特殊的足以确定适合于该词的概念的外延的特征。"见著名语言学家孙常叙著《汉语词汇》第43 页。所以说，只有词才是语言信息处理的最小单位，汉字文章信息处理的首要任务是分词。因此，近几年来，国内许多研究机构、大专院校都进行了汉语自动分词的深入研究。但是由于汉字的多音多义性和相互组合成词的灵活性，书面上汉字无间隔的等距离排列等因素都是造成分词不可避免的出现失误的原因。前国家语委主任许嘉璐在谈到目前我国中文信息处理的现状时说："虽然经过几十年的努力，目前中文信息处理还停留在字处理的阶段，"更为重要的是："一个汉字在计算机中需要至少两个字节表示，尤其需要强调的是在计算机中表示汉字的两个字节、四个字节是必须捆绑在一起使用的二进制无序码，因此它只能作为这个汉字的标识码而没有任何运算价值"见《可计算中文映射字典》前言。国际标准ASCII 码是单字节编码系统，并且每个字符的数字化编码都只占用了一个字节的后7位，同时字节的最高位置"〇"可用做数据传输中的效验码来确保传输的正确性。为了解决汉字编码和国际标准码不兼容的问题，非ASCII码（两字节以上）字节全部高位置"1"以示区别。但是，因为汉字两字节及四字节的编码不可拆分、不可错位，这就同时还需要各种标识表示置 " 1"码的特征，其繁琐程度和安全隐患可想而知。因为数据传输中信号的衰减是随机的，也是不可避免的。并且，代表汉字的双字节还可能和扩充了的ASCII代码发生混淆，这些都会造成中文乱码，甚至导致系统锁死或系统崩溃的严重后果。
[0003] 2012年9月，史颖先生根据他的发明专利（ZL2007 I 0000310. 3)编写出版了《汉语拼字方案》，又名《可计算中文映射字典》，其编码规则为：
[0004] 行、列、纵、序四个西文大写字母表示每个汉字：其中行为声母，使用23个西文大写字母表示，无声母将第一字符作为行来表示，字母IVU作为特殊用途。对应关系如下：
[0005] A ：a B ：b C ：c, c h D ：d E ：e F ：f G ：g H ：h J ： j K ：k L ：1 M ：m N ：n0 ：〇
[0006] P ：p Q ：q R ：r T ：t ff ：w X ：x Y ：y S ：s, sh Z ：z, zh
[0007] 其中列为韵母，使用26个西文大写字母表示，对应关系如下：
[0008] A ：a B ：an C ：ang D ：ao E ：e F ：ei G ：en H ：eng L ：j J ：ia ua K ：ianM ：iao
[0009] L :iang，uang N :ie，uai 0 :〇, er P :in Q :ing R :iong，ong S :iu T :ouU :u
[0010] V ：uan ff ：ue, ui X ：un Y ：uo Z ：ai
[0011] 其中纵为四声。使用26个西文字母表示，对应关系如下：
[0012] A B C D E F顺序表示阴平（一声）声调。G H I J K L顺序表示阳平（二声）声调。
[0013] M N 0 P Q R S顺序表示上声（三声）声调。T U V W X Y Z顺序表示去声（四声）声调。
[0014] 其中轻声归入S。行、列、纵三位确定为特定该声调字母。声母为ch，sh，zh及韵母U使用D，J中，P，W开始的后部声调字母。
[0015] 其中序为该声调顺序码。词用表示连接。特殊词可用特殊符号连接。后缀字加
[0016] u "连接。全部字集按GB2312加对应繁体字和《汉字标准字典》
[0017] (ISBN7-5619-3502-2)音序检字表排列。同时将常用字、词（可调整）分别进行一位（声族）、二位（声韵族）、三位（声韵调族）简码表示。部首及全角字符归入BS族，特殊韵母字归入EN族。
[0018] 上述编码方法就声母来说，有6个声母分别用3个字母代替，增加了辨识的难度。就韵母来说，除了两个韵母a和A，e和E直接对应外，全部韵母需要记住和那个字母对应，并且需要记住其中6个字母分别对应的是哪两个韵母。完全没有规律，很难直接读或写出来。特别是用6或7个字母都分别代表一个声调，在拼音时怎样选择？最后一个编码字母是按照自己排序的字表第一个汉字对应西文的第一个字母，以此类推。一旦这个音节的字超过西文字母的数目时，就把表示同声调的第一个字母换做第二个，编码的第四个字母再从A开始往下排，以此类推。这样虽然解决了重码的问题，但是，什么时候用那个声调字母？哪个汉字排在第几位，应该用哪个字母做编码的第四个字母，就得查码表来确定了。所以，给每个汉字编码的四个字母，基本上都得死记硬背下来，才能复写出这个汉字的编码。如果使用这种编码对应输入汉字，可能是所有输入法中记忆量最大的一种了。这种编码，如果有人能象汉字一样流利地朗读出来的话，应该有资格上最强大脑的赛场了。所以，这种编码推广使用的难度可想而知。它和我们的编码方法本质上的区别在于：第一，百分之八十以上的韵母都用一个和这个韵母的发音或字形上毫无关联的字母重新定义，并且韵母ia-ua、 iang-uang、ie-uai、o_er、iong-ong、Ue-uei 及声母 zh_z、ch_c、sh_s 都是用一个字母代表两个韵母或声母，例如："咂和扎、擦和插、仨和杀的拼音都分别是"za、ca、sa"，并且和声母 "zh、ch、sh"相拼的所有韵母组成的1500多个汉字的音节在拼读时都和声母"z、c、s"组成的音节相混淆。这和作者前言中所说："《汉语拼字方案》是将汉字本身进行了数字量化拆分组合，是对汉语拼音方案的优化和完善，它完全遵循汉语拼音规则，完全遵循汉字笔画标准顺序"的说法相矛盾。第二，用六、七个字母依次表示同一个声调，用主观拟定的顺序排列字库（因为所有繁体字都夹杂其中，所以已经打乱了国家标准字符集汉字编排的顺序编号）通过声调字母的替换，按照西文字母顺序周而复始地区别同音字的方法，并非遵循语音规律或遵循世界公认的拼音文字普遍采用的形式和方法，也不能给文字的输入、处理和识别带来更大的便利，所以属于一种智力

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：任仰福;
技术所有人：任仰福;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。