中文音形根数字编码的制作方法

文档序号:6330719阅读:433来源:国知局
专利名称:中文音形根数字编码的制作方法
技术领域
本发明涉及一种用于中文信息处理的汉字和词组的数字编码方案。
目前现有拼音码类汉字编码方案中,只有以英文字母为代码的编码方案,而没有以数字为代码的编码方案。多数英文字母拼音码方案需要掌握汉字的普通话读音,这给汉语识字能力及普通话水平较低的人掌握其编码造成了困难。智能全拼输入法提出了模糊拼音方式,但只解决了部分汉字的声母的编码困难。自然码提出了形义码输入方法,但需掌握其形义部分的键位图,并需进行汉字的拆分,而且该输入法是一种与其音形码输入法并存的为弥补音形码不足而制定的编码规则。
本发明说明书涉及的常用名词说明如下汉语拼音音节包含有声母、韵头(又称介音、介母),韵腹和韵尾四个音素中的至少一个。如音节“jiang”中j是声母,i是韵头,a是韵腹,ng是韵尾。iou、uei、uen前面加声母时写成iu、ui、un;本编码方案将in、ing、ün也看成是ien、ieng、üen的简写。声母和韵头合称结合声母。韵头、韵腹和韵尾合称韵母。韵头和韵腹不是i、u、ü的韵母称为开口呼韵母,韵头或韵腹为i的为齐齿呼韵母,为u的为合口呼韵母,为ü的为撮口呼韵母。
本发明将声母按发音部位和发音方法的相似性进行归并,分为十类,分别给出了数字代码,称为声码。详见元代码表。表中零指零声母,即以y、w、a、o、e开头音节的声母。本编码方法中,许多在不少方言中读音相同而在普通话读音中声母不同的汉字,其声母给出了相同的代码,故无需掌握其普通话读音,也能给出正确编码。如不少方言中“波”和“泼”读音相同,而b、p代码均为1,故同样能给出正确编码。不少方言读音中结合声母为gi、gü的绝大多数汉字,其汉语拼音声母为j,而普通话中并没有结合声母为gi、gü的音节,所以凡是读音结合声母为gi、gü的汉字代码一般为6,而不是4。与此类似的结合声母均用括号表示列入元代码表中。
将韵母去掉韵头后相同的归类为一类,全部韵母归并为十类,分别给出了数字代码,称为韵码。如an、ian、uan、üan归为一类,代码为2。由于部分方言中,开口呼和齐齿呼韵母读法相同,合口呼和撮口呼韵母读法相同,本编码方法避免了区分韵头的困难。韵母代码详见元代码表。
一个字的声码和韵码合起来就是它的音码。把形声字声旁的音码称为该字的声音码。如果声旁不是成字,则以其通常表示的读音的音码为该字的声音码,形声字的音码和声音码多数是相同的,例如“浮”、“福”音码、声音码均为50。但也有不同的,如“江”音码为63,声音码为47。这是汉语语音演变的结果。
将形声字形旁读音的声母代码称为该形声字的形码。形旁不是成字的,除有特殊规定者,其形码均为6。
将合体非形声字的第一个最大字根(汉字“一”除外)读音的声码称为该字的字根码。如“拿”,字根码为“合”的声码5,而不是“人”的声码3。
形旁或字根是汉字的繁体或变形的,其代码仍是相应汉字的读音的声码。如“灬”是“火”的变形,代码为5。
形旁和字根的代码有一些特殊规定见元代码表。其中包括一些常用非成字形旁和字根。
独体字的声码即是其字根码。
形声字声旁的第一个最大字根为该字的字根码。如“福”字根码为“口”的声码4,“浮”字根码为“爪”的声码7。
声旁为形声字的,其字根码就是声旁的形码。如“葫”字根码为“月”旁的代码5。
对于特定的一些常用字,以其音码为代码,称为简码字的音码。简码字特点是一字一码,一码一字。
对于除简码字以外的非形声字,以其音码加上字根码为其代码,称为音根码。
对于形声字,以其音码加形码再加字根码为其代码。不知道本字读音的,可以用声音码代替音码。这称为音形根码。
对于词组,选取其中汉字的声码和韵码中的四个为代码,称为声韵码。如二字词代码为“声韵声韵”,三字词代码为“声声声韵”,多字词代码为一、二、三、末字的声码。
本编码方案是一种汉字认读能力较差的人也较容易掌握的中文信息处理用数字编码方案。
元代码表
权利要求
一种中文信息处理用中文音形根数字编码,以汉字的声母、韵母、拼音和汉字形旁和字根读音的声母以及汉字声旁读音为信息源,形成声码、韵码、音码、形码、字根码和声音码等几种元代码,按一定规则组成汉字和词组的代码,其特征是,该编码方案以数字为代码,它将汉语拼音声母按发音方法和发音部位归类编成声码,将韵母去掉韵头后归类编成韵码,以汉字形旁和第一个最大字根读音的声码为形码和字根码,以形声字声旁的音码为形声字的声音码(是一种特殊的音码),按音码、音根码、音形根码和声韵码等四种编码方法分别为简码字、非形声字、形声字和词组编码。
全文摘要
一种中文信息处理用中文音形根数字编码,以汉字的声母、韵母、拼音和汉字形旁和字根读音的声母以及汉字声旁读音为信息源,形成声码、韵码、音码、形码、字根码和声音码等几种元代码,按一定规则组成汉字和词组的代码,其特征是,该编码方案以数字为代码,它将汉语拼音声母按发音方法和发音部位归类编成声码,将韵母去掉韵头后归类编成韵码,以汉字形旁和第一个最大字根读音的声码为形码和字根码,以形声字声旁的音码为形声字的声音码(是一种特殊的音码),按音码、音根码、音形根码和声韵码等四种编码方法分别为简码字、非形声字、形声字和词组编码。
文档编号G06F3/023GK1287303SQ0012987
公开日2001年3月14日 申请日期2000年10月24日 优先权日2000年10月24日
发明者宁显臣 申请人:宁显臣
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1