形声传智码及其输入法的制作方法

文档序号:6602699阅读:331来源:国知局
专利名称:形声传智码及其输入法的制作方法
形声传智码,是取汉字具有形声组合的特点,组成形声传智输入码,来传送知识和智慧的方法。
汉字是形声组合的表意文字,有确定的字形、读音和含意,用单个汉字组合成多字词。汉语也以单音节字组合成多音节词,来适应日益增多的信息含量。常用汉字约4000个左右就能表达99.9%的内容。
象机器一样,可以把汉字看成是组成中文的零部件,也可以分为标准汉字和非标准汉字,可把汉字规范化,让它有固定的形态,标准的读音和准确的含义,称为标准汉字,使其成为国家标准,并推向世界,成为国际标准《通用多八位编码字符集》ISO 10646 UCS的一部分国际统一汉字区CJK的标准汉字集。国际标准现已将汉字定名为东亚统一表意文字,给了一个最大的文字区域,并规定了同形同码的原则,要求汉字规范化。
汉字是世界上三大象形文字发展成为表意文字的唯一文字。经过甲骨文、金文、大篆到秦时采用书同文,推行小篆和民间的棣书,才使汉字的形状逐步统一。以后中国的历史,就是以统一为主体的历史通过统一的字形,来理解同一字的含义。对中央政府发出的文书,各地都能正确的理解和执行,各地政府的行政官员是由中央政府任命,在政府内部逐步形成统一的读音,这些都与使用统一的汉字有关。
形成汉字的规则,自古就有六书的规定。就是通过象形、象事、象意、象声这四象来表示文字的含义。用四象表达的事物,都是类似象形的表意方法,其中象事也称指事,象意又称会意,象声又称谐声或形声,它们都属于象形字阶段,但只用这些方法产生的汉字数量有限,满足不了互相交流的需要。为了区别同一声音所表示的不同事物,于是利用假借和转注方法,将象形字和象声字组合成形声字,为了书写方便,又各取一部份来组合成新字,从而进入汉字的形声阶段。但汉字的字形通过棣书到楷书的变化,使字形与象形的差别较大,逐步成为一种文字符号,其中形符和音符也不规则,使汉字处于百花齐放状态,从而进入文字的符号阶段,且发展至今。经过简化字形,便于书写和识别,但字的个数更多,而汉字的字形与汉字读音的关系更为复杂。汉语拼音方案,采用国际通用的26个拉丁字母,作为汉字的注音字母,为推广普通话和统一汉字的读音打下了基础,也有利于国际交流。但字形的规范化是复杂的,要寻找标准化的力法使其统一。
汉字是单音节字,汉字的读音是由一个声母和一个韵母拼成音节,每个音节又有五种声调。可用一个汉字代表这个音节的标准音,声调可不区分,再由这些单音节字的线性组合成多音词。现阶段的汉字拼音方案,主要是为汉字注音,不宜考虑多音节连写,宜用一个声母和一个韵母连写成音节,为减少声韵连写的书写长度,和消除非字母符号,用26个拼音字母先表示声母再表示韵母,用这两个字母的组合来表示一个音节。21个辅音字母用于21个声母,其中CH、SH、ZH三个双符声母,可用V、W、Y表示。5个元音字母作为韵母汉字的零声母,又是韵母的第一个字母,韵母u用字母V表示,37个韵母要用26个拼音字母表示,并按字母次序排序,其中5个单元音韵母A、E、I、O、U的排序位置保持不变。ER、UENG、e这三个韵母不与声母相拼,还有34个韵母要与声母相拼,就有8个字母要表示两个韵母,为减少韵母的书写长度,用G代替NG,先依字母顺序选排26个韵母,保持单元音字母次序不变,剩下8个韵母AI、OG、UAG、UO、V、VAN、VE、VN与IA、O、IAG、IOG、UA、UAN、UEI、UEN相对应,共用一个字母。不带声母的运母音节,也用两个字母表示,单字母韵母用两个同一元音表示,双字母韵母用原来两个字母表示,多字母韵母保持第一个字母不变,剩余字母看成韵母再转换成字母,与第一字母组成双字母,但V为韵母的第一个字母时,按韵母直接转换成字母,并在前面加U组成双字母。
汉字是由笔画组成的方块字,汉字的基本笔划可分为横、竖、撇、点、折(—、丨、丿、丶、乙)五类有36种笔形,依次用1、2、3、4、5编码,带钩与不带钩的笔画同码,左弯为3,右弯为4,圆圈为5。它们相互组成若干个紧密笔划集团,称为字根。有些字根本身就已成为汉字,称为成字字根,也称为单体汉字。未形成汉字的,叫部件字根。按功能可分为表意的形部字根,表音的声部字根,其余的叫其它字根共三种。字根的编码,按上部左、右两笔取码,如“日”取左上丨,右上为25,上部只有一笔时,按上下两笔取码,如“白”取上部丿,下部一为31,若字根只有一笔,就重复笔画码,仍为两个码,如“一”取11。于是字根码用两个笔画码组成,从11—55共25类字根码,用从A—Y的25个字母与它对应,作为形部字根的键码。
字根之间以散、连、包、夹四种松散形式组成汉字。其中很多是单体字和形声两部份的组合字,有形部表意,声部表音的含义。
现代汉字已纳入国家标准GB 2312—80《汉字编码字符集基本集》的有6763个,其中一级常用汉字有3755个,以拼音为序;二级普通汉字有3008个,以部首为序。GB7589—87《第二辅助集》有7237个,GB7590-87《第四辅助集》有7039个。三集共计21039个汉字。另外繁体汉字对应于简体,编排在GB12345—90《第一辅助集》、《第三辅助集》和《第五辅助集》。
国际标准ISO 10646 UCS《通用多八位编码字符集》的汉字区CJK是经过中、日、韩三国协商确定的。有82行,每行256个字位,共20992个字位,存放三国共同制定的20902个汉字,包括简体、繁体、日文、韩文,从总的数目来看,字量很多,但经常使用的不多,从大陆报刊上的用字统计资料,最多的字是“的”,占用字总量的3.84%,累计到4000号,已达用字总量的99.9%,约多于国家标准一级汉字。
本发明提供一种形声传智码及其输入法,直接采用国际交换码UCS的基本平面BMP,为4位16进制数码,按256行256列排列,使汉字与ASCII码在同一文字平面上,ASCII码只占00行的256个字位,汉字区CJK占4E—gF这82行,共20992个字位,每一个汉字占一个16位2进制数码,由于汉字的数量巨大,本发明采取分集处理,每集16行,有4096个字位。第一集为常用汉字集,占50—5F共16行的4096个字位;第二集方普通汉字集,占60—6F这16行的4096个字位;第三、四、五集为专用汉字集,分别占70—7F、80—8F、90—9f这16行的4096个字位。
4E和4F这两行,先安排128个基本符号,代表128个数码,与ASCII的前128个字符为基础,按数字顺序排列,用48键分三挡输入。第一挡为英文数字,第二挡为汉字,第三挡为图形制表。按0—9的10个数字,A—Z的26个字母和标点符号的次序排列。再安排384个双码汉字,第一码为字形码,第二码为空格或数码,安排11个高频字,其中D类汉字只有7个。
本发明只在汉字的左上角取一个字根码为形码,把它称为首根,汉字的首根,很容易选取,用它来代表形码就很方便,把每集汉字按首根分为25类,其中有的类别汉字很多,有的很少,再将常用汉字集中数量最多的十个字根(扌、艹、木、口、钅、亻、火、月、氵、辶),提出单独列码,用0—9的十个数字键表示,形码增至35类。第二键为声母码,用一二两键组合而成的形声类型,扣去D类首根,有34*26=884个类型。
每个汉字集都用三键输入,第一键为字形码,第二键为声母键,第三键为韵母键,用空格键确认为双码字,用数字键处理两键后同类型字的重码。
第一集为标准汉字,有固定形态,标准读音和准确含义,一般人都会拼读,采用形声码,第三键为韵母,另用数字键处理重码,有35*26*36=32560个码位。致于其它字集不知读音的字,可用首尾字根码,即第二键为尾根键,因此形声传智码,包括形声码和首尾字根码两种,尾根码也有35种,可有35*35=1225个双码位,第三码用声母排序,也用数字键处理重码。有35*35*36=44100个码位。
形声码的取码方法是按字形、声母和韵母三码的顺序取码,如“的”的首根为“白”,声韵母为DE。第一键取上下两笔为31转成K,第二键取声母为D第三键取韵母为E,组成KDE三码,其双键简码为KD加空格。
本发明与其它方案比较目前汉字编码种类很多,一般分为形码、声码和混合码,形码由于字形复杂,难于拆分,声码由于读音有限而重码严重,多采用双音输入来减少重码,也出现由形声结合的方法以字形码来补充。本发明根据汉字数量很多的特点采用将汉字分为五集的方法,使每集编码在4096个字的范围内进行,又因形声组合字很多,固采用很易区别的首根分类,再使每一个类型的汉字在220个以内。并用声韵组合的声码排序,使重码大大减少。经处理后达到三键不重码的效果,并用形码和声码组成双键简码,有35*37=1295个字位,安排1150个常用汉字。
本发明特点为按频率分集,依字形归类,用声音排序。并采用形声韵母写成三键输入码,直接压缩成国际标准交换码,建立在国际标准汉字区CJK内,并用键盘位置码通过汉字形声传智码,在键盘上直接转换成国际标准文字平面BMP的通用字符,再送入主机,为了便于位置码的转换,可将键盘排序与字符排序统一起来,按数字顺序排列,由两个控制键与字符键组合成从0—127的数字顺序,用48键分三挡输入。第一挡为英文数字,第二挡为汉字,第三挡为图形制表。按0—9的10个数字,A—Z的26个字母和标点符号的次序排列。
字母声母韵母汉字对照表附表1字 声 母 韵母拼 汉 声母 音 字 韵拼音 简 写 汉字 声韵码A A 啊 A a啊 AAB B 玻 BOan 安 ANC C 雌 CIang 昂 AGD D 得 DEao 熬 AOE E 鹅 E e er 鹅儿EE ERF F 佛 FOei EIG G 哥 GEen 恩 ENH H 喝 HE Heng ueng Heg ueg 亨翁HH UHI I 衣 I i衣 IIJ J 基 JIiaai 呀哀IA AIK K 科 KEian 烟 IBL L 勒 LEiang uang iag uag 央汪IC UCM M 摸 MOiao 腰 IDN N 讷 NEie 耶 IEO O 喔 O o Hong o Hog 喔轰OO HOP P 坡 POou 欧 OUQ Q 欺 QIin 因 INR R 日 RIing 英 IGS S 思 SIiong uoiog uo 雍窝IO UOT T 特 TEiou 优 IPU U 乌 U u乌 UUV CH 蚩 VIuav 娃迂UA UVW SH 诗 WIuai 歪 UJX X 希 XIuan van 弯冤HB UXY ZH 知 YIuei ve 威约UF UEZ Z 资 ZIuen vn 温晕UG UN
字母声母韵母字节汉字对照表 附表2第二韵母 ueg ai uag ogeruo v vanve vn一 a ag e en i ian iao o in iog u uai uei韵an ao ei eg ia iag ie ou ig iu ua uan uenA B C D E F G H I J K L M N O P Q R S T U V W X Y Z韵 第 二 韵 母 翁 哀 汪 轰 儿窝 迂 冤 约 晕母 啊安昂熬鹅 恩亨衣呀 烟央 腰耶喔 欧因英雍 优乌娃 歪弯 威 温啊A 阿 昂 爱 安奥 5玻B 巴般邦包 杯奔绷逼白 边 标别玻 宾兵 布 16雌C 擦参仓操测 岑层雌猜 葱 凑撮 粗 窜 催 村 16得D 搭担当刀的登低呆 颠 刁爹东 兜 丁多 丢都端 对 敦 20鹅E 鹅 恩 儿 3佛F 发帆方非分风 佛 否 夫 9哥G 嘎干刚高哥给根庚 该光工 沟郭 姑瓜 乖官 规 棍 19喝H 哈寒杭耗喝黑很哼 海荒轰 侯活 呼花 怀欢 灰 昏 19衣I 鸦烟央要耶 英 衣 因雍 优 10基J 鸡家 间江 交街 斤京窘 纠 居 捐 决 均 14科K 咖看康考科龈肯坑 开 筐 空 口阔 枯夸 快宽 亏 困 19勒L 拉兰郎老勒雷 冷梨来 连良 撩列龙 楼林零罗 溜炉吕 乱 掠 论 25摸M 妈瞒忙猫么梅闷蒙迷买 棉 秒灭摸 谋民名 谬木 19讷N 拿男囊脑讷内嫩能泥奶 年娘 鸟捏农 您宁挪 牛奴女 暖 虐23喔O 喔 欧 2坡P 爬潘旁抛 胚喷烹批拍 偏 飘撇坡 剖拼平 铺 17欺Q 欺恰 千腔 敲切 亲青穷 秋 区 圈 缺 群 14日R 然嚷绕热 人扔日绒 柔弱 如 软 锐 闰 14思S 萨三桑骚色 森僧司腮 松 搜所 苏 酸 虽 孙 16特T 他摊汤掏特滕梯胎 天 挑贴通 偷 听托 秃 团 腿吞 19乌U 娃弯汪威温翁 歪 窝乌迂 冤 约 晕 13蚩V 插产昌超车 陈成吃差 窗 充抽 戳 出 揣川 吹 春 19诗W 沙山商烧奢 身生诗筛 双 收 说 书刷 衰拴 水 顺 18希X 希瞎 先香 消歇 新星兄 休 虚 宣 学 勋 14知Y 渣占张招遮 针争知摘 庄 中舟 桌 朱抓 拽专 追 准 19资z 杂簪臧遭则贼怎增滋灾 宗邹 作 租 钻 嘴 尊 1权利要求
1.本发明取汉字的形声特点,提供一种形声传智码及其输入法,使国家标准汉字集直接进入国际标准ISO 10646 UCS的汉字区CJK,采用国际标准交换码的双八位编码,占50—5F共16行4096个字位,
2.第一健为形码,取左上字根两个笔画码,转换成字根码,用A—Y依次表示,有的类别汉字很多,有的很少,将数量最多的十个字根单独列码,用十个数字键表示,形码增至35类,在标准汉字集中各种类形不超过220个。
3.第二键为声母,或韵母第一字母,声母为21个辅音字母,三个双符声母CHSH ZH用VWY表示,由一二两键组成35*26=910种形声类型,另外用空格键和十个数字键表示35*11=385个高频字。
4.第三键为韵母,或表示韵母剩余部份的第二字母。与声母相拼的韵母有34个,本发明用26个韵母代替,先依字母顺序选排26个韵母,保持单元音字母次序不变,剩下8个韵母AI OG UAG UO V VAN VE VN与IAO IAG IOG UA UANUEI UEN相对应,共用一个字母。三键后还有个别汉字有重码,采用数字键为第三码来处理,能作到三键不重码。
5.用首尾字根码输入不熟习的专用汉字。
6.用48键字符字盘,分三挡按0—9A—Z+-*/=.()[]{}的次序排列,作为第一挡输入英文,第二挡用于汉字输入,依次用与数字键相对应的十个汉字字根和a至z的26个小写字母及、,;。!?\《》<>等12个字符。第三挡用于图形制表。
全文摘要
本发明取汉字的形声特点,把大量汉字按频率分为五集,每集4096个汉字,第一集为常用汉字。在各集汉字中,依字形归类,取首根编形码,再把数量最多的十个字根分出单独列码,字根增至35类,使每一类汉字在220个以内。再用声音排序,采用字形声母韵母连写成三键输入码,三键都用字母表示形声码,用数字键分离重码。直接将输入码压缩空格变成国际标准交换码,建立国际标准汉字区CJK内的双八位编码,用48键字母键盘,分三挡表示128个字符。
文档编号G06F3/023GK1164061SQ9611753
公开日1997年11月5日 申请日期1996年4月29日 优先权日1996年4月29日
发明者刘传志 申请人:刘传志
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1