汉字基因码的制作方法

文档序号:6569436阅读:423来源:国知局
专利名称:汉字基因码的制作方法
技术领域
汉字编码输入二、现有技术答1、手写识别输入指挥方式模拟人们用笔写汉字的习惯将字写在识别板上通过计算机识别进行输入。
优点符合人们用笔书写习惯。会写汉字就会输入。
缺点输入速度慢,平均每字约定10画而且这种输入方式要求书写汉字时相当规范否则会造成识别困难。
2、语音输入计算机获得语音信息后语音信息转换成文字说明信息来完成汉字输入。
优点不需要对汉字进行编码。
缺点输入环境要求高,输入者读音标准,汉字的同音字多且难以区分,输入错误率高。目前此项技术还很不成熟,尚处于发展期。
3、电子扫描识别技术对文本通过电子扫描识别后读入计算机。
优点方法简单。
缺点必须有原稿,对文稿印刷质量要求很高,否则计算机难以识别。
4、机器翻译即直接由外文翻译为中文,也属于被动翻译,翻译成功率不高。
5、键盘输入用键盘进行输入。
计算机汉字输入方法,一直是在中国普及计算机的“瓶颈”问题。国内外许多专家进行了大量的研究,提出了近1000多种汉字输入方法。
按编码方法可分为音码、形码、音形码、数码。
(1)音码即根据汉字的读音来编码。山东省唐樊宽的“中文声数码”,北京市刘卫民的“双音码”,微软全拼。音码的优点是容易学,直观。
缺点是码长较长,重码率高,不会读的字无法输入。
(2)形码即根据汉字的字形来编码。如河南省王永民的“五笔字型”,形码的优点是重码率低,码长较短,不会读的字的字也能输入。缺点是要有一套拆分汉字进行编码的规则,要记忆字根在键盘上的分布位置,较难学。
(3)音形码即同时根据汉字的读音和字型来编码。如四川省陈代于的“大众码”,周志农的“自然码”等。根据汉字“同音不同形,同形不同音”的规律,音形码的重码率大为降低。但是仍然存在较难学,不会念或念不准的字难输入的问题。且需要由形到音,由音到形的频繁转换,加重了人脑的负担。
(4)数码即用数字进行编码如区位码,电报码。
优点是只用10个数字编码,容易操作,无重码。缺点是极难记忆。
三、发明的目的答利用键盘进行汉字输入是目前汉字输入计算机的主流方法,它对环境,设备和操作人员的素质要求最低,这种方式将会随着计算机的进一步普及而处于汉字输入法的统治地位。目前的汉字输入法大都存在这样或那样的缺陷,容易学的音码输入速度太慢,稍微快一点的形码又太难学,音形结合码介于二者之间,形音,音形转换又令人脑在输入过程中负担过重。
如果解决了音形码中形音、音形二维转换令人脑在输入过程中负担过重的这一点,那么这种输入方法就会比现有的输入方法更容易让人接受。
具体方法是1、降低重码率,重码字词按使用频率予以优化。
2、简化编码规则、优化字根映射键元的规律、减少字根数量、从而达到易学易记的目的。
3、解决汉字中不会念或念不准的字难输入的问题。
4、缩短码长提高击键速度,提高编码效率。
5、规范化、标准化。编码规则严谨规范,与汉语语言文字教育全面接轨6、提高软件智能。

发明内容
1、汉字基因码中“基因”两字如何理解。即名称的由来基因是生物体基本信息因子,不同的基因控制不同的功能区。汉字中声母“音信息”、部首和部件“形信息”是汉字的基因特征代码,1、声母信息控制汉字的读音。
2、部首信息区分汉字的字义。
如汉字“汽、波”含有部首“氵”表达了与水有关的信息。
汉字“吃、喝”含有部首“口”表达了与口有关的动作信息。
3、部件与部首形成汉字的结构。
组词时先把这些信息元从汉字中分解、克隆并提取出来,根据权限大小重新加以组合,这样新的词组编码就形成了。
其中,声母在组词时权限最高其次是部首、部件和笔画。
(1)二个字组词时首先将两个汉字解体保留权限最高的两个信息元声母“音信息’和部首“形信息”而权限较低的部件和笔画信息元被权限高的信息元取代。
(2)三、四个字组词时将每个汉字解体保留权限最高的声母“音信息”而权限低的字根“形信息”被权限高的音信息所取代。
我把这一过程形象的比喻为“信息基因”复制和遗传的过程。
这一过程犹如生物体基因的克隆和遗传。
这就是汉字基因码名称的由来。
一、编码思想汉字编码首先需要解决的问题1、编码规则要力求简单,节省脑力负担。
(1)字根表与键盘对应规则要求简单。为了优化字根映射键元的规律、减少字根数量、从而达到易学易记的目的。汉字基因码采用“无编码的编码技术”用于编码的部首和部件以音托形式归类,少部分部件以象形方式归类。所采用的字根共200个左右,其中大部分字根是汉语大辞典中的部首。这种方式的优点是字根与键盘映射的规律性强,在所有键盘输入法中汉字基因码字根数量是最少的,部首是我们平时最常见、最熟悉的。因此见字得码无需记忆,省去了背字根表的烦恼。
(2)汉字编码拆分规则要力求简单,降低大脑疲惫。
汉字基因码吸收了音码易学,形码速度快的特点,不用拆分字根,没有背字根表的烦恼。编码方法基于汉字的造字原理,将难记的形信息转换为易记的音信息。彻底解决了音形码中音形与形音二维转换令输入者大脑疲惫的烦恼。实现了编码输入理论中的多项重大突破。即适合于抄入人员“看打”又适合于写作人员“想打”和“听打”。几分钟内学会便可终生难忘。输入时字为三码,词为四码。平均码长短,重码率低,输入速度快。
2、降低重码率,重码字词按使用频率予以优化。汉字基因码根据汉字“同音不同形,同形不同音”的规律,音形码的重码率大为降低,输入速度快。所有的重码字、词按使用频率不同经过加权算法全都予以优化。使用频率最高的字、词、句、最先上屏。
3、解决汉字中不会念或念不准的字难输入的问题。汉字中不会念或念不准的字我采用的方法是以形码输入为主前面加上“’”。“’’的含义是省略声母。即’+字根1+字根2+末尾字根或’+字根1+字根2+空格键例给’ark(纟人口)准’li(冫隹)即’ge(艮卩)会’res(人二厶)4、规范化、标准化。编码规则严谨规范,与汉语语言文字教育全面接轨。字、词、句编码规则科学规范,大部分字根是汉语大辞典中的部首。符合当前学校汉语语言文字教育。
5、缩短码长提高击键速度,提高编码效率。输入时字为三码,词和句为四码,对常用的高频字作一级简码二级简码和三级简码处理,对高频二字词语也作了简码处理。缩短了平均码长。
6、使用标准键盘,使用的码元集合要求合理。汉字基因码只使用27个码元符号,其中26个码元是26个英文字母,另外一个是功能键“’”。所使用的码元数量科学合理。
7、输入对象以词语为主,提高输入效率。汉语的表达方式主要是词语,以词语为主的输入比以字为主的输入具有以下优点(1)缩短码长,提高输入效率一倍多。字输入下码长为四键词为二键。
(2)简化编码规则,二字词输入时每个字只需输入一个形码,而四个字的词输入时就成了拼音输入法,这样就能减轻脑力负担降低出错率。
(3)根据汉字“同音不同形,同形不同音”的规律,降低了音形码的重码率。
(4)从信息论的角度来看,汉字的零阶熵为9.71 bit/字,词为11.46 bit/字英文字母的零阶熵为4.03 bit/字,英语词的零阶熵为10 bit/字,很显然使用词语输入这种方法提高了汉字键盘输入效率。
(5)汉字基因码共收集的词汇量有40000条左右。
其中包括《常用术语词典》《古代名句词典》《俗语谚语词典》《成语词典》《汉语大辞典》、世界各国及其首都名称和国际大城市名称。因此词汇量非常丰富。
二、编码方案字输入法共取三码最后加上空格键结束,独体字的部首和部件均为笔画。字取三码的优势汉字可分为词语和词素两种,词素是没有意义的。比如“我”是第一人称代词,可以单独使用。“们”是词素,不可以单独使用,必须和“我”一起使用才能合成词组。在7000个的单字中词语有1000多个,词素5000多个。汉字取三码的编码空间为26*26*26=17576,17576个编码空间对应1000多个单字词语,171的编码空间理论上是足够了。如果一条代码对应一组汉字重码,通过加权处理的词语权限比词素高,词语首先上屏即可。例“人、入、壤”对应的代码是“rty”这对重码中“人”是词语,“入、壤”是词素,加权处理后的词语权限比词素高,所以“人”排在重码队列的前列首先上屏。
1、(1)独体字不可被拆分成部件的字体。
声母码+首笔笔画码+末笔画码例末mgy、鸟nng、我wty、农nyy、发fny、长uty、电dhn(2)准独体字一个笔画和一个部件组成。
声母码+首笔笔画码码+部件码或声母码+部首码+末笔笔画码例旧jho旦dog币btj玉ywy犬qdy刃rdy太tdy主iyw干ggv
2、合体字编码方案合体字由若干个部件或一个部首和若干个部件组合而成的方块字汉字从结构上可分为左右型、上下型、全包围、半包围。根据部首所取方位不同又可分为以下八种,所取的部首和部件成对称关系。
(1)部首取左声母码+左部首码+末尾部件码例但drg、咬ykf、脑nou、驻imw、随sez、浪lsg、除uep若末尾部件不存在则声母码+左部首码+末尾连续两笔笔画代码例鞭bgw、排pfg、饿evw、提tfw(2)部首取右声母码+右部首码+首部件码例部bel、歌gqk若首部件不存在则声母码+右部首码+第一第二连续两笔笔画代码例比bba、鹅ent(3)部首取上声母码+上部首码+末尾部件码例急jdx、真ivb、善vyk、茴hck、索sva条tfp凫fnj若末尾部件不存在则声母码+上部首码+末尾连续两笔笔画代码例年nrf、丧svw、啬svk、曷hop(4)部首取下声母码+下部首码+首部件码例望www、碧bdw、骂mmk、哭kqk、变bye若首部件不存在则声母码+下部首码+第一第二连续两笔笔画代码例后hke、典dbm、兵bbr、在zyd、盾dme、左zgd、右ykd、熏xst、黑hsm(5)部首取外声母码+外壳部首码+末尾部件码例威wwn、或hgg、戴dgb、栽zgp、国gky若末尾部件不存在则声母码+外壳部首码+末尾连续两笔笔画代码例越yzw、建jzf、(6)部首取里声母码+内部首码+第一第二连续两笔笔画代码例囱cxr
(7)对于“田”字型的字体声母码+左上角部件码+右下角部件码例能nsb、器xkk、疑ybp、馨xvo若右下角部件不存在则声母码+左上角部件码+末尾连续两笔笔画代码或声母码+右下角部件码+左上角部件码或声母码+右下角部件码+第一第二连续两笔笔画代码(8)对于没有部首和部件的合体字取码规则与独体字的取码规则相同声母码+首笔笔画码+末笔笔画码例拜bth甭bgh3、要点说明(1)第一第二连续两笔笔画代码(见图二)指按照汉字笔顺的第一笔画和第二笔画合起来所对应的键盘代码。若首笔是“丿”次笔画为“、”键盘代码是“W”。
(2)末尾连续两笔笔画代码指按照汉字笔顺的倒数第二笔画和最末一笔画合起来所对应的键盘代码。(见图二)若倒数第二笔画是“丿”最末笔画为“、”键盘代码是“W”。
(3)对于零声母,即只有韵母没有声母的汉字取韵母的第一个字母作为声母码。
(4)首部件该字体的第一第二两笔笔画也是该部件的第一第二两笔笔画(部首“辶廴”的半包围字体除外)(5)末尾部件该字体的倒数第一第二两笔笔画也是该部件的倒数第一第二两笔笔画。(全包围、半包围字体除外)应该指出的是a、“发、泼、拔、拨”的末尾连续两笔画是“捺”和“点”所以部件“又”不是该字的末尾部件该字的末尾笔顺代码是“o”b、“随、腿”等字的末尾部件是“辶”而不是“月、艮”因为根据笔顺规则该字体的倒数第一第二两笔笔画对应的部件是“辶”同理“健、键”的末尾部件是“廴”。
(6)有些汉字具有两个部首信息元则按照这两个部首位置的先后,取上优先、取左优先、取外优先的原则。
例邓dye“又”在左为部首,“阝”在右为部件、同理鸡jyn观gyj敌dvf刮gvl划hgl的部首分别是“又舌戈”部件分别是“鸟见攵刂 刂”尊zlc“丷”在上为部首,“寸”在下为部件、同理曾clo尊zlc剪jld啬svk岛dnv息xzx的部首分别是“丷十鸟自”部件分别是“日寸刀大口山心”(7)首尾部件必需按照取大优先的原则。
例“恬、括”末尾部件取“舌”不取“口”。
“辫、辨、辩”末尾部件取“辛”不取“十”。
“较、咬”末尾部件取“父”不取“乂”。
(8)对于“捆、菌、蛔、悃”去掉部首“于、艹、虫、忄”剩于部件都是全包围字体则这些字体的末尾部件就取剩于部件的末尾部件。即被包围部分的字体。分别是“木、禾、口、木”。
(9)“我、成、戈、戋”等字的末尾笔画取点“、”。
二、词组输入法1、二字词取码规则分别取第一个字和第二个字的前两码。
声母码+部首码+声母码+部首码第一个字第二个字例知识ivvi、指挥ifhf、财富cbfb、信息xrxz2、三字词取码规则分别取这三个字的声母码+词汇键“’”。
声母码+声母码+声母码+’第一个字第二个字第三个字例计算机jsj’、共和国ghg’、共产党gud’、中国人igr’、工程师guv’3、四字词及短语输入法取码规则分别取第一个字的声母码+第二个的字声母码+第三个字声母码+最后一字声母码即可。
声母码+声母码+声母码+声母码第一个字第二个字第三个字最后一个字例新华书店xhvd、邮政编码yibm、中华人民共和国ihrg、三天打鱼,两天晒网stdw4、模糊输入法查询键是“?”用于代替不会输入的代码。例学习xsx?如果“习”字的部首不知道怎样输入,可用“?”代替。此时会出现一串词组,再用数字键选择即可。
5、高频词组输入法只需输入第一第二两个字的声母即可。高频字和高频词组这类常用语是我特别为电子商务而设计,输入速度更快,省时省力便于商务交流。例我们wm完成wu今天jt同意ty先生xv小姐xj三、语句输入法采用“语感”断句方法输入。
语音的特点是节奏感强,有韵律,声音高低起伏,语句错落有致这样可以把一句话根据语音音节有节点的规律可以分割成几小段语句,词条或若干个词组。这可以按个人语感习惯而论。
例邓小平同志关于建设有中国特色的社会主义。可以分割成(1)邓小平同志关于建设有中国特色的社会主义。
(2)邓小平同志关于建设有中国特色的社会主义。第一句可拆成十个词组,第二句拆成三个短语。还可以整段输入。
四、汉字的简码处理

一级高频简码字(加空格键结束)

二级高频简码字(在声母后加词汇键“’”再加上空格键结束)

三级高频简码字(在声母后面加上字母“o”再加上空格键结束)五、发明效果汉字基因码采用“无编码的编码技术”编码规则极其简单,直观。用于编码的部首和部件以音托形式归类,少部分部件以象形方式归类(见图一)。见字得码无需记忆,又吸收了音码易学,形码速度快的特点,不用拆分字根,没有背字根表的烦恼。编码方法基于汉字的造字原理,将难记的字根形信息转换为易记的音信息。彻底解决了音形码中音形与形音二维转换令输入者大脑疲惫的烦恼,节省脑力负担。实现了编码输入理论中的多项重大突破。不破坏写作构思和不影响思维连贯性。即适合于抄入人员“看打”和“听打”又适合于写作人员“想打”。几分钟内学会便可终生难忘(见以下各表)。输入时字为三码,词为四码。平均码长短,重码率低,输入速度快。并以词为基本输入单元,快捷、流畅。词库容量大,且具有句处理功能。编码规则严谨规范,与汉语语言文字教育全面接轨。
为此我整整花了四年的时间,参阅众多汉字编码理论的书籍。基于对汉字的理解,集各家编码之所长,综合计算机科学,生物基因遗传学,认知心理学,人体工程学,汉语语言文字信息处理学。取码的过程与人脑感知和识别图形汉字的思维过程同步。
表一汉字基因码一般人员学习进度

表二汉字基因码专业人员学习进度

表三汉字基因码输入法与其他输入法指标对照表

权利要求
要求保护的权利有1、编码方案一、字输入法共取三码最后加上空格键结束,独体字的部首和部件均为笔画。1、(1)独体字不可被拆分成部件的字体。声母码+首笔笔画码+末笔画码例末mgy、鸟nng、我wty、农nyy、发fny、长uty、电dhn(2)准独体字一个笔画和一个部件组成。声母码+首笔笔画码码+部件码或声母码+部首码+末笔笔画码例旧jho旦dog币btj玉ywy犬qdy刃rdy太tdy主iyw干ggv2、合体字编码方案合体字由若干个部件或一个部首和若干个部件组合而成的方块字汉字从结构上可分为左右型、上下型、全包围、半包围。根据部首所取方位不同又可分为以下八种,所取的部首和部件成对称关系。(1)部首取左声母码+左部首码+末尾部件码例但drg、咬ykf、脑nou、驻imw、随sez、浪lsg、除uep若末尾部件不存在则声母码+左部首码+末尾连续两笔笔画代码例鞭bgw、排pfg、饿evw、提tfw(2)部首取右声母码+右部首码+首部件码例部bel、歌gqk若首部件不存在则声母码+右部首码+第一第二连续两笔笔画代码例比bba、鹅ent(3)部首取上声母码+上部首码+末尾部件码例急jdx、真ivb、善vyk、茴hck、索sva条tfp凫fnj若末尾部件不存在则声母码+上部首码+末尾连续两笔笔画代码例年nrf、丧svw、啬svk、曷hop(4)部首取下声母码+下部首码+首部件码例望www、碧bdw、骂mmk、哭kqk、变bye若首部件不存在则声母码+下部首码+第一第二连续两笔笔画代码例后hke、典dbm、兵bbr、在zyd、盾dme、左zgd、右ykd、熏xst、黑hsm(5)部首取外声母码+外壳部首码+末尾部件码例威wwn、或hgg、戴dgb、栽zgp、国gky若末尾部件不存在则声母码+外壳部首码+末尾连续两笔笔画代码例越yzw、建jzf、(6)部首取里声母码+内部首码+第一第二连续两笔笔画代码例囱cxr(7)对于“田”字型的字体声母码+左上角部件码+右下角部件码例能nsb、器xkk、疑ybp、馨xvo若右下角部件不存在则声母码+左上角部件码+末尾连续两笔笔画代码或声母码+右下角部件码+左上角部件码或声母码+右下角部件码+第一第二连续两笔笔画代码(8)对于没有部首和部件的合体字取码规则与独体字的取码规则相同声母码+首笔笔画码+末笔笔画码例拜bth甭bgh3、汉字中不会念或念不准的字我采用的方法是以形码输入为主前面加上“’”。“’”的含义是省略声母。即’+字根1+字根2+末尾字根或’+字根1+字根2+空格键例给’ark(纟人口)准’li(冫隹)即’ge(艮卩)会’res(人二厶)四、汉字的简码处理
一级高频简码字(加空格键结束)
二级高频简码字(在声母后加词汇键“.”再加上空格键结束)
三级高频简码字(在声母后面加上字母“o”再加上空格键结束)
2.汉字基因码部首表
3.连续两笔笔顺字根表
全文摘要
汉字基因码采用“无编码的编码技术”吸收了音码易学,形码速度快的特点,见字得码无需记忆编码方法基于汉字的造字原理,将难记的字根形信息转换为易记的音信息。节省脑力负担。简化编码规则、优化字根映射键元的规律、减少字根数量、从而达到易学易记的目的。降低重码率,重码字词按使用频率予以优化。缩短码长提高击键速度,提高编码效率。实现了编码输入理论中的多项重大突破。
文档编号G06F3/023GK1327185SQ0011634
公开日2001年12月19日 申请日期2000年6月5日 优先权日2000年6月5日
发明者董杰 申请人:董杰
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1