一种超大字符集汉字形码编码法及其输入键盘的制作方法

文档序号:6556538阅读:454来源:国知局
专利名称:一种超大字符集汉字形码编码法及其输入键盘的制作方法
技术领域
本发明属于形码汉字电脑输入法及其键盘。
本发明人于20世纪80年代曾提出五笔字型汉字电脑输入技术方案,并在在1986年全国推广应用,但五笔字型(86版)是针对解决GB2312(80)中的6763个汉字的输入提出的技术方案,对于国家信息产业部颁布于2000年的GB18030-2000汉字集,甚至更大的字符集,五笔字型(86版)技术方案不能形成一个可以有效解决大字符集汉字编码输入的完整的编码体系,不能有效解决超大字符集汉字字词的输入,已远远不能适应各行业特别是国内外中文应用的需要。
本发明的目的是建立一个科学的码元体系,提出一套解决GB18030标准大字符集或更大的汉字集输入的方案,以此形成一个完整的编码体系,以满足各行业对大字符集汉字输入的需要。
本发明采用五笔字型(86版)可以分为5区共25个键位的键盘、或数字键盘,本发明包括可对GB2312进行编码的码元体系、编码规则及其输入键盘。本发明在五笔字型(86版)码元基础上,针对GB18030或更大字符集汉字输入的需要,根据汉字构字规律和组字频度,设计增加了一批具有突出的实质性特点的码元,以此形成超大字符集数万个汉字的新的码元体系,并依据相容性、规律性原理将这些新的码元科学地安排在现行五笔字型键盘的5个区、每区5个位共25个键位上。
其中新增码元有 車 貝金 門 馬糹 黽新增码元在键盘上的设置可以是码元 可放在1区12位F键上,码元可 放在1区13位D键上;码元 可放在2区22位J键上,码元車 可放在2区24位L键上,码元貝可放在2区25位M键上;码元金可放在3区35位Q键上;码元 可放在4区41位Y键上,码元門可放在42位U键上,码元 可放在45位P键上;码元 可放在5区52位B键上,码元 可放在5区53位V键上,码元馬可放在5区54位C键上,码元糹 黽可放在5区55位X键上。
本发明的码元体系的全部码元及其在5区25个键位上的配置如附图
所示。
本发明的码元体系,可以采用五笔字型(86版)的取码方法对GB18030或大字符集中的全部简繁汉字的字词编码,采用的方法是(1)编码的最大长度为4或5;(2)当一个字拆不足4或5个码元时,击空格键结束;(3)或者补加识别码,包括末笔字型识别码和构形码中的一种或两种。
本发明可同时处理GB18030汉字或更大汉字集中数万个简体汉字与繁体汉字。本发明在同时处理简体汉字与繁体汉字时,其方法是可采用大写字母表示简体码元对应的繁体码元及其编码,而用小写字母表示其简体码元及其编码,也可采用大写字母表示简体码元及其编码,而用小写字母表示简体码元对应的繁体码元及其编码。
本发明突出的实质性特点在于,首先解决了编码工程中最根本的问题--码元设计的科学合理性,创造性地设计了输入超大字符集所必需的码元;并合理地安排各码元键位,与五笔字型(86版)已有码元相辅相成,形成一个超大字符集的码元体系。
本发明是在保持了现有技术码元和拆分编码方法的基础上,以浩繁的统计计算结果为理论依据,重新定量,创造性地设计了超大字符集汉字输入的新码元,并以此码元体系为基础,建立起一套可处理超大字符集数万个汉字输入的完整的编码体系。例如在GB18030大字符集中,构字频率较高的“ 馬 ”等,利用五笔字型的现有技术,必需对上述码元做进一步的拆分,而对笔画较多、结构复杂的大量繁体字来说,即加大了拆分的难度,又提高了重码率。本发明直接将其作为码元,并科学合理地的安排分布键位,进一步实现了直观分解、易学易用,且重码率大大降低。
本发明显著的进步在于,新码元的增加及该科学的码元体系的建立,才得以对GB18030或更多汉字的超大字符集中的数万个汉字及词汇进行有规律地编码拆分,才得以按照五笔字型取码法,运用行之有效的方式,完成了约占GB18030字符集总编码体系75%比例新增汉字的编码,才得以建立起一套完整的超大字符集编码体系,以此形成一个超大的汉字编码体系。
本发明的显著进步还在于,该编码体系与五笔字型(86版)编码体系兼容,GB18030字集的27000多个汉字,可以全部按照五笔字型(86版)的拆分取码方法进行编码输入,加强了编码的唯一性,保证了编码的唯一性,使得用原码元体系为扩大3倍之多的汉字编码时,本来必然大增的重码率得到控制和明显降低,提高了汉字输入速度。从而本发明建立的大字符集编码体系,有效解决了大字符集汉字的电脑输入的问题。
本发明可以采用五笔字型(86版)使用的电脑标准键盘,对汉字单字和词汇的拆分编码,向电脑输入数万个单字和数量不限的词汇。
本发明可以采用电脑或终端的英文键盘,对应五个区共25个键位的字母键位上可以标识出区位号、码元。
本发明用现行数字键对汉字的字词编码输入时,可直接在数字键上输入单字或词语参加编码的码元的区位号11-55,最多击键8次,而不必使用字母键。
本发明的实施例如下如码元焉有175个字以该字开头,遤颿馬馭馯馰馱馲馳馴馵馶馷馸馹馺馻馼馽馾馿駀駃馱駅駆 駈駉駊駋駍駎駏駐駒駓駔 駗骀驸駚駛駜駝駞駟駠駢駣駤駴駧駒駩駪駣駬駭駮駯骆駱馴駳駴駠駶駷駸駹駺驿駻駼駽 駿騀騁騂騃騄騅駒駧騇騉騊騻騌騍騎騏騐騑騷験騔騕騘騙騚騛騜騠 騟騡騢騣騤騥騦騧 騩騪騬騮騯騱騲騳騴騵騶騷騸騹聩鹱騽騾騿驂驃驄驅驆驪驉驊騤驌驎驏驐驑駻驓驔驕驖驗驙驛驜驎驟驠驢驣驤騤驦驧驕驩驅騳根据五笔字型取码法,每个字最多取四码,如不加码元焉会有174字重码。所有这些174个以馬开头的字的前三码都相同(GHF-1二),最后一码的编码空间只有25种可能(A-Y),即使将174个字平均分配在25个键位上,也会有近7个(174/25)字挤在同一个键位上。统计表明,不加馬码元,有99.4%的字重码,且最多重码字达16个之多,而在增加恩码元后,以嫣.开头的175个字中,仅有6对二重字,重码率仅为6.8%,重码率降低了92.2%。
又如将码元 放在4区45位P键上,而不放在其它键位上,这是基于五笔字型码元设置的规律性及最大程度降低重码率的前提下决定的。
首先,因码元 首笔为“、”(代号为4),次笔为“乙”(代号为5),根据码元规律性,首笔代号与区号一致,次笔代号与位号一致,故应放在捺区(4区)的45键位P上。
其次,捺区前三个键位(Y键、U键、I键)码元基本饱合,且常用码元较多,即只有在0键和P键上选择。只所以不选择0键,是因为0键的码元“ ” “ ”易与码元 发生重码。 在编码中一般出现在汉字第二码(据统计的87字中有41字 处于第二码),而码元 也是多处于汉字的第二码(据统计113字中有112处于第二码),容易造成重码。
再次,只所以将 放在P键上,是因为P键上的常用码元“冖”、“宀”、 一般处于第一码,常用码元“L”、“L”多处于末码, 常作为第二码出现,这样有效地通过码元的键位安排,离散了重码。
本发明可应用于各种涉及汉字的电脑及终端设备、软件产品、网络、通讯及各类图书管理、检索和音像制品及印刷品中,可以满足各行各业对汉字输入的需要。
权利要求
1.一种超大字符集汉字形码编码法及其输入键盘,包括可对GB2312(80)字集的汉字进行科学编码的五笔字型(86版)的码元体系、编码规则及其输入键盘,其特征在于根据构字规律和组字频度设计了可以为GB18030字集和超大字符集数万个汉字进行科学地拆分编码的新的码元 車 貝金 門 馬糹 黽以此与五笔字型(86版)公开的字根(码元)组合形成新的码元体系,并依据相容性、规律性原理将这些新的码元科学地安排在五笔字型(86版)键盘的5个区、每区5个位共25个键位上,新增码元在五笔字型(86版)键盘上的设置可以是码元 可放在1区12位F键上,码元可 放在1区13位D键上;码元 可放在2区22位J键上,码元車 可放在2区24位L键上,码元貝可放在2区25位M键上;码元金可放在3区35位Q键上;码元 可放在4区41位Y键上,码元門可放在42位U键上,码元 可放在45位P键上;码元 可放在5区52位B键上,码元 可放在5区53位V键上,码元馬可放在5区54位C键上,码元糹 黽可放在5区55位X键上。
2.如权利要求1所述的超大字符集汉字形码编码法及其输入键盘,其特征在于按照其码元体系及键盘分布,可以用五笔字型(86版)的取码方法对大字符集中的全部简繁汉字的字词编码,采用的方法是(1)编码的最大长度为4或5;(2)当一个字拆不足4或5个码元时,击空格键结束或者补加识别码,包括末笔字型识别码和构形码中的一种或两种;(3)使用数字键对汉字的字词编码输入时,可直接在数字键上输入单字或词语参加编码的码元的区位号11-55,最多击键8次。
3.如权利要求1所述的超大字符集汉字形码编码法及其输入键盘,其特征在于采用电脑或终端的英文键盘,对应五个区共25个键位的字母键位上可以标识出区位号、码元。
4.如权利要求1所述的超大字符集汉字形码编码法及其输入键盘,其特征在于采用大写字母表示简体码元对应的繁体码元及其编码,而用小写字母表示其简体码元及其编码,也可采用大写字母表示简体码元及其编码,而用小写字母表示简体码元对应的繁体码元及其编码。
5.如权利要求1所述的超大字符集汉字形码编码法及其输入键盘,其特征在于本发明可应用于各种涉及汉字的电脑及终端设备、软件产品、网络、通讯及各类图书管理、检索和音像制品及印刷品中,可以满足各行各业对汉字输入的需要。
全文摘要
一种超大字符集汉字形码编码法及其输入键盘,包括可对GB2312(80)字集编码的五笔字型(86版)的码元体系、编码规则及输入键盘,本发明根据构字规律和组字频度设计了可为GB18030字集和超大字符集数万个汉字进行科学拆分编码的新的码元,以此与五笔字型(86版)公开的字根(码元)组合成新的码元体系,并依据相容性、规律性原理将新码元科学安排在五笔字型(86版)键盘的5个区、每区5位共25个键位上,按五笔字型取码法,实现大字符集汉字的输入。
文档编号G06F3/023GK1324017SQ0111841
公开日2001年11月28日 申请日期2001年5月30日 优先权日2001年5月30日
发明者王永民 申请人:王永民
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1