基于笔画矢量的扫描式汉字输入法及其键盘的制作方法

文档序号:6416829阅读:280来源:国知局
专利名称:基于笔画矢量的扫描式汉字输入法及其键盘的制作方法
技术领域
本发明涉及一种计算机及信息通讯产品的汉字输入法及其键盘。
汉字输入法虽很多,但各种方法仍没能根本解决其基本缺陷,如汉字拼音输入法存在着同音字多、重码率高、输入低效等问题;语音识别输入法存在着方言、识别率等问题;手写笔输入法存在着识别率和书写速度幔的问题;而形码输入法虽无上述缺点,但目前主流方案存在着部件多、取码规则复杂、难学难记和部件拆分岐义性等问题。
本发明的目的在于提供一种易学易记,通用规范和输入高效的汉字形码输入法,以适应广大计算机和信息通讯产品用户对汉字输入的需求。
本发明是按下述理论和方法实现的本发明汉字笔画的矢量原理笔画(stroke)是构成楷书汉字字形的最小连笔单位,或者说笔画是书写汉字时,一次写成的一个连续不断的线段。落笔处为笔画的起点,提笔处为笔画的终点。本发明深入研究了笔画的矢量原理,成功的运用到汉字形码输入的前沿领域,创建了全新的汉字形码输入法。
笔画的矢量特征包括笔画方向和笔画长短二个方面。通过对成千上万个汉字进行分析,只考虑笔画的书写方向,而不计其长短,我们可以把汉字的笔画方向归纳为七个基本方向,即上、下、右、右上、右下、左上、左下,以此建立起汉字笔画的矢量坐标系即附图1。
根据汉字笔画的矢量特征和七个基本方向,我们可以把汉字笔画归纳为单向笔画和复向笔画二种单向笔画是书写时其基本方向不变的单一笔画;复向笔画是书写时其基本方向改变的单一笔画。
本发明单笔和复笔的定义和选取据统计,单向笔画有11种表现笔形,本发明科学归纳为四种基本笔形,并定义为“单笔”予以选取。
单笔是本发明选取的单向笔画的四种基本笔形,即横-、竖丨、撇丿、捺 据统计,复向笔画有35种表现笔形,本发明科学归纳为十七种基本笔形,并定义为“复笔”予以选取。
复笔是本发明选取的复向笔画的十七种基本笔形,即1横钩 2、横撇 3、横竖 4、横竖钩 5.横钩弯钩 6、横竖提 7、横弯钩 8、竖钩 9、竖横竖 10、竖横竖钩 11、竖提 12、竖横 13、竖弯钩 14、撇提 15.撇点 16.顺弯钩 17、逆弯钩 本发明部件的定义、分类和选取汉字部件(chinese character component)指由笔画组成的具有组配汉字功能的构字单元。汉字部件一般分为成字部件和非成字部件。本发明根据笔画在汉字部件中的组合状况,将汉字部件分为下列三类1、单笔部件指由单笔组成的部件,如八,十,大,人等。
2,单复笔部件,指由单笔和复笔相互组成的部件,如 力、月等。
3、复笔部件指由复笔组成的部件,如 等。
本发明根据以上汉字部件的三种分类,选取了三十六个汉字部件并定义为“部件”。
部件指本发明选取的三十六个汉字部件,即1、木2、十3、大4、王5、土6、 8、力 1O、月11、又12、禾13、火14、 15、 16、虫17、 18石19、贝20、田2l、足22、目23、日24、口25、住26、八27、 28、 29、 30、氵3l、 32、 33、 34、 35、亻36人。
本发明笔画组合、汉字结构和字型分类一、笔画组合笔画是构成汉字的最基本单位。笔画相互组合构成汉字部件和汉字。笔画相互组合有四种基本结构如下1、单一结构由一个笔画构成,如一、乙等。
2、离散结构由二个以上笔画构成,棺互间不连接,不交叉,如二、三.儿、八、川等。
3、连接结构由二个以上笔画构成,其笔画的起点、终点和其余部分棺互连接,如厂、于、五、平等4.交叉结构由二个以上笔画构成,其笔画除起点和终点的其余部分相互交叉,如十、力、九、也等。
二、汉字结构笔画和汉字部件相互组合构成汉字,汉字结构有四种基本形式如下1、单一形式由一个笔画或汉字部件构成,如一、乙、足、大、曰、田等。
2、离散形式由二个以上笔画或汉字部件构成,相互间保持一定距爵,如二、三、川、吕、困,识、照等。
3、连接形式由二个以上笔画或汉字部件构成,相互间连接,如厂,禾,自,天,于等。
少量汉字的连接形式存在可连可不连,能散又能连的现象,本发明的判别标准为由一个单笔相连为连接形式,其余为离散形式。如几,千,且,犬,太,五,主,术,勺,平,丙等汉字为连接结构,占,矢等汉字为离散形式。
4、交叉形式由二个以上笔画或汉字部件构成,相互交叉套叠,如农,申,夷,甲等。
汉字上述四种笔画组合结构和四种结构形式是区分汉字字型的重要依据。
三、汉字字型分类汉字字型是指笔画和汉字部件构成汉字时形成的相对位置关系。汉字字型可以归纳为以下三类1、左右型笔画和汉字部件之间可有间距,总体左右排列,如汉、湖、结、封等。
2、上下型笔画和汉字部件之间可有间距,总体上下排列,如字、莫、花、华等。
3、杂合型笔画和汉字部件之间虽有同距,但不分上下左右,或者浑然一体,不分块,如国,凶、同、区、司、这、乘、我等。
根据汉字字型分类,我们可以迅速判别离散结构和形式的汉字属于左右型和上下型,单一连接、交叉结构和形式的汉字均属于杂合型。
本发明键盘和码元键位总图本发明使用计算机通用键盘,在键盘中的26个英文字母键位上科学合理的对应分布所选取的单笔、复笔和部件,我们将选取的单笔、复笔和部件当作对汉字编码的码元单位,那么键位上的英文字母即为码元,本发明的码元单位共计57个,即四个单笔,十七个复笔和三十六个部件。码元为26个英文字母。本发明的码元单位和码元的对应分布构成本发明的码元键位总图即附图二。
(注本发明的码元键位总图(即附图二)是全面综合反映本发明的各种科学构思、技术原理特征、新颖性和独创性的极其重要和关键性的图表,根据专利法,现特别指定并提供)。
本发明的码元键位总图由复笔部件码、单笔字型码和字型码三种码元构成,现说明如下一、复笔部件码指本发明选取的十七个复笔和三十六个部件分别分组对应分布在键位上形成的码元。我们可以根据构成汉字的复笔和部件直接职其复笔部件码。
1、本发明将选取的十七个复笔分成6组分别对应分布在17个键位上,形成的码元对应关系如下第1组起始方向为横(右)的复笔3个即了、分别 分别对应码元E、R、T;
第2组起始方向为竖(下)且逆时针转向的复笔3个即 分别对应码元Y、U、I;第3组书写方向含撤(左下)的复笔3个即 分别对应码元D、F、G第4组起始方向为捺(右下)或竖(下)的复笔3个即 分别对应码元H、J、K;第5组起始方向为横(右)且顺时针转向的复笔3个即 分别对应码元C、V、B;第6组超始方向为竖(下)顺时针转向的复笔2个即 分别对应码元N、M;2、本发明将选取的三十六个部件分成5组分别对应分布在26个键位上,形成的碣元对应关系如下第1组首笔为横的单笔部件6个即木→Q,十、大→w,土→E,艹→R,王→T;第2组首笔为撇的单笔部件7个即隹、八、 人、亻→S,禾→D, 第3组首笔为捺的单笔部件5个即氵→H,亠→J,火→K,忄、疒→L;第4组单复笔部件8个即扌→Y,力→U,钅→I,乡、又→O,月、宀、冖→P第5组含复笔的单复笔部件9个即虫、辶→Z,石、田→X、贝→C, →V,目→B,日→N,口→M。
二、单笔宇型码指本发明选取的四个单笔按汉字左右、上下、杂合三种字型分别对应分布在12-个键位上形成的12个码元,详见单笔字型码.字型码码元表即附图3,现说明单笔字型码码元的对应关系如下第1种左右型汉字的单笔字型码4个即横→T,竖→Y,撇→G,捺→H;第2种上下型汉字的单笔字型码4个即横→R,竖→u,撇→F,捺→J;第3种杂合型汉字的单笔字型码4个即横→E,竖→I,撇→D,捺→K。
本发明的取码规则中规定,先职复笔和部件码不足四码、应补职单笔时,按照汉字字型分别对应补取单笔字型码,详见第六节。
三、宇型码指本发明根据汉字左右、上下、杂合、三种字型分别对应分布在三个键位上形成的3个码元,即左右型码元B,上下型码元V,杂合型码元C,附图3单笔字型码、字型码——码元表。本发明的职码规则中规定,补取单笔字型码后,仍不足四码时,应补职字型码,详见第六节。
四、为便于直观易学,本发明特别在单笔字型码和字型码相对应的键位上标示“ 三种特征符号分别表示左右、上下、杂合三种字型,详见单笔字型码、字型码——码元表即附图3。
五、码元键位分区指本发明根据选取的单笔、复笔和部件的共性特点,对计算机通用键盘中26个英文字母码元键位基本划分的码元区域。现说明如下1、横区即Q、W、E、R、T5个码元键位,分布有横的单笔字型码T、R、E;起始方向为横的复笔了、 首笔为横的单笔部件木、大、十、土.艹、王;2、竖区即Y、U、I、0、P 5个码元键位分布有竖的单笔字型码Y、U、I;起始方向为竖的复笔 3、撇区即A、S、D、F、G 5卜码元键位分布有撇的单笔字型码G、F、D;含有撇的复笔 首笔为撇的单笔部件八、隹、禾、人、 亻、 4、捺区即H、J、K、L 4个码元键位分布有捺的单笔字型码H、J、K;起始方向为捺的复笔 首笔为捺的单笔部件氵、亠、火、忄、疒5、复笔 区即Z、X、C、V、B、N、M7个码元键位分布有含 的复笔 含 的单筻笔部件口、目、日、足、田、石、贝、虫、辶。
本发明编码规则一、编码原则1.以选取的四个单笔,十七个复笔和三十六个部件作为汉字编码的基本码元单位;2、按照汉字的规范笔顺进行码元单位的拆分和排序;3、部件拆分时取大取整;4、扫描式取码原则先按复笔和部件职码,不足四码时,依次按单笔朴取单笔字型码、按字型补取字型码。
5.最多取四码,超过四码时,只职前三码和末一码。
二、取码规则1、单笔宇指全部由单笔构成的汉字,按对应宇型依次职其单笔字型码,超过四码时,只取前三码和末一码不足四码时,朴取字型码,空格结束。如“三”字,上下字型,职码为RRRV。
2、复笔部件字指全部由复笔和部件构成的汉字,依次职其复笔部件码,超过四码时,只取前三码和束一码;不足四码时,补取字型码,空格结束。如“明”字,左右字型,取码为NOB。
3,单笔复笔部件字指由单笔、复笔和部件相互构成的汉字,按扫描武取码原则,先依次按其复笔和部件取码,超过四码时,只取前三和末一码;不足四码时,补取单笔字型码;仍不足四码时,补取字型码,空格结束。
单笔宇型码码数递减规则指补取单笔字型码时,补取的码数应根据先取的复笔部件码的码数作相应递减。规则如下①先取1个复笔部件码,补取单笔字型码时,按第1单笔、第2单笔、最末单笔取其单笔字型码;如“取”字,码元单位为部件“又”、第1单笔“一”、第2单笔“1”、最末单笔“一”,取码为OTYT。
②先取2个复笔部件码,补取单笔字型码时,按第1单笔、最末单笔取其单笔字型码;如“笔”字,码元单位为部件 复笔 第1单笔 最末单笔“一”,取码为FIFR。
③先取3个复笔部件码,补取单笔字型码时,按最末单笔取其单笔字型码;如“纸”字,码元单位为部件“纟”复笔 复笔 最末单笔“一”取码为PYDY。
以上编码原则和取码规则详见附图4编码规则简表。
三、其它规则1、查询帮助键“ ”,本发明在计算机通用键盘中特设查询帮助键“ ”,在编码遇到困难时,可检索出所需要的汉字,具体功能和使用方法另述。
2、简码,重码,兼容码(也称容错码),单笔、复笔和部件编码,成字部件编码,词组鳊码等编码附则,限于篇幅,将另文阐述。
四编码例字基RAER于HEEC笔FIFR画XURU矢WFRV量NNRR的NCGH扫YVTT描YRXB式KEEK汉HOB 字PBHR输DSPH入SC 法HEDH及EDKC其RARR键IVWE盘CJVR本发明的基本思路为笔画是构成汉字的最基本单位,汉字形码输入研究应立足于笔画,但不局限于笔画;基本上根据笔画对汉字编码,因汉字平均笔画数超过10个,制约了输入速度;基本上根据汉字部件对汉字编码,因部件分布率太低,需增设大量部件,造成难学难记和部件拆分歧义的痼疾;因此,汉字形码输入研究应将笔画和部件结合起来。初步观察发现,现今汉字形码输入方案基本上忽略了笔画矢量特征,即复向笔画的方向特点,粗略的将此重要信息特征简单处理为折笔、左折、右折等种类。因此,本发明认为有必要就复向笔画的方向特点作深入研究,充分挖掘其反映出的汉字信息特征,为汉字形码输入研究探索并创建新的方法和技术。本发明充分利用复向笔画、少量部件、单笔字型码和字型码等汉字最基本最自然的信息特征,成功的对成千上万个汉字进行了编码,使本发明的汉字形码输入实现了易学、通用和高效的目的,从根本上突破了汉字输入法的专业和非专业界限,为计算机普及和教育开创了新的途径。
本发明的汉字形码输入法具有下列特点一、易学易记,可广泛普及。本发明码元单位合计57个,无需死记硬背,据测试,初始输入1000字左右,即可自然牢记,再难遗忘;本发明编码规则完全根据汉字最基本自然的信息特征予以制定,没有人为的规定设置,没有特殊例外;使取码简便易学,因而可广泛普及。
二、通用规范,适应于基础教育和各行业需求。本发明选取的单笔、复笔和部件,是小学生识字过程中就必须掌握的最基本知识;且编码规则符合规范笔顺和汉字自然具备的信息特征,因此,本发明的汉字形码输入法完全符合通用规范性,适合于基础教育和各行业需求。
三、高效输入,重码率低,完全能够实现盲打。因本发明码元单位少,易学易记,编码规则自然简便、通用规范,并且通过扫描式取码原则、单笔字型码及其码数递减规则和字型码,极大的离散了重码,达到了重码率低,输入高效的目的。
本发明的汉字形码输入法的基本技术指标如下编码类型形码适合对象不定码元单位57个码 元 数26个英文字母码长最大码长4效率150个左右/分钟收集词组条目50000多条适用汉字简体本发明的汉字形码输入法的重要名词、编码规则和图表汇总如下1、名词单笔、复笔、部件、单笔部件、复笔部件、单复笔部件、左右型、上下型、杂合型、复笔部件码、单笔字型码、字型码、单笔字、复笔部件字、单笔复笔部件字。2、编码规则扫描式取码原则、单笔字型码码数递减规则。

笔画矢量坐标系(附图1)、码元键位总图(附图2)、单笔字型码、字型码-码元表(附图3)、编码规则简表(附图4)。
权利要求
1.一种汉字形码输入法,其特征在于根据汉字笔画矢量理论所选取的汉字四个单笔、十七个复笔和三十六个部件,并科学合理的分布在计算机通用键盘中的26个英文字母码元上,从而形成的最能说明本发明技术特征的码元键位总图即附图2,其特征在于首创的扫描式职码原则和单笔字型码码数递减规则,即对于单笔复笔部件字取码时,先按复笔和部件取码,不足四码时,补取单笔字型码,补取的单笔字型码码数应按先取的复笔部件码码数作相应递减,详见编码规则简表即附图4。
2.根据权利要求1所述汉字输入法,其特征在于根据汉字笔画的矢量特征,创建了汉字笔画矢量理论,发现并论证了汉字笔画的七个基本方向,即上、下、右、右上、右下、左上、左下七个方向,建立了笔画矢量坐标系即附图1,挖掘出汉字复向笔画的信息特征。
3.根据权利要求1或2所述汉字输入法,其特征在于根据汉字笔画的矢量理论和七个基本方向,将汉字复向笔画归纳为17个基本表现笔形,并定义为“复笔”予以选取,作为汉字形码输入全新的信息特征工具对汉字编码输入;所选取的汉字复笔包括(1)横钩 (2)横撇 (3)横竖 (4)横竖钩 (5)横钩弯钩 (6)横竖提 (7)横弯钩 (8)竖钩 (9)竖横竖 (10)竖横竖钩 (11)竖提 (12)竖横 (13)竖弯钩 (14)撇提 (15)撇点 (16)顺弯钩 (17)逆弯钩 。
4.根据权利要求1或2或3所述汉字输入法及所设计的键盘,其特征在于根据汉字笔画矢量理论和七个基本方向,将汉字单向笔画归纳为4个基本表现笔形,并定义为“单笔”予以选取,即(1)横-(2)竖丨(3)撇丿(4)捺 并按汉字左右、上下和杂合三种字型对应分布在12个码元键位上所形成的12个单笔宇型码,详见码元键位总图即附图2和单笔字型码、字型码-码元表即附图3;其特征在于根据所选取的单笔和复笔在汉字部件的组合构造规律,科学合理的选取了三十六个部件,即力、田、目、日、口、虫、贝、木、土、石、大、王、丷、 连同选取的四个单笔、十七个复笔为汉字编码输入,建立起易学、通用、高效的码元新体系。
5.根据权利要求1或2或3或4所述汉字输入法,其特征在于将选取的汉字十七个复笔分成6个组合,第1组为起始方向为横(右)的复笔3个即 第2组为起始方向为竖(下)且逆时针转向的复笔3个即 第3组为书写方向含撇(左下)的复笔3个即 第4组为起始方向为捺(右下)或竖(下)的复笔3个即 第5组为起始方向为横(右)且顺时针转向的复笔3个即 第6组为起始方向为竖(下)且右时针转向的复笔2个即
6.根据权利要求1或2或3或4或5所述汉字输入法,其特征在于将选取的汉字三十六个部件分成5个组合;第1组有首笔为横的单笔部件6个即木、十、大、王、 土;第2组有首笔为撇的单笔部件7个即 部件 包括在本组;第3组有首笔为捺的单笔部件5个,即 ;4组有单复笔部件8个即 ;5组有含复笔的单复笔部件9个即虫、辶、石、贝、田、足、目、日、口。
7.根据权利要求1或2或3或4或5或6所述汉字输入法及所设计的键盘,其特征在于根据汉字左右、上下、杂合三种字型分别设立的3个宇型码,即左右型码元B,上下型码元V,杂合型码元C;并且为便于直观易学,所标示的三种字型特征符号,即特征符“●●”表示左右型,特征符 表示上下型,特征符“●”表示杂合型,详见码元键位总图即附图2和单笔字型码、字型码-码元表即附图3。
8.根据权利要求1或2或3或4或5或6所述汉字输入法及所设计的键盘,其特征在于对计算机通用键盘中26个英文字母码元键位划分的5个码元区域,即(1)横区为QWERT 5个码元,(2)竖区为YUIOP5个码元,(3)撇区为5个码元ASDFG,(4)捺区为HJKL4个码元,(5)复笔区为ZXCVBNM7个码元;并将选取的四个单笔的12个单笔字型码、十七个复笔的6个组合、三十六个部件的5个组合,3个字型码和三种字型特征符号,科学合理的分布在上述5个码元区域内,从而形成的最能说明本发明技术特征的码元键位总图即附图2。
9.根据权利要求1或2或3或4或5或6或7或8所述的汉字输入法及所设计的计算机通用键盘的码元键位总图,其特征在于当计算机26个英文字母码元键位所对应的汉字单笔、复笔和部件及其组合稍有变更,或编码规则有变动,将得到相应的新对应关系的码元键位图。
10.根据权利要求1或2或3或4或5或6或7或8或9所述汉字输入及所设计的计算机通用键盘的码元键位总图,其特征在于以所选取的汉字单笔,复笔和部件,替代台湾、香港、澳门及海外华人常用汉字,朝鲜用汉字,日本用汉字中的等形、形状近似或同义的单笔、复笔和部件,实现相应的汉字输入。
全文摘要
本发明是一种汉字形码输入法,根据笔画矢量特征,创建汉字笔画矢量理论,选取57个码元单位,使用通用键盘26个英文字母码元,详见摘要附图;依照规范笔顺首创扫描式取码原则、单笔字型码等符合汉字基本特征,降低了重码,可高效输入;本发明完全实现易学通用高效目的,使汉字形码输入取得根本突破,广泛适用于普及、教育和各类计算机用户。
文档编号G06F3/023GK1283812SQ9911551
公开日2001年2月14日 申请日期1999年8月6日 优先权日1999年8月6日
发明者李铁 申请人:李铁
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1