五元笔声汉字输入法的制作方法

文档序号:6653630阅读:974来源:国知局
专利名称:五元笔声汉字输入法的制作方法
五元笔声汉字输入法是一种计算机汉字键盘输入的编码技术。它采用汉字的常用部首、偏旁、笔画和笔画结构作为输入代码,按照一定的规律,分布在计算机标准键盘的30个健位上,按照一定的规则,选取其中的若干个代码组成具体汉字的编码,以输入键盘代码的方式输入汉字。
一、计算机汉字输入的编码技术迄今为至,在众多的计算机汉字输入技术当中,以键盘输入技术占据主导地位。按照编码的组成类型主要分为(一)数字类以1~0十个阿拉伯数字作为汉字的输入编码,如区位码、国标码,电报码。此类编码人为地用数字符号作为汉字的编码,属于无理编码。
(二)拼音类以汉字的读音为基础,将构成其读音的全部拼音字母作为编码,或以某种方式将拼音进行压缩、简化。输入代码与键盘字母基本一一对应,如全拼、双拼等。
(三)拼形类以汉字的笔画、偏旁和部首,以及人为定义一些部件作为汉字的输入代码,按照一定的规则为汉字编码。主要代表有五笔字型,其它如拼型、笔形、表形、仓颉和郑码等。
(四)音形类和形音类音形类是把拼音和拼形结合起来,以字音(主要是声母)或拼音为主,以字型的特征信息(部首、偏旁、字型结构和笔画等)为辅。如四笔形声、表音码、自然码。
形音类以形为主,加上首音码,次音码和末音码为汉字编码,如首尾码、快速码、五十字元码等等。也有的以形、声、位三组信息来编码,如罗码。还有的以音和数字定义汉字的部首、偏旁和笔画来为汉字编码,如认知码。
(五)智能类智能类输入法并不是独立的汉字编码技术。它是将其它类型的输入法溶合进某些智能的功能,如自动分词构词、自动记忆、以词定字、词频调整、朦胧回忆、上联下接等功能,以智能拼音类居多,如智能ABC、音声汉字输入系统等。
二、五元笔声输入法的目的计算机汉字输入的难题早已被攻克,输入技术和方式多种多样,除键盘输入技术外,还有语音输入、手写输入、文字扫描输入技术等。这些技术都各自具备某些优势,但同时也存在很多劣势。如需要增加额外的设备,使用环境受到限制等,其自身技术仍需要进一步完善,并且这些输入方式都不如键盘输入方便,不能取而代之。
目前汉字键盘输入技术尽管种类繁多,但普遍存在的问题是“易用难学、易学难用”,仍需要各方面共同努力,创造出更加规范统一,易学易用的输入方式。五元笔声正是基于这样的目的而设计的计算机汉字键盘输入技术,它不仅可以为GB2312-80全部6763个汉字编码,还能为GBK大字符集编码。在同类汉字编码技术中,重码率较低,比较规范和易学易用,适合普通人和专业人员使用。同时更希望能为中、小学计算机汉字输入教学提供一种新的选择。
三、五元笔声输入法的技术内容五元笔声输入法不对汉字作理论探讨,所有代码均采用“输入码”这一术语。
(一)输入码的构成1、笔画由起笔处至落笔处不间断的一笔,共有五种(1)横从左至右方向所形成的一笔,包括“提”。
(2)竖从上至下方向所形成的一笔。
(3)撇从右上至左下方向所形成的带弧度的一笔。
(4)捺从左上至右下方向所形成的带弧度的一笔,包括“点”。
(5)折所有带转折和带钩的一笔,包括“横钩”、“竖钩”、“弯钩”和“竖提”。
2、部首、偏旁和笔画结构汉字的部首和常见偏旁以及少量笔画结构,共计191个。
(二)五元笔声输入码的键盘分布(见附图
)五元笔声的码元集包括标准键盘上的A~Z26个字母键和“,”、“.”、“/”、“;”4个标点符号键。
1、笔画五种笔画按照横、竖、撇、捺、折的顺序,对应安排在标准键盘元音字母A、E、I、O、U五个键位上。
2、部首、偏旁和笔画结构(1)以偏旁部首的习惯读音为主,按其声母分别安排在对应的声母键位上;(2)部分偏旁部首按照起始笔画分别安排在五个元音字母键位上或按其形状安排在相似的字母键位上;(3)笔画结构按照某些特征按排在易容记忆的键位上;(4)少数几个为避开重码人为按排在不同键位上。
(三)五元笔声输入法的取码规则1、基本规则(1)笔顺规则按照汉字的规范笔顺依次取码先上后下、先左后右、先横后竖、先撇后捺、先外后内先中间后两边(中间突出,两边均匀时)、先主体后穿心、先主体后配件、点在正上或左上先写,点在里边或右上后写等。
(2)有限拆分规则非笔画码只能从离散的和非交叉结构中按照笔顺拆出,交叉结构中只能按照笔顺依次拆分笔画。
(3)双码规则下面11个输入码处于整字的起始位置时,取双码(汉语拼音的第一、二个字母)作为编码的第一、二码,第三、四码按其它规则取码。本字的编码(键面字)或处于其它位置时仍正常取单码车(C H)、广(G U)、巾(J I)、马(M A)门(M E)、尸(S H)、雨(Y V)、衤(Y I)酉(Y O)、舟(Z H)包围结构的“□”(K O)2、补充规则除基本规则外,针对汉字的某些特殊情况,对编码(拆分)规则做了特别约定(1)优先取大如果有两种以上的取码方式则优先取大(笔画数多)。例如“壬”字应拆分为“千一”,不能拆成“丿士”或“丿十一”。但是在可以直观、均匀两分时,前一码不能免强取大。例“满”字,右半部只能拆分为“艹、两”,不能先拆出 (2)口的拆分包围结构的方框、交叉和半交叉结构中的方框按照其起笔位置整体取码,整体以外的末码作为整字的末码,例国——“囗王丶”、“中”——“口丨”、西——“一口丿 ”。
(3)戈、弋的拆分半包围结构的“戈、弋”作为此结构部分的末码,其余部分按照笔顺拆分。例威——“丿一女戈”、“载”——“十车戈”、式——“工弋”。
但交叉结构不能拆分出“戈”。例“我”字,只能依次取笔画。
(4)匚的拆分非交叉的半包围结构,按照起笔位置整体取码,整体部分以外的末码作为整字末码。例区——“匚乂”、欧——“匚乂欠”。
(5)日的拆分“日”可以从交叉和半交叉结构中按照起笔位置整体拆出,整体以外的末码作为整字的末码。例由——“日、丨”、曲——“日、丨、丨”、重——“丿、一、日、一、丨、一”。
(四)单字的编码单字编码全部由四码组成1、两码字的编码整字由两个输入码构成,该两码作为第一、二码,将第二码再拆分,取其首尾两码作为第三、四码。如果第二码是笔画,则以“,”补足四码。
2、三码字的编码整字由三个输入码构成,该三码作为第一、二、三码,将第三码再拆分,取其未码作为第四码。如果第三码是笔画,则以“,”补足四码。
3、四码以上字的编码整字由四码或四码以上组成。四码字的全部输入码按笔顺分别作为第一、二、三、四码,四码以上的字取第一、二、三和未码作为编码。
4、键面字的编码键面字本身既是输入码,又是独立汉字。其编码为本身作为第一码,然后按其它规则拆分取足四码。
5、一、乙、已、曰的编码本字读音声母Y作首码,其余各码按规则选取;组字编码时,“一、乙”只作为单笔画;“已”同“己”,“曰”同“日”。
6、常用偏旁的编码国标GB2312-80中规定的41个偏旁的编码为“PP”。
(五)词组的编码1、两字词的编码第一字的前两码作为第一、二码,第二字的前两码作为第三、四码。
2、三字词的编码第一字的前两码作为第一、二码,第二、三字的第一码作为第三、四码。
3、四字词的编码每个字的第一码作为编码的第一、二、三、四码。
4、四字以上词的编码第一、二、三和末字的第一码作为编码的第一、二、三、四码。
(六)GBK大字符集的编码在五元笔声输入码的基础上,增加若干个偏旁部首的繁体字形式。除相应的繁体字输入码不采用双码规则外,其它规则一律不变车(車)钅( )马(马)门(門)鸟(鳥)讠(言)饣( )纟(糹)鱼(魚)(七)简码
为减少击键次数,提高输入速度,五元笔声设置了一、二级简码。一级简码共30个,其中26个为高频字,安排在其首码或整字声母所处键位上,另外4个键位安排了4个标点符号,输入方法是简码键+空格键。二级简码主要是国标GB2312-80一级字库中的常用字,共计771个,输入方法是前两码+空格键。三级简码仅为重码字的技术处理而设置,共计97个,输入方法是前三码+空格键。一、二级简码如下表所列
(八)重码字的技术处理国标GB2312-80中全部6763个汉字的重码共计196组,其中两字重码187组,三字重码8组,四字重码1组1、两字重码芘葩/蓍著/茚茆/茄菩/苘苜/慕莫/楦杠/柰标/橼椽/揣揽/揎扛/拆抓/抛势/揿掀/揞撞拮抬/攉摊/浃兴/漩游/漓汶/洁治/鲨裟/沅泽/末未/赉颊/棘碘/枣甫/整速/鸫鸦/剪前鹚鹣/卤总/颅颂/厝蜡/蛱虾/轾辐/辍轰/转连/螭蚊/厣厮/蜾巢/巡过/兔象/奄龟/邹皱冀北/览临/屺岂/腼胚/肘寿/邡邦/窕穴/究它/勒功/邛即/糜麾/庇廉/麟庸/麂鏖/骼客灶墨/秆秤/稳称/秽秧/稹禾/璺臾/叟段/睾番/衄笃/卯卿/遛孵/旮旭/锼锻/锿镶/钦欣铀甲/钆钇/鼷鼢/铽钹/殳凤/近进/叭只/邑吧/遣遗/吕骂/叻另/呗员/呙呐/图国/啊号啥哈/产彦/峦端/鸾娈/竞况/驾加/迦孰/颏亥/齑齐/辨辩/盼粉/毡粘/遴逻/阐阅/阉阄阋闸/闶闹/阂眺/睹署/毪眸/鼎眠/账贝/鹦婴/睛精/瞀骛/婺鹜/牯姑/姗鸟/牲姓/妪媳扉肩/鸩鹤/阪版/陴牌/旬阳/具兵/乖乘/氙岳/氕乒/狒氟/氰猜/夥晡/野衙/旰旱/题是冕晚/禺映/盟明/晖晕/昴昂/晾景/弁异/觳彀/嘉喜/吉台/祠饲/饧畅/畈坂/态思/艴练缡纹/憨敢/绐结/乜了/彝孑/俨傅/舞年/龛使/攸悠/伽倍/敏繁/伪令/颔贪/乞亿/侵假玷咎/劢务/璃玟/迕迈/栗杀/恤省/怖希/戮戳/黼黻/襁裤/鸢鸡/酎蚤/鲐鲒/鲋震/臬采赜颐/舟跃/踣跏/蹁匾/孢跑/龆龉/龀龃2、三字重码汩汨沓/渲泻江/孬歪还/刃夕久/魈鞘宵/诒诘启/徵徽微/邺郁邓3、四字重码羸蠃嬴赢根据汉字的使用频度,重码字中较常用的字被设置为简码。其中一级汉字主要设置为二级简码(包括3个一级简码),二级汉字主要设置为三级简码。因编码空间所限或相对使用频度,个别的作了错位设置。1组四字重码除正常编码外,另外作了特定编码。
重码字的排列顺序为非简码字在前,简码字在后。如果记住全部重码字的203个简码和一组特定编码,单字输入时可以忽略重码。以下是重码字的各级简码(1)一级简码(3个)过是了(2)二级简码(103个)著莫标揽扛势撞抬摊兴江游沓治泽未甫还速前总蜡连巢象久龟北临岂寿邦它功即庸客宵墨称段欣甲凤进只遗骂另员呐国号哈端加齐粉逻闹署眠贝精姑鸟姓启版牌阳兵乘猜微晚明昂景异台畅思练敢结蛋年倍贪务迈杀省布鸡蚤邓震采跃跑龃(3)三级简码(97个)葩茆苜菩椽杠抓掀汨裟泻汶颊碘歪鸦鹣颂虾辐轰蚊厮夕皱胚穴麾鏖廉鞘臾笃卿旭秤秧禾番鼢孵钇锻镶钹吧彦娈况孰亥辩阄闸骛鹜眸阅粘眺婴媳肩诘鹤乒岳氟晡旱徽映晕彀喜饲坂纹孑使傅悠繁令假亿咎玟戳黻裤郁鲒跏匾龉颐(4)特定编码(按中线取码)蠃(lukc)羸(luk/)嬴(lukn)赢(lukr)(九)兼容码为了使学习和使用更方便些,五元笔声设置了近500个兼容码,主要针对不同的、规律性不强的笔顺习惯、汉字不同字体的笔画变形、非典型的结构与笔顺的矛盾及模棱两可的情况。例如官——“宀丨 一”和“宀 一一”巫——“工人人丶”和“一丨人一”雨——“雨一丨丶”和“雨一丨一”亥——“亠 丿人”和“亠 丿丶”夜——“亠亻夂丶”和“亠亻丿丶”
麦——“夂丿又”和“夂丿丶”鹩——“大丶丿鸟”和“大 日鸟”丑——“ 土十一”和“ 十一,”报——“扌卩又丶”、“扌 丨又”和“扌丨 又”。
特别指出一点,若干个重码字是因为兼容码造成的,其正确的编码并无重码。反之,若干个重码字的兼容码无重码。
(十)变形字(码)五元笔声所认取的变形字(码)数量很少,因其规律性强,基本可以做到触类旁通,将举例加以说明,故未列在输入码键盘分布图中。其认取原则是个别笔画轻微变形,但总体变化不大,很容易辨认的,仍按相应的输入码处理,如 为“木”、 为“十”、“隶”字的起笔部分为“肀”、“切”字左半部为“七”、“颓”字左下部分为“几”、“改”字的左半部为“己”、“死”字左半部为“歹”等。对于仅某种程度相似但比较勉强的,则不作为变形字(码),如 不作“牛”,而按“丿土”拆分,“丘”字的上半部分不作“斤”,而按笔画拆分。
四、五元笔声输入法的优点前面所述的五大类输入法各自具有不同的优、缺点,而其中具体的输入法更是千差万别。总的来说,数字类无重码,但因其编码的无理性,记忆难度大,仅适用于特定领域。拼音类简单易学,但重码多,输入时需要频繁选择重码,不仅麻烦,而且干扰击键的节奏和分散注意力,输入速度不快。另外,不同方言区许多人发音不标准,也给拼音输入带来一定困难。拼形类、音形类和形音类的优点是重码较少,但缺点也很多输入代码较多,很多是人为定义的不直观、人们不孰悉的笔画结构;拆分规则复杂、不精确;需要确定字形结构及其与之相对应的取码规则,对于复杂的汉字而言,这又多了一层难度;勉强拆分的东西太多;有的仍需要确定整字读音(至少是声母);数字键参与编码不仅键位多,而且造成击键指位移动幅度大等。其中一些的重码仍然很多或较多。
五元笔声输入法的特点是(一)输入代码较少,键盘分布规律性强,容易记忆。在代码的取舍上兼顾了取码时的直观性和难易度。(二)编码规则简单、具体,无须确定字形结构,以国家现行汉字笔顺规范和基本常识为基础,人为规定极少,基本不会对正常的文字教学造成干扰。(三)不涉及整字的读音,避免了发音不标准的问题,不认识的字也可以输入。(四)重码率低,国标GB2312-80汉字单字重码只有196组,并且具有进一步降低的空间,不仅适合一般人使用,而且也适合专业录入人员使用。(五)字词输入兼容。(六)可以为GBK大字符集全部汉字编码。
五、五元笔声输入法技术的实施五元笔声输入法利用WINDOWS所提供的输入法生成器,已经可以生成实用的输入法程序,具有WINDOWS自带输入法相同的功能。如果再增加一些智能功能或重码的后期处理功能,便可将一些仍不尽如人意的地方加以改进,使其更加方便易用。
权利要求
1.五元笔声的输入码及键盘分布五元笔声选取的输入码包括汉字中的横、竖、撇、捺、折五种笔画,和190个部首、偏旁和笔画结构,分布在计算机标准键盘的26个字母和“,”、“。”、“/”、“;”30个键位上。五种笔画按照横、竖、撇、捺、折的顺序对应安排A、E、I、O、U五个元音字母键位上;191个汉字部首和笔画结构的键位分布为A(石)B(八丷巴白本卜疒)C(车寸厂虫赤垂辰川巛屮镸)D(大丹歹刀刂)E(儿而山)F(丰夫方反非发月)G(工弓革戈 骨广瓜鬼艮 宀冖)H(火黑回十)I(彡)J(巾斤及甲井臼戋己已几 金钅)K(口囗)L(两力立亠冫 )M(马毛矛米皿母门冂目罒)N(女牛内农鸟廿)O(讠)P(片爿皮阝卩 勹丂耳)Q(七其气千丘曲且 犬犭豸)R(日曰彳)S(申尸巳示世豕氏厶礻饣)T(土田屯太)U(凵纟)V(人亻)W(万瓦王无 午攵夂)X(西习心小忄乂ナ)Y(雨鱼有又酉用业元聿肀尹弋衤 )Z(再自子舟专止 辶廴匚),(艹廾 )·(木)/(手扌 );(水氵 灬)
2.以五元笔声的输入码及键盘分布为基础的编码规则五元笔声输入法根据其所选取的输入码及键盘分布,按照如下的规则为汉字编码(1)笔顺规则按照汉字的规范笔顺依次取码。(2)有限拆分规则非笔画码只能从离散的和非交叉结构中按照笔顺拆出,交叉结构中只能按照笔顺依次拆分笔画。(3)双码规则车(C H)、广(G U)、巾(J I)、马(M A)门(M E)、尸(S H)、雨(Y V)、衤(Y I)酉(Y O)、舟(Z H)包围结构的“口”(K O)11个输入码处于整字的起始位置时,取双码(汉语拼音的第一、二个字母)作为编码的第一、二码,第三、四码按其它规则取码。本字的编码(键面字)或处于其它位置时仍正常取单码。(4)优先取大如果有两种以上的取码方式则优先取大(笔画数多)。(5)“囗”的拆分包围结构的方框、交叉和半交叉结构中的方框按照其起笔位置整体取码,整体以外的末码作为整字的末码。(6)“戈、弋”的拆分半包围结构的“戈、弋”作为此结构部分的末码,其余部分按照笔顺拆分。(7)“匚”的拆分非交叉的半包围结构,按照起笔位置整体取码,整体以外部分作为整字末码。(8)“日”的拆分“日”可以从交叉和半交叉结构中按照起笔位置整体拆出,整体以外的末码作为整字的末码。(9)两码字的编码整字由两个输入码构成,该两码作为第一、二码,将第二码再拆分,取其首尾两码作为第三、四码。如果第二码是笔画,则以“,”补足四码。(10)三码字的编码整字由三个输入码构成,该三码作为第一、二、三码,将第三码再拆分,取其未码作为第四码。如果第三码是笔画,则以“,”补足四码。(11)四码以上字的编码整字由四码或四码以上组成。四码字的全部输入码按笔顺分别作为第一、二、三、四码,四码以上的字取第一、二、三和未码作为编码。(12)键面字的编码键面字本身既是输入码,又是独立汉字。其编码为本身作为第一码,然后按其它规则拆分取足四码。(13)一、乙、已、曰的编码本字读音声母Y作首码,其余各码按规则选取;组字编码时,“一、乙”只作为单笔画;“已”同“己”,“曰”同“日”。
全文摘要
五元笔声汉字输入法是一种计算机键盘汉字输入编码技术,是针对同类输入法技术中“易学难用、易用难学”的普遍现象而设计的。输入代码包括汉字的五种笔画、191个偏旁、部首和笔画结构,分别安排在标准键盘的30个键位上,五种笔画对应五个元音字母键。其特点是:键位分布规律性强;编码规则简单、具体,比较规范;字词兼容;重码率低(国标GB2312-80全部汉字只有196组),适合普通人和专业录入人员使用;可以为GBK大字符集编码。
文档编号G06F3/023GK1372185SQ0110617
公开日2002年10月2日 申请日期2001年2月21日 优先权日2001年2月21日
发明者霍文豪 申请人:霍文豪
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1