一种音码同步的汉字输入编码方法

文档序号:6605963阅读:339来源:国知局
专利名称:一种音码同步的汉字输入编码方法
技术领域
本发明属于电脑汉字输入领域,涉及一种通过电脑键盘盲打输入汉字编码的方法,尤其是按汉字的音义关联将汉字部件分为主、副部件,采用“音码同步赋值”规则,通过部件名称读音或借字组词对汉字编码赋值的方法。
已有的电脑键盘汉字输入方法有单字符代码赋值和多字符代码赋值两种对汉字部件赋值的方法,用1个或多个英文字符表示汉字部件赋值字符代码,用字符代码集合构成汉字编码。1997年12月1日,国家语言文化工作委员会发布“信息处理用GB 13000.1字符集汉字部件规范”(GF3001-1997)制定了560个汉字部件规范和术语。
单字符赋值方法中每1个英文字符都对应多个汉字部件,如“码根码”使用24个字符编码,其中字母F对应了52个汉字部件(码根码使用手册,1998.5)。多字符赋值方法把汉字部件分级,主部件对应1个字符,副部件对应1个以上的字符,依据部件笔形、读音或字意确定对应的赋值字符代码。如“郑码”把汉字按起笔笔划分为“横、竖、撇、点、折”5类26个区码,对第一主根(主部件)用1个字符赋值,第二主根、副根(副部件)用2个字符赋值(电子工业出版社《郑码输入法手册》,1995.12)。
已有的汉字音码输入方法是多字符音节赋值方法,因汉字一音多字,编码的重码率高,需要看屏选字,不能盲打;形码输入方法,在笔、形、意元素中选用一种编码元素,或是选择两种元素以其先后排列组合编码。形码的重码率低,适应盲打,但拆分规则难于掌握。音形码以音为主,以形为辅,用笔形区分同音字;形音码以形为主,以音为辅,把字拆分为部件和笔画,再用部件和笔画读音来区分部件、笔画相同的汉字。汉字编码分为形码、声码,割裂了语言文字音码同步的基本特征,适用专业录入人员,难于普及、推广。
汉字输入方法的最终目标是产生供电脑识别的“汉字编码序列”,是一种“准语言文字”。因此要从历史地、发展地观点看待汉字的产生,分析其部件音义特征。
“形声相益,即谓之字”(《说文解字》),汉字有独特的造字方法“六书”,象形、指事、会意、形声、转注、假借。汉字来源于象形,甚至由画而生,由部件或部件集合构成整字。汉语以字组词,以词成句,不需逐个说明汉字各部件自身含意。国家语委规定的560个汉字部件中,约有248个没有名称、读音,但并不影响汉字的应用。要使汉字适应社会发展和需要,汉字的结构与部件理据也需变革更新,使传统和现代化达到辩证化的统一。为此,应规范汉字部件音义,赋予名称读音及与读音相应的部件字符代码,才利于汉字编码。
本发明的目的是提出一种将汉字部件按音义关联分类,规范汉字部件名称,音码同步赋值的编码方法。
本发明的目的是通过下述技术方案来实现的,将汉字部件按汉字的音义关联分为主部件、副部件;为无名主部件确定名称,副部件借字形成说明词组;依部件名称读音或借字词组读音,采用“音码同步”的语言规则确定部件赋值字符代码;按部件编码表和双字符赋值方法对汉字逐部件赋值取得编码字符代码序列,并按取码规则选留4位或4位以内的字符,得到汉字编码。通过主部件前缀汉字,副部件借字词组,人为定义编码赋值字符,优化编码表,回避重码。
主部件是全都赋予名称的成字和非成字部件,依其名称读音或读音提示用1位或2位代码赋值,主部件、名称读音、主部件赋值代码的集合构成主部件编码表;副部件是成字部件,其借字词组的双声母是副部件的赋值代码,所有副部件借字词组、编码赋值代码的集合构成副部件编码表。
主部件除用名称读音声母赋值外,还按笔形、表形、拟音、表意、指定、拼音等方式赋值。副部件主要为交重类型成字部件,副部件编码表按副部件声母字符或双声母的首字符分组,每组所有副部件借字词组尾字的声母字符或声母的首字符在汉字声母首字符序列中只出现1次。
主部件与副部件的区别在于,主部件2位赋值代码的第2位的使用范围由该部件绝对位置决定,副部件由绝对位置或相对位置决定,按取码规则在主、副部件双赋值字符中弹性选取1位或2位字符。
本发明的优点是1,根据部件音义关联划分主部件、副部件,与汉字的语源和发展相呼应;
2,为无名汉字主部件确定名称,使汉字部件在语言范畴内更加规范,为汉字的数字化做好准备;副部件借字组词基本避免拆分复杂笔画交重部件,大幅度压缩了参加编码的汉字部件;3,通过汉字部件名称和词组的声母读音,实现音码同步赋值,提示、促成从汉字到字符的转换思维,见字识音,读音键码,适应语言习惯,便于记忆;4,通过增加主部件前缀汉字,改变了部件在声母序列的位置;调整、选择副部件的借字词组,人为定义编码赋值字符,优化编码表,回避重码,利于盲打。
5,主部件、副部件的相对位置决定赋值字符取码位数弹性变化,即减少重码,又压缩了编码字符序列长度;以下是按本发明的方法编制的具体实施方案例一,结合实施例及其主部件赋值编码表、副部件赋值编码表以及汉字编码取码规则来详细说明本发明的方案。
实施例一本发明实施例一使用的汉字部件为294个,在国家语委规定的560个部件中有205个,占36.6%,还定义了数字天干符号等12个主部件汉字、5个拼音赋值副部件、72个借字组词副部件汉字。
1,主部件赋值编码表及赋值方法主部件类型别包括汉字的基本笔划,成字部件,非成字部件,汉字数字与天干符号。主部件都赋以单、双音节名称,名称读音是赋值字符的助记音。成字部件用本名或转意名称,非成字部件赋予习惯名称或用其首笔、首次笔笔划名称表示;按笔形、表形赋值的部件,以英文字符或由形义为其取名;指定部件由特定字符赋值。所述的主部件分别使用1或2个字符赋值,采用“模糊处理”与“简化”原则,缺损部件按完整的部件赋值,主部件有以下赋值类别①表形部分如成字部件月、日、米、牛、厂、山等的赋值字符分别为u、o、x、n、f、E;非成字部件×、、厶、包、凵、竹、者、跑等的赋值字符分别为x、L、v、n、u、v、p、r;详见表一。
②拟音部分如成字部件王、木、口、工、力等的赋值字符分别为原字声母w、m、k、g、l;成字部件目、石、虫、耳、田、门、豸等的双字符赋值字符分别为其模拟名称声母读音,为em(耳目)、bs(白石)、pc(爬虫)、ew(耳闻)、ty(田野)、mk(门框)、zc(豸虫)。
汉字按声母字符分类,结果很不均衡。5个声母字母Z、Y、L、S、C序列几乎占据了汉字(国标一级字)的三分之一以上,如果采用自然声母字符分类,会有较多的重码。本发明以自然声母为主,通过为部件添加前缀来调整声母序列的位置。目、石、虫的添加前缀,将该偏旁的所有汉字从原声母序列m、s、c移动到新序列e、b、p;ew(耳闻)、ty(田野)、mk(门框)、zc(豸虫)等增加后缀字符是为了在原声母序列内减少重码,详见表二。
③表意部分如部件兰、兴、灬的赋值字符为h,读音提示为火(苗二)、火(苗三)、火(苗四);部件饣等的赋值字符为ok,读音提示为“园口”象征张口饮食,详见表三。
④中文数字、天干符号部件中文数字一——十、百、千、万,天干符号甲、乙、丙、丁、戊、已、庚、辛、壬、葵列入主部件。
部件一、二、三为基本笔划,八直接使用拼音字符(“八九”的声母与“北京”重码),其余部件采用循环联想的读音提示赋值,即四五、五六.....九十和十零(O)。数字部件廿、卅只作为单字使用,助记音为“廿个拾”、“三个拾”。
天干符号部件甲、乙、丙、丁、戊、(已)、庚、辛、壬、葵,赋值读音为声母附加“符号”的首字声母f。因已与甲的声母重复,已采用部件已已的组合。
中文数字、符号部件编码表见表四。
⑤指定部件a,女、土、疒,用字符a、y、p赋值;b,部件上下结构汉字的起笔和提笔的“丶”定义为“壹点”,区别于其他位置的“丶”。如主、之、犬、压、寸、勺的“丶”,用字符ad赋值;c,“模糊取字”,如,亲即木;禾即禾;聚的聚用豕代;丧的丧用衣代;d,“事不过三”超过三横的部件佳等同于住,超过三横的部件段等同于丰;
e,码表中未排列的部件,均按笔形拆分,部件赋值字符取前2笔、部件作单字取前3笔赋值。如告nz、将iz、爿lz、氏cp;2,副部件赋值编码表及赋值方法副部件编码赋值方法是本发明的重要部分。人们在对话,特别在通过电话交流时,有2种说明字词的习惯方法。
①通过部件拆分来说明相离、相接结构汉字,如木子李、弓长张;②通过借字组词说明交重结构汉字,如马驹的马、身体的身、兼并的兼...等。
已有的编码方法,特别是形码都通过模拟上述“拆分”方法①进行部件拆分。汉字部件结构方式有相离、相接、交重三类,拆分交重部件会有多种组合。构成交重部件的基础部件多数缺乏名称读音,学习、操作的难度较大。本发明对交重结构汉字副部件使用上述“借字组词”方法②同步取得赋值代码,避免了部件拆分时辨认汉字结构理据的困难,也减少了部件数量。
副部件是成字部件,其主体为交重类型成字部件。每个副部件借一字组成赋值词组,词组的的双声母是该副部件的编码赋值字符,词组读音是赋值字符的助记音。词组包括人物、物品、地名,方向等,相互呼应,便于记忆,如东南、西北、儿女、妻女、胡同、里弄、鬲瓦、缶瓦等,分别是部件东、西、儿、妻、胡、里、鬲、缶的赋值词组。
东的赋值词组是东南,双字母赋值字符为dn;避免使用基础部件七小;妻的赋值词组是妻女,双字母赋值字符为qn;避免使用基础部件一彐ㄧ女。
副部件编码表见表六。编码表包括副部件词组(词组首字为副部件)和赋值字符,按词组的首字声母分组。所述的副部件有以下类别①交连类型成字部件是副部件的主要成分。如牙、垂、秉、发、兼等。
②由2个相离部件构成的成字部件,其中至少有一个相离部件是非成字部件,如北、比、川、鬲、南等的北、比、川、鬲、南。
③对少数包含3个以上分离部件的相离、相接结构汉字,为减少拆分编码,也作为副部件看待。如豆、高、鼎、胡、周等。
④个别交重部件无法引导一个附加字构成赋值词组,采取附加一个说明字的赋值方法,两字集合构成词组。
如部件臧、尤为姓氏、冉为缓慢的意思,其赋值词组分别为臧姓、尤姓、冉缓;又如乎字常与“之、乎、者、也”并提,其赋值词组为乎也。
副部件编码表按赋值词组首字声母字符或双字符声母的首字符分组,1个副部件只出现1次,每组所有副部件借字的声母或双字符声母的首字符在汉字声母字母序列中只出现1次,以避免重码。
如选用了“雨露”yl,在同组中的部件“衣”就不能使用“衣领”yl;部件“雨”也不能使用“雨衣”yy组词。
⑤难于产生附加字组词的副部件用该部件的拼音赋值,其单字仍为2位拼音字符。如刺ci、骨gu、禺yu。拼音赋值部件编码表见表五。
本发明的副部件组成方法适用于对其他录入编码方法的简化。
3,汉字赋值编码取码原则按以上所述对汉字逐部件赋值得到字符代码序列,代码序列大于4位时,要按取码原则压缩。
本方法的“按编码表取赋值字符”是指按照编码表所列举,取其1位或2位赋值字符;“按编码表取1位字符”是指照编码表所列举,取其1位赋值字符或2位赋值字符的第1位字符。
主部件与副部件的区别在于;主部件选取赋值字符受部件绝对位置限制,在部件数小于4时,首笔主部件“按编码表取赋值字符”。非特别指明,首笔之后位置主部件“按编码表取1位字符”。副部件选取赋值字符是依据副部件的相对位置,以先后竞争选取。
①主部件本身作单字时,按编码表取赋值字符;非成字主部件为赋值字符+kg(空格位置代码)。
副部件本身作单字时,其编码赋值字符的第2位字符重复,取3位字符。1字符主部件单字木m 火h 土y1字符主部件氵dkg辶 kgi 门mkkg2字符主部件单字石bs 耳ew 目em3字符副部件单字白bcc朱zhh或hxx②双部件汉字中的副部件、作首笔的主部件按编码表取赋值字符;如需字的副部件雨、而取2位,狭字的副部件夹取2位,备、狭的主部件夂、犭为2位,但备字的主部件田不在首位只能取1位字符。
首部件为单赋值字符时,随后的主部件按编码表取赋值字符;如浊字的主部件虫取2位。
2字符2部件双vv 字gz 仝rg3字符2部件桃mzt备fwt 浊dpc4字符2部件阐mkdm 需yleq狭qpjd③三部件汉字,其首笔部件按编码表取赋值字符;如。郑、娶。
三部件汉字,首部件为1位赋值字符,其后第一个副部件按编码表取2位赋值字符,随后的副部件按编码表取1位字符。如黄。
三部件汉字,首部件为2位赋值字符,其后的副部件按编码表取1位赋值字符,如颁。
3字符3部件郑hdb 难vle框mcw4字符3部件阋mkue 黄nycb 海dnmq4字符3部件颁bady 沼ddqk 解jqdn④4部件汉字,各部件按编码表取1位字符;4字符 4部件缩sglb境yloe幕codj徼sbff察gdbx调iuyk⑤4部件以上的汉字,部件取码按构件压缩。汉字相重、相接的基本部件的集合或相离部件依笔顺左右、上下运笔方向相同的部件集合称为构件。
2构件,将4个赋值字符平均分配给2个构件,不能平均时,采用1、3或3、1分配方式;按构件从前向后取码,第4字符分配给第2构件的尾部件;3构件,将4个赋值字符的前3个平均分配给3个构件的首部件,第4个部件为末构件的尾部件。末构件不能容纳时,自首构件起从前向后分配给构件的次字符;4构件,4个赋值字符分配给4个构件的首部件。如下例(2构件栏目中的数字为两个构件中的字符分配比例)2构件13德 彳十四心 左构件省略一13僵 亻一田一 右构件省略第二个一和次田31影 日亠口彡 左下构件省略小22疆 弓土一一 右下构件省略田一田
22赣 立日夂冂左下十省略,右构件省略工人3构件鹫 亠口尤鸟左上构件省略小口醪 兀习人彡左构件省略日右上构件省略右习窿 宀阝夂生第一构件穴省略八;取上首宀警 艹夂亠口左上省略句,下构件省略二彝 口一米廾第三构件省略纟4构件鳜 鱼厂益勹第3、4构件节省出、人4,汉字词组赋值编码取码规则汉字词组赋值方法在编码方法中为公知技术,一般为取各字首字符或首次字符。由于词组为汉字输入的主要方式,本发明的取码规则如下副部件赋值词组直接使用其双声母;2字词组每字取前两个部件的首位赋值字符,副部件独体字取2位字符,单部件字的1位赋值字符后加字符q,共取4位字符;3字词组前两个字各取首部件字符,最后1字取前两个部件2字符或独部件字的2个赋值字符,单部件字1位赋值字符后加字符q,共取4位字符;4字词组各取1位字符;4字以上词组,前3字与最后1字各取首部件的1位赋值字符。
5,繁体汉字编码本发明的偏旁部件改用繁体字的偏旁部件时,即可适用于繁体汉字编码赋值。增加繁体字偏旁部件时,即可适用于简、繁体通用汉字编码赋值。
如定义繁体偏旁示例繁体“马”为马王mw、繁体“车”为车轮co、繁体“门”为门板mb,以上为表意。“言”为pk、“鱼”为nh、“金”为rb,以上为首尾部件。
上述实施例的主部件名称、副部件词组并非唯一,在不造成重码的前提下,还可有其他名称、词组组合,使用的部件数也可增减。因而,本发明所要求保护范围不限于编码表表一至表六,还可以得到其他部件的名称、借字词组,如实施例二、三。
实施例二。
将实施例附表一、二中的主部件“匚”改称“侧框”,与门的名称“门框”呼应。这时,叵的编码为ckk与乘字的编码ckk相重,需要把乘字的借字词组改为“乘骑”cqq。
如,主部件“耳”的名称改为“耳朵”ed,“目”的名称改为“书目”sm。
如,将牛、羊的词组改为“牛犊”、“羊羔”,以与“马驹”呼应。“羊羔”的编码yg与“艮卦”编码相重,要将其改为“艮卜”yb。
按上述原则,副部件按声母序列分组,除本实施例副部件借字词组(表五——表六)外,副部件还有多个借字词组构成的其他实施例。
实施例三(只列举副部件)声母b序列副部件白巴北比秉半匕卜。
白,白雪、白天、白纸、白衣、白糖;巴,巴山、巴结;北,北极、北海、北方;比,比赛、比如、比重;秉,秉承、秉烛、秉公;半,半径、半岛、半球;匕,匕首、匕刀;卜,卜课;组成词组示例白雪、巴结、北海、比重、秉公、半岛、匕首、卜课;声母c序列副部件臣成赤辰承川乘垂重出。
臣子;成为、成功、成本、成绩、成就;赤道、赤脚、赤裸、赤卫;辰时;承担、承包、承重、承蒙;川流;乘车、乘号、乘积、乘骑;垂线、垂钓、垂死;重点、重大、重任、重视;
出版、出口、出入、出发;组成词组示例臣子、成为、赤道、辰时、承包、川流、乘积、垂线、重任、出发;副部件声母d到z组成词组示例如下豆粒、东北、刀刃、鼎足、丹桂、弟妹、单位、(门第);而今、儿童;丰盛、方针、父母、发行、缶罐、非常;戈兵、革新、弓箭、瓜分、鬼魂、更长、甘肃、高楼、干群、果断、贵州、寡人;函购、惠临、黑板、亥猪、户口、或是、胡家、(出乎);见证、几何、夹角、巾冠、斤斧、戋少、兼任、局面、角落、介词;亏本、可惜、康复;里程、了得、来源、两边、龙门、立法、鹿角、鬲罐、乐趣、离散;毛皮、免除、皿器、母校、面谈、民主、末尾、马路;牛犊、内部、农业、鸟巢、南京;平面、皮革、片段;曲面、丘冢、其余、求教、气温、禽蛋、妻儿;冉家、入口;商品、伞塔、氏族、手段、身躯、生物、上游、肃静、书包、申斥、事先、水库、世面、豕古;屯垦、天平、唐朝、同事;瓦片、兀自、韦家、我们、未来、文艺、为何、武器;心理、血统、象棋、夕照、夏收、下降、小米、西南、先烈;雨点、衣裤、艮卜、业绩、羊羔、尤其、牙齿、亦世、页面、由来、禹王、(给予);直线、占用、自然、舟桥、爪足、止步、专题、争端、臧家、豸虫、朱砂、兆赫;
表一、主部件赋值编码表(表形部分,38个)
部件山作单字使用时,赋值字符为ez,读做E转。
表二、主部件赋值编码表(拟音部分,43个)
权利要求
1,一种音码同步的汉字输入编码方法,适用于电脑键盘盲打输入汉字,包括将汉字部件分为主、副部件,按部件编码表和双字符代码编码赋值方法对汉字逐部件赋值取得字符代码序列,并按取码原则选留4位或4位以内的字符,得到汉字编码,其特征在于部件按汉字的音义关联分为主部件、副部件,所述的主部件是由自身音义说明的部件,所述的副部件是靠借字组词之音义说明的部件;依部件名称读音或借字词组读音,采用“音码同步”的语言规则确定部件赋值字符代码。
2.按照权利要求1所述的编码方法,其特征在于所述的主部件是赋予名称的成字或非成字部件,用自身读音名称、习惯名称、转意名称、中文数字、天干符号名称,基本笔画点、直、撇、弯、折名称或表形、拟音、表意、指定、拼音等方式确定的名称;依其名称读音提示得到1位或2位赋值字符代码,主部件、名称读音、主部件赋值字符代码的集合构成主部件编码表;所述的副部件是成字部件,包括交重类型成字部件;由2个相离部件构成的成字部件,其中至少有一个相离部件是非成字部件;由2个以上的相离部件组成的成字部件;其借字组成的2字词组的双声母是副部件的2位赋值字符代码,所有副部件借字词组、编码赋值字符代码的集合构成副部件编码表;副部件编码表按副部件声母字符或双声母的首字符分组,每组所有副部件借字词组尾字的声母字符或声母的首字符在汉字声母首字符序列中只出现1次。
3.按照权利要求1或2所述的编码赋值方法,其特征在于所述的取码原则为主部件本身作单字时,按编码表取赋值字符代码;副部件本身作单字时,其编码赋值代码的第2位字符再重复1次;双部件汉字中的副部件、作首笔的主部件按编码表取赋值字符代码,首部件为单赋值字符代码时,随后的主部件按编码表取赋值字符代码;3部件汉字,其首笔部件按编码表取赋值字符代码;3部件汉字,首部件为1位赋值字符代码,其后第一个副部件按编码表取2位赋值字符,其它副部件按编码表取1位字符;3部件汉字,首部件为2位赋值字符代码,其后的副部件按编码表取1位赋值字符代码;4部件汉字,各部件按编码表取1位代码;4部件以上的汉字,按构件压缩取码;2构件,将4个赋值字符代码平均分配给2个构件,不能平均时,采用1、3或3、1分配方式;逐构件从前向后按部件取码,第4字符分配给第2构件的尾部件;3构件,将4个赋值字符代码的前3个平均分配给3个构件的首部件,第4个部件为末构件的尾部件,末构件不能容纳时,自首构件起从前向后分配给构件的次部件;4构件,4个赋值字符代码分配给4个构件的首部件。
4.按照权利要求1或2所述的编码赋值方法,其特征在于所述的主部件编码表为表一——表四所列的主部件编码表,所述的副部件编码表为表五——表六所列的副部件编码表。
5.按照权利要求3所述的编码赋值方法,其特征在于所述的主部件编码表为表一——表四所列的主部件编码表,所述的副部件编码表为表五——表六所列的副部件编码表。
全文摘要
一种音码同步的汉字双字符输入编码赋值方法,适用于电脑键盘汉字盲打,其特征为按音义关联将部件分为主部件、副部件,用借字组词和规范名称来说明部件,“呼部件名,键赋值码”,在词组及名称读音声母提示下,对汉字逐部件同步赋值得到编码。
文档编号G06F3/023GK1261176SQ9910021
公开日2000年7月26日 申请日期1999年1月21日 优先权日1999年1月21日
发明者徐祖哲 申请人:徐祖哲
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1