中文字元代码及汉语数字化设置的制作方法

文档序号:6571113阅读:442来源:国知局
专利名称:中文字元代码及汉语数字化设置的制作方法
中文字元代码及汉语数字化设置技术领域本设置是为了适应现代信息社会实现汉语数字化以利于"快速查字 典、轻松打汉字、手机发短信"的需要。
技术背景按"査字典、电脑打字、手机发短信"三个方面加以叙述一、查字典。现在,我国汉语词(字)典査字方法主要是"拼音音节索引"和"部首检字"。"拼音音节索引"查字,应该是比较快的,但如果那个字不认识,就无从查起;读音不准,尤其是南方人,音调掌握不好,困难很大;同音字又多,翻查起来费时费力。至于"部首检字","部首"有201个,经统计有71个部首只含五个以下的汉字,其中有16个部首仅一个汉字。有的一个汉字却又分属几个部首,如《新华字典》和《现代汉语词典》, 一个"老"字在五个部首"一、(十)土、少、老"里都有,"考"字在"一、十、土、少"四个部首里都有。但"孝、者"二字,字形与"老、考"非常相似,而"考"字只收在"少、子"二部,"者"字只收在"少"部,"一、十、土"三部中都没有。另有《现代汉语规范词典》,"老"字只在"老"部,"孝、者"二字只在"少"部。许多字典还附一张六百多字的"难检字表","部首"难定的字要数着笔画从这 表里一个一个地找。"部首"的位置,有时在左,有时在右,有时在上,有时在下,学查字典真是"一头雾水",沿用了千百年的"部首查字法"确实有点让人尴尬和无奈。査一个字往往要化几分钟时间。现代社会,时 间是最宝贵的。用《字元代码》组合编成的《数码汉语字典》,这"者、考、老、孝"几个字都是"7 (十)"开头,可以称为"7部"。它们的编 码分别是"770、 7715、 7735、 7751 ",按照数字的自然顺序排列,查字只 要几秒钟,十分容易。二、电脑打字。现在电脑输入汉字的方法主要是"拼音"和"五笔字 型"两种。拼音输入,要求读音标准,对不认识或发音不标准的字,就无 法处理,而且同音字特多,选字费时。《五笔字型输入法》在我国很普及, 优点也很多。但学它实在太难了。它有一百三四十个字根,掌握基本字根、 熟悉高頻字、牢记助记词等都很吃力。 一般的汉字是一种打法,"键名字" 再是一种打法,"成字字根"又是一种打法,有时还要用到"识別码"。 学习既难,却又容易忘记。《中文字元代码》组成"汉字数码",无论认识与否,笔画多少,用 一个、二个、三个、最多四个数字合成一个汉字直接输入就行。而且词组、 成语、长句以及短文(每一段短文不超过127个汉字、英文、数字、标点), 都可以用四个数字打出来,十分轻松写意。《中文字元代码》把所有汉字的笔形分成十类,分别用0、 1、 2、 3、 4、 5、 6、 7、 8、 9十个数字代表。按照国家规定"横、竖、撇、点、折" 为基本笔形,分别以"1、 2、 3、 4、 5"为代码,称为"基准字元"。由于 汉字字形复杂,笔画多寡悬殊极大,有的一个字一笔,有的五、六十笔, 仅用五个数字作代码,重码率太高。为此另外设置"6、 7、 8、 9、 0"为 组合笔形,把汉字笔形相同、相似、相近的归为一类,称为"扩展字元"。《中文字元代码》是"纯形码","基准字元"按国家规定的标准笔形和顺序取码。如"工"字,其编码是"121","元"字是"1135"。"扩展字 元"则以"形"为准,必要时須突破国家规定的标准笔形笔顺优先取码。 例如"口"字,国家标准笔形顺序是"251",《字元代码》是取"0"为 数码。"目"字,国家标准是"25111",《字元代码》也是取"0"就行。 "中,,字,数码是"02","春,,字,数码是"740"。《中文字元代码》是"纯形码",以汉字的基本笔形为基准,取码有 一定的规则("整体字"取第一、二、三、末四个字元编码;"左右字"取左边第一、右边第一、二、末也是四个字元编码)。取码原则是"基准字元"按国家规定顺序取码,"扩展字元"则优先取码。要求严格按照汉字 的笔形、笔顺组合成字,这对正确、规范、识别汉字有一定的保证作用。 国际上凡是使用拼音文字的国家,大宗人员名单可按字母顺序排列,很简单;我国却是按"姓氏笔划为序",计数笔画很繁琐。如果用"中文 字元代码"组成"姓氏数码",如"诸葛孔明(4750)"、"张飞(5358)"、 "刘玄德(6263)"、"关羽(8166)"、羸政(6513)、武瞾(1109)、符拉 基米尔《伊利奇》列宁(6176)等人名,都可以用四个阿拉伯数字编成数 码,直接打字,经过排序,有规律的人员名单就制成了。用此法编印的"电 话号码册",姓名按照编码排列,查找起来十分快捷方便。有的单位人员 名冊数据库很大, 一般采用凭"专用号码"(如"学号""工号""存单 号码"等)的査找方法,但号码易忘,比较难记、如果釆用电脑的"査找" 功能,直接打入人员四个数字的姓名编码,很快就找到了。三、手机发短信。手机发短信有《拼音》、《五笔》和《笔画》等多种输入法,手机上只有"0—9"十个数字键,每个数字键上有3 (4)个 字母,《拼音》、《五笔》输入法都要不停地转換。至于《笔画》输入,看 似简单,会写字的人,都会打。但是一个字有时要打六、七个键,同码字 又特多,选字很费时。用了《字元代码》,最多打四个数字就直接出来一 个汉字,简单多了。下面举两个短文的例子"春雨惊春清谷天,夏滿芒夏暑相连,秋处露 秋寒霜降,冬雪雪冬小大寒。"这28个单字自动生成数码"7686"。又, 八荣八耻"以热爱祖国为荣,以为害祖国为耻;以服务人民为荣,以背 离人民为耻;以崇尚科学为荣,以愚昧无知为耻;以辛勤劳动为荣,以好 逸恶劳为耻;以团结互助为荣,以损人利己为耻;以诚实守信为荣,以见 利忘义为耻;以遵纪守法为荣,以违法乱纪为耻;以艰苦奋斗为荣,以骄 奢淫逸为耻。"自动生成数码是"5131"。打"5131","八荣八耻"就出来 了。(附图
为中文字元代码图)汉语字元数码组合规则单字组合规则一、 "整体字"取第1、2、3、末四个字元编码(字元是组成单字的基本元素,艮卩横、竖、撇、点、折"1、 2、 3、 4、 5"基准字元及"6、 7、 8、 9、 0"扩展字元 共十类。基准字元按国家标准笔顺,扩展字元则以"形"为准。) 一个字最多取 四元;如果不足四元,则一、或二、或三个字元都可组成单字。如日(0),明 (09),下(124)。二、 "左右型"字(横排组合式及偏旁部首式),首取"左"边第一部分第一个 字元,其余全部作"右",续取其第一、二、末三个字元编码。如张(5314)、 割(625)、翔(86)、糊(8709)、酬(1432)、衢(3005)、数(8317)、解(3537)、 朝(79)、编(5497)、报(1954)、钱(3114)、、他(8525)、龄(2844)、 i化(4835)、 雌(2351)、雠(8671)、粥(5875)、孵(9941)、鹏(9931)。三、 我国汉字,有的中间起笔,如"辔、燮",有的左边起笔,如"樊、懋、 粥、舆、盥、璺、叟"等字,有的是先左右两边再中间,如"斉、斎";有的又 是左中右顺序排列,如"赢、羸、羸、赢"等,较难掌握。为求一致,变通为 一律按"左中右"顺序取码。例舆(5U8)、樊(7874)、斉斎蕭(6732)、粥(5875)、 赢羸羸羸(6504)。词组组合规则每个词组或短文(2 — 100个左右单字)最多取四个字元(四码)。一、 双字词组每个字各取第一、第二两个字元编码(1、 2; 1、 2)。如果某单 字只有一个字元,则将该字元重复一次。例日月(0099)、广东(6615)、学习(8958)、祖国(4901)、日期(0079)、月亮(9960)、坚持(2217)、 口罩(0002)。二、 三字字组首字取首、次两元,二、三字取首元。若首字只一元,重复一 次。(1、 2; 1; 1)例计算机(4767)、星期日(0370)、奥运会(3918)、日耳 曼(0010)。三、 四字及四字以上词组取第一、二、三及最末字的首元。改革开放(9116)、 中华人民共和国(0880)、中国人民政治协商会议(0084)。四、 百字左右的短文与四字词组取法相同,即取第1、 2、 3、末字的首元。例 中国人民解放军(0089);江苏省无锡市东亭镇朝阳文化服务部,电话0510 —88205277 13222931383 E—mail: wxwx9009@163.com 联系人汪翔(58个汉字、数字、标点、空格等,经过组合,取第1、 2、 3、未字的首元"8728")。取码原则单笔字元按国标("一"取"1";"为"取"4354";"寸"取"154"。) 扩展字元应首选("夫"取"74"不取"118"; "土"取"71",不取"121 "。) 包容横竖取外框("日目曰囬ra月臼冃円"等字元包容"横""竖"直线只取"0"、"9"为字元代码)。("円"代码"9",与"丹""941"不同) 左中右即左中右("斉斎齑"取"6732";"粥"取"5875";辔(5540);"羸羸羸羸" 取"6504"。)
权利要求
1. 《中文字元代码》的设置,源于五年前学习了南京季林彧先生的《几何数码输入法》。该法以“线、角、框”理论设置了“汉字数码”。例如以阿拉伯数字“1”代表“竖”,“2”代表“横”,“5、6、7”分别代表“左上角、右角、左下角”等。2004年11月在北京召开的“中国首届手机中文输入大赛暨汉字数字码输入技术应用高峰论坛”上,专家认为,这与国家“横、竖、撇、点、折”以“1、2、3、4、5”为代码的规定有悖。会后,在季林彧先生的同意和大力支持下,我即着手重新设置代码,以国家规定为准,即“横、竖、撇、点、折”用“1、2、3、4、5”为代码;另外为了大大减少同码字,以“6、7、8、9、0”分别作为“特例、交叉、对合、开口、包围”的代码,这就全部包容了汉字所有的笔形和笔画,如果保持一码一字,可以组合10048个汉字。当然一码一字是不可能的,任何输入法都有重码,只是多少而已。假定平均重码数为三个,则可组成单字三万多个,足以组合现有字库中所有的汉字。当然这也是不可能的。因为有不少数字组合没有对应的汉字,是空码,这就形成有些汉字会有多个重码字,这是完全正常的。不过《中文字元代码》这种情况不多,一般常用字都在一个“候选字窗”即10个同码字之内。现在《中文字元代码》组合单字21000个左右,可以直接输入简体字和繁体字,已经包含了《现代汉语词典》、《新华字典》、《现代汉语规范词典》所有单字。(其中有几百个现有国家标准GB 13000.1-20902字符集没有的字是通过电脑“造字程序”拼合而成)。
2、 根据权利要求l的内容,要求现有汉语词(字)典能够按 照《中文字元代码》编制的"汉字数码"增加"数码查字"功能。做 到査字速度快,几秒钟查一个字,能够把"形同音异"的字排在一 起,不象现有字典有几种读音要分别编排在不同页面,翻査麻烦,不 利于对比、选择。
3、 根据权利要求1的内容,要求推广试用电脑《中文字元代码汉字数码输入法》,以减轻学习汉字输入法的难度,两天就能掌握 使用,单手小键盘操作,轻松惬意,不会忘记。
4、 根据权利要求1的内容,要求设计生产《中文字元代码汉 字数码输入法手机软件芯片》,方便广大手机用户编发短信。
全文摘要
技术领域适应“查字典、电脑打字、手机发短信”需要。
背景技术
一、查字典。用《字元代码》组合汉字编成的《数码汉语字典》,查一个字只要几秒钟。比“部首”或“拼音”快很多。二、电脑打字。《中文字元代码》组成“汉字数码”,无论认识与否,笔画多少,用一、二、三、最多四个数字合成一个汉字。词组、成语、长句以及短文,都用四个数字组合。《中文字元代码》将汉字的基本笔形,分为10类,用“0、1、2、3、4、5、6、7、8、9”十个数字为代码,按照规则组字,符合国家规定,有助于汉语学习的正规化。三、手机发短信。手机上有“0-9”十个数字键,用《字元代码》输入汉字十分方便,最多打四个数字就直接出来一个汉字。
文档编号G06F3/023GK101231557SQ200710004168
公开日2008年7月30日 申请日期2007年1月5日 优先权日2007年1月5日
发明者汪兆祥 申请人:汪兆祥
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1