全息汉字及全息词语编码输入方法

文档序号:6553904阅读:486来源:国知局
专利名称:全息汉字及全息词语编码输入方法
技术领域
“全息汉字及全息词语编码输入方法”属中文信息处理领域。用于汉字识字教学和中文信息处理。第二部分
背景技术
(一 )我国中文信息处理的现状及本发明的目的1.我国汉字输入的现状汉字从产生至今的数千年以来,都是以形为主,以音为辅的文字。形是汉字的主体信息。研究表明,现代汉语的绝大多数汉字的形,或具有表义作用,或具有表音作用;识别汉字的字形和书写汉字是汉字识字教学的主要任务之一;正确地识别汉字的字形是应用汉字的前提。追溯我国汉字编码的历史,自汉字编码输入的先驱者支秉义的“见字识码”汉字输入方法问世,至上世纪90年代,都是以形为主的汉字编码为主导,曾领军了 “万码奔腾”的局面。然而,在上世初90年代中期,以汉字的模糊字音(即汉语拼音字母组合。没有声调 “阴平、阳平、上声、去声、轻声”)为汉字编码的音码,迅速崛起,成为中文信息处理中汉字输入方法的主宰。时至今日,我国有96%以上的用户使用微软拼音、搜狗等音码。2.中国人究竟需要什么样的汉字编码长期以来,很多人没有认识到汉字的输入也是一种学习汉字的手段,没有认识到什么样的汉字输入方法有利于巩固、提高我国人民识别和应用汉字的能力问题,也没有认识到实现汉字输入与汉字识字教学相统一的必要性。理论上,汉字不是拼音文字,是以形为主体信息的文字,丢掉汉字的字形就是抛弃了汉字的文化内涵。学会识读汉字是使用音码的前提,因此,音码无法应用于汉字的识字教学。实现汉字输人与汉字识字教学相统一的目标,需要的是形码或以形为主的汉字编码。社会实践效果上,由于许多年轻人长期使用音码,已经产生了对汉字的模糊认知, 在各种文稿中屡屡出现错字、错误词语。早在6年前,有关媒体调查统计表明,有63%的年轻人患上了提笔忘字的“电脑失写症”。这是值得我国语言文字界、汉字编码界深思和亟待解决的问题。本发明人认为如果中国人长期使用抛弃汉字字形的音码,势必会导致中国人对汉字认知能力和应用能力的整体下降。这是对汉字文化的潜在威胁。为使汉字编码输入方法符合中国人对汉字的认知理念,实现汉字输入与汉字识字教学相统一,中国人需要形码或以形为主的汉字编码。为此,本发明研制了 “全息汉字及全息词语编码输入方法”。第三部分发明内容及实施方法一

发明内容
本发明的内容有全息汉字字形编码输入方法(简称“全息形码”),全息汉字音形编码输入方法(简称“全息音形码”),全息汉字形音编码输入方法(简称“全息形音码”), 全息词语编码输入方法。二本发明的技术用语
5
1.汉字部件本发明将一切构成汉字的基本笔画、由连续笔画构成的成字、非成字笔画集合体作为汉字部件;2.基本笔画由一笔书写的非成字部件定义为基本笔画。基本笔画共有观个。本发明将观个基本笔画分为“横、竖、勾、撇、点、捺、折、复折”8种;(见附表1)3.基本部件本发明的全息形码、全息音形码和全息形音码都应用汉字部件为汉字信息的汉字编码输入方法。本发明从汉字编码输入与汉字识字教学二者兼顾的原则出发,对7000个现代汉语通用字进行不同层次的全息解析后,提取了 200个汉字部件为基本部件。其中有132个或归类的表义部件,这类部件是成字或具有传统俗成名称的非成字部件(见附表幻;68个无名称的非成字笔画组合体或兼有笔画组合为第二名称的生僻字基本部件(见附表3);4.汉字音码汉字的拼音首字母为汉字的音码。如,汉字“马(πιδ)、女(η )、三 (幼!!广’的音码分别为“!!!、!!、';5.汉字部件的码元①基本笔画部件的码元基本笔画以其归类名称汉字的音码为其码元。其中,“复折”的码元为其名称的第一个汉字“复”的音码;②成字部件的码元成字部件以其音码为码元。如,成字部件“马、女、三”的音码分别是“m、n、s”,因此“m、n、S”分别是“马、女、三”的码元;③非成字部件的码元非成字部件以其名称的第一个汉字的音码为码元。如,非成字部件“? ”的名称为“三点水”,第一个汉字“三”的音码为“S”,因此“S”为“? ”的码元。 同理“b、c、t、y、z”分别是“ (宝盖儿)、* (草字头)、 (提手)、i (言字旁)、!_ (走之儿)”的码元;6.码长汉字编码的码元个数为汉字编码的码长。如,汉字编码的码元有两个,则码长为“2”,汉字编码的码元有三个,则码长为“3”,以此类推;7.汉字承载量在“a 2”沈个字母中,每个字母作为汉字编码的第一个码元的总字数,为该字母的汉字承载量;8.本发明的全息汉字编码的定义汉字既有字形信息,又有字音信息和字义信息。本发明的全息汉字编码应用了汉字的字形信息和字音信息。①全息形码的定义汉字部件码元的集合为汉字的全息形码。按汉字的书写规范,将汉字解析为不同层次的部件集合,每一层次的部件码元的集合,都是汉字的全息形码。因此,一个汉字有多少个层次的汉字部件的集合,就有多少个全息形码;②全息音形码的定义全息音形码由汉字的音码与汉字部件码元的集合两部分构成。按汉字的书写规范,将汉字解析为不同层次的部件集合,汉字的音码与每一层次的部件码元的集合的组合, 都是汉字的全息音形码。因此,一个汉字可解析为多少个层次的部件集合,就有多少个全息音形码;③全息形音码的定义全息形音码由汉字部件码元的集合与汉字音码两部分构成。按汉字的书写规范,将汉字解析为不同层次的部件集合,每一层次的部件码元的集合与汉字的音码的组合,都是汉字的全息形音码。因此,一个汉字可解析为多少个层次的部件集合,就有多少个全息形音码。④全息词语编码定义汉字词语的首字与词语中其它汉字的音码的集合为全息词语编码。如,词语“目光”的全息编码是“目g”,其中,“g”是“光”字的音码;词语“目光炯炯”的全息编码是“目 g j j ”。其中“ gj j ”是“光炯炯”三个字的音码。三全息汉字解析编码输入方法(一 )对汉字实施全息书写解析对汉字实施书写解析的必要性为实现“键盘是中国人的第二支笔”的目标,本发明对汉字实施书写解析。我国中文信息处理中,有96%的用户使用音码。究其原因,我们认为,最根本的原因是音码是以汉字的模糊字音为汉字编码的输入方法。我国的中青年用户,尤其是中小学生,都掌握了汉字的模糊字音,因此,音码对广大用户而言,是一种“无记忆、无障碍”的汉字编码输入方法。我们认为,形码或以形为主的汉字编码,必须实现汉字的“无记忆、无障碍”输入, 才能被广大用户接受。形码或以形为主的汉字编码要实现“无记忆、无障碍”输入,关键的问题是汉字的解析方法是采用结构解析还是书写解析。迄今为止,有关方面先后颁布的《信息处理用GB13000. 1字符集汉字部件规范》 (以下简称《GB13000. 1部件规范》和《现代常用字部件及部件名称规范》(以下简称《常用字部件规范》)提出的汉字解析方法都是“结构解析方法”。汉字的结构解析追溯汉字的字源理据,将汉字的结构分为上下、上中下、左右、左中右、左上包、右上包、左三包、右三包、 上三包、下三包,全包围、镶嵌结构等十二种。本发明的突出特征之一是对汉字实施“书写解析”。即按汉字的书写顺序,将汉字解析为不同层次的部件的集合。从以下对汉字实施结构解析与书写解析的对比中证明1.汉字实施书写解析是最简捷、有规可循、实现汉字输入与汉字书写一致的方法根据《常用字部件规范》)的汉字的结构理据“襄”字是镶嵌结构,即“ 口口ι”镶嵌在“二、农”之间,“襄”解析为“衣口口;“夹”字是镶嵌结构,即“、/”镶嵌在“夫”之间,“夹”解析为“夫、/” ;“或”字是半包结构,包体为“戈”,“或”解析为“戈口” &
“咸”字是半包结构,包体为“戊”,“咸”解析为“戊一口 ”。据此“嚷、攘”解析为“口衣口口衣口口#”部件的集合;“侠、峡”解析为1夫、〃’、“山夫、/”部件的集合;“域、惑”解析为“土、戈、口Z ”、“戈、口^、心”部件的集合;“减、碱”解析为“7、戊、一、口”、“石、戊、一、口”部件的集合。但是,本发明对以上的汉字按书写解析
“襄”是顺序书写“ι 口口一基本部件的集合;“夹”是顺序书写“一、/大”基本部件的集合;“或”是顺序书写“一口 — VJ、”基本部件的集合;“咸”是顺序书写“厂一口VJ、”基本部件的集合。因此“嚷、攘”应解析为“口 ι 口口一 < ”、“才二口口一 < ”基本部件集合;“侠、峡”应解析为“彳一、/大”、“山一、/大”基本部件的集合;“域、惑”应解析为“土一口 ^VJ、”、“一口 j心”基本部件的集合;“减、碱”应解析为“7厂一口U、”、“石厂一口、J、”基本部件的集合。从对以上汉字分别采用结构解析与书写解析的实例对比中,可以看出①汉字实施结构解析与汉字的书写相悖,不符合汉字的书写规范。用户难以掌握。 也难以用于汉字识字教学;②汉字实施书写解析符合汉字的书写规范,使汉字的键盘输入与汉字书写思维一致,实现了 “键盘成为中国人的第二支笔”。2.汉字实施书写解析可以减少汉字的基本部件,使汉字的基本部件既能满足汉字识字教学的需求,又能满足汉字编码的需求结构解析与书写解析两种汉字解析方法,对汉字的基本部件有截然不同的认知。1)汉字实施结构解析需要一个庞大的汉字基本部件族汉字的结构理据,是将汉字视为部件的组合。因此,把一切具有交连关系的常用字、非常用字、生僻字、非成字的笔画集合体都认定为“不可再解析的下限部件”(注下限部件是《常用字部件规范》对基本部件的用语,本发明为“基本部件”)。在《常用字部件规范》中将“本、百、丙、秉、册、产、单、弟、兜、发、果、互、奂、我、重、熏、兆、直、柬……等具有
交连关系的常用字都规定为“不可再解析”的基本部件;将“5、戈、乇、P、宂、市、丐、肉、疋、 夕、朿、豕、尹、糸、县、釆、豕、走、堇、萑、曳、戌、豕、叚、糸……”等非常用字规定为“不可再解析”的基本部件;将“七、少、穸、庙、冊、目、自、肩、臣、尚、弟、牛……”等生僻字规定为“不可再解
析”的基本部件;将“丄、"、卜、、丨'、六、东、ft、乒、夕、艮、臾、曲、帘、苗、苒、E13、直、里、龅、m.m
……”等无名称的非成字规定为“不可再解析”的基本部件。《常用字部件规范》有514个基本部件,《GB13000.1部件规范》有650个基本部件。结构解析对基本部件的认定不仅数量庞大,而且还具有以下缺点①用户对汉字部件的认知难度大结构解析所规定的基本部件中,有许多非常用字、生僻字和多笔画集合体构成的非成字部件。一般用户难以认知;②部件的命名歧义性大,用户无法形成终身记忆结构解析对非常用字、生僻字、 无名称的笔画集合体基本部件采用“借代法”命名,即借用这些部件在构建的某个汉字及在该字的位置,命名为“X字旁”或“X字边、X字头、X字底、X字角、X字里、X字腰”等等。如在《常用字部件规范》的514个基本部件中,就有1 个基本部件的名称是某字“头、 底、旁、边、里、心、腰、角、左角、右角、下角、省”(见《常用字部件规范》)。
姑且不谈采用“借代法”对汉字部件尤其是对众多的成字部件的命名是否科学、规范。但显而易见的事实是“借代法”对汉字部件命名的歧义性太大。如在《常用字部件规范》中将非成字部件“1”命名为“玄字头”(见P18页,序号412)。但是,仅在GB2312-80 字符集的6763个汉字中,“1”就是“京、六、高、襄、亵、玄、衣、言、哀、衰、亢、旁……”等数十个汉字的头。显然,将“1”命名为“玄字头”,歧义性太大,用户只能强行记忆。将“牛ku0"命名为“降(jicrng)下角”(见P20,序号489)。但是,其一,“牛_”本身是一个成字;其二,“降(jitog/xitog) ”本身就是多音字;其三,“牛kue·,,是“舛[Chu a η]、条 [jiang/xiangl.H [Ι η]、舜、舞、桀……”等字的部件。因此强行将"牛”命名为“降(jiang) 下角”,一是不规范,二是歧义性太大。用户要记住"牛”的名称,只有强行记忆。2)只有对汉字实施书写解析,才能将汉字解析为多个基本部件的集合结构解析将一切具有交连关系的成字和非成字笔画集合体均规定为“不可再解析的下限部件”,既无法解决汉字识字教学的书写教学问题,也无法满足形码或以形为主的汉字编码方法至少需要3个部件才能完成对绝大多数汉字的编码,并有效地避免或减小重码率的需求。如,在《常用字部件规范》中将"飽、托、弟、臾、亩、Φ、"分别命名为“曾字头、帝字头、弟省、庚字心、惠字
头、叟字头”。(见《常用字部件规范》部件序号36、74、76、119、151、358)因此,下述汉字只能解析为两个部件的集合“曾”解析为“幽、日”;“帝”解析为“弁、巾”;“弟”解析为“、/、弟”;“庚”解析为“广、臾”;“惠”解析为“蚩、心”;“叟”解析为“Φ、又”。而上述汉字采用书写解析可解析成多个基本部件“曾,’解析为‘‘、/ 门、1'一日”的集合;“帝”解析为‘ 广7巾”的集合;
“弟,’解析为‘‘V弓丨)”的集合;“庚”解析为“广3人’:’的集合;
“审, 思’解析为‘‘一日丨一、心”的集合;“叟”解析为“臼[又”的集合。又如,《常用字部件规范》将“走、庸”规定为不可解析的下限部件,因此“捷”只能解析为“ 、走”两个部件;“睫”只能解析为“目、走”两个部件;“慵”只能解析为1、庸”两个部件;“镛”只能解析为“韦、庸”两个部件。而上述汉字采用书写解析可解析成多个基本部件“捷”解析为“才一丑卜人”的集合;“睫”解析为“目一3卜人”的集合;“慵”解析为“个广云冃[”的集合;“镛”解析为“韦广冃丨”的集合。以上汉字分别采用结构解析与书写解析的实例证明,只有对汉字实施书写解析, 才能将汉字解析为多个部件的集合,既有利于汉字的书写教学,又满足汉字编码的需求。统计表明,按《常用字部件规范》的部件规范,在《现代汉语规范字典》的10000个汉字中,有4963个汉字(占总字数的49. 63% )只能解析为两个部件的集合。而对汉字实施书写解析,在《现代汉语规范字典》的10000个汉字中有3523个汉字(占总字数的35. 28% )可解析为3个基本部件的集合;有观93个汉字(占总字数的28. 93% )可解析为4个基本部件的集合;
有1791个汉字(占总字数的17. 91% )可解析为5个基本部件的集合;有1008个汉字(占总字数的10. 08% )可解析为5个以上基本部件的集合;只有1345个汉字(占总字数的13. 45% )只能解析为2个基本部件的集合。(二)全息汉字解析的基本部件集1.确认基本部件的原则本发明确认基本部件的原则①一切基本部件必须是由连续书写的笔画的集合体;②汉字的表义部件是体现汉字文化内涵的字源理据。因此现代汉语中的表义部件必须全部是基本部件;③要使绝大多数汉字至少有一个层次能解析为3个或3个以上基本部件的集合。2.基本部件的称谓及其码元设置基本部件的命名遵循如下两个原则①注重汉字的字源理据;②要使用户对部件的认知有规可循。即无歧义性,简单,易记、终身不忘。1)成字基本部件的名称及其码元①成字部件在所构建的汉字中,或起表义作用、或起表音作用。因此,为体现汉字的形、音、义的文化内涵。本发明对成字部件,无论是常用字、非常用字还是生僻字,均以成字本身为成字部件的名称,以其音码为码元。如以非常用字、生僻字的音码为码元“卄[η η]、门[jong/jong]、匚[fang]、5 [kao/γ ]、 [yi]> {(( [chuan]、升 [gong] > TT [qi/ji] > W [c0ng]、+ [e] > [b6]、[zhi/zh5ng] > % [you/wang] > ^ [mi/ si]、 [ji6]、勹[b 00]、豕[丫化斤&11]、彐[ji]、丑[ji]、尸[sh ]、曰[πι ο]、冃[月部]、县 [chang]> U [qian/kan] 、J、V [huo/biao]、牛Οαι ] ”的码元分别为 “η、j、f、k/y、y、c、g、q/j、 c、e、b、z、y/w、m/s、j、b、y/p、j、j、s、m、y、c、q/k、h/b、k,,。《常用字部件规范》将“卄[η η],Π[jong/jong], C [fang], 5 [kao/γ ], [yi]、〈〈〈 [chuan], [gong], JT [qi/ji]、而g]、夕[ ]、八[b5]、欠[zhi/zhdng]、尤 [you/wang], ^ [mi/si], [ji6]、勹[b0o]、采[yi η/ρ δ η]、彐[ji]、三[ji ]、尸[sh I ]、曰 [πι ο]、冃[mdo]、县[chang], U [qian/kan],.. [hu0/bi0o]、牛[1<ιι ],,等非常用字、生僻字部
件分别命名为“贲字腰、同字框、区字框、号字底、反字框、巡字心、弄字底、鼻字底、扁字心、 餐左角、登字头、冬字头、尴字框、绞丝底、卷字底、句字框、聚字底、雪字底、录字头、眉字头、 冒字头、青字底、肆字旁、画字底、横四点、降[jitog]下角”。②多音字部件,在构建不同的汉字中有不同的表义或表音作用。因此,本发明根据多音字部件的不同字音的拼音首字母,设置了不同的码元。如5 [kao/y ]有“k、y”两个码元;JT [qi/ji]有“q、j”两个码元;尤[you/w ang]有“y、w”两个码元;糸[mi/si]有“m、s”两个码元;U [qian/kan]有 “q、k” 两个码元;川、[huo/biao]有 “h、b” 两个码元。③为减少用户对非常用字和生僻字部件的认知和记忆困难,本发明对非常用字和生僻字的部件还采用了 “笔画组合”方式进行命名,作为其的第二名称,名称的首字音码为第二码元。如“彐[ji]、丑[ji]”顺序书写的笔画是“1、一、一”,因此,“彐[ji]、彐[ji]”的第二名称为“折[zh6]横横部”,第二码元为“ζ”;同理,“牛[kud]"顺序书写的笔画是“一、L..、[ ”,因此,“牛[ku0]”的第二名称为
“横折竖部”,第二码元为“h”。④对具有传统俗成名称的成字基本部件,本发明以其传统俗成名称为第二名称, 名称的首字音码为第二码元。如“门[jdng],,的传统俗成名称为“同字框”,设“门”的第二码元为“t” ;“夂[ρ ],,的传统俗成名称为“反文”,设“夂”的第二码元为“f”。2)具有传统俗成名称的非成字基本部件的称谓及其码元“ 、"、才、7 、? ^ 、才、各、个、片、、、亇、彳、i、净、1_、1_、、……”等非成
字部件是汉字的表义部件,具有传统俗成的名称。本发明以其传统俗成名称为其名称,并将其名称的第一个汉字或以其“归部”名称为“简称”。简称的音码为其码元。如“ ”名称为“宝盖儿”,简称“宝”,码元为“b” ;“? ”名称为“三点水”,简称“三”,码元为“S” ;‘呀”名称为“提手旁”,简称“提”,码元为“t”;“个、”归部名称为“心部”,简称“心”部,码元为“X”;(见《GB13000. 1字符集汉字部首归部规范》GF0012-2009之“98” ),,归部名称为“犬部”,简称“犬”部,码元为“q” ;(见《GB13000. 1字符集汉字部首归部规范》GF0012-2009之“66”)M ”归部名称为“人部”,简称“人”,码元为“r”。(见《GB13000. 1字符集汉字部首归部规范》GFOO12-2009之“ 12”)3)非传统、无名称的基本部件的命名及其码元设置非传统、无名称的基本部件多为非成字部件。本发明对这些部件采用“笔画组合” 方式命名,即“按顺序书写非成字部件的笔画名称的组合命名”。名称的首字音码为码元。 如“3·”的书写笔画是“‘_1、一、一”,命名为“折[zhe]横横部”,首字“折”,码元为 "ζ";“e”的书写笔画是“一、丨.、一”,命名为“横折横部”,首字“横”,码元为“h”。(三)全息汉字的编码输入方法本发明将汉字分为单层次结构(俗称独体字)和多层次结构两种结构形式。1.全息形码编码输入方法本发明的全息形码的编码输入模式是Σ (X1X2X3......Xn)其中“Σ” 为集合;"X1X2X3……Χη”为每一个层次中,汉字的第一个部件至最后一个部件的码元。汉字的每一个层次的部件码元的集合,都是汉字的全息形码。一个汉字可解析为多少个层次的汉字部件的集合,就有多少个全息形码。顺序输入"X1XJ3……Xn”,即可完成汉字的输入。2.全息音形码编码输入方法
技术领域
本发明的全息音形码的编码输入模式是Σ YtX1X2X3......Xn]其中“Σ” 为集合;“y”为汉字的音码;"X1X2X3……Xn”为每一个层次中,汉字的第一个部件至最后一个部件的码元。汉字的音码与每一个层次的部件码元的集合的组合,都是汉字的全息音形码。 一个汉字可解析为多少个层次的汉字部件的集合,就有多少个全息音形码。顺序输入 "YtX1X2X3……XJ ”,即可完成汉字的输入。3全息形音码编码输入方法本发明的全息音形码的编码输入模式是Σ [X1X2X3……XJy其中“Σ” 为集合;“y”为汉字的音码;"X1X2X3……Xn”为每一个层次中,汉字的第一个部件至最后一个部件的码元。汉字的每一个层次的部件码元的集合与汉字的音码的组合,都是汉字的全息形音码。一个汉字可解析为多少个层次的汉字部件的集合,就有多少个全息形音码。顺序输入 “ [X1X2X3……Xn]y”,即可完成汉字的输入。4.单层次结构汉字的全息解析和编码单层次结构汉字的特征是只能解析成基本笔画或基本部件的集合。统计表明,在信息处理用GBK的20902个汉字中,约有3%的汉字是单层次结构的汉字。如“我”字是顺序书写“ j 一 j z、j、”笔画的集合。其基本笔画的动态组合过程是彳if"尹我我我”,其间,没有合体成字产生;“事”字是顺序书写“一口 3· J ”笔画和部件的集合,其基本笔画和部件的动态组合过程是“一=昌事”,其间不能构成独立的汉字;“德”字是顺序书写十 —心”部件和基本笔画的集合,其基本笔画和部件的动态组合过程是“彳疒彳*枰德”,其间不能构成独立的汉字。1)单层次结构全息形码汉字解析编码按全息形码的编码模式“ Σ [X1X2X3……Xn]“事”字解析为“一口 a· j ” 4个基本部件的集合,全息形码编码为“[hkzg]”;“德”字解析为1十 —心” 5个基本部件的集合,全息形码编码为“ [rsshx],,;“我”字解析为“j—j -Vj J、”7个基本部件的集合,全息形码编码为 “[phghzpd]”。表1是单层次结构汉字的全息形码解析和编码输入的实例。表 权利要求
1.本发明有全息汉字字形编码输入方法(简称“全息形码”),全息汉字音形编码输入方法(简称“全息音形码”),全息汉字形音编码输入方法(简称“全息形音码”),全息词语编码输入方法;本发明请求1.本发明对“全息形码、全息音形码、全息形音码”设计了一个基本部件集,其特征在于1)基本部件由8种观个汉字基本笔画,132个汉字和非成字表义部件,68个无名称的非成字部件或兼有笔画组合为第二名称的生僻字部件构成;2)基本部件集选取的原则是①一切基本部件必须是由连续书写的笔画的集合体;②汉字的表义部件是体现汉字文化内涵的字源理据,因此,现代汉语中的表义部件必须全部是基本部件;③要使绝大多数汉字至少有一个层次能解析为3个或3个以上基本部件的集合;3)本发明对成字部件,无论是常用字、非常用字还是生僻字,均以成字本身为成字部件的名称;4)为使基本部件的名称无歧义性,使用户对基本部件的认知有规可循、简单、易记、形成终身记忆,本发明对64个无名称的非成字基本部件,采用笔画组合方式命名;对生僻字以其笔画组合为第二名称;5)本发明以汉字的拼音首字母为汉字的音码;因此,成字部件的音码即为其码元;基本笔画以其归类名称汉字的音码为其码元;非成字部件以其名称第一个汉字的音码为其码兀。
2.本发明对汉字实施全息书写解析方法,其特征在于1)按汉字的书写顺序,将汉字解析为不同层次的部件的集合,每一层次的部件码元的集合都是本发明的全息形码、全息音形码、全息形音码;2)一个汉字可解析为多少个层次,就有多少个全息部件的集合。
3.本发明的全息形码的编码输入方法,其特征在于1)全息形码的汉字编码输入模式是 Σ (X1X2X3......Xn)其中“Σ”为集合;"X1X2X3……xn”为每一个层次中,汉字的第一个部件至最后一个部件的码元;2)汉字的每一个层次的部件码元的集合,都是汉字的全息形码,因此,一个汉字可解析为多少个层次的汉字部件的集合,就有多少个全息形码;顺序输入"X1XJ3……Χη”即可完成汉字的输入;3)为提高全息形码的实用性,对全息形码设置了“码长自动截去功能”和取“前二、末二、前一末一、前二末一、前一末二”部件码元的五种“用户自定部件码元功能”。
4.本发明的全息音形码的编码输入方法,其特征在于1)全息音形码由汉字的音码与汉字部件码元的集合两部分构成,是音码在前,形码在后的汉字编码,其编码输入模式是 Σ YtX1X2X3……XJ其中“Σ”为集合;“y”为汉字的音码;"X1X2X3……xn”为每一个层次中,汉字的第一个部件至最后一个部件的码元;2)汉字的音码与每一个层次的部件码元的集合的组合,都是汉字的全息音形码,因此, 一个汉字可解析为多少个层次的汉字部件的集合,就有多少个全息音形码;顺序输入“y[X ……Xn] ”即可完成汉字的输入;3)为提高全息音形码的实用性,对全息音形码设置了“码长自动截去功能”和取“前二、 末二、前一末一、前二末一、前一末二”部件码元的五种“用户自定部件码元功能”。
5.本发明的全息形音码的编码输入方法,其特征在于1)全息形音码由汉字部件码元的集合与汉字的音码两部分构成,是形码在前,音码在后的汉字编码,其编码输入模式是Σ [X1X2X3……XJy 其中“Σ”为集合;“y”为汉字的音码;"X1X2X3……xn”为每一个层次中,汉字的第一个部件至最后一个部件的码元;2)汉字每一个层次的部件码元的集合与汉字的音码的组合,都是汉字的全息形音码, 因此,一个汉字可解析为多少个层次的汉字部件的集合,就有多少个全息形音码;顺序输入 “ [X AX3……XJ y”即可完成汉字输入;3)为提高全息形音码的实用性,对全息形音码设置了取“前二、末二、前一末一、前二末一、前一末二”部件码元的五种“用户自定部件码元功能”。
6.本发明的全息词语编码输入方法,其特征在于1)全息词语的编码输入模式是 首字Σ (X1X2X3……Xn)其中“首字”词语的第一个汉字; “Σ”表示集合;“ (X1X2X3……^U,,为词语的第二个汉字至最后一个汉字的音码;2)全息词语的输入操作方法和步骤是①输入词语的首字;②点击“aiift”键,由全息汉字编码输入状态切换到全息词语输入状态;③顺序输入词语的第二个汉字至最后一个汉字的音码,即完成词语的输入;3)为提高全息词语的实用性,设置了“多字词语的码元自动截去功能”和取“前二”或 “前一末一”的“多字词语的码元选择功能”两种功能。
7.本发明的建立自定义全息词语功能和修改全息词语功能,其特征在于 1)顺序完成如下步骤,建立“自定义全息词语”①输入(或在用户文本中直接选定)所需要建立的自定义全息词语;②用鼠标[或“Shift”键+—(或一)]选定所需建立的自定义全息词语;③点击“aiift”键;④键入自定义全息词语的第二个汉字至最后一个汉字的音码,即完成自定义全息词语的操作;2)顺序完成如下操作步骤,完成“修改全息词语”①修改全息词语中的错字②用鼠标[或“Shift”键+—(或一)]选定已修改过的全息词语③点击“aiift”键,并顺序输入已修改过的全息词语的第二汉字至最后一个汉字的音码,此时,系统显示出_④输入“y”,则词语库中的原有全息词语被覆盖替代,若输入“n”,则词语库中的原全息词语仍被保留,己修改的全息词语将作为新全息词语保存;为提高本发明全息汉字及全息词语编码输入方法的实用性,本发明设“一键简码字、两键高频字或两键简码字、兼容码元选择、用户常用字记忆、汉字字音和汉字全息解析编码查询、按码长分段显示汉字输入和由汉字字音或汉字模糊字音查字功能”等功能。
8.本发明的按码长分段显示汉字输入功能,其特征在于输入全息汉字编码的第一个码元后,只显示一键简码字;顺序输入全息汉字编码的两个码元后,只显示与这两个码元相同、码长为“2”的两键高频字或两键简码字;顺序输入全息汉字编码的三个码元后,只显示与这三个码元相同、码长为“3”的汉字; 以此类推。
9.本发明的“汉字字音和汉字全息解析编码查询功能”,其操作步骤的特征在于①用鼠标[或“Shift”键+—(或一)]选中被查字;②顺序点击屏幕下方输入状态栏中的“功(功能设置或查询)”,点击功能选择框中的 “4)汉字字音和汉字全息解析编码查询功能”,系统即给出被查字的字音及其全息解析编码;③用户在不同的全息汉字编码输入状态下,系统给出不同的被查汉字的全息解析和全息编码。
10.本发明的“由汉字字音或汉字模糊字音查字输入功能”,其操作步骤的特征在于①输入被查字的字音(或模糊字音);②用鼠标[或“Shift”键+—(或一)]选中被查字的字音;③顺序点击屏幕下方输入状态栏中的“功(功能设置或查询)”,并点击功能选择框中的“5)由汉字字音或汉字模糊字音查字输入功能”,系统即把与被查字的字音相同的全部汉字编码分屏列出,用户通过翻屏、键入所需汉字的序号,完成输入。
全文摘要
本发明涉及一种全息汉字及全息词语编码输入方法。本发明按汉字书写规范将汉字解析为不同层次的部件集合。每一层次的部件码元的集合即∑(x1x2x3…xn)为汉字的一个层次的全息形码;汉字音码与一个层次的部件码元的集合的组合即∑y(x1x2x3…x n)为汉字的一个层次的全息音形码;汉字一个层次的部件码元的集合与汉字音码的组合即∑(x1x2x3…xn)y为汉字的一个层次的全息形音码。一个汉字可以解析为多少个层次的部件集合,就有多少个全息形码、全息音形码、全息形音码;以词语的首字的音码与词语第二个汉字至最后一个汉字的音码的集合,即首字∑(x1x2x3…xn)为全息词语;本发明设置了“码长截去、码元选择、汉字字音及其全息解析编码查询、由字音和模糊字音查字输入等功能。
文档编号G06F3/023GK102236425SQ20111011866
公开日2011年11月9日 申请日期2011年5月10日 优先权日2011年5月10日
发明者王兰芝, 范争, 郑嘉蕾, 郑远泾 申请人:王兰芝, 范争, 郑嘉蕾, 郑远泾
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1