中文手写数码、语音数码及模糊语音数码的计算机输入方法

文档序号:6417447阅读:271来源:国知局
专利名称:中文手写数码、语音数码及模糊语音数码的计算机输入方法
概念解释中文中国语言文字的简称,特指汉字。
手写数码利用计算机键盘区位数字编码,对应汉字双笔形和英文字母的规律,以汉字的基本笔画及英文字母,作为手写图形识别的系统元件;按一定的规则向计算机写入简单的笔画和字母图形,通过对少量简单字符图形的识别转换,形成类似汉字键盘输入的编码和算法,再通过检索汉字编码字、词典查算出汉字内码的“‘中介’图形的数字编码”,称为中文手写数码,简称“手写数码”。
语音数码利用计算机键盘区位数字编码,对应汉字双笔形和英文字母对应汉字声-韵-调的规律,以汉字语音及汉字笔画数字代码的语音,作为语音输入的系统元件;按一定的规则,向计算机直接读入汉字语音和笔划的数字语音等,通过对语音识别(频谱分析),转换形成类似汉字键盘输入的编码和算法,再通过检索汉字编码字、词典查算出汉字内码的“‘中介’音频的数字编码”,称为汉字语音数码,简称“语音数码”。
模糊语音数码语音数码的特殊形式。
识别输入本文特指中文信息处理系统的语音识别输入和手写图形识别输入方法,它是汉字的高速自动输入方式,属于人工智能的范畴;是新一代计算机的视觉、听觉智能接口的重要组成部分。
系统方法本文特指计算机汉字的键盘、手写、语音输入等,形成相互作用的、三位一体的输入方法体系。
近二十年来,中文信息处理技术取得了丰硕的成果。不少专利技术成果迅速地转变为强大的知识产权力量,又走向市场转化为生产力,创造了巨大的经济效益和社会效益。由此可见,《专利法》的颁布、实施,为保护知识产权和科学技术走向市场、走向产业化开辟了广阔的前景。
随着新一代微型计算机硬件(大内存、外存,高速度)和软件(操作系统等)日新月异的技术进步,为个人台式PC机(或网络终端的其它笔记本、掌上电脑)的中文手写和语音识别输入技术的开发应用,提供了足够的时空条件。
计算机的汉字输入有键盘输入、手写字形识别输入和语音识别输入等多种方式。汉字键盘输入技术已走向成熟;手写字形识别输入技术,因受汉字字数多,字体种类差异,书写大小不均、个人笔迹不同…等等错综复杂的条件限制,使其识别速度比较慢,正确识别率不够理想,从而影响了它的实用价值;汉语语音识别输入技术,因受语音性质、语音类型、方言差异等等多方面因素的限制。例如,就语音性质而言,汉语只有410多个音节,带声调才有1200多个音节,汉字有6万多个,词汇量则数以百万计,同音字词太多。造成语音识别的障碍重重…,不易处理《周易》说“《易》穷则变,变则通。”“化而裁之谓之变,推而行之谓之通。”列宁说“要真正地认识事物,就必须把握、研究它的一切方面,一切联系和‘中介’。”我们从中受到“启示”,获得“灵感”;五年多来,锲而不舍地寻求汉字键盘输入、手写字形识别输入和语音识别输入等不同输入方式的联系和“中介”。在这里,我们提供的“中文手写数码、语音数码识别输入方法”便是源于上述哲学思想的中文信息处理科研成果之一。
本发明是采用“札”字五笔画,以及26个英文小写字母作为中文“手写数码”的图形元件;或以“语音数码”,“模糊语音数码”作为汉字的识别信息;通过计算机对上述笔画和字母的字符图形进行联机书写识别,或对汉字的语音及识别数码的(Chinese speech recognition)之简单识别,按规则一转换生成-调用对应的汉字内部码(Chinese character internal code),从而实现中文“海量词语”准确、高效地输入计算机的方法。
在现有专利技术智能五笔双拼码(ZL 92106366.0)的基础上,我们将汉字键盘输入、手写输入、语音输入,三者和谐地统一起来,并有效地简化了中文手写识别的繁难,避免了传统语音识别模式的诸多局限;大大地提高了中文手写输入、语音输入的正确识别率和识别速度;为计算机的中文手写输入、语音输入和中文信息检索提供了新思想、新途径。
现将“中文手写数码、语音数码识别输入”的原理分述如下一、中文手写数码、语音数码识别所用的系统元件1.汉字的五个基本笔划(全角字符图形和语音)一丨丿丶(\) 乙heng shu pie dian(na)zhe2.八个亚拉伯数字(半角数字和语音)12 34 5 670yi ersansiwuliuqi Ling3.二十六个英文字母(全角小写英文字符图形)
a b c d e f g h i j k l m n o p qr s t u v w x y z二、手写数码、语音数码识别的系统元件“全角小写英文字符图形、汉字笔画全角字符图形,半角数码、半角大写英文字符”的对应(转换)关系1.全角笔画(转换)=半角数字一=1丨=2丿=3丶(\)=4乙=52.全角小写英文字符图形和汉字笔画全角字符图形(转换)=半角区位数码a=一乙=15 b=乙丨=52 c=乙丶=54 d=一丿=13 e=丿丿=33f=一丨=12 g=一一=11 h=丨一=21 i=丶丿=43 j=丨丨=22k=丨丿=23 1=丨丶=24 m=丨乙=25 n=乙一=51 o=丶丶=44p=丶乙=45 q=丿乙=35 r=丿丨=32 s=一丶=14 t=丿一=31u=丶丨=42 v=乙丿=53 w=丿丶=34 x=乙乙=55 y=丶一=41z=6677=OO=OK=空格=结束图形书写信息←-=取消误写的图形信息3、半角区位数码(转换)=半角大写英文字符编码15=A52=B54=C13=D33=E12=F11=G21=H43=I22=J23=K24=L25=M51=N44=O45=P35=Q32=R14=S31=T42=U53=V34=W55=X41=Yz=66三、汉字声母的编码汉字的23个声母与半角大写英字母一一对应,韵母独立为音节时以其韵母的头字母约定为“零声母”的代码。
例如,a、ao、ai、an、ang等的“零声母”为“A”,er、eng的“零声母”为“E”,ou的“零声母”为“O”等。
四、汉语拼音的韵母与半角大写英文字母的对应(转换)关系A=aB=ia=uaC=uan D=aoE=eF=an G=ang H=uang=iangI=i J=ianK=iao L=in=ing M=ie N=iuO=o=uoP=ou Q=er R=en S=aiT=engU=u=ü V=ui=ueW=ei X=uai Y=ong=iong
Z=un五、汉字声调的代码阴平=11=G阳平=22=J上声=33=E去声=44=O六、中文手写数码、语音数码的编码方法1.中文手写数码、语音数码的“系统元件”与键位对应关系表(反应式键盘(Reactive keyboaed)的方位坐标图) 七、中文手写数码输入的原理(附图
解释一)中文手写数码输入①特定手写图形(笔画和小写英文字母)的字符写入-→②计算机对全角图形的对比分析-→转换-→③半角数字编码(手写数码)-→转换生成-→④对应(大写半角英文)字母编码-→⑤检索手写数码的编码字、词典-→⑥对应查算出汉字内码或内码串-→⑦字形地址码或地址码串→⑧字形点阵码或点阵码串-→⑨显示输出。
八、中文语音数码输入的原理(附图解释二)中文语音数码输入①读入汉语词汇语音和识别数码-→②计算机对音频信息,进行频谱分析-→转换成数字编码(语音数码)-→③生成对应(大写半角英文)字母的编码-→④检索语音数码的编码字、词典-→⑤对应查算出汉字内码或内码串-→⑥字形地址码或地址码串-→⑦字形点阵码或点阵码串-→⑧显示输出。
九、中文手写数码、语音数码输入规则1.普通手写输入板方格的划分没有特殊意义,只是为了便于书写;用大方格或小方格写入的图形,都是一样的效果。
一二三四五六七八 2.中文手写数码“字符图形”的编码和输入方式①单字(A)手写数码的编码和输入式汉字首双笔的数码+汉字尾双笔的数码+汉字声母的数码+汉字韵母的数码+汉字声调的数码。例如,输入“编”字注(手写数码字词典XJBJG#编)第一步,写入“编”的首双笔图形“乙乙”;第二步,写入“编”的尾双笔图形“丨丨”;第三步,写入“编”的声母字符“b”;第四步,写入“编”的韵母代码字符“j”;第五步,写入“编”的声调代码字符“g”。 视屏提示行 注77=OK=空格=确定输入并返回待输入状态(下同)再如,输入“码”字注(手写数码字词典DNMAE#码)第一步,写入“码”的首双笔图形“一丿”;第二步,写入“码”的尾双笔图形“乙一”;第三步,写入“码”的声母字符“m”;第四步,写入“码”的韵母代码字符“a”;第五步,写入“码”的声调代码字符“e”。 视屏提示行 ②二字词(AB)手写数码的编码和输入式A汉字首双笔的数码+A汉字尾双笔的数码+B汉字首双笔的数码+B汉字尾双笔的数码+A汉字声母的数码+B汉字声母的数码。
例如,输入“汉字”注(手写数码字词典OCONHZ汉字)第一步,写入“汉”的首双笔图形“丶丶”;第二步,写入“汉”的尾双笔图形“乙丶”;第三步,写入“字”的首双笔图形“丶丶”;第四步,写入“字”的尾双笔图形“乙一”;第五步,写入“汉”的声母字符“h”;第六步,写入“字”的声母字符“z”。
视屏提示行 ③三字词(ABC)手写数码的编码和输入式A汉字首双笔的数码+B汉字首双笔的数码+C汉字首双笔的数码+A汉字声母的数码+B汉字声母的数码+C汉字声母的数码例如,输入“广州市”注(手写数码字词典YIYGZS广州市YIYEFZ腐烂变质…… )第一步,写入“广”的首双笔图形“丶一”,第二步,写入“州”的首双笔图形“丶丿”,第三步,写入“市”的首双笔图形“丶一”;第四步,写入“广”的声母字符“g”,第五步,写入“州”的声母字符“z”,第六步,写入“市”的声母字符“s”。 视屏提示行
再如,输入“计算机”注(字词典PTFJSJ计算机PTFDSD诞生地…)第一步,写入“计”的首双笔图形“丶乙”,第二步,写入“算”的首双笔图形“丿一”,第三步,写入“机”的首双笔图形“一丨”;第四步,写入“计”的声母字符“j”,第五步,写入“算”的声母字符“s”,第六步,写入“机”的声母字符“j”。 视屏提示行 ④四字词(ABCD)手写数码的编码和输入式A汉字首双笔的数码+B汉字首双笔的数码+C汉字首双笔的数码+D汉字首双笔的数码+A汉字声母的数码+D汉字声母的数码。
例如,输入“科学技术”注(手写数码字词典TOAFKS科学技术TOAFJY简单扼要)第一步,写入“科”的首双笔图形“丿一”,第二步,写入“学”的首双笔图形“丶丶”,第三步,写入“技”的首双笔图形“一乙”,第四步,写入“术”的首双笔图形“一丨”;第五步,写入“科”的声母字符“k”,第六步,写入“术”的声母字符“s”。 视屏提示行 又如,输入“日新月异”注(手写数码字词典MYQNRY日新月异)第一步,写入“日”的首双笔图形“丨乙”,第二步,写入“新”的首双笔图形“丶一”,第三步,写入“月”的首双笔图形“丿乙”,第四步,写入“异”的首双笔图形“乙一”;第五步,写入“日”的声母字符“r”,第六步,写入“异”的声母字符“y”。 视屏提示行 ⑤句子(ABC…Z)的输入式取句子“ABCZ”的首双笔的数码及“AZ”汉字声母的数码。例如,输入“中国专利局”注(手写数码字词典MMGNZJ中国专利局)依次取“中国专局”的手写数码的字符“丨乙、丿乙、一一、乙一zj” 视屏提示行 3.中文“语音数码”的编码和录入式①句子(ABC…Z)语音数码的编码和录入式取“ABCZ”4个汉字(声、韵、调)语音,即“ABCZ”汉字的语音。
例如,录入“中华人民共和国”;依次读入“中华人国”(zhōng huá rén guó)。
注(语音数码字词典ZYGHBJRRJGOJ中华人民共和国)视屏提示行 又如,录入“中国专利局”;依次读入“中国专局”(zhōng guó zhuān jú)的语音。
注(语音数码字词典ZYGGOJZCGJUJ中国专利局)视屏提示行 ②四字词(ABCD)语音数码的编码和录入式A汉字(声、韵、调)的语音+B汉字(声、韵、调)的语音+C汉字(声、韵、调)的语音+D汉字(声、韵、调)的语音。例如,录入“信息处理”依次读入“信息处理”(xìn xi cǔlǐ)的语音。
注(语音数码字词典XLOXIGCUELIE信息处理)视屏提示行 又如,录入“自强不息”依次读入“自强不息”(zì qiáng bù xi)的语音。
注(语音数码字词典ZIOQHJBUOXIG自强不息)视屏提示行 ③三字词(ABC)语音数码的编码和录入式A汉字(声、韵、调)的语音+B汉字(声、韵、调)的语音+C汉字(声、韵、调)的语音+C汉字首双笔数码的语音。
例如,输入“广州市”一词第一步,读入“广州市”(guǎng zhōu shì)的语音;第二步,读入“市”首双笔数码的语音,即依次读入“广州市”的语音和“11”数码的语音。
注(语音数码字词典GHEZPGSIOY##广州市)视屏提示行 再如,输入“计算机”一词第一步,读入“计算机”(jì suàn ji )的语音;第二步,读入“OK”的语音。
即依次读入“计算机”的语音和“OK”的语音。
注(语音数码字词典JIOSCOJIGF##计算机)视屏提示行 注;OK=77=空格=确定输入并返回待输入状态(下同)④二字词(AB)语音数码的编码和录入式A汉字(声、韵、调)的语音+B汉字(声、韵、调)的语音+A汉字首双笔的数码语音+B汉字首双笔的数码语音。例如,录入“信息”第一步,读入“信息”(xìn xī)的语音第二步,读入“信”首双笔数码的语音;第三步,读入“息”首双笔数码的语音。即依次读入“信息”语音和“32 32”数码的语音,注(语音数码字词典XLOXIGRR####信息)视屏提示行 又如,输入“广州”一词第一步,读入“广州”(guǎng zhōu)的语音;第二步,读入“广”首双笔数码的语音;第三步,读入“州”首双笔数码的语音,即依次读入“广州”语音和“41 43”数码的语音,注(语音数码字词典GHEZPGYJ####广州)视屏提示行 高频双字词(AB)可用“A语音+B语音+OK”的方式录入注OK=77=确定输入并返回待输入状态例如,输入“广州”一词即读入“广州”(guǎng zhōu)的语音和“OK”的语音。
注(语音数码字词典GHEZPGYI####广州)视屏提示行 ⑤单字(A)语音数码的编码和录入式(声+韵+调)=语音+汉字首双笔的数码语音+汉字尾双笔的数码语音。
例如,录入“广”字第一步,读入“广”(guǎng)的语音;第二步,读入“广”的首双笔数码的语音;第三步,读入“广”的尾双笔数码的语音。即依次读入“广”的语音和“41 13”数码的语音。
注(语音数码字词典GHEYD#######广)视屏提示行 注1096个音节的对应高频单字可用“语音”加“OK”语音录入例如,录入“广”字读入“广”的语音(guǎng)和“OK”的语音。
(语音数码字词典GHEYD#######广) OK=77=空格=确定输入并返回待输入状态十、关于“手写数码识别输入方法”的讨论汉字识别(CCR chinese character recognition),可分为印刷体识别和手写体识别输入。在此,我们只讨论手写体连机实时识别输入。
汉字的字形特征汉字是象形表意文字。字形(character form)是构成每个汉字音和义的二维图形,构成汉字的最基本要素是笔画(stroke),而不是部首或字根;笔画组成部首及偏旁,偏旁再和笔画等组成汉字。
汉字的基本笔画有五种横一、竖丨、撇丿、点丶、折乙。汉字的笔划数最少的是一笔,简体字笔画数最多的有三十八笔(鼻+囊)。据统计,简化汉字的平均笔画数约为十二笔左右,三千个常用字的平均笔画数为八笔。
汉字手写体识别输入的困难。如前所述,手写字形识别输入技术因受汉字字数多、字体种类差异、大小不均、个人笔迹不同…等等错综复杂条件的限制,使其识别速度慢和正确识别率不够理想,从而影响了它的实用价值。另外,常用字的平均笔画数为八笔;因此平均识别输入一个汉字要书写八至十二个笔画,亦影响了汉字手写体识别输入的速度。
手写数码识别输入方法,平均识别输入一个汉字只须书写三至四个笔画;更为重要的是,用五个汉字的基本笔画和26个小写英文字母作识别元件,极大简化了对数以万计而且错综复杂的手写字体的识别过程,大大地提高了中文手写输入的正确识别率和识别速度。我们对手写数码识别输入方法的正确识别率的企望值为99.9%,识别速度企望值为为100-120字/分;比现有技术25字/分,快3-5倍。
无疑,计算机对五个汉字基本笔画,以及二十六个小写英文字母字符图形的识别,要比对所有数万个汉字的图形识别要容易十倍、百倍乃至千倍。
下面,我们对手写数码识别输入的特点等方面作粗浅的探讨(一)、手写数码识别输入的优势1、无师自通,不须学习;2、适应面广,老少咸宜。
3、简化识别,正确率高;4、高频先见,介面友好。
5、字词简写,事半功倍;6、六位编码,容量极大。
(二)、手写数码识别输入的字词库结构特点和大容量编码空间1、字词库的结构特点手写数码识别输入字词库的结构特点是①一、二级简码字库(据统计有25+480个汉字)独立编码,调住内存,以便减少读盘。
②字库和词库复合编码,统一采用六位码长;内码串不限长度,以空格为终止符,以便于查算。
③字词库以前二码排序和分组调用字词库检索表结构(?号为磁盘扇区起止地址信息)AA???? AB???? AC????……AZ????BA???? BB???? BC????……BZ????CA???? CB???? CC????……CZ????
YY????(结束)字词库结构(#号为可填充的编码信息)AA####汉字内码 AA####汉字内码串……AB####汉字内码 AB####汉字内码串……AC####汉字内码 AC####汉字内码串……BA####汉字内码 BA####汉字内码串……BB####汉字内码 BB####汉字内码串……BC####汉字内码 BC####汉字内码串……YY####汉字内码 YYYYFD疯疯癫癫(结束)优点A.可便于启动系统时,第一次读盘就自动建立字词库的检索表,用于分组调用大容量字词库,亦便于词库的智能扩充及维护,B.可以优化、统一分步计算出编码与内码的偏离量的算法,C.极少占用内存。
④按AA、AB、AC…分组调整字词频度,三级简码便可自动实现。
⑤只需开设8至16KB的内存空间,便可按(480至625组)分组调用10万条词汇。
⑥字词库的六位编码容量为2亿多个信息空间。
2、字词库的大容量空间①根据单字(A)手写数码的编码方式汉字首双笔的代码+汉字尾双笔的代码+汉字声母的代码+汉字韵母的代码+汉字声调的代码。可以计算出单字的编码容量为(25*25)*(23*26*4)=625*2392=149.5万个信息空间。
但是,根据我们的实际统计,其可以用于汉字编码的容量是480*1096=52. 6万个信息空间对GB2312-80中的6763个汉字编码的重码率为5%。
②根据二字词(AB)手写数码的编码方式(A汉字首双笔的代码+A汉字尾双笔的代码)
+(B汉字首双笔的代码+B汉字尾双笔的代码)+(A汉字声母的代码+B汉字的声母的代码)。
计算出双字词的实际编码容量为(480)*(480)*(23*23)=230400*529=1.2亿个信息空间。
只需开设80至160KB的内存空间,便可分组调用100万条词汇。
③根据三字词(ABC)手写数码的编码方式A汉字首双笔的代码+B汉字首双笔的代码+C汉字首双笔的代码+A汉字声母数码的代+B汉字声母数码的代码+C声母数码汉字的代码计算出三字词的编码容量为25*25*25*23*23*23=15625*12167=1.9亿个信息空间。
④根据四字词(ABCD)手写数码的编码方式A汉字首双笔的代码+B汉字首双笔的代码+C汉字首双笔的代码+D汉字首双笔的代码+A汉字声母的数码+D汉字声母的代码。
计算出四字词的编码容量为25*25*25*25*23*23=390625*529=2.0亿个信息空间。
⑤句子的编码容量,等同四字词的信息容量。(略)(三)、手写数码识别输入方法,是沟通汉字图形识别输入和汉字键盘输入及反应式键盘(Reactive keyboaed)的纽带和桥梁;如作为大型《辞书》的条目之计算机检索则更为实用、方便。
十一、关于“语音数码识别输入方法”的讨论汉字语音识别(Chinese speech reeognition)是汉字信息处理系统一种人机交互自动输入方式,是新一代计算机视觉智能接口的重要组成部分。
汉字是形义文字,其语音结构特点是以声--韵--调的形式构成完整音节。
1.不计音调的结构,声--韵形式(含零声母)所构成音节则仅有410多个音节;2.按声--韵--调的形式构成完整的音节则有1200多个;3.我们按26组韵母英文代码的方式来区分韵母,且按声-韵-调形式构成的音节数则有≥1096≤1200个音节。
汉字的数量在6万个以上。除十多个汉字无同音字外,其余的400多个音节都有大量的同音字。
汉语词汇有百万多条以上,同音字词太多,较难处理;英文有1万多个音节,同音词少,词与词之间有空格隔开,比较好处理。我们对5万条常用汉语词汇进行了抽样统计,抽查声母b区域的3150个词汇中,不分声调有1095个同音词,约占词汇量的35%;区分声调有200个同音词,约占7%的词汇量;这就给计算机语音识别带来了不少的困难。
正确识别率和识别速度是汉字语音识别技术的关键。我们对语音数码识别输入方法正确识别率的企望值为98%,识别速度企望值为200-250字/分;比现有技术80-100字/分,快2-2.5倍。
下面,我们对语音数码识别输入特点进行一些粗浅的探讨(一)、语音数码识别输入的字词库结构特点和大容量编码空间1、字词库的结构特点语音数码识别输入的字词库结构特点①一级简码(声-韵-调)字库,(据统计有1096个汉字音节)独立编码,一声读音(三位码长);调住内存,可以大大减少读盘次数。
②字库和词库复合编码,统一采用十二(3*4=12)位码长,内码串不限长度,以空格为终止符,以便于查算。
③字词库以前三码(声-韵-调)的英文代码排序和分组调用字词库检索表结构(?号为磁盘扇区起止地址信息)AAE????AAG????AAJ????AAO????ABE????ABG????ABJ????ABO??? ACE????ACG????ACJ????ACO????AZE????AZG????AZJ????AZO????BAE????BAG????BAJ????BAO????BBE????BBG????BBJ????BBO????BCE????BCG????BCJ????BCO????BZE????BZG????BZJ????BZO????CAE????CAG????CAJ????CAO????CBE????CBG????CBJ????CBO????CCE????CCG????CCJ????CCO????CZE????CZG????CZJ????CZO????
ZAE????ZAG????ZAJ????ZAO????ZBE????ZBG????ZBJ????ZBO????ZCE????ZCG????ZCJ????ZCO????ZZE????ZZG???? ZZJ????ZZO????(结束)字词库结构(#号为可填充的编码信息)AAE#########汉字内码或内码串AAG#########汉字内码或内码串AAJ#########汉字内码或内码串AAO#########汉字内码或内码串ABE#########汉字内码或内码串ABG#########汉字内码或内码串ABJ#########汉字内码或内码串ABO#########汉字内码或内码串ACE#########汉字内码或内码串ACG#########汉字内码或内码串ACJ#########汉字内码或内码串ACO#########汉字内码或内码串AZE#########汉字内码或内码串AGO#########汉字内码或内码串AZJ#########汉字内码或内码串AZO#########汉字内码或内码串BAE#########汉字内码或内码串BAG#########汉字内码或内码串BAJ#########汉字内码或内码串BAO#########汉字内码或内码串BBE#########汉字内码或内码串BBG#########汉字内码或内码串BBJ#########汉字内码或内码串BBO#########汉字内码或内码串BCE#########汉字内码或内码串BCG#########汉字内码或内码串BCJ#########汉字内码或内码串BCO#########汉字内码或内码串BZE#########汉字内码或内码串BZG#########汉字内码或内码串BZJ#########汉字内码或内码串BZO#########汉字内码或内码串CAE#########汉字内码或内码串CAG#########汉字内码或内码串CAJ#########汉字内码或内码串CAO#########汉字内码或内码串CBE#########汉字内码或内码串CBG#########汉字内码或内码串CBJ#########汉字内码或内码串CBO#########汉字内码或内码串CCE#########汉字内码或内码串CCG#########汉字内码或内码串CCJ#########汉字内码或内码串 CC#########汉字内码或内码串………………………………………………………………………………………………………………………………………………………………………………………………………………ZZE#########汉字内码或内码串ZZG#########汉字内码或内码串ZZJ#########汉字内码或内码串ZZO#########汉字内码或内码串(结束)优点是A、可便于系统启动第一次读盘时,自动建立字词库的检索表,用于分组调用大容量字词库。
B、可优化分步计算出编码与内码的偏离量的算法。
C、极少占用内存。
④按AAE、AAG、AAJ、AAO、ABE、ABC、ABJ、ABO…分组调整字词频度,二、三级简码便可自动实现。
⑤A.只需开设4至8KB的内存空间,便可按(1096至1200个第一音节)调用10万条词汇;B.如果开设32至64KB的内存空间,足以分组调用1千万条词汇;C.同理,开设640KB至1兆的内存空间,足够分组调用数亿条简短的中文信息。
⑥字词库的(3*4=12)十二位编码,可编码空间为(实际上是声-韵-调=1096的4次方)1096*1096*1096*1096=14429亿个信息空间。
论证如下2、字词库的大容量信息编码空间①根据单字(A)语音数码的编码方式(声+韵+调)的语音代码+汉字首双笔的代码+汉字尾双笔的代码。
根据我们的实际统计,其可以用于编码的容量是1096*480=52.6万个信息空间对GB2312中的6763个单字编码的重码率为5%。
②根据二字词(AB)语音数码的编码方式A汉字(声、韵、调)的语音代码+B汉字的(声、韵、调)的语音代码+A汉字首双的代码+B汉字首双笔的代码。
计算出双字词的实际编码容量为1096*1096*25*25=1201216*625=7.5亿个信息空间。
③根据三字词(ABC)语音数码的编码方式A汉字(声、韵、调)的语音代码+B汉字(声、韵、调)的语音代码+C汉字(声、韵、调)的语音代码+C汉字首双笔的代码。
计算出三字词的编码容量为1096*1096*1096*25=329亿个信息空间。
④根据四字词(ABCD)语音数码的编码方式A汉字(声、韵、调)的语音代码+B汉字(声、韵、调)的语音代码+C汉字(声、韵、调)的语音代码+D汉字(声、韵、调)的语音代码。
计算出四字词及句子的编码容量为1096*1096*1096*1096=14429亿个信息空间=1万多亿个信息空间⑤根据句子的输入式计算结果同④,略。
问题“化而裁之谓之变,推而行之谓之通。”那末,加以变通,推而行之,语音数码字词库的结构特点,极大容量词语编码、排序、存储、极少占用计算机内存的调用方法;是不是可适用于在未来极大容量的光盘中为“海量中文信息的汇总、分类、编码、排序、存储、调用及传输。”呢?(三)、上述的语音数码识别输入方法;如果省略声调,准确地说是把声调合并;那么,便使汉字语音数码识别输入和键盘汉字输入及反应式键盘(Reac-tive keyboaed)输入形成一体化,称为“模糊语音数码”识别输入方法。
简述如下1、模糊语音数码识别输入方法①单字(A)语音数码的编码式(声+韵)模糊语音+汉字首双笔的数码语音+汉字尾双笔的数码语音。
例如,录入“信”第一步,读入“信”(xìn)的语音第二步,读入“信”首双笔数码的语音;第三步,读入“信”尾双笔数码的语音。
即依次读入“信”的语音和“32 51”数码的语音。
注(模糊语音数码字词典XLRN####信)视屏提示行 对GB2312中的6763个单字(和400个多音字)编码的重码率为12%。
②二字词(AB)模糊语音数码的编码式A汉字的(声、韵)模糊语音+B汉字的(声、韵)模糊语音+A汉字首双笔的数码语音+B汉字首双笔的数码语音。
例如,录入“信息”第一步,读入“信息”(xìn xī)的语音第二步,读入“信”首双笔数码的语音;第三步,读入“息”首双笔数码的语音。
即依次读入“信息”语音和“32 32”数码的语音。
注(模糊语音数码字词典XLXIRR##信息)视屏提示行 ③三字词(ABC)模糊语音数码的编码式A汉字的(声、韵)模糊语音+B汉字的(声、韵)模糊语音+C汉字的(声、韵)模糊语音+C汉字首双笔的数码语音。
第一步,读入“信息量”(xìn xī lìang)的语音,第二步,读入“量”首双笔数码的语音。
即依次读入“信息量”语音和“25”数码的语音。
注(模糊语音数码字词典XLXILHM#信息量)视屏提示行 ④根据四字词(ABCD)语音数码的编码式A汉字的(声、韵)模糊语音+B汉字的(声、韵)模糊语音
+C汉字的(声、韵)模糊语音+D汉字的(声、韵)模糊语音。
例如,录入“信息处理”依次读入“信息处理”(xìn xīcǔlǐ)的语音。
注(语音数码字词典XLXICULI信息处理)视屏提示行 ⑤根据句子的输入式录入“前三末一”汉字的4个汉字的语音。
例如,录入“中华人民共和国”;依次读入“中华人国”(zhōng huá rén guó)。
注(语音数码字词典ZYHBRRGO中华人民共和国)视屏提示行 2、字词库的结构特点模糊语音数码字词库的结构特点①一级简码(声-韵)字库(约400个汉字音节)独立编码,一声读音(二位码长);调住内存,可以大大减少读盘次数。
②字库和词库复合编码,统一采用(2*4=8)八位码长,以便于统一算法。
③字词库以前二码(声-韵)的英文代码排序和分组调用检索表结构AA????AB????AC????……AZ????BA????BB????BC????……BZ????CA????CB????CC????……CZ????ZZ????(结束)字词库结构AA######汉字内码或内码串AB######汉字内码或内码串AC######汉字内码或内码串………………………………
BA######汉字内码或内码串BB######汉字内码或内码串BC######汉字内码或内码串………………………CA######汉字内码或内码串CB######汉字内码或内码串CC######汉字内码或内码串………………………………………………………………………………………………………………………………………………………ZA######汉字内码或内码串ZB######汉字内码或内码串…………………………ZZ######汉字内码或内码串(结束)优点可便于分组调用字词库,优化内码算法,且少占用内存。
④按AA、AA、AB、AC…BA、BB、BC、…分组调整字词频度,二、三级简码便可自动实现。
⑤只需开设8至16KB的内存空间,便可分组调用10万条词汇;⑥字词库的(2*4=8))八位编码,可编码空间(实际上是汉字声-韵音节=400个的4次方)400*400*400*400=256亿个信息空间这种方式,可供“南腔北调”的人员作语音录入用,适用范围更大。
(四)、语音数码的其它有关问题的探讨1、关于码长的限制①、一个音节,二位码长(或三码长)只能给400(或1200)个无重码的汉字作编码。
②、二个音节,四位码长(或六码长)可以给400*400=16万(或1200*1200=144万)个字词作编码。
③、三个音节,六位码长(或九码长)可以给400*400*400=6400万(或1200*1200*1200=17亿)个的字词作编码。
④、四个音节,八位码长(或十二码长)可以给400*400*400*400=256亿(或1200的4次方=2万亿)个的字词作编码。
2、关于语音数码的码长之合理数值①、二码长(声-韵),只能给400多个高频汉字编码。
②、三码长(声-韵-调),可给1096个(或1200个)高频字词编码。
③、四位码长(声-韵、声-韵),可给16万个字词编码。
按我们的实际统计,在5万条汉语词汇有高达35%的重码率。可见,四位码长的编码实际上无法满足数以百万计的汉字词汇的编码的要求,因为汉字的编码在其容量空间内,不是均称地分布的。
因此,必须加以改进——④、延长二位码长,形码和音形码大容量词库重码率的问题便可得到充分地解决。
但是,给一个成语(四个单字)编码;按声-韵的方式须2*4=8位编码;按声-韵-调的方式,则需3*4=12位编码。
综上所述,八位和十二位码长,才是汉字语音编码输入的合理的码长。
3、关于语音数码的输入效率①、汉字语音数码的编码虽然采用八和十二键码长,但是都只须读人四个(或少于四个)汉字的音节。由此可见,码长对语音输入无实际的影响。
②、影响汉字语音输入效率的主要因索,是词的切分和同音词的区分等,我们从实用的角度出发,用语音数码“识别”且“切分”同音词,并用“OK”来“切分”高频字、词,或满4音节12位码长(满4音节8位码长--模糊语音)则自动输入,无可置疑是行之有效的方法之一。
十二、简短结束语汉字输入的多样化,源于汉字音-形-义的多元化;换句话说,方方正正的汉字包含了极大的信息量,是特别适用于计算机处理的文字之一。
汉字的易学性,表现在她具有从最初的“象形、指事、会意”(几百个基本字),加上“形声造字”(几千个),到现在可“组合造词”(千百万个计),“一字一形”形成历时连贯、结构整齐、意蕴丰富、具体可感的汉语造词规律;同时,汉字才417个音节、容易掌握,又有4个声调的变化,“一字一音”拥有音乐的韵律美和节奏美。据国家统计,1000个常用字的覆盖率为90%,2400个常用字的覆盖率为99%,3800个常用字的覆盖率为99.9%。也就是说,只要掌握了3000个汉字,就能轻松地使用汉语了。
汉字的易用性,还表现在她从具有多种多样可供选择的输入方法拼音法、拼形法、音形法,以及手写、语音识别输入等等方法。
外国学者认为“中国人不抛弃汉字,将无法步人现代化时代。”的预言已被打破!汉字独有直观的象形表意等功能,独特的造字组词规律和音节均称、节奏明快、声音和谐的特色,其优越性是拼音文字所望尘莫及的。
退一步讲,没有汉字,就没有《周易》的传世,二进制到如今还可能没有被发现和利用。莱布尼茨说“文王和周公以及著名的孔子,都曾在这64个图形中寻找过哲学秘密……这恰恰是二进制算术。这种算术伟大的创造者所掌握而几千年后由我发现的。在这种算术中,只有两个符号0和1,用这两个符号可以写出一切数字、……阴爻“--”就是0,阳爻“一”就是1,这个算术提供了计算千变万化数目的最简便的方式,……但是这个算术失传了。”莱布尼茨的话,同时也证明了《老子》--“大道,至简至易”的自然科学和哲学思想的正确性。
民族文化对人类文明进程的贡献之大,可见一斑。但是,汉字在计算机的语音处理方面;可能没有英文的优势,这是语音特点所决定的汉字的手写、语音识别输入是一种新型的计算机输入方法,技术领先的是紫光、汉王和蒙恬等国内厂商,但其输入产品还未走向普及,一但消除了技术先进的软屏障,这具有深厚文化传统的领地恐怕亦难以自守;微软即将推出的WIN2000中捆绑的汉字手写输入法,有可能将其对手封杀于摇篮里。
科学技术的高度分化,又高度综合是必然的趋向。信息论、系统论、控制论、以及辩证唯物论的哲学原理,是中文信息处理的理论基础,计算机和人工智能是中文信息处理的基本技术手段和主要技术途径。
近二十多年,计算机中文信息处理技术从无到有,随着计算机技术日新月异的技术进步而不断发展,硕果累累。这是专家学者,工程技术人员和相关项目设计者或发明人共同努力的结果,展示出在我国普及计算机教育和应用的广阔前景。
由于我们的学识浅薄,在这里提供的中文手写数码和语音数码以及模糊语音数码计算机识别输入方法的缺点,乃至错误或恐难免,诚盼中专局的专家和专利文献的读者批评、指正!
权利要求
本发明是采用“札”字五笔画,以及26个英文小写字母作为中文“手写数码”的图形元件;或以“语音数码”,“模糊语音数码”作为汉字的识别信息;通过计算机对上述笔画和字母的字符图形进行联机手写识别,或对汉字的语音及识别数码的(Chinese speech recognition)之简单识别,按规则-转换生成-调用对应的汉字内部码(Chinese character internal code),从而实现中文输入计算机的系统方法。其技术特征是1、手写数码、语音数码识别的系统元件“全角小写英文字符图形、汉字笔画全角字符图形,半角数码、半角大写英文字符”的对应(转换)关系半角大写汉字声母汉字韵母 笔画数码 汉字声调A=a =a =一乙=15B=b =ia=ua =乙丨=52C=c =uan=乙丶=54D=d =ao =一丿=13E=e =e =丿丿=33 上声=33=EF=f =an =一丨=12G=g =ang=一一=11 阴平=11=GH=h =uang=iang =丨一=21I=i =丶丿=43J=j =ian=丨丨=22 阳平=22=JK=K =iao=丨丿=23L=1 =in=ing =丨丶=24M=m =ie =丨乙=25N=n =iu =乙一=51O=o =o=uo =丶丶=44 去声=44=OP=p =ou =丶乙=45Q=q =er =丿乙=35R=r =en =丿丨=32S=s =ai =一丶=14T=t =eng=丿一=31U=u=ü =丶丨=42V=ui=ue =乙丿=53W=w =ei =丿丶=34X=x =uai=乙乙=55Y=y=ong=iong =丶一=41Z=z=un =6677=OO=OK=空格=结束图形书写信息←=取消误写的图形信息
2.根据权利要求(1),中文手写数码“字符图形”的输入特征是①单字(A)手写数码的输入第一步,写入“A”的首双笔图形;第二步,写入“A”的尾双笔图形;第三步,写入“A”的声母字符;第四步,写入“A”的韵母代码字符;第五步,写入“A”的声调代码字符。②二字词(AB)手写数码的输入;第一步,写入“A”的首双笔图形;第二步,写入“A”的尾双笔图形;第三步,写入“B”的首双笔图形;第四步,写入“B”的尾双笔图形;第五步,写入“A”的声母字符;第六步,写入“B”的声母字符。③三字词(ABC)手写数码的输入第一步,写入“A”的首双笔图形,第二步,写入“B”的首双笔图形,第三步,写入“C”的首双笔图形;第四步,写入“A”的声母字符,第五步,写入“B”的声母字符,第六步,写入“C”的声母字符。④四字词(ABCD)手写数码的输入第一步,写入“A”的首双笔图形,第二步,写入“B”的首双笔图形,第三步,写入“C”的首双笔图形,第四步,写入“D”的首双笔图形;第五步,写入“A”的声母字符,第六步,写入“D”的声母字符。⑤句子(ABC…Z)的输入取句子“ABCZ”的首双笔的数码及“AZ”汉字声母的数码。
3.根据权利要求(1),中文“语音数码”的录入特征是①句子(ABC…Z)语音数码的录入取“ABCZ”4个汉字(声、韵、调)的语音(满4音节切分)。②四字词(ABCD)语音数码的录入依次读入“ABCD”(声、韵、调)的语音(满4音节切分)。③三字词(ABC)语音数码的录入第一步,读入“ABC”(声、韵、调)的语音;第二步,读入“C”首双笔数码的语音。④二字词(AB)语音数码的录入第一步,读入“AB”(声、韵、调)的语音;第二步,读入“A”首双笔数码的语音;第三步,读入“B”首双笔数码的语音。高频双字词(AB)可用“A语音+B语音+OK”的方式录入OK=77=空格=确定输入并返回待输入状态即读入“AB”(声、韵、调)的语音和“OK”的语音。⑤单字(A)语音数码的录入第一步,读入“A”(声、韵、调)的语音;第二步,读入“A”的首双笔数码的语音;第三步,读入“A”的尾双笔数码的语音。1096个音节的对应高频单字用“语音”加“OK”语音录入。
全文摘要
本发明是采用“札”字五笔画,以及26个英文小写字母作为中文“手写数码”的图形元件;或以“语音数码”,“模糊语音数码”作为汉字的识别信息;通过计算机对上述笔画和字母的字符图形进行联机书写识别,或对汉字的语音及识别数码的(Chinese speech recognition)之简单识别,按规则-转换生成-调用对应的汉字内部码(Chinese character internal code),从而实现中文“海量词语”准确、高效地输入计算机的方法。
文档编号G06F3/023GK1297187SQ99125608
公开日2001年5月30日 申请日期1999年11月23日 优先权日1999年11月23日
发明者汤建民 申请人:汤建民
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1