一种计算机汉字扫描识别输入系统的制作方法

文档序号:6411957阅读:654来源:国知局
专利名称:一种计算机汉字扫描识别输入系统的制作方法
技术领域
本发明是一种汉字扫描识别输入系统,包括印刷体和手写体汉字的扫描识别,属于计算机中文信息处理技术。
现有的汉字扫描识别输入系统大体上可以分为三种类型〔1〕印刷体汉字识别(脱机识别),其主要是采用基于汉字笔划结构特征的统计模式识别方法,已达到的综合性能指标为识别字数为3755—4000;对中等印刷质量的实际文本识别率这95~99%;识别速度为10~37字/秒。〔2〕联机手写汉字识别,是根据采集得到的笔道轨迹,将汉字按笔段、笔划、字根、汉字等四个层次进行结构分析,汉字二维图形结构已退化为一维的笔划序列,使识别问题得以简化,但由于联机手写汉字识别的输入速度完全受制于人的写字速度,根本无法解决汉字轻松、自然、高速输入计算机这一问题,其已达到的综合性能指标为识别字数为6763—12000;初期识别率约为80%左右;经常使用识别率可这95%以上。〔3〕脱机手写汉字识别,由于手写汉字的严重无规则性和无穷无尽的书写差异性,统计识别方法和结构分析方法的作用都极其有限,只有开发出具有人机交互功能和机器自学习功能的脱机手写汉字识别系统才会有实用价值,其已达到的综合性能指标为识别字数为3755;识别率为60~85%(对特定字集可达90%以上);识别速度(用386微机)为4~0.5秒/字。综上所述,目前的汉字识别方法,无论是统计识别方法还是结构分析方法,都只单纯地、孤立地考虑待识别字本身的字形和结构特征,而对待识别字在文本中的意义表达,特别是与前、后字的有机关联视而不见,难于取得实质性的技术突破。
本发明的目的就是为了克服上述难点和缺陷,研制出一种集待识别字的字形结构特征和语法现象于一体的,易学、好用和通用的汉字扫描识别输入系统。
本发明的汉字扫描识别输入系统,包括有扫描仪及将任意两个汉字之间词与非词的组合关系尽数包容的软词库,其特征在于选取汉字字形及结构中最为稳定的特征信息——总体黑白比值J0以及均分为k个分部的k个黑白比值J1~Jk作为该字的特征值,以获得初选字集,并通过软词库的筛选确定待识别字。
下面结合附图对本发明的技术方案进行详细的描述

图1为本发明的汉字特征J值求取示意图;图2为本发明的四种类型的背景线示意图;图3为本发明的辅助扫描板原理示意图。
由于手写体汉字的严重无规则性和无穷无尽的书写差异性,因此,手写汉字其实上不存在一种可以真正称得上稳定的字形结构特征信息;而且,由于扫描仪及用户的实际操作等原因,印刷体汉字经常也会有笔划断裂或粘连等干扰和噪声的影响,看似稳定的字形结构特征信息其实也不那么靠得住;解决这一问题的方法有二一是选取相对稳定的字形结构特征信息,二是允许待识别汉字的实际特征值在一定的范围内波动。根据这两条原则,本发明以待识别汉字的总体黑白比值J0以及将待识别汉字均分为4个分部的4个黑白比值J1~J4作为该字的特征值。
图1示出了待识别汉字的特征值J0~J4的求取方法,设有笔划的地方为黑点,无笔划的地方为白点,Lm为字间距,Lb为字的部首间的距离,Lx为稀疏线上的黑点数,由扫描获得的汉字图象点阵可以确定最下点y0、最上点y1、最左点x0和最右点x1,由这四点可以确定一个矩形,称为矩形0,矩形0的面积设为A,则A=(x1-x0)*(y1-y0)=x*y----------------(1)式中x=x1-x0,y=y1-y0设矩形0中且黑点的总数为δ0,则待识别汉字的总体黑白比值J0=δ0/(A-δ0)-------------------------(2)再将该矩形均分为4个小矩形,依次称为矩形I、矩形II、矩形III和矩形IV,依次求出各个小短形内黑点的数目,并设为δ1、δ2、δ3和δ4,则可以求得各小矩形的黑白比值Ji=4*δi/(A-4*δi)---------------------(3)式中i∈[1,4]
由于J1~J4中的任意一个均可以从另外三个中推出,因此只有三个为独立参量,不妨取为J1~J3,则一个汉字的字形结构特征信息可由J0~J3来表征,或者用J0、(J1+J2)、(J2+J3)和(J3+J4)等变换组合来表征。
虽然手写体汉字是因人而异、因时而异和千变万化的,但无论它怎么变化,人们总还是知道它是什么字,也就是说特征J值的波动范围是有限的,一般来说,印刷体的波动范围较小,而手写体的波动范围则大得多,因此,只需要调整特征J值的波动范围值,特征J值算法就可以同时适用于印刷体和手写体。
标示出了国标6763字和682个非字符号特征J值的波动范围值后,通过求出待识别字的特征J值,就可以简单地运用查表法获得待识别字的候选字集。当然,这一算法获得的重字可能比较多,需通过软词筛选算法准确地筛选出待识别字,即利用汉语语法知识或者说与前、后字的有机关联确定出待识别字,如在文本中“汉”字之前可能出现的组合有东汉、西汉、后汉、入汉、出汉、是汉、从汉、对汉、在汉、级汉、取汉、用汉、大汉、似汉、机汉、码汉、别汉、代汉、个汉、的汉、虑汉、了汉、种汉、体汉、括汉、使汉、和汉、于汉、刷汉、为汉、写汉、将汉、学汉、秦汉、有汉等“语词”;“汉”字之后可能出现的组合有汉字、汉语、汉民、汉家、汉就、汉以、汉斯、汉经、汉白、汉的、汉卡、汉族、汉和、汉界、汉回、汉口、汉了、汉奸、汉人、汉代、汉堡、汉水、汉朝、汉文、汉王、汉学、汉与、汉子等“语词”,无论如何,其数量比之识别七千余字至少下降了1~2个数量级,再加上前述特征J值的筛选,就可以较为准确地求出待识别字。
本发明可以识别处理印刷楷体、印刷宋体、印刷仿宋体、印刷黑体、手写粗线体、手写中线体(包括字体混杂的文本,)和手写细线体等七种字体;可以自动适应字形尺寸的变化;可以自动寻找字间距;可以自动寻找稀疏点线;可以自动滤除用户指定的背景线。
由于印刷体有特大号至小七号等多种字号,对于同一种字号的尺寸,各个印刷厂也不尽相同;而手写体字的大小则完全是无级变化的。同一个字,当外形尺寸x和y发生变化时,特征J值亦会发生变化,为解决这一问题,本发明对特征J值采用了如下的调整算法采用线性插值和分段线性逼进的方法,根据x*y值和允许的J值误差划定线性段区域,一律折算为32线*32线标准尺寸的特征J值;设在某个线性段内,调整前的特征值为J,调整后的特征值为J′,则J′=(K*x*y/32+k0)*J----(4)]]>式中k和k0为调整系数,应根据字体类型和字的尺寸进行取值,取值范围均为0~1,且k+k0=1;通常,对于印刷体而言,笔划的宽度和长度随字号的变化而同步变化,比较容易分段线性逼进特征J值的变化;当然,对于字体(楷体、宋体、仿宋体、黑体)的不同,调整系数(k,k0)的取值亦不尽相同。对手写体而言,笔划的长度仍然随字的大小变化而变化,但笔划的宽度则不一定了,对此,本发明依据笔划的宽度将手写体字分为粗、中、细三类,粗线类为用毛笔等书写的字,笔划的宽度也随字的大小变化而变化;细线类为用诸如圆珠笔、签字笔和铅笔等书写的字,笔划宽度基本上不随字的大小变化而变化;不属于粗线和细线类的字一律归入中线类。
对于不同的调整系数(k,k0)的取值,特征J值亦随之不同,因此,本发明将特征J值表分为印刷楷体、印刷宋体、印刷仿宋体、印刷黑体、手写粗线体、手写中线体和手写细线体七种,用户应根据待识别字的情况将相应的特征J值表调入内存使用;对于字体混杂的文本,可以统一视为手写中线体类。
上述特征J值的测算,可分为如下三个步骤(1)根据扫描仪的SPI界面标准,以及本发明特征J值的算法,编制在MS-DOS环境下的特征J值测试程序。
(2)分别对国标6763字(包括楷体、宋体、仿宋体、黑体和粗、中、细手写体字)和682的非字符号的特征J值进行实测和计算,其结果依次写入①印刷楷体特征J值表文件(ZY0K.ZHL);②印刷宋体特征J值表文件(ZY0S.ZHL);③印刷仿宋体特征J值表文件(ZY0F.ZHL);④印刷黑体特征J值表文件(ZY0H.ZHL);⑤手写粗线体特征J值表文件(ZX0C.ZHL);⑥手写中线体特征J值表文件(ZX0Z.ZHL);⑦手写细线体特征J值表文件(ZX0X.ZHL)。
(3)建立印刷体特征J值公共文件(ZY01.ZHL)和手写体特征J值公共文件(ZX01.ZHL);本发明的处理程序只处理这两个文件中的特征J值,用户可以利用MS-DOS的拷贝命令将上述七个特征J值文件之一拷贝入相应的公共文件即可识别处理相应字体的文本,其中手写中线体特征J值表文件(ZX0Z.ZHL)为各种字体混排的特征J值文件。
为了节省扫描数据占用的存储空间,加快处理速度,本发明将待识别字根据y值的大小分为三档第I档 y≤7.50mm,键盘上为′1′键或′4′键;第II档 y≤15.5mm,键盘上为′2′键或′5′键;第III档 y≤31.5mm,键盘上为′3′键或′6′键;y值应以该扫描行中最大者为准,并按I、II、III的优先顺序确定,即能用第I档就不用第II、III档,能用第II档就不用第III档。
若扫描图象点阵出现违反常规的数据,具体地说,属于下述三种情况之一时,即判定为扫描文本中的干扰点,或者已出现严重的扫描质量问题,此时应放弃本次扫描数据,并鸣响警示①y≤1或x<3(I档)、6(II档)、11(III档);②δ0≤4;③0.382≤(y/x)≤2.618;本发明的四种类型的背景线如图2所示,使用时应根据背景线的类型确定扫描处理方式,在计算特征J值之前,先依据背景线的类型将背景线滤除;并规定,凡是相交背景线的交点亦一律予以滤除。这一规定有可能把字的笔划滤除,影响特征J值的真实性;但若相交点不滤除,则x0、x1、y0和y1值会严重失真,更不可取;有鉴于此,应该允许J值有较大的波动范围,以避免待识别字不能入选候选字集而造成识别失败。当然,有背景线的文本特征J值波动范围值无法保证,识别正确率必然会降低;因此,有背景线的印刷体文本,应一律按有背景线的手写体来进行识别处理。
另外,印刷体的字距和行距较有规律,不难从扫描图象点阵中找寻出;但是,当扫描质量欠佳造成图象变形、甚至断裂时,也会造成误判。对于手写体,其字距和行距更是无一定之规。有鉴于此,本发明研制了一种辅助扫描板,如图3所示,其中支架可采用不锈钢等材料制成,在用手提式扫描仪扫描时起稳定作用,深色纸可由白纸涂色而成,并胶贴于支架的下面;辅助扫描板专门用于确定文本中每个扫描行的上、下和左边界,这样在处理程序中就只需考虑字距的搜寻了,大大降低了处理难度,提高了处理速度。当然,对于比较高档和稳定的扫描仪,以及字距和行距比较规整的文本,辅助扫描板可以不用。
扫描文本中字与字间的距离Lm也是一个模糊参数,特别要注意分辨字的部首间距Lb,以免误判为Lm。通常,印刷体的字间距较有规律,手写体则极不规则,应分别设置二者的字距。由于本发明允许手写体有连笔,因此稀疏线(即具有极少黑点的扫描线,例如,黑点数Lx=1~2)亦应视为空白线。
此外,本发明可以实现集字、词、句、自定义短语和印刷体、手写体扫描识别输入手段于一体,所用的软词库、拆字编码规则、字词使用规则、句输入和自定义短语输入规则与专利申请号为96119064.7及96117311.4相同,本发明有以下六条使用规则(一)、在汉字系统提示符下,键入命令ZBM[.EXE]abcdef<CR>,其中′a′为入口定义键,例如选择ALT+F4时为a=4;′b′为汉字系统类型,b=0时为金山汉字系统;b=1时为希望汉字系统;′c′为字表位置,可取0和A~Z;′d′为软词库位置,可取0和A~Z;′e′为输入方式,e=0时为单纯的字词输入模块;1时为句输入模块;2时为半自动印刷体识别模块;3时为全自动印刷体识别模块;4时为半自动手写体(无背景线)识别模块;5时为半自动手写体(A型背景线)识别模块;6时为半自动手写体(B型背景线)识别模块;7时为半自动手写体(C型背景线)识别模块;8时为半自动手写体(D型背景线)识别模块;9时为全自动手写体(无背景线)识别模块;A时为全自动手写体(A型背景线)识别模块;B时为全自动手写体(B型背景线)识别模块;C时为全自动手写体(C型背景线)识别模块;D时为全自动手写体(D型背景线)识别模块;E时为半自动语音(普通话)识别模块预留;F时为全自动语音(普通话)识别模块预留;′f′为调入软词的段数,f=0~56;对于有背景线的印刷体,一律按有背景线的手写体处理。
(二)、扫描方式分为半自动和全自动两种,其中半自动扫描方式专为调整待识别字的特征J值而设,由于需要键盘按键的配合,故只适宜作为扫描识别模块的实用工具。而全自动扫描方式可以进行逐行或全篇的不间断扫描。
(三)、在字词输入状态(提示行显示′蓝月亮码′)下,键入′V′,则印刷体扫描识别模块提示行改显′蓝月亮印′,手写体扫描识别模块改显′蓝月亮写′,并提示′1/2/3/I/C′。
(四)、对于全自动扫描方式,根据待识别字的大小,选择键入′1′、′2′、′3′键,则提示行显示′停…′,用户按下扫描仪上的′START′键,就可以操纵扫描仪进行逐行或全篇扫描,一旦有扫描数据输入,提示行就显示′扫描…′,一旦停止扫描数据输入,提示行就改显′停…′,本发明的处理程序则进行实时识别处理,并将识别结果暂存于蓝月亮输入法专用目录下的ZHL0.ZHL文件中;扫描完毕,按任意键回到字词输入状态;再键入′V′+′I′键,即可以将本次扫描识别结果显示在屏幕上。
在逐行扫描时,若扫描过程中的停顿时间超过1秒,则判定为本行扫描已经结束,如果本程序的处理速度跟不上,则会在提示行改显′请稍候…′,直至处理完该行的剩余信息,提示行重新显示′停…′,用户才可以继续下一行的扫描。
在实时处理的过程中,如果出现下列三种严重错误之一时,应立即中止识别处理,返回字词输入状态①滤除背景线时出错;②进入全自动状态后,首字y<3(I档)、6(II档)、11(III档);③找不到Lm(即不能正确切分字)。
(五)、对于半自动扫描方式,根据待识别字的大小,选择键入′1′、′2′、′3′键,则提示行显示′扫描???′,用户按下扫描仪上的′START′键后,就可以操纵扫描仪进行一个字的扫描,本发明的处理程序则进行实时识别处理,扫描处理完毕一个字以后,提示行回复显示′蓝月亮码′,并将识别结果显示在屏幕上;如果扫描数据有效,但无法确认(拒识),则在屏幕上显示一个全角空格;如果扫描数据有误,则放弃本次扫描数据,屏幕上不显示任何信息,并鸣响警示。
按下空格键,提示行又显示′扫描???′,可以继续下一个字的半自动扫描;重复上述操作,直至用户按下回车键,退出半自动扫描识别状态,返回字词输入状态。
当本次识别结果有误,或者为全角空格时,可按下述步骤进行修改①仍然需要按下空格键,提示行显示′扫描???′。
②若上一字扫描正确,则首先应考虑修改软词,直接按字词输入方式键入上一字,然后再键入正确的本字,此时提示行右边会给出软词关系提示,
表示非软词,[1词]表示为软词;若非软词,可按′;′键改为软词,再按′V′+′1′、′2′、′3′键继续半自动扫描,还可以自动进行特征J值的修改;若已为软词,应继续下一步,进行特征J值修改。
若修改软词后,不想再修改特征J值,但又需要继续半自动扫描,此时应连续两遍键入′V′+′C′键组合,再按′V′+′1′、′2′、′3′键继续半自动扫描即可。
③若为首次半自动扫描(即按′V′+′1′、′2′、′3′键进入半自动扫描方式)的结果,或者与上一字已组成了软词,则应考虑修改特征J值,方法是,键入正确的本字,然后按′V′+′1′、′2′、′3′键继续半自动扫描,即可以自动进行特征J值的修改。
若特征J值表中无此字,则修改特征J值即等于将此字添加入特征J值表中。
若不是想修改特征J值,而是要从特征J值表中删除此字,则只需将按′V′+′1′、′2′、′3′键对应改为按′V′+′4′、′5′、′6′键继续半自动扫描即可。
(六)、′V′+′C′键组合为全自动扫描方式和半自动扫描方式转换开关,即若在全自动转换中发现错误而需要修改软词或特征J值时,按′V′+′C′键组合即可以转入半自动扫描方式,修改完毕,再按′V′+′C′键组合又可以回复全自动扫描方式。
若本次识别结果有误,或者为全角空格时,应属于以下四种原因之一①特征J值表中无此字;②特征J值表中有此字,但该字的特征J值不正确,因而该字未能入选候选字集中;③特征J值表中有此字,该字的特征J值亦正确,但候选字集入选有多字,待识别字由于词频或字频原因而落选;④特征J值表中有此字,该字的特征J值亦正确,但候选字集入选有多字,待识别字由于不常用而未入软词库;这种错误无法通过软词库修改。
依据字码表、软词段文件、扫描仪的SPI界面标准、特征J值文件和BM扫描识别输入的使用规则即可进行程序编制、汇编、链接和调试,通过后挂接到汉字系统上即可以使用。由于本输入法数据繁多,软件较长,为了尽可能节省内存,使得低档机用户可以使用,宜采用汇编语言进行程序编制。
软件编制应允许用户进行下述选择组合①可以选择是否装入扫描识别输入模块,以及选择扫描识别输入模块的全自动和半自动方式;②可以选择印刷体模块和手写体模块;③可以选择是否滤除背景线,以及是何种背景线;④可以选择装入软词段文件的段数,以及装入扩展内存、扩充内存、硬磁盘或软盘中;可以选择将字表文件装入扩展内存、扩充内存、硬磁盘或软盘中。
本发明与现有各种扫描识别输入系统相比具有如下的优点和有益效果1、现在的扫描识别输入系统,基本上属于单一的汉字扫描识别;而本发明的汉字输入系统(BM输入系统),则可以实现集字、词、句、自定义短语和印刷体、手写体扫描识别输入手段于一体,而且还预留了语音输入模块接口。
2、本发明所用的的“软词库”,基本上可以包容汉语的所有语法现象;更重要的是,由于用户对软词库的增删优化是极其方便的,因此具有极强的自学习和自适应能力,BM扫描识别输入系统可以在较短时间内适应于每一个用户的需要,也可以极方便地跟上语言的发展变化,基本上解次了扫描识别输入技术利用汉语语法方面的技术问题;软词库具有以下优点①软词库的有效软词容量约为680万,但却无须用户记忆词的编码。
②用户可以用最简单的手法对软词库进行任意增删优化(按一次分号键即可以增加或删除一个词),真正做到了“把词库交给用户”。
③无论用户增删多少词(哪怕是一百万词!),软词库占用的内存大小永远不变;用户愿意给本输入法多大的内存空间,软词库就在这片空间中施展身手,绝不逾矩。现有的其它各种汉字输入系统恐怕难以做到这一点。
④无论软词量加到多大,扫描识别的处理速度永远不会因此而受任何影响。
3、用户可以根据电脑的内存大小灵活地设置所占用的内存量;扫描识别模块运行时,包括特征J值表在内的整个程序最小占用约150KB存储空间(其中最小占用约115KB常规内存),最大占用约3750KB存储空间。因此,既便是最低档的XT机,BM扫描识别输入系统也可以正常运行,这一点是现有的其它各种BM扫描识别输入系统难以企及的。
4、BM扫描识别输入系统用户可以识别处理国标6763字(包括楷体、宋体、仿宋体、黑体和各种手写体字)和682的非字符号(包括阿拉伯数、大小写英文字母、罗马数字、日文平假名和片假名、大小写希腊字母、大小写俄文字母、汉字偏旁部首和各种标点符号等);在这个字集范围内可以对任意字的特征J值进行任意的修正、删除和插入操作。
5、BM扫描识别输入系统全自动逐行扫描识别方式的扫描识别处理速度(386DX,33MH主频)不低于20字/秒,这是对扫描数据进行实时处理的识别速度,或者说是对扫描数据进行同步处理的识别速度。而现有各种扫描识别输入系统通常文本扫描和识别处理是分开的,二者的难易程度是不言而喻的。
权利要求
1.一种计算机汉字扫描识别输入系统,包括有扫描仪及将任意两个汉字之间词与非词的组合关系尽数包容的软词库,其特征在于选取汉字字形及结构中最为稳定的特征信息——总体黑白比值J0以及均分为k个分部的k个黑白比值J1~Jk作为该字的特征值,以获得初选字集,并通过软词库的筛选确定待识别字。
2.根据权利要求1所述的汉字扫描识别输入系统,其特征在于上述J0=δ0/(A-δ0),Ji(i=1~k)=k*δi/(A-k*δi),A为汉字图象点阵所围成的矩形面积,δ0为矩形中的黑点总数,δi为矩形A均分为k个小矩形其内的黑点总数。
3.根据权利要求1或2所述的汉字扫描识别输入系统,其特征在于上述k值为4。
4.根据权利要求1或2所述的汉字扫描识别输入系统,其特征在于可以识别处理印刷楷体、印刷宋体、印刷仿宋体、印刷黑体、手写粗线体、手写中线体(包括字体混杂的文本,)和手写细线体等七种字体;可以自动适应字形尺寸的变化;可以自动寻找字间距;可以自动寻找稀疏点线;可以自动滤除用户指定的背景线。
5.根据权利要求4所述的汉字扫描识别输入系统,其特征在于上述特征J值的测算,分为如下三个步骤①根据扫描仪的SPI界面标准及本发明特征J值的算法,编制在MS-DOS环境下的特征J值测试程序;②分别对国标6763字(包括楷体、宋体、仿宋体、黑体和粗、中、细手写体字)和682个非字符号的特征J值进行实测和计算,其结果依次写入印刷楷体特征J值表文件(ZY0K.ZHL)、印刷宋体特征J值表文件(ZY0S.ZHL)、印刷仿宋体特征J值表文件(ZY0F.ZHL)、印刷黑体特征J值表文件(ZY0H.ZHL)、手写粗线体特征J值表文件(ZX0C.ZHL)、手写中线体特征J值表文件(ZX0Z.ZHL)、手写细线体特征J值表文件(ZX0X.ZHL);③建立印刷体特征J值公共文件(ZY01.ZHL)和手写体特征J值公共文件(ZX01.ZHL);利用MS-DOS的拷贝命令将上述七个特征J值文件拷贝入相应的公共文件,通过处理公共文件中的特征J值即可识别处理相应字体的文本。
6.根据权利要求5所述的汉字扫描识别输入系统,其特征在于扫描方式可分为半自动和全自动两种。
7.根据权利要求1所述的汉字扫描识别输入系统,其特征在于可实现集字、词、句、自定义短语和印刷体、手写体扫描识别输入手段于一体,所用软词库、拆字编码规则、字词使用规则、句输入和自定义短语输入规则与专利申请号为96119064.7及96117311.4相同。
8.根据权利要求7所述的汉字扫描识别输入系统,其特征在于有以下六条使用规则(一)、在汉字系统提示符下,键入命令ZBM[.EXE]abcdef<CR>,其中′a′为入口定义键,例如选择ALT+F4时为a=4;′b′为汉字系统类型,b=0时为金山汉字系统;b=1时为希望汉字系统;′c′为字表位置,可取0和A~Z;′d′为软词库位置,可取0和A~Z;′e′为输入方式,e=0时为单纯的字词输入模块;1时为句输入模块;2时为半自动印刷体识别模块;3时为全自动印刷体识别模块;4时为半自动手写体(无背景线)识别模块;5时为半自动手写体(A型背景线)识别模块;6时为半自动手写体(B型背景线)识别模块;7时为半自动手写体(C型背景线)识别模块;8时为半自动手写体(D型背景线)识别模块;9时为全自动手写体(无背景线)识别模块;A时为全自动手写体(A型背景线)识别模块;B时为全自动手写体(B型背景线)识别模块;C时为全自动手写体(C型背景线)识别模块;D时为全自动手写体(D型背景线)识别模块;E时为半自动语音(普通话)识别模块预留;F时为全自动语音(普通话)识别模块预留;′f′为调入软词的段数,f=0~56;对于有背景线的印刷体,一律按有背景线的手写体处理;(二)、扫描方式分为半自动和全自动两种,其中半自动扫描方式专为调整待识别字的特征J值而设,由于需要键盘按键的配合,故只适宜作为扫描识别模块的实用工具,而全自动扫描方式可以进行逐行或全篇的不间断扫描;(三)、在字词输入状态(提示行显示′蓝月亮码′)下,键入′V′,则印刷体扫描识别模块提示行改显′蓝月亮印′,手写体扫描识别模块改显′蓝月亮写′,并提示′1/2/3/I/C′;(四)、对于全自动扫描方式,根据待识别字的大小,选择键入′1′、′2′、′3′键,则提示行显示′停…′,用户按下扫描仪上的′START′键,就可以操纵扫描仪进行逐行或全篇扫描,一旦有扫描数据输入,提示行就显示′扫描…′,一旦停止扫描数据输入,提示行就改显′停…′,本发明的处理程序则进行实时识别处理,并将识别结果暂存于ZHL0.ZHL文件中;扫描完毕,按任意键回到字词输入状态;再键入′V′+′I′键,即可以将本次扫描识别结果显示在屏幕上;在逐行扫描时,若扫描过程中的停顿时间超过1秒,则判定为本行扫描已经结束,如果本程序的处理速度跟不上,则会在提示行改显′请稍候…′,直至处理完该行的剩余信息,提示行重新显示′停…′,用户才可以继续下一行的扫描;在实时处理的过程中,如果出现下列三种严重错误之一时,应立即中止识别处理,返回字词输入状态①滤除背景线时出错;②进入全自动状态后,首字y<3(I档)、6(II档)、11(III档)③找不到Lm(即不能正确切分字);(五)、对于半自动扫描方式,根据待识别字的大小,选择键入′1′、′2′、′3′键,则提示行显示′扫描???′,用户按下扫描仪上的′START′键后,就可以操纵扫描仪进行一个字的扫描,本发明的处理程序则进行实时识别处理,扫描处理完毕一个字以后,提示行回复显示′蓝月亮码′,并将识别结果显示在屏幕上;如果扫描数据有效,但无法确认(拒识),则在屏幕上显示一个全角空格;如果扫描数据有误,则放弃本次扫描数据,屏幕上不显示任何信息,并鸣响警示;按下空格键,提示行又显示′扫描???′,可以继续下一个字的半自动扫描;重复上述操作,直至用户按下回车键,退出半自动扫描识别状态,返回字词输入状态;当本次识别结果有误,或者为全角空格时,可按下述步骤进行修改①仍然需要按下空格键,提示行显示′扫描???′;②若上一字扫描正确,则首先应考虑修改软词,直接按字词输入方式键入上一字,然后再键入正确的本字,此时提示行右边会给出软词关系提示,
表示非软词,[1词]表示为软词;若非软词,可按′;′键改为软词,再按′V′+′1′、′2′、′3′键继续半自动扫描,还可以自动进行特征J值的修改;若已为软词,应继续下一步,进行特征J值修改;若修改软词后,不想再修改特征J值,但又需要继续半自动扫描,此时应连续两遍键入′V′+′C′键组合,再按′V′+′1′、′2′、′3′键继续半自动扫描即可;③若为首次半自动扫描(即按′V′+′1′、′2′、′3′键进入半自动扫描方式)的结果,或者与上一字已组成了软词,则应考虑修改特征J值,方法是,键入正确的本字,然后按′V′+′1′、′2′、′3′键继续半自动扫描,即可以自动进行特征J值的修改;若特征J值表中无此字,则修改特征J值即等于将此字添加入特征J值表中;若不是想修改特征J值,而是要从特征J值表中删除此字,则只需将按′V′+′1′、′2′、′3′键对应改为按′V′+′4′、′5′、′6′键继续半自动扫描即可;(六)、′V′+′C′键组合为全自动扫描方式和半自动扫描方式转换开关,即若在全自动转换中发现错误而需要修改软词或特征J值时,按′V′+′C′键组合即可以转入半自动扫描方式,修改完毕,再按′V′+′C′键组合又可以回复全自动扫描方式。
全文摘要
一种计算机汉字扫描识别输入系统,利用“软词库”集字词、句、自定义短语和印刷体、手写体扫描识别输入手段于一体;采用既可以有效利用字形结构特征信息又可以充分利用语法信息的识别处理方法对扫描数据进行实时处理,具有极强的自学习和自适应能力,可以识别处理国标6763字(包括楷体、宋体、仿宋体、黑体和各种手写体字)和682的非字符号,识别速度不低于20字/秒,中档以上的扫描仪识别正确率可达85~99%。
文档编号G06K9/00GK1200519SQ9710892
公开日1998年12月2日 申请日期1997年5月27日 优先权日1997年5月27日
发明者朱亮 申请人:朱亮
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1