微机汉字手写输入设备的制作方法

文档序号:6407271阅读:410来源:国知局
专利名称:微机汉字手写输入设备的制作方法
技术领域
本发明涉及一种用于通用微机的汉字手写输入的设备,特别是一种自身带汉字识别功能的设备,而且能识别人们习惯连笔汉字的设备。
在现有的汉字手写输入装置中,大多采用数据采集器连接计算机,程序在计算机里运行,在线或脱机识别,这样就占用了计算机的资源,影响了运行速度。1987年8月19日公布的发明专利“一种手写汉字的在线识别装置”(申请号为86100683),提出了一种以笔段为识别基本单元的识别装置,使得在任意改变输入手写笔划顺序的情况下都不致影响识别率和识别时间;但是,人们的输写习惯总带有连笔,而该装置却不能很好地解决连笔书写的识别问题,从而限制了它的推广应用。此外,以笔段作为识别基本单元,特征点信息的处理量很多,占用了计算资源,影响了运行速度。
本发明的目的在于改变以笔段编存字形信息与匹配字形的方法,通过设备自身处理识别汉字,不占用计算机资源,能识别连笔汉字,有效地提高识别率和识别时间。
本发明由数据采集器、数据预处理器、数据显示器、数据存储器、汉字识别器、输出控制器构成。汉字识别器由特征点抽取器、字根匹配器、字根描述存储器、整字识别器、整字描述存储器构成。手写时先由数据采集器采集原始手写笔迹点,由数据预处理器将笔迹点数据预处理后送往数据存储器,数据显示器将笔迹点显示出来,汉字识别器从数据存储器中取出汉字笔迹点,从中抽取特征点信息并计算出特征点之间的方向和长度数据,根据这些数据进行字根匹配,找出最相似字根作为索引关键信息索引到整字描述库中包含该字根的若干汉字,再进行整字匹配,找出最相似的汉字送往输出控制器,由输出控制器编码输出。
本发明自带处理识别装置,从书写、采集、预处理、识别到输出汉字一体化、不占用计算机资源,不影响计算机运行速度;而且边采集边显示,使用户觉得像用墨水笔在纸上书写一样,方便、明了。本发明是抽取字根的特征点的信息进行识别,缩短了识别时间;描述库由手写输入数据分解建立,没有楷书、行书的限制,忽略了笔段概念,更方便人们的使用;本发明在汉字识别过程中,根据汉字特征点,如每一笔划的起笔,末笔和中间拐点的坐标和到下一点的方向、长度信息,与字根描述库进行匹配,而字根描述库也是特征点描述法描述,这样就忽略了点和点之间是否有线段或无线段连接。汉字书写是有顺序的,这包括了人们习惯的顺序。在书写过程中连笔也是在这个顺序下的连笔。事实上在书写过程中笔划信息是不稳定的。只有那些特征点信息稳定。所以我们抓住汉字书写的这个特征进行识别,更贴切地描述和分解汉字,大大提高了汉字识别的准确率。


图1为本发明结构示意图。
附图2为本发明汉字识别流程图。
附图3为本发明各流程工作结果示意图。
附图4为发明字根描述库表部分示意图。
附图5为本发明特征点抽取器工作流程图。
附图6为本发明字根匹配器工作流程图。
附图7为发明整字匹配器工作流程图。
现结合附图进一步说明如图1,本发明由数据采集器(1)、数据预处理器(2)、数据显示器(3)、数据存储器(4)、汉字识别器(5)、输出控制器(6)构成。汉字识别器(5)由特征点抽取器(7)、字根匹配器(8)、字根描述存储器(9)、整字识别器(10)、整字描述存储器(11)构成。
如图2,手写时,数据采集器(1)以3毫秒为周期采集手写笔迹点送往数据预处理器(2),数据预处理器(2)自动过滤杂质点和重复点后得到字模(12),将数据送往数据存储器(4)暂存。当手写笔抬起时数据预处理器(2)发出一抬笔信号编码,落笔时也是如此。这样,数据预处理器(2)以一次抬笔落笔为一个处理单位,将数据整形过滤后送往数据存储器(4)存放。与此同时,数据预处理器(2)也将处理后的数据送往数据显示器(3)显示,显示的位置与采点位置重叠,使书写者像用墨水笔书写一样。
汉字识别器(5)将数据存储器(4)中的手写笔迹数据,进行特征点抽取,得到字模(13)。再进行特征点间方向和长度的计算,先计算两点间的方向,判断当前方向是否与前一方向比发生了突变,如是则记录下这些点的信息,否则就滤掉那些点,这样经过若干次的计算过滤过程,直到无点可过滤为止。这样,得到字模数据样(14),该数据样(14)记载了特征点方向和长度的信息,也称特征点关系数据。将得到是的特征点信息输送到数据存储器(4)中存储。然后,汉字识别器(5)再从数据存储器(4)中取出该字根的特征点关系数据,进行字根匹配,得到数个字根匹配索引值,再依据字根索引值对非字根部分进行整字匹配,将匹配结果送到输出控制器(6)编码输出。
如图3,图3(a)所示为输入时手写体字模,图3(b)为经数据预处理器(2)处理后的字模(12),也就是在数据显示器(3)上显示的字模,图3(c)为经特征点抽取后的字模(13),图3(d)为图3(c)所示字模经计算后确定了方向和长度信息的字模数据样(14)。
如图4,本发明字根描述库表的分类法是将汉字统一分为三大类,一是上、下结构类,二是左右结构类,三是单字结构类。例如“例”、“题”、“明”为左右结构类,“原”、“吕”、“问”属上下结构类,“大”、“中”等为单字结构类。其中第一、二类按书写顺序又各分两小类顺序类和反序类,如第一类中的“题”字,假如书写时是先写“是”后写“页”的话,为顺序情况,属左右顺序类字根,反之为反序类字根。按此分类法,将所有汉字字根分解成五个库表左右顺序类字根库表见图4(a),左右反序类字根库表见图4(b)、上下顺序类字根库表见图4(c)、上下反序类字根库表见图4(b)、单字类字根库表见图5(e)。库表中字根的描述法是将所有字根的特征点信息描述出来,得到图3(d)所示的字模数据样,将其关系数据信息存储在字根描述存储器(9)中,称字根描述模板(15)。
如图5,特征点抽取器(7)从数据存储器(4)中依次将笔迹顺序第一、第二点信息取出,计算这两点间的方向值,然后再取第三点,计算第二、第三点之间的方向,比较第一、第二点之间的方向与第二、第三点之间的方向是否有突变。如果没有则将第二点滤掉,第三点成为第二点,重新计算这第一、第二点的方向,然后再从数据存储器(4)取下一点计算。如此循环,直到方向有突变,则保存此时的第一、第二、第三点座标和方向的数据;继续取下一点计算。依此方法,直到所有笔迹点取完为止。最后将计算得到的特征的特征点及其关系数据(即方间和长度信息)存入数据存储器(4)。
如图6,字根匹配器(8)从数据存储器(4)中取出经特征点抽取器(7)处理后存放的字根部分的特征点关系数据,再从字根描述存储器(9)里取一字根描述模板(15),这模板(15)包括两个部分信息一是特征点集合,它描述了字根中特征点的相对坐标;二是关系集合,它描述了字根中特征点关系数据,将字根描述模板(15)与输入的字根特征点信息进行相似值计算。先计算字根特征点与字根模板(15)相似距离△l,同时计算字根特征点与字根模板(15)关于方向和长度关系的关系相似值△V,再计算出相似值△x=△l+△V.将相似值△X与预存的标准相似值△Xi进行比较。为了准确地找到相关汉字,本发明选用了7个标准似值,分别为△X1,△X2,△X3,△X4,△X5,△X6,△X7。判断相似值△X是否大于△Xi,如大于则去掉,再取下一字根模板(15)进行计算;如小于则保留该相似值△X及其相对应字根索引值。直到所有字根都计算完一遍。这样,依据7个标准相似值,得到相关的7个字根索引值(16)。
如图7,整字识别器(10)将字根匹配器(8)计算得到的7个字根索引值(16)在整字描述存储器(11)中定位。整字描述模板为非字根部分模板,描述的信息与字根描述模板类同,与字根模板匹配的方法是先由字根索引值(16)定位,再依据该字根模板(15)在字根描述库中的类别再确定。匹配时将数据存储器(4)中存储的非字根部分特征点数据与在整字描述存储器(11)定位后的整字模板在整字识别器(10)中进行相似计算,计算方法与工作流程与字根匹配类同,最后得到7个最相似的字,送往输出控制器(6)。
权利要求
1.一种由数据采集器、数据预处理器、数据显示器、数据存储器、汉字识别器、输出控制器构成的微机汉字手写输入设备,其特征在于输入汉字由数据采集器(1)采集数据,经数据预处理器(2)处理后变成字模(12),将其数据存储在数据存储器(4)中,汉字识别器(5)从存储器(4)中取出字模(12)的数据,进行特征点抽取,得字模(13),计算其特征点之间的方向和长度数据,得到字模数据样(14),据其(14)进行字根匹配,找出最相似字根作为索引关键信息索引到整字描述存储器(11)中包含该字根的若干汉字,再进行整字匹配,找出最相似的汉字送往输出控制器(6)。
2.根据权利要求1所述的微机汉字手写输入设备,其特征在于汉字识别器(5)由特征点抽取器(7)、字根匹配器(8)、字根描述存储器(9)、整字识别器(10)、整字描述存储器(11)构成。
3.根据权利要求1所述微机汉字手写输入设备,其特征在于特征点抽取器(7)从数据存储器(4)中抽取采集数据进行特征点抽取,得字模(13),再进行其特征点之间的方向和长度数据,得到字模数据样(14)。
4.根据权利要求1所述微机汉字手写输入设备,其特征在于字根匹配器(8)从数据存储器(4)中取出字模据样(14),再从字根描述存储器(9)中取出字根模板(15)进行匹配,得到字根索引值(16)。
5.根据权利要求1所述的微机汉字手写输入设备,其特征在于整字识别器(10)从数据存储器(4)中取出非字根部分数据样,再从整字描述存储器(11)中取出经字根索引值(16)定位的整字描述模板进行整字匹配,得到整字信息,送往输出控制器(6)。
6.根据权利要求1所述的微机汉字手写输入设备,其特征在于字根索引值(16)选用7个。
全文摘要
一种由数据采集器、数据预处理器,数据显示器、数据存储器、汉字识别器、输出控制器构成的微机汉字手写输入设备,该设备对手写体输入汉字进行采集、预处理后,由汉字识别器进行特征点抽取、计算、得到特征点关系数据,进行字根匹配,再进行整字匹配,最后得到整字信息,送往输出控制器。本发明能很好解决汉字连笔输入的识别问题,运算时间短,有效缩短识别时间,不占用计算机资源,是一种比较新式、实用的微机汉字手写输入设备。
文档编号G06F3/02GK1096110SQ93111439
公开日1994年12月7日 申请日期1993年6月4日 优先权日1993年6月4日
发明者史玉柱 申请人:珠海巨人高科技集团公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1