基于纸介质的手书文字和图形识别系统及识别方法

文档序号:6502732阅读:194来源:国知局
基于纸介质的手书文字和图形识别系统及识别方法
【专利摘要】本发明是一种基于纸介质的手书文字和图形识别系统,包括数码手写笔和纳米网格状触摸板,数码手写笔由笔尖、压力传感器、测距传感器、数据采集模块、通讯接口、存储器、电池、颜色选择开关、时间间隔选择开关、笔划宽度选择开关组成;该网格状的触摸板是在一纳米间隔内,由一纳米网格状的微小孔组成的触摸板和触摸板微小孔下设置的压力传感器,通过压力传感器测定微小孔内的水和墨的量;将获得的在每一个坐标点上加上的墨和水的存储的量,识别出汉字以及计算出水墨画的轮廓,得到准确的字或者水墨画。本发明不需要与电脑直接连接,在普通纸上手写就形成中文或图画的电子文档。
【专利说明】基于纸介质的手书文字和图形识别系统及识别方法
【技术领域】
[0001]本发明涉及信息技术,尤其是涉及利用数码电子笔输入文字和图形信息的识别设备及识别方法。
【背景技术】
[0002]目前,手写数码笔产业发展的步伐越来越快,随着网民数量飞速增长,手写数码笔在广大网民中也非常受欢迎。用数码手写笔可以发送笔迹邮件,可以真正轻松地进行交流,同时可以免去了敲键盘的繁琐以及长期使用鼠标带来不便,使上网更加轻松自然,数码手写笔已经成为上网的好帮手。中国手写数码笔具有非常大的市场空间。
[0003]目前国内手写数码笔的研发还没有脱离联机,从而导致数码笔的使用范围和使用效率都没有能够得到应有的扩展,给人们的使用带来了诸多不便,也给数码笔的普及造成了障碍。
[0004]目前手写中文输入计算机形成电子文档方法技术大部分是电子笔和计算机联机,进行手写中文直接进入电脑。这些方法技术原理都是用数码电子笔的压力传感器,光电原理或雷达系统,手写中文和素描是获取汉字或者素描的笔画树,经软件处理,分析汉字单字或者素描的笔画数,并候选汉字字库中比较笔画树获取汉字单字形成中文文档。整个数码笔行业技术的进展目前是集中使手写数码笔进入一个完全脱离电脑局限,国内外研究开发现状和发展趋势体现在以下方面:
[0005](I)触摸屏式的数码手写笔:目前国外的数码手写笔市场绝大部分使用带触摸屏或触摸板的产品,虽然脱离了键盘的输入方式,但仍要用到特殊的触摸工具,才能实现手写的输入方式。
[0006](2)摄像头式的数码手写笔:另外一种数码手写笔是在笔尖上安装摄像头,手写时将摄像结果输入计算机,从而对书写内容进行识别。这种数码手写笔的缺点是把手写内容外的纸面上原有内容也一起识别,而且还要带一套摄像设备,带来局限性,发展前景不大。
[0007](3)单字提取和识别方法:一般是根据候选单字间距提取单字,并从候选单字模式识别结果中构建候选单字网络,以候选单字识别得分、语言模型得分为依据,从候选单字网络中搜索出最佳路径,获取单字提取结果。上述方法需要与计算机联机的触摸板上手写中文,在电脑中获取了单字。
[0008](4)基于纸介质的手书文字和素描图形识别技术,该基于纸介质的手书文字和素描图形识别系统是一种在脱离电脑,用纳米触摸板和压力传感器之上,用数码电子笔在普通纸上手写文字或素描图形,形成电子文本存储在笔内,通过电脑接口下载电子文本的实用、方便的系统。本发明的研制成功和推广使用,将对不习惯计算机键盘输入或不方便携带电脑而需要尽快形成文件的人们来说,如公安、文化创意人员、记者、医院及经常出差在外人员等,有很大的实用价值。对电脑的广泛应用和人们工作效率的提高;用手写习惯实现文字和素描图画以及相互交流将产生很好的社会效果。[0009]目前尚未研究完成的报道,该技术是未来的发展趋势,将逐渐取代触摸屏式数码
手写笔。

【发明内容】

[0010]本发明的目的是研发出在离开计算机的情况下,用纳米触摸板和压力传感器之上,使用数码电子笔在纸介质上手书文字和素描图形自动识别笔内形成电子文档的系统和识别方法。
[0011]为了实现本发明的目的,提出以下技术方案:
[0012]一种基于纸介质的手书文字和图形识别系统,所述识别系统包括数码手写笔和纳米网格状触摸板,
[0013]所述数码手写笔I由笔尖2、压力传感器3、测距传感器4、数据采集模块6、通讯接口 9、存储器11、电池5、颜色选择开关12、时间间隔选择开关13、笔划宽度选择开关14组成;
[0014]所述纳米网格状触摸板的上层结构是由氟基团与硅基团组合而成的纳米涂层,该网格状的触摸板是在一纳米间隔内,由一纳米网格状的微小孔组成的触摸板和触摸板微小孔下设置的压力传感器,通过压力传感器测定微小孔内的水和墨的量;
[0015]通过所述压力传感器3、测距传感器4获得的笔画坐标参数,利用颜色选择开关12、时间间隔选择开关13、笔划宽度选择开关14的设定获得和不同抬笔时间间隔、不同颜色、不同笔划宽度的数据,该时间,宽度,色彩信息以及纳米触摸板获得的在每一个坐标点上加上的墨和水的存储的量,识别出汉字以及计算出水墨画的轮廓,得到准确的字或者水墨趣。
[0016]所述数码手写笔I还设置有上述选择开关的切换按钮7、代码显示器15和开关指示灯8,所述代码显示器15显示的代码表示笔画的不同颜色、笔画宽度的不同像索值和压力传感器3的等待时间;所述开关指示灯8显示上述开关和切换按钮的操作。
[0017]所述笔尖2、压力传感器3和测距传感器4的组合建立系统的坐标系统和获取手写文字或素描图形时数码手写笔划的坐标,上述数据组成数据组合进入数据采集模块6。
[0018]本发明还提出一种基于纸介质的手书文字和图形识别方法,所述方法包括步骤:
[0019]I)在要书写的纸上建立二维坐标体系:用所述笔尖2点击纸上4个角,根据获得的压力传感器3和测距传感器4的数据形成坐标网,四个角的连线范围就是数码电子笔2手写中文的作业范围,在此范围内,数码电子笔I作业时,笔尖2经压力传感器3和测距传感器4获取手写中文的二维坐标;
[0020]2)启动颜色选择开关12,用切换按钮7改变手写字的不同颜色,用不同颜色区分容易粘连的单子之间不同的单字或手写过程中表示不同层次的内容,避免错误识别;
[0021]3)启动宽度选择开关13,用切换按钮7改变于书写笔划的粗细,表示图画的细节和结构;
[0022]4)启动时间选择开关14,用切换按钮7改变手写过程中抬笔时间的时间间隔,利用手写过程中单字和单字之间,笔划和笔划之间的抬笔时间的约定,提高单字之间和笔划之间的辨别力;
[0023]5)将上述信息和手写中文获取的基本信息,输入数据采集系统6,等待数据预处理,手写的图画、字母、数字、标点符号也按上述步骤获取对应数据进入采集系统6;
[0024]6)经过采集系统6中识别软件处理,最终形成的中文,并在存储器11上形成电子文档;
[0025]7)将所述电子文档通过通讯接口 9转移到外部计算机。
[0026]所述方法还包括步骤7):
[0027]利用本网格状的纳米触摸板。获得在每一个坐标上加上的墨和水的存储的量,并将上述数据加到该坐标的上述参数上,获得的综合数据包含了坐标,时间,宽度,色彩,水的量和墨的量;通过所述综合数据识别汉字并计算出水墨画的轮廓,得到准确的汉字或者水墨趣。
[0028]在所述步骤6)中,在采集系统6获取数据组合后,用多种数据的特征分割汉字单字,采用了以笔划数目来分类决策,以汉字单字为单元特征提取,根据笔划树和笔划数目进行分类,先提取多层次笔划数目单一的汉字单字;
[0029]如果笔划相同的情况下,再利用汉字多种组成关系分类决策,包括以汉字组成特征与训体样本比较进行模式识别获取单字,在使用模式识别技术进行中文单字的分割时,通过抬笔时间间隔、颜色和笔画宽度数据组合来区分不同单字;
[0030]提取单字后进行检验处理,其结果形成中文和图画。
[0031]在所述步骤6)中,还包括根据汉字单字的笔画数、包含的偏旁部首以及各组成部分之间的不同组合关系,建立一个常用汉字单字数据库,通过识别对象与该数据库的对应关系,实现汉字单字的提取。
[0032]在所述步骤6)中,还包括多层次笔划数提取单字的步骤:通过上述采集到的中文单字、图画、字母、数字、标点符号的笔划多层次次树的空间距离、不同颜色、笔划宽度和抬笔时间间隔多种综合信息所获取数据进入数据采集系统6,进行数据预处理、特征提取、分类决策;所述预处理是从获取数据汉字点阵图像和训练样本和样本预处理相互比较,补偿手写变形,用不同颜色和抬笔时间进行分割,划分单字体;所述特征提取是确立汉字笔画及其组合关系与特征选择相比较,形成行笔划多层树,从中确立笔划数目和构成中文的多种组成关系;所述分类决策是先按笔划数目从候选单字中判别,如有相同笔划数的单字时用构成中文的多种组成关系,即汉字的偏旁部首的多种组合关系与确定判别函数比较,模式识别进行决策,从候选单字中提取单字。
[0033]在所述步骤6)中,还包括提取单字后,再进行单字识别后处理,以确定和纠错单字识别结果。
[0034]在所述步骤6)中,还包括在识别实际文本时,对单字识别的结果进行基于上下文关系的识别后处理,所述识别后处理包括对单字识别后的文本进行循环的误差检验,通过误差检验改进判别函数,改善单字提取的误差,把提取的单字通过误差检验和改进判别函数进一步确定汉字单字,提高识别的准确率。
[0035]本发明不需要与电脑直接连接,用纳米触摸板和压力传感器之上,用一支数码电子笔在普通纸上手写就可以在笔内形成中文或图画的电子文档。与同类产品相比较,有其优越性和前瞻性,市场需求强烈,社会效益突出,投入市场后将产生巨大的反响,将成为新一代数码电子笔的文化产品标志。而且便于不断地吸取最新的科技成果,不断地提高产品的质量和科技含量的空间很大。【专利附图】

【附图说明】
[0036]图1本系统数码手写笔结构示意图;
[0037]图2是本发明纳米网格状触摸板上层结构示意图; [0038]图3本系统获取单字方法示意图;
[0039]图4本系统多层次笔划数提取单字流程图。
[0040]I数码手写笔11存储器
[0041]2笔尖12颜色选择开关
[0042]3压力传感器13时间间隔选择开关
[0043]4测距传感器14笔画宽度选择开关
[0044]5电池15代码显示器
[0045]6数据采集模块16Y坐标层
[0046]7切换按钮17纳米孔层
[0047]8开关指示灯18X坐标层
[0048]9通讯接口19纳米孔
[0049]10显示屏
【具体实施方式】
[0050]为使本发明的目的、技术方案和优点更加清楚明白,以下结合附图和具体实施例,对本发明进一步详细说明。
[0051]本发明对原有数码电子笔进行改进,增设不同颜色,不同笔画宽度和不同的抬笔时间间隔等功能的控制和显示装置,以此获取与手写中文和素描的笔画(X,y)坐标数据一一对应的不同颜色,不同的笔画宽度和不同的抬笔时间间隔的数据组合。在此基础上,利用这些数据组合进行汉字单字和素描图形分割,确认笔划数目和汉字提取。在汉字提取过程中,以多层次笔划数目为第一个标志,在多层次笔划及笔划数目相同的情况下,汉字的组成关系的笔划多层树结构来从候选汉字库的单字进行比较提取单字。为了提高提取汉字单字的准确率,软件方法加入误差检验和改进判别函数的循环系统。以提高提取汉字单字的质量。
[0052]图1本系统数码手写笔结构示意图;如图所示,本数码手写笔I的结构由笔尖2、压力传感器3、测距传感器4、进行数据处理和中文单字和素描图形的数据提取的数据采集模块6、通讯接口 9、存储器11、电池5以及颜色选择开关12、选择不同时间间隔的时间间隔选择开关13、选择不同笔划宽度的笔划宽度开关选择14、切换按钮7、显示器10及开关指示灯8和代码显示器15组成。在进行普通纸张上手写或素描图形时,首先由笔尖2、压力传感器3和测距传感器4的组合建立坐标系统,手写文字或素描图形时获取数码手写笔划的(X,y)坐标和不同抬笔时间间隔、不同颜色、不同笔划宽度的数据,将这些数据一一对应组成数据组合进入数据采集模块6。
[0053]如图1所示,在数码电子笔的外部增设的颜色选择开关12、宽度选择开关13、选择抬笔时间的时间间隔开关选择14和操纵它们的切换按钮7,具体操作如下:
[0054]在手写数码电子笔I上安装各个硬件和软件后,系统进入正常工作状态。[0055]把普通纸摆开,用笔尖2点击纸上4个角,此时通过压力传感器3和测距传感器3建立二维坐标系统,形成坐标网。四个角的连线范围就是数码电子笔手写中文的作业范围,在此范围数码电子笔作业时笔尖2经压力传感器3和测距传感器4获取手写中文的(X,Y)二维坐标,它就是中文笔划多层次树的空间距离,也就是手写中文获取的基本信息。这些获取数据进入数据采集系统6,等待数据预处理。手写的图画、字母、数字、标点符号等也按同样的方法获取数据进入采集系统6。
[0056]选择颜色选择开关12,启动后用切换按钮7改变手写字的不同颜色,这一功能用于在手写过程中容易粘连的单子之间,用不同颜色区分不同的单字,避免手写过程中单字之间粘连引起的错误识别。这一功能也可用于使用者在手写过程中表示不同层次的内容。
[0057]选择宽度选择开关13,启动后用切换按钮7改变于写笔划的粗细,这一功能用在手写过程中需要画图时,更好地表示图画的细节和结构。
[0058]选择时间选择开关14,启动后用切换按钮7改变手写过程中抬笔时间的时间间隔,在手写过程中单字和单字之间,笔划和笔划之间的抬笔时间的约定,以提高单字之间和笔划之间的辨别能力。
[0059]为了操纵方便,在数码电子笔外部正面增设了选择不同颜色、不同宽度、不同时间代码的显示屏10,与选择开关12,13,14和切换按钮7相连接。分别显示正在使用的颜色代码、宽度代码和时间代码。上述代码表示不同的颜色、画笔宽度的不同像索和压力传感器的等待时间。上述开关和切换按钮操作时有开关指示灯8显示。
[0060]根据目前汉字数码手写笔的发展情况,汉字手写提取单字的难点和水平,本发明以提取更多的信息数据出发,在原有的数码电子笔的基础上,增设了获取不同颜色、不同笔划宽度、不同抬笔时间的功能,这些功能在汉字单字之间的分割和区分和汉字笔划的划分上起到重要的作用。在上述功能获取的数据在汉字单字提取中对原有的数码电子笔获取的行笔划坐标数据有不可替代的补充作用。上述不同颜色,不同笔划宽度,不同抬笔时间获取的数据在单字区分,笔划的确认中,通过软件加以利用,它将对提高汉字的模式识别能力和质量起到重要作用。
[0061]为获取不同颜色,不同笔划宽度,不同抬笔时间的信息数据,在原有数码电子笔的外部安装的上述功能的操作开关和切换按钮,这些键和采集系统连接起来,与通过数码电子笔压力传感器和测距传感器获取的汉子笔划坐标Uy)数据一一对应的组合起来形成数据组合进入数据采集模块6。
[0062]本发明为了便于实施选择不同颜色,不同笔划宽度,不同抬笔时间的实施,在数码电子笔的外部安装了显示屏,不同功能开关和切换按钮操作之后,分别显示现在进行工作的不同颜色,不同笔划宽度的像素和压力传感器等待时间的代码,便于利用者根据工作需要选择不同开关和切换按钮操作。
[0063]最终形成的中文在存储器11上形成电子文档,电子文档通过通讯接口 9转移到外部计算机。
[0064]图2是本发明纳米网格状触摸板上层结构示意图;本发明采用纳米级网格状的触摸板技术,该网格状的触摸板是在一纳米间隔内,由一纳米网格状的微小孔组成的触摸板和压力传感器技术,通过压力传感器测定微量的水和墨的量,提供给CPU计算。
[0065]纳米触摸板使用的纳米涂料是由氟基团与硅基团组合而成的纳米涂层。采用往复式喷涂,结合药液的物理特性,控制压力及喷幅。使得各点膜层的密度误差在3%以下,使涂层均匀的分布在一纳米内。
[0066]通过压力传感器接收的数据是:当每一纳米里滴入一纳米升水或者墨,记数器就加一;按最多的墨和水的量,再决定其他量的颜色(水墨的比例)
[0067]利用本发明使用电子绘画笔和网格状的纳米触摸板的组合,就可以在纸介质的数码手写笔基础上研制出在网格状的触摸板和压力传感器的配合下的数码手写笔系统,系统通过采用一纳米网格状的微小孔组成的触摸板和压力传感器技术,同时,采取对原有数码电子笔进行改进,增设不同颜色、不同笔画宽度和不同抬笔时间间隔功能的控制和显示装置,以此获取与手写中文笔划U,y)坐标数据一一对应的增设不同颜色、不同笔画宽度和不同抬笔时间间隔的数据组合,以及纳米触摸板获得的在每一个(X,y)上加上的墨和水的存储的量,上述数据加到(X,Y)坐标的参数上。该参数包含了坐标,时间,宽度,色彩,水的量和墨的量,这些综合数据通过PID控制技术及相应的控制流程,识别出汉字并可以计算出水墨画的轮廓,得到准确的字或者画。
[0068]本发明在获取上述数据信息,形成中文文本时,本发明的流程是首先采用了以笔划数目来分类决策,而后,如果笔划相同的情况下,再利用汉字多种组成关系分类决策,以此提高决策的速度和质量。
[0069]本发明中,注意到确定判别函数的建立和运作中容易产生错误,导致分类决策的错误,因此加以改进判别函数和误差检验循环软件,以此提高汉字单字提取的质量。
[0070]获取的数据组合,经过软件处理,再用多种数据的特征分割汉字单字。以汉字单字为单元特征提取,根据笔划树和笔划数目进行分类,先提取多层次笔划数目单一的汉字单字,在笔划数目相同的情况下,以汉字组成特征与训体样本比较进行模式识别获取单字。提取单字后还要进行检验处理,其结果形成中文和图画。
[0071]在使用模式识别技术进行中文单字的分割时,通过抬笔时间间隔等数据组合来区分不同单字,以此提高汉字单字分割的准确率。
[0072]中文汉字为方框文字,以多个笔划构成一个单字。汉字可以分解为偏旁部首,而偏旁部首又可以分解为笔划,笔划有多种组成关系,例如孤立关系、交叉关系、相交关系、相连关系等。在汉字的偏旁部首也有多种组成关系,例如上下关系、上中下关系、左右关系、左中右关系、半包围关系、全包围关系等。在手写汉字中,笔划、偏旁部首存在一定的随意性,字宽度和宇间距都会有所变化,单字的笔划、偏旁部首可能离得较远,而邻接汉字则可能离得较近。中文不仅包括复杂的汉字,还包括标点符号、数字、字母、单词等
[0073]汉字是一种二维平面型方块结构文字,一个汉字是一个独立单元。识别汉字文字首先要整体上看它是不是一个独立单元,逐字认识,然后再看笔划等基元和其他要素的特点,最终认识并提取汉字单字。本发明使用了笔划(X,y)坐标和与它一一对应的不同抬笔时间间隔等多种数据组合,以此提高单字分割的准确率。
[0074]根据汉字单字的笔画数、包含的偏旁部首以及各组成部分之间的不同组合关系,建立一个常用汉字单字数据库,通过识别对象与该数据库的对应关系,实现汉字单字的提取。
[0075]笔划是构成汉字的最小单位,笔划的正确划分是汉字识别的基础。用笔划之间不同抬笔时间间隔及(x,y)坐标的数据组合判断笔划确定笔划数目。[0076]图3是本系统获取单字方法示意图;如图所示,在分割单字的基础上,以笔划数目为依据,将单字包含的偏旁部首以及各组成部分之间的不同组合关系,建立一个常用汉字单字数据库,通过识别对象与该数据库的对应关系,确定唯一的单字进行提取的技术。相当一部分汉字在某种偏旁关系的笔划数中可以提取,有些汉字单字还要进行下一步骤。
[0077]图4本系统多层次笔划数(水和墨的量)提取单字(单笔)流程图。如图所示,通过上述实施过程采集到的中文单字、图画、字母、数字、标点符号等的笔划多层次次树的空间距离、不同颜色、笔划宽度和抬笔时间间隔等的多种综合信息所获取数据进入采集系统,进行数据预处理、特征提取、分类决策,形成中文单字,再进行单字(单笔画)识别后处理形成中文文本(单笔画)。
[0078]预处理是从获取数据汉字点阵图像和训练样本和样本预处理相互比较,补偿手写变形,用不同颜色和抬笔时间进行分割,划分单字体。
[0079]特征提取过程就是确立汉字笔画及其组合关系与特征选择相比较,形成行笔划多层树,从中可确立笔划数目和构成中文的多种组成关系。
[0080]分类决策中先按笔划数目从候选单字中判别,如有相同笔划数的单字时用构成中文的多种组成关系,即汉字的偏旁部首的多种组合关系与确定判别函数比较,模式识别进行决策,从候选单字中提取单字。这里增设了误差检验和改进判别函数对改善单字提取的误差起到重要的作用。
[0081]提取单字后,再进行单字识别后处理,以确定和纠错单字识别结果。本发明中编制的数据预处理和分类决策软件都需要按此要求编制的训练样本和中文数据库。它是笔划数目序列及多种组合关系为基础排列的。上述决策结果送入到存储器11形成中文文本,可作为电子文档。通过通信接口 9再发送到计算机用完后消除存储器11上的文档,等待重新使用。整个系统通过纽扣电池5来实现。
[0082]误差检验技术和改进判别函数的循环系统。
[0083]利用语料库的统计方法得到一个二元字同现概率矩阵,然后采用markov模型,以句子为处理单元,用viterbi动态规划方法对单字识别后的文本进行循环的误差检验。
[0084]在识别实际文本时,需要对单字识别的结果进行基于上下文关系的识别后处理。利用后处理技术,能够实现对单字识别结果的确认或纠错,并进一步区分相似字。
[0085]这项技术通过自动控制的反馈原理,用负反馈的方法提高识别速度和准确率。把提取的单字通过误差检验和改进判别函数进一步确定汉字单字,提高识别的准确率。
[0086]以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种基于纸介质的手书文字和图形识别系统,其特征在于,所述识别系统包括数码手写笔和纳米网格状触摸板, 所述数码手写笔(I)由笔尖(2)、压力传感器(3)、测距传感器(4)、数据采集模块(6)、通讯接口(9)、存储器(11)、电池(5)、颜色选择开关(12)、时间间隔选择开关(13)、笔划宽度选择开关(14)组成; 所述纳米网格状触摸板的上层结构是由氟基团与硅基团组合而成的纳米涂层,该网格状的触摸板是在一纳米间隔内,由一纳米网格状的微小孔组成的触摸板和触摸板微小孔下设置的压力传感器,通过压力传感器测定微小孔内的水和墨的量; 通过所述压力传感器(3)、测距传感器(4)获得的笔画坐标参数,利用颜色选择开关(12)、时间间隔选择开关(13)、笔划宽度选择开关(14)的设定获得和不同抬笔时间间隔、不同颜色、不同笔划宽度的数据,该时间,宽度,色彩信息以及纳米触摸板获得的在每一个坐标点上加上的墨和水的存储的量,识别出汉字以及计算出水墨画的轮廓,得到准确的字或者水墨画。
2.根据权利要求1所述的识别系统,其特征在于,所述数码手写笔(I)还设置有所述颜色选择开关(12)、时间间隔选择开关(13)、笔划宽度选择开关(14)的切换按钮(7)、代码显示器(15)和开关指示灯(8),所述代码显示器(15)显示的代码表示笔画的不同颜色、笔画宽度的不同像索值和压力传感器(3)的等待时间;所述开关指示灯(8)显示上述开关和切换按钮的操作。
3.根据权利要求2所述的识别系统,其特征在于,所述笔尖(2)、压力传感器(3)和测距传感器(4)的组合建立系统的坐标系统和获取手写文字或素描图形时数码手写笔划的坐标,上述数据组成数据组合进入数据采集模块(6 )。
4.一种基于纸介质的手书文字和图形识别方法,其特征在于,所述方法包括步骤: .1)在要书写的纸上建立二维坐标体系:用所述笔尖(2)点击纸上(4)个角,根据获得的压力传感器(3)和测距传感器(4)的数据形成坐标网,四个角的连线范围就是数码电子笔(2)手写中文的作业范围,在此范围内,数码电子笔(I)作业时,笔尖(2)经压力传感器(3)和测距传感器(4)获取手写中文的二维坐标; .2)启动颜色选择开关(12),用切换按钮(7)改变手写字的不同颜色,用不同颜色区分容易粘连的单子之间不同的单字或手写过程中表示不同层次的内容,避免错误识别; .3)启动宽度选择开关(13),用切换按钮(7)改变于书写笔划的粗细,表示图画的细节和结构; . 4)启动时间选择开关(14),用切换按钮(7)改变手写过程中抬笔时间的时间间隔,利用手写过程中单字和单字之间,笔划和笔划之间的抬笔时间的约定,提高单字之间和笔划之间的辨别力; .5)将上述信息和手写中文获取的基本信息,输入数据采集系统(6),等待数据预处理,手写的图画、字母、数字、标点符号也按上述步骤获取对应数据进入采集系统(6); .6)经过采集系统(6)中识别软件处理,最终形成的中文,并在存储器(11)上形成电子文档; . 7)将所述电子文档通过通讯接口(9)转移到外部计算机。
5.根据权利要求4所述的识别方法,其特征在于,所述方法还包括步骤:7)利用本网格状的纳米触摸板。获得在每一个坐标上加上的墨和水的存储的量,并将上述数据加到该坐标的上述参数上,获得的综合数据包含了坐标,时间,宽度,色彩,水的量和墨的量;通过所述综合数据识别汉字并计算出水墨画的轮廓,得到准确的汉字或者水墨画。
6.根据权利要求(4)所述的识别方法,其特征在于,所述步骤6)中,在数据采集系统(6)获取数据组合后,用多种数据的特征分割汉字单字,采用了以笔划数目来分类决策,以汉字单字为单元特征提取,根据笔划树和笔划数目进行分类,先提取多层次笔划数目单一的汉字单字; 如果笔划相同的情况下,再利用汉字多种组成关系分类决策,包括以汉字组成特征与训体样本比较进行模式识别获取单字,在使用模式识别技术进行中文单字的分割时,通过抬笔时间间隔、颜色和笔画宽度数据组合来区分不同单字; 提取单字后进行检验处理,其结果形成中文和图画。
7.根据权利要求4所述的识别方法,其特征在于,所述步骤6)中,还包括根据汉字单字的笔画数、包含的偏旁部首以及各组成部分之间的不同组合关系,建立一个常用汉字单字数据库,通过识别对象与该数据库的对应关系,实现汉字单字的提取。
8.根据权利要求4所述的识别方法,其特征在于,所述步骤(6))中,还包括多层次笔划数提取单字的步骤:通过上述采集到的中文单字、图画、字母、数字、标点符号的笔划多层次次树的空间距离、不同颜色、笔划宽度和抬笔时间间隔多种综合信息所获取数据进入数据采集系统(6),进行数据预处理、特征提取、分类决策;所述预处理是从获取数据汉字点阵图像和训练样本和样本预处理相互比较,补偿手写变形,用不同颜色和抬笔时间进行分割,划分单字体;所述特征提取是确立汉字笔画及其组合关系与特征选择相比较,形成行笔划多层树,从中确立笔划数目和构成中文的多种组成关系;所述分类决策是先按笔划数目从候选单字中判别,如有相同笔划数的单字时用构成中文的多种组成关系,即汉字的偏旁部首的多种组合关系与确定判别函数比较,模式识别进行决策,从候选单字中提取单字。
9.根据权利要求4所述的识别方法,其特征在于,所述步骤6)中,还包括提取单字后,再进行单字识别后处理,以确定和纠错单字识别结果。
10.根据权利要求4所述的识别方法,其特征在于, 所述步骤6)中,还包括在识别实际文本时,对单字识别的结果进行基于上下文关系的识别后处理,所述识别后处理包括对单字识别后的文本进行循环的误差检验,通过误差检验改进判别函数,改善单字提取的误差,把提取的单字通过误差检验和改进判别函数进一步确定汉字单字,提高识别的准确率。
【文档编号】G06F3/0488GK103488415SQ201310176568
【公开日】2014年1月1日 申请日期:2013年5月14日 优先权日:2013年5月14日
【发明者】高永杰 申请人:高永杰
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1