手写体文字处理系统的制作方法

文档序号:6408083阅读:404来源:国知局
专利名称:手写体文字处理系统的制作方法
技术领域
本发明属于计算机文字信息处理领域。
随着时代的发展,信息时代的到来,人们对文字处理技术的要求越来越高。在中文信息处理领域,用计算机等办公设备进行文字处理在我国的今后会有更大的发展。在汉字信息的输入及处理方面,近年来国内外提出了许多方案及配套技术。据报道实际上机实用的已有几十种。中国专利局已公布的有关这方面的专利文献已有200多件。概括而论,目前众多的方法可分为编码法与非编码法两类。前者不外乎利用“音”、“形”及音形结合,以数字或字母输入。这对于专业打字员而言,实现了较高的输入速度,已经解决得相当好了。然而,此类方法须熟记编码原则及字根,或熟悉注音或拼音,非社会上一般人所易学易用者。非编码法,传统上多采用大键盘输入方式,更须经专业化训练才能熟练。目前,汉字笔式输入技术发展得很快,涌现了众多的手写汉字输入及识别方法。然而,由于中文汉字的复杂性,每个人的笔迹都有其自身的特点,且存在难以解决的连笔汉字识别问题,在实用时现有的笔输入产品都对用户提出了种种限制,离开这些限制由用户自由书写就无法实现令人满意的识别率,而且现有的识别方法需要从众多的候选字中挑选,这无疑于编码方法中的一码多字现象,不仅影响到书写速度,同时也不适合人们的写作习惯。有的方法中用到了把整页文字墨迹作为一幅图像处理,这样做相对而言照顾到了人们的写作习惯,然而又使得文稿编辑工作无法进行。总起来讲,一种适合于人们写作习惯的手写体处理系统是很需要的。
为了配合说明本发明的原理及实现方法,附有如下之说明书附图

图1手写体文字处理系统设备组成及关联示意图。
图2手写体文字处理系统组成示意图。
图3书写板的布局形式。
图4手写体文字的点阵处理方法示意图。
图5生成手写体显示、打印字库及手写体识别字典的程序结构简图。
图6“字形变厚”算法处理结果示意图。
图7“字形变薄”算法处理结果示意图。
图8手写体“字形变厚变薄嵌套”识别方法程序结构图。
本发明的目的在于创造一种实用的手写体文字处理系统。该系统由笔输入书写板、微型计算机、显示器、打印机及扫描仪等各部分组成(如图1所示)。这一个比较大的思路主要包括如下内容(如图2所示)。
1、手写体联机实时输入及处理系统。利用该系统建立特定人手写体显示,打印字库,实现国标汉字文件向手写体文件的转化,实现国标汉字与手写体文字的混合排版打印。如图2-A所示。
2、一种新颖的文字识别方法-“字形变厚变薄嵌套”文字识别方法。应用该方法实现特定人手写体联机实时输入识别,实现特定人手写体文件向国标汉字文件的转化,利用该方法脱机识别印刷体或手写体文字。如图2-B所示。
手写体联机实时输入及处理系统由笔输入书写板、微型计算机、显示器和打印机各部分组成(如图1所示)。用户持笔在书写板上写字,笔运动的轨迹送入计算机,由计算机处理,经显示器显示,由打印机输出。便携式计算机可做成一本书大小。笔输入书写板可采用平板型数字化仪,如电磁感应型的,磁致伸缩型的,压敏型的、静电耦合型的或平面电阻型的等等。针对不同的书写板、笔又分有线型(即笔与书写板间有线相连)和无线型两种。显示器可采用液晶显示器,也可以把显示器和数字化板联在一起。边书写,边显示。用笔在书写板上写字时,书写板完成对笔相对书写板的坐标位置的检测,并完成模数转换。计算机接受书写板输入的信号,把每个字的手写体信号变换为一定规格的点阵信号,例如16×16或者24×24的点阵信息等等。然后如同处理国标汉字一样,可以在显示屏上显示手写字体,编辑和排版打印手写体文字。
笔输入书写板可以采用多种面板布局形式。如图3-A所示的布局把书写板划分为两个区域。一个区域作为字符键盘代用区,用来代替通常的键盘,在其上可以完成键盘的所有工作;另一个区域则为一个或一组大小相同的方格,作为用户书写使用。图3-B所示的布局同样把书写板分为两个区域。一个区域作为功能键代用区,该区由完成系统功能的各个功能键小区组成;另一个区域则为一组大小相同的书写方格。功能键区域较小,书写区域较大,书写板如同稿纸一样。这种布局比较适合于作家、编辑和记者群体写作使用。
用笔在书写板上自由书写时,书写板输出一组相对于书写板坐标系的坐标点信号,以集合{(XP,YP)︱0≤p≤q-1;p,q∈N*}表示。N为自然数的集合,N*为包括零及自然数的集合。计算机实时采集由书写板输出的信号,对其进行规范化处理,将其转换为一定规格的点阵信息。一般地,假设手写体点阵为m×n点阵(m,n∈N),并以m=n=16时作出图示说明。
把书写板上的书写方格划分为m×n的等分网格(如图4-A),共m×n个小网格。第i行与第j列交叉之网格记为W(i,j)。W(i,j)所对应的值记为C(i,j),其中0≤i≤m-1;0≤j≤n-1;i,j∈N*。W(i,j)对应的四个结点的坐标分别记为(Xf,Yf),(Xf,Yf+1),(Xf+1,Yf)和(Xf+1,Yf+1),如图4-A中对应于阴影网络W(4,5)的四个结点a、b、c、d的四个坐标依次为(X4,Y4),(X4,Y5),(X5,Y4),(X5,Y5)。当手写体的笔迹坐标落入W(i,j)时,W(i,j)中以点表示,其对应值为1。以C(i,j)的集合{C(i,j)}表示手写体点阵信息。如图4-B所示。
若存在p∈N*,0≤p≤q-1使得Xi≤Xp≤Xf+1且Yj≤Yp≤Yj+1
则C(i,j)=1否则C(i,j)=0其中i,j∈N*;0≤i≤m-1;0≤j≤n-1。
为了区分前一手写字与后一手写字,可以混和使用下述之三种方式。
1.结束码方式。在书写板上设置结束码区,每写完一个字,就用笔点触结束码区,计算机根据结束码坐标判别前一字之结束及后一字开始。
2.等待时间方式。预先规定笔离开书写板时的等待时间。当笔离开书写板的时间大于等于等待时间,就认为一个字已写完。
3.字符格方式。书写板上标出一组书写方格,一格中写一字。写完一字写下一字时,笔触及下一格的坐标,以此判别前一字结束。
该手写体文件编辑器采用功能菜单的人机对话方式。这种方式使用户不需要专门记忆使用的方法,屏幕会不断提示下一步该做的操作。用户可以在书写板上用触笔或用键盘移动光标选择菜单项,也可以在书写板上用笔点触相应的功能区或用键盘上相应的功能键完成。在功能上可以包括手写体字符或字符串的删除、插入、移动、复制等;包括手写体字符或字符串的放缩、字体艺术化变换等;包括对手写体文件的块操作功能包括多个手写体文件间的移动、复制等功能。
对于手写体文件提供文件服务功能。包括手写体文件的非失真压缩及复原处理、手写体文件的加密及解密、手写体文件与国标汉字文件的相互转化等功能。
通过该系统可以建立对应于国标字库的个人手写体字库,包括显示字库和精度较高的打印字库。其程序结构简图如图5所示。通过该字库可以实现国标汉字文件向个人手写体文件的转换,实现国标汉字与个人手写体汉字的混和排版打印。
运用如下所述的“字形变厚变薄嵌套”文字识别方法,可以将联机输入的手写体文件转化为国标汉字文件,对转换后的文件提供编辑,修改及除错。
下面说明对汉字点阵处理的“字形变厚”及“字形变薄”方法。
1.“字形变厚”算法假设手写体做成m×n点阵(m,n∈N),{C(i,j)}经“字形变厚”算法处理后表示为{D(i,j)}。
首先置D(i,j)=0(0≤i≤m-1;0≤j≤n-1;i,j∈N*)若C(i,j)=1时置D(i±1,j)=D(i,j±1)=1(1)或者D(i±1,j±1)=1(2)其中1∈{1|0≤1≤r;1,r∈N*}0≤i,i±1≤m-10≤j,j±1≤n-1
r为一指定常数,r∈N*。
当取r=1,i=j=2,m=n=16时,图4-B所示点阵依(1)式计算时,处理结果如图6-A所示;依(2)式计算时,处理结果如图6-B所示。由图示可以看出算法(2)比算法(1)使字形更加厚。同样可以知道r越大,字形越厚。在实用时可依具体情况选择采用(1)或(2)式及确定常数r的值。
2.“字形变薄”算法针对手写体点阵C(i,j)},分别进行“横向剔点”及“纵向剔点”,然后求“或”运算得到变薄的字形点阵{E(i,j)}。
首先置E(i,j)=0(0≤i≤m-1;0≤j≤n-1;i,j∈N*}对手写体点阵“横向剔点”若C(i,j)=……=C(i,j+s-1)=1且C(i,j-1)=C(i,j+s)=0且0≤i≤m-1且1≤j≤n-2且1≤s≤n-j-1且i,j,s∈N*时置E(i,〔j+s/2〕)=1若C(i,0)=1且C(i,1)=0时置E(i,0)=1(3)若C(i,n-1)=1且C(i,n-2)=0时置E(i,n-1)=1(4)同理对手写体点陈“纵向剔点”若C(i-1,j)=C(i+t,j)=0且C(i,j)=……=C(i+t-1,j)=1且0≤i≤m-2且1≤j≤n-1且1≤t≤m-i-1且i,j,t∈N*时置E([j+t/2],j)=1若C(0,j)=1且C(1,j)=0时置E(0,j)=1(5)若C(m-1,j)=1且C(m-2,j)=0时置E(m-1,j)=1(6)如图6-B所示的原字形点阵经“横向剔点”成为如图7-A所示的点阵;经“纵向剔点”成为如图7-B所示的点阵;两者经“或”运算后成为如图7-C所示的“变薄”的字形点阵。
采用如图5所示的程序结构简图建立特定人手写体识别字典。如图5中的虚线框所示,与建立特定人手写体显示、打印字库不同的是,识别字典需要记录手写体的起笔坐标,需要对手写体点阵{C(i,j)}按照“字形变厚”或“字形变薄”方法变为手写体识别点阵{S(i,j)}。
用笔在书写板上书写时,计算机接受到的首先位置点为起笔点。如果起笔点落入W(i0,j0)小网格中,则以(i0,j0)作为该字的起笔坐标。其中0≤i0≤m-1,0≤j0≤n-1。
针对同一个人写同一个字时的不同写法,在识别字典中对同一个字依次列出不同的起笔坐标及其点阵信息。针对诸字的使用频率不同,识别字典把汉字按其使用频率高低分类排列,将使用频率高的汉字排在前面,以利于提高识别速度。
目前,专利及有关公开文献资料中所采用的汉字识别方法(包括联机或脱机下的手写体、印刷体及手写印刷体汉字识别)大都采用把汉字分成一组笔划,先识别笔划,而后得到整字的方法。这些方法都忽略了汉字的另一个本质特点,即汉字的整体形态。无论是印刷体或是手写体,同一个字的字迹在整体上都具有相似的特征。手写体的起笔坐标也是这样。从这一思想出发,本发明提出一种新颖的汉字识别方法,即“字形变厚变薄嵌套”方法。这种方法完全不采用汉字的笔划特征,而是通过处理手写体点阵使其手迹线条或字形变厚、变薄,然后以厚字形嵌套薄字形,达成对其识别的目的。这样因为回避了汉字的笔划特征,从而解决了连笔手写体汉字识别这个长期困感科技人员的难题。
手写体汉字识别可分为四个步骤,其程序结构如图8所示。
1.获得手写体起笔坐标(i0,j0)及其点陈{C(i,j)}。对手写体点阵预处理,将{C(i,j)}变为{D(i,j)}或{E(i,j)}。
计算机接收书写板输入的信息,按照建立手写体识别字典用到的方法取得手写文字的起笔坐标(i0’,j0’)及其点阵{C(i,j)}。当识别字典采用“字形变薄”方法时,将{C(i,j)}经“字形变厚”方法变换为字形点阵{D(i,j)};当识别字典采用“字形变厚”方法时,将{C(i,j)}经“字形变薄”方法变换为{E(i,j)}。这两条途径都是可行的。具体应用时原理和方法也是相同的。下面以识别字典采用“字形变薄”方法为例说明。
值得注意的是,在使用“字形变厚”方法的时候,选择(1)式或(2)式及确定r的值一定要考虑到“字形变厚”虽然能够提高嵌套效果,但是字形太厚也容易加大误识率。
2.计算起笔坐标差异(Q),对{D(i,j)}进一步处理。
手写体起笔坐标(i0’,j0’)与识别字典中的手写体起笔坐标(i0,j0)的差异称为起笔坐标差异,以Q表示。
Q=|i0’-i0|+|j0’-j0|特定人在一个特定大小的方格中书写某一特定字的时候,虽然一个字有不同的写法,然而针对某一种写法,它的起笔位置应该是变化不大的。所以Q值大到一定程度Q>Q0(Q0为一设定值,Q0≥0,Q0∈N*)我们就可以认为从识别字典中取出的字与手写字是不同的两个字了。确定常数Q0时,要考虑到所使用点阵的精度等多种因素。
当Q≠0且Q≤Q0时,需要对手写体点阵{D(i,j)}作平移变换,得到新点阵{D(i,j)}。新点阵的起笔坐标与识别字点阵{S(i,j)}的相同,对应的起笔坐标差异等于0。
首先预置D’(i,j)=0其中0≤i≤m-1;0≤j≤n-1;i,j∈N*若(i,j)∈{(i,j)|0≤i+i0-i0’≤m-1且0≤j+j0-j0’≤n-1且0≤i≤m-1且0≤j≤n-1且 i,j∈N*}时置D(i,j)=D(i+i0-i0’,j+j0-j0’)当Q=0时,认为D(i,j)=D(i,j)。
3.计算嵌套效果(K)K=Σi=0m-1Σj=0n-1D·(i,j)S(i,j)Σi=0m-1Σj=0n-1S(i,j)]]>K用来衡量薄字形被厚字形嵌套的程度,实际上是{D(i,j)}与{S(i,j)}相“与”的结果。当K=1时,薄字形被厚字形完全嵌套,认为两者是同一个字,识别工作也就完成了。当K≠1时,可以设定一个特定常数K0(0<K0<1),当K<K0时,说明嵌套效果较差,将从识别字典中取出的对应字略去,转而继续嵌套其它字。这样可以提高识别效率。当K≥K0时,称其对应字为手写体的候选字。所有候选字组成的集合称为手写体的候选字集。整变量V记录得到的候选字数。设置常数V0限制候选字的数量。
4.判断选择第三步的工作可以得到识别目标的候选字集。按其对应的嵌套效果(K)的大小排列,可以得到一个最优的识别目标,即是我们的识别结果。在联机实时识别时,在把识别结果提供给用户的同时,可以将顺序排列的候选字显示出来,供用户用来替换不正确的优选目标。在脱机识别工作中,就以优选目标作为待识字的识别结果。在具体运用时,可以采用多种方法提高识别速度。
以上说明了手写体识别的“字形变厚变薄嵌套”方法。这种方法同样可以使用于脱机手写体或印刷体文字的识别工作。这需要配备一台扫描仪,计算机接受扫描仪对手写体文字处理后输出的信号,转换为一定规格的手写体点阵。在文字识别处理过程中,略去手写体起笔坐标信息及其处理过程。显而易见的是,这种计算机文字信息处理方法可以应用于包括中文、日文、英文、朝鲜文等多国多民族文字。
人们在写作时,从构思、草稿、到出稿、然后打字印刷,需要对文稿反复修改、反复誊清。这一工作量是相当大的,耗费了人们大量心血。况且手工起草文稿的时候,一次只能写一份,需要多份时只好使用复写纸或复印机,效果不好。采用本发明所述的手写体直接输入和处理方法,人们在书写板上如同在稿纸上一样自由书写。系统接收书写板输入的手写信息,变为手写体点阵,即把每个手写文字作为一幅小图像处理,把手写文字不加识别地直接显示,并且可以编辑、存储和排版打印手写体文稿。采用本系统所述的文字识别方法,将依本系统写就的手写体文件识别处理为国标汉字文件。也可以联机实时输入和识别手写体文字。因本发明所采用的“字形变厚变薄嵌套”文字识别方法回避了文字的笔划特征,而以文字的起笔和字形信息为依据识别文字,从而解决了连笔字识别这个难题。用本发明所述的方法处理手写文字,极大地方便了人们的写作活动,大大减轻了人们写作的劳动强度,具有较大的实用价值,尤其是对于作家、记者、编辑及机关办公人员等经常从事写作的人们。
权利要求
1.一种手写体文字处理系统,其特征是由电脑主机、键盘、笔输入书写板、显示屏、打印机、扫描仪以及其它部件组成。计算机采集由书写板或扫描仪输入的特定人手写体信号、转换成指定规格的手写体点阵信息。系统完成对特定人手写体点阵的各种处理工作。
2.按照权利要求1所述的系统,计算机接收笔输入书写板输入的手写体信号,转换为一定规格的手写体点阵,以手写体的形式直接显示,编辑、存储、排版打印手写体文件。
3.按照权利要求1所述的系统,建立手写体显示及打印字库,实现国标汉字文件向手写体文件的转换,实现国标汉字与手写体汉字的混和排版打印。
4.按照权利要求1所述的系统,记录手写体起笔坐标,并通过“字形变厚”或者“字体变薄”算法,建立手写体识别字典。
5.按照权利要求1或权利要求4所述的系统,采用“字形变厚变薄嵌套”文字识别方法。也可依此识别方法实现手写体文字向国标汉字文件的转化。
6.按照权利要求1和权利要求5所述的系统,联机实时识别手写体文字。
7.按照权利要求2或权利要求5所述的系统,将联机手写输入的手写体文件识别为国标汉字文件。
8.按照权利要求1或权利要求5所述的系统,接受扫描仪处理手写体文字后输出的信号,转换为一定规格的手写体点阵信息,按照“字形变厚变薄嵌套”文字识别方法,脱机识别手写体文件。
9.按照权利要求1-8所述的系统可以应用于中文、英文、日文、朝鲜文等多国、多民族文字。
全文摘要
本发明所申请的手写体文字处理系统属计算机文字信息处理领域。计算机采集由笔输入书写板输入的手写信号,转换成文字点阵,直接显示、编辑、存储及排版打印。人们可以自由书写、修改文稿。通过建立手写体显示、打印字库及识别字典,实现手写体与国标字体的混和排版打印。按照一个新颖的文字识别方法,联机实时识别或脱机识别手写体文字。该方法解决了连笔字识别问题。本发明可以使用于中文、日文、英文、朝鲜文等多国多民族文字。
文档编号G06F3/02GK1110801SQ94115228
公开日1995年10月25日 申请日期1994年9月27日 优先权日1994年9月27日
发明者张志国 申请人:张志国
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1