文书辨识的切字错误自动更正方法及装置的制作方法

文档序号:6410079阅读:169来源:国知局
专利名称:文书辨识的切字错误自动更正方法及装置的制作方法
技术领域
本发明有关于一种文书辨识的错误更正方法及其装置,特别有关于汉字文书辨识时切字错误的自动更正方法及其所用装置。其应用范畴包括中文表单阅读机、印刷/手写中文文字辨识系统、笔式电脑环境/线上手写中文辨识、稿纸阅读机、及其它汉字文书辨识系统。


图1表示一般汉字文书辨识的处理流程图。首先于步骤10中利用影像拾取装置,例如常见的扫描器(scanner),将文件的文字影像转化为电子信号。上述文件在实际应用上可能包括印刷体及手写体,因此字间矩未必相同。步骤20的前处理,则进行图文分离、文字切割,找出一连串的汉字文字方块影像。接着在步骤30个别对所得汉字文字方块影像抽取其统计特征或结构特征,计算出各文字影像的特征值。再将上述特征值和事前训练所得的辨识字集的参数样板进行特征比对(步骤40),找出其间相似度最的一个或多个候选字及对应的相似度评分,以构成候选字矩阵(步骤50)。上述步骤10-50为一般文字的辨识阶段,所得结果即为候选字矩阵;但是要达到文书辨识阶段,则需通过语言模型进行后处理。
以“乌鸦”二字为例,在实际的文字辨识时有可能被视为“鸟鸦”,所得候选字矩阵类似以下的形式
鸟(20)鸦(17)乌(22)雅(30)各候选字右侧数字代表其相似度评分,其数值愈小,表示与原字形影像相似程度愈高(亦即差异性愈小)。如上所述,“鸟鸦”的相似程度反较“乌鸦”来得高。因此,步骤60所进行的后处理,即是利用语言模型改正上述可能产生的文字辨识错误,例如利用词库来选择“乌鸦”而非“鸟鸦”。一般语言模型评分可以利用熟知的统计评分,如字接续表、词接续表、词间字接续表、词性接续表或词群接续表、或以词库为基础的词长词频评分,以概率值或分数值表现。最后由步骤70选择相似程度最高的候选字字串当做结果输出。
在文书辨识中,类似“乌”与“鸟”之间所发生的错误,一般称之为替换性错误,产生于特征抽取和特征比对步骤中。除此之外,还有一种切字错误,产生于前处理中的切字步骤。切字错误一般包括分割性的切字错误,如“所”被辨识成“户斤”,“鸦”被辨识成“牙鸟”,以及合并性的切字错误,如“京尤”被辨识成“就”。
对于有明格/暗格的硬性规定稿纸文书而言,切字错误的问题并不严重;但在即有汉字文书或无明格/暗格的自然手写文字的输入时,切字错误则相当明显。
目前熟知的错误检测与错误更正技术,均局限在处理替换性错误方面,台湾专利81104438,80102492,80107315,83103817。对于切字错误而言,现今的产品及实验室系统均以提供人工操作的更正工具来解决。在实际应用上,显然并非有效的方案。
本发明的主要目的,在于提供一种文书辨识的切字错误自动更正方法,用以有效解决文书辨识中的切字错误,提高辨识的正确性。
本发明的另一目的,在于提供一种文书辨识的切字错误自动更正装置,可根据文字辨识所得候选字矩阵,产生正确性高的辨识结果。
根据上述目的,本发明提供一种文书辨识的切字错误自动更正方法,用以根据一竖写文书的候选字矩阵进行切字错误更正,上述候选字矩阵是经由文字辨识后所产生,本发明利用代表能够分割和合并垂直/水平字形的垂直/水平字形结构表,垂直/水平字元分合装置将上述候选字矩阵扩展为扩充候选字矩阵,再利用一语言模型对上述扩充候选字矩阵组合处理后的字串进行评分处理,选择评分最高的字串,即可将切字错误自动更正。
除此之外,本发明还提供一种文书辨识的切字错误自动更正装置,用以根据一竖写文书的候选字矩阵进行切字错误更正,上述候选字矩阵是经由文字辨识后所产生,它包括一垂直字元分合装置,接收上述候选字矩阵,根据一垂直字形结构表,将其扩展为扩充候选字矩阵,藉以表示上述候选字矩阵中字元分割及字元合并的情况;以及一语言模型评分装置,将上述扩充候选字矩阵组合处理后的字串进行评分处理,选择其评分最高的字串,以将切字错误自动更正。
为让本发明的上述目的、特征、和优点能更明显易懂,本文特举一具体实施例,并配合附图,作详细说明如下附图简要说明图1为熟知文书辨识方法的流程图。
图2为本发明的切字错误自动更正方法的流程图。
图3为本发明的切字错误自动更正装置的方块图。
图4为本发明所采用的左右分离和上下分离的部分字形范例表。
一般切字错误是产生于文书辨识中的前处理步骤,而本发明的切字错误自动更正方法则是在进行后处理步骤前,将候选字矩阵依分割情况及合并情况扩展为扩充候选字矩阵,以自动更正切字错误。
中文文字的字形结构,依据各连接部件(connected component)的相对位置关系,可区分为上下分离(例如“召”)、左右分离(例如“所”)、半蕴含(例如“问”)及全蕴含(例如“回”)等类型。在文书辨识系统进行前处理文字切割动作时,依据书写方式,一般采用垂直或水平扫描分割。因此,切字错误最容易在竖写时发生在上下分离类型文字,在横写时发生在左右分离类型文字。另一方面,切字错误依据原因,可区分为分割性切字错误及合并性切字错误。但是当切割后或合并后所产生的并非正常的文字时,则文字辨识阶段会将其误认为另一完全不相干的正常文字,使得处理变得十分困难。
因此,在竖写文书中可能发生切字错误且为本实施例所欲处理的文字,具有下列条件(1)可上下分离成两个或两个以上的接连部件,并且各接连部件均形成正常文字。
(2)不包括分离后接连部件会形成经常出现的接连文字序列的文字,例如 “二”←→“一一”。
同理,在横写文书中可能发生切字错误且为本实施例所欲处理的文字,具有下列条件(1)可左右分离成两个或两个以上的接连部件,并且各接连部件均形成正常文字。
(2)不包括分离后接连部件会形成经常出现的接连文字序列的文字,例如 “好”←→“女子”。
在本实施例中,是以BIG-5 5401字库(第一字集)内文字分离后仍属BIG-5 13051字库(第二字集)的字为例,其中,可上下分离成二、三、四个接连部件的文字各有397个、14个及1个,可左右分离成二、三个接连部件的文字各有1570个及38个。图4中分别列示部分左右分离和上下分离的范例。此外,上述第一字集和第二字集可视实际状况自行调整,当然第一字集可与第二字集相同。
根据以上所述的对应关系,可分别建立垂直字形结构表及水平字形结构表,供竖写文书和横写文书辨识更正使用。字形结构表可以用表列结构或纲状结构表示,两者在资料陈述上略有不同。以“糊”为例,可左右分离为“米古月”或“米胡”,此时表列结构可将各种组合予以分项表示,而纲状结构则可依阶层分段表示。
利用垂直字形结构表和水平字形结构表,即可处理分割性及合并性的切字错误。图2表示切字错误自动更正方法的流程图。其中,文字辨识阶段前的流程不变,亦即以候选字矩阵做为输入。根据文书书写格式,分别对竖写文书和横写文书加以处理(步骤52)。对竖写文书而言,以垂直字元分合处理(步骤54)将N×M的候选字矩阵扩展成扩充候选字矩阵,其中N为输入字个数、M为各输入字的候选字个数。在垂直字元分合处理中,是对相似程度较高的前L个候选字进行逐字分割及可能的合并,以检验所有可能的切字错误,其中L为不大于M的正整数。至于相似度评分上的调整,则可依实际需求设定。
在本实施例中,取L=1;当分割字元时(C→C1,C2),则C(SC)→C1(SC),C2(O);当合并字元时(C1,C2→C),则C1(SC1),C2(SC2)→C(SC1+SC2+15),其中SC、SC1、SC2表示对应字元的相似度评分。接着以一语言模型进行后处理(步骤60),由各种组合的字串中找出评分最高的。通过这样的处理程序,即可将切字错误自动更正,得到正确的结果输出(步骤70)。对于横写文书而言,处理方式相同,此处不再赘述。
上述的字元分割,字元合并,字串组合,语言模型字串评分等处理,可以交错或批次的方式进行,例如原字串组合→评分→字元分割→字串组合→评分→字元合并→字串组合→评分,或是字元分割→字元合并→字串组合→评分。除此之外,字元合并与分割处理均是以输入的候选字矩阵为对象,亦即分割处理后的结果不再做合并处理,合并处理后的结果亦不再进行分割处理。
现以一范例说明本实施例,所输入的文书片段为“东京尤其就是电通所的目标”依据文字辨识阶段所得的候选字矩阵为东34柬34束35京47烹64宗64尤35尢48术58其35箕51算54京52烹58宗65尤43尢52术59是29定42足43电35雹37霓37通39适48迩53户52乒61尹67斤55升58行74
的43约63钩63目32月48回60标35楞41棵43其中,各候选字右侧为其相似度评分,数值愈小者相似程度愈高。利用分割处理,可将上述候选字矩阵扩展,其中的43约63 钩63→白43勺0標35楞41 棵43→木35票0利用合并处理则京47烹64宗64尤35尢48术58就97京52烹58宗65尤43尢52术59就110户52乒61尹67斤55升58行74所122原始的候选字矩阵中经字串组合评分所得的前五名依序为1东京 尤其京尤是电通户斤的目標2东京 尤其京尤是电通户升的目標
3东京 尤其京尤是霓通户斤的目標4东京 尤其京尤是电通户斤的目標5东京 尤其宗尤是电通户斤的目標其中最高分者为编号1(评分为2132)。至于经由扩充候选字矩阵所得新字串组合的评分,兹列举下列数例A东京 尤其京尤是电通户斤白勺目標B东京 尤其京尤是电通户斤的目木票C东就 其京尤是电通户斤的目標D东京 尤其就是电通户斤的目標E东京 尤其就是电通所的目標编号A将“的”→“白勺”,评分下降;编号B将“標”→“木票”,评分下降; 编号C将第一个“京尤”→“就”,评分降低;编号D将第二个“京尤”→“就”,评分上升;编号E者将第二个“京尤”→“就”、以及“户斤”→“所”,评分不仅上升,且为最高分(2160),因此字串组合即为正确的输出结果,同时切字错误亦已自动更正。
图3为切字错误自动更正装置的方块图。垂直/水平字元分合装置80将输入的候选字矩阵,利用适当的分割或合并处理,产生对应的扩充候选字矩阵,经由语言模型评分装置82评分并选择其中最高者,做为后处理结果。其中垂直/水平字元分合装置80和语言模型评分装置82可以电脑程序实施。
虽然本发明已以具体实施例揭示如上,但它并非用以限定本发明,任何本领域的技术人员,在不脱离本发明的精神和范围内,可作少许的修改与润饰,因此本发明的保护范围应以后附的权利要求所限定者为准。
权利要求
1.一种文书辨识的切字错误自动更正方法,可用以根据一竖写文书的候选字矩阵进行切字错误更正,上述候选字矩阵可经由文字辨识后所产生,其特征在于利用代表可能发生分割和合并切字错误的字形的一垂直字形结构表,一垂直字元分合装置将上述候选字矩阵扩展为扩充候选字矩阵,再利用一语言模型对上述扩充候选字矩阵组合处理后的字串进行评分处理,选择评分最高的字串,即可将切字错误自动更正。
2.如权利要求1所述的切字错误自动更正方法,上述垂直字形结构表是利用一第一字集中的字形,其垂直分离的各部分仍为一第二字集中的字形,所建立的两者关系表。
3.如权利要求2所述的切字错误自动更正方法,其中上述垂直字形结构表是利用表列结构表示。
4.如权利要求2所述的切字错误自动更正方法,其中上述垂直字形结构表是利用纲状结构表示。
5.如权利要求2所述的切字错误自动更正方法,其中上述第一字集可与上述第二字集相同。
6.如权利要求1所述的切字错误自动更正方法,其中上述垂直字元分合装置,利用上述垂直字形结构表,对上述候选字矩阵中机率较高的前L行进行字元合并处理或字元分割处理,产生上述扩充候选字矩阵,L为一正整数且不大于上述候选字矩阵的总行数。
7.如权利要求6所述的切字错误自动更正方法,其中上述字元分割处理、字元合并处理、组合处理、以及评分处理可交错进行,以选择评分最高的字串。
8.如权利要求6所述的切字错误自动更正方法,其中上述字元分割处理、字元合并处理、组合处理、以及评分处理可批次进行,以选择评分最高的字串。
9.一种文书辨识的切字错误自动更正装置,可用以根据一竖写文书的候选字矩阵进行切字错误更正,上述候选字矩阵可经由文字辨识后所产生,其包括一垂直字元分合装置,接收上述候选字矩阵,根据一垂直字形结构表,将其扩展为扩充候选字矩阵,以表示上述候选字矩阵中字元分割及字元合并的情况;以及一语言模型评分装置,将上述扩充候选字矩阵组合处理后的字串进行评分处理,选择其评分最高的字串,以将切字错误自动更正。
10.如权利要求9所述的切字错误自动更正装置,其中上述垂直字元分合装置由电脑程序实施。
11.如权利要求9或10所述的切字错误自动更正装置,其中上述语言模型评分装置由电脑程序实施。
12.一种文书辨识的切字错误自动更正方法,可用以根据一横写文书的候选字矩阵进行切字错误更正,上述候选字矩阵可经由文字辨识后产生,其特征在于利用代表可能发生分割和合并切字错误的字形的水平字形结构表,一水平字元分合装置将上述候选字矩阵扩展为扩充候选字矩阵,再利用一语言模型对上述扩充候选字矩阵组合处理后的字串进行评分处理,选择评分最高的字串,即可将切字错误自动更正。
13.如权利要求12所述的切字错误自动更正方法,上述水平字形结构表是利用一第一字集中的字形,其水平分离的各部分仍为一第二字集中的字形,所建立的两者关系表。
14.如权利要求13所述的切字错误自动更正方法,其中上述水平字形结构表是利用表列结构表示。
15.如权利要求13所述的切字错误自动更正方法,其中上述水平字形结构表是利用网状结构表示。
16.如权利要求13所述的切字错误自动更正方法,其中上述第一字集可与上述第二字集相同。
17.如权利要求12所述的切字错误自动更正方法,其中上述水平字元分合装置,利用上述水平字形结构表,对上述候选字矩阵中概率较高的前L行进行字元由左至右的合并处理或字元分割处理,产生上述扩充候选字矩阵,L为一正整数且不大于上述候选字矩阵的总行数。
18.如权利要求17所述的切字错误自动更正方法,其中上述字元分割处理、字元合并处理、组合处理、以及评分处理可交错进行,选择评分最高的字串。
19.如权利要求17所述的切字错误自动更正方法,其中上述分割处理、合并处理、组合处理、以及评分处理可批次进行,选择评分最高的字串。
20.如权利要求12所述的切字错误自动更正方法,其中上述水平字元分合装置,利用上述水平字形结构表,对上述候选字矩阵中概率较高的前L行进行字元由右至左的合并处理或字元分割处理,产生上述扩充候选字矩阵,L为一正整数且不大于上述候选字矩阵的总行数。
21.如权利要求20所述的切字错误自动更正方法,其中上述字元分割处理、字元合并处理、组合处理、以及评分处理可交错进行,以选择评分最高的字串。
22.如权利要求20所述的切字错误自动更正方法,其中上述字元分割处理、字元合并处理、组合处理、以及评分处理可批次进行,以选择评分最高的字串。
23.一种文书辨识的切字错误自动更正装置,可用以根据一横写文书的候选字矩阵进行切字错误更正,上述候选字矩阵可经由文字辨识后所产生,其包括一水平字元分合装置,接收上述候选字矩阵,根据一水平字形结构表,将其扩展为扩充候选字矩阵,以表示上述候选字矩阵中字元分割及字元合并的情况;以及一语言模型评分装置,将上述扩充候选字矩阵组合处理后的字串进行评分处理,选择其评分最高的字串,以将切字错误自动更正。
24.如权利要求23所述的切字错误自动更正装置,其中上述垂直字元分合装置是由电脑程序实施。
25.如权利要求23或24所述的切字错误自动更正装置,其中上述语言模型评分装置是由电脑程序实施。
全文摘要
文书辨识的切字错误自动更正方法,以及以此方法所构成的装置,用以对于文字切割时所造成的切字错误,提供自动更正的功能。首先根据竖写或横写的文书格式,配合事先建立可能发生切字错误的字形的垂直字形结构表和水平字形结构表,以将候选字矩阵扩展成扩充候选字矩阵,利用语言模型,对扩充候选字矩阵的各字串组合加以评分,选择其中最高的一个,即可自动更正切字错误。
文档编号G06K9/03GK1162158SQ9610053
公开日1997年10月15日 申请日期1996年4月9日 优先权日1996年4月9日
发明者张照煌 申请人:财团法人工业技术研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1