联机文字识别装置、方法及程序和计算机可读存储介质的制作方法

文档序号:6567909阅读:179来源:国知局
专利名称:联机文字识别装置、方法及程序和计算机可读存储介质的制作方法
技术领域
本发明涉及从通过坐标输入装置被手写输入的文字串笔迹(笔划串)信息中随时自动提取文字加以识别并显示结果的联机文字识别装置,特别涉及最适合于文字连续书写输入的联机文字识别装置及方法及计算机可以读取的存储介质以及联机文字识别程序。
背景技术
以往,在从经由坐标输入板等的坐标输入装置手写输入的文字串笔迹信息中,自动地提取文字进行识别,并显示结果的联机文字识别装置中,一般适用以下4种识别技术(识别方法),即(1)准备多个文字框,通过在1个文字框中顺序写入1个字,提取文字进行识别的技术;(2)从坐标输入板上检测到笔已离开一定时间,判定为文字书写结束,提取文字进行识别的技术;(3)通过用识别执行按钮等明确指示1个文字书写结束由此提取文字进行识别的技术;(4)用特殊的一笔写法定义1个文字,在输入笔划并检测到笔已离开书写板时判定为1个文字输入,提取文字进行识别的技术。

发明内容
但是,上述以往的识别技术,例如在(1)中,由于用户在文字书写时必须注意文字框的大小和位置,因而存在不能自然输入的问题。另外,在考虑到安装在小型信息机上的情况下,因为不能确保充分大的文字书写区域,所以如果准备多个文字框,则每个文字书写区域的面积减小,对用户来说存在难以书写的问题。
另一方面,在以往的识别技术(2)、(3)中,因为不需要准备多个文字框,所以每个文字可以获得大的书写区域,可以避免(1)的问题。但是,在(2)中,在连续输入多个文字时,在每书写1个文字时,笔必须离开书写板一定时间。另外,在(3)中,每输入1个文字按压一下识别执行按钮这种文字记录,在每输入1个文字时需要进行和书写没有关系的操作。因此,(2)、(3)的识别技术存在文字串的平滑输入困难的问题。
另外,在以往的识别技术(4)中,虽然可以避免上述(1)、(2)、(3)中的问题,但对用户来说必须预先记住各文字的一笔书写法。因此,特别是在成为识别对象的文字存在很多的情况下,对用户来说是非常痛苦的事。
本发明就是考虑到上述问题而提出的,其目的在于设置成即使用户不注意文字划分,只连续书写文字时,也可以自动地识别文字串。
本发明的另一目的在于,可以进行文字的重叠书写输入。
本发明,是在坐标输入装置上从笔接触该坐标输入装置到离开期间,以用该坐标输入装置检测出的笔尖的坐标序列表示的笔划的串为基础进行文字识别,并在显示装置上显示识别结果的联机文字识别装置,其特征在于在每次检测出上述笔划时,对于此前被检测出的笔划的形状以及连续书写的各2个文字的组合,根据该2个文字间的笔划的位置关系求最适宜的文字串,把该文字串显示在上述显示装置上。如果采用本发明,则即使用户不注意文字的划分,在坐标输入装置上连续写入文字时,也可以判定并显示最相似的文字串(识别确定文字串)。在此,因为还考虑了构成文字间的各文字的笔划位置关系,所以可以进行文字的重叠书写输入。因而,即使在只准备了小书写区域的小型信息及机器中,也可以提供舒适的手写输入单元。
另外,本发明,是在坐标输入装置上从笔接触该坐标输入装置到离开期间,以用该坐标输入装置检测出的笔尖的坐标序列表示的笔划的串为基础进行文字识别,并在显示装置上显示识别结果的联机文字识别装置,其特征在于上述坐标输入装置,具有用于用上述笔书写文字的1个文字份的书写区域,在每次检测到在上述书写区域上书写的上述笔划时,对此前检测到的笔划的形状以及重叠书写的各2个文字的组合,根据该2个文字间的笔划的位置关系求最适宜的文字串,把该文字串显示在上述显示装置上。如果采用本发明,则即使在用户不注意文字的划分,在坐标输入装置上重叠写入文字时,也可以判定并显示最相似的文字串(识别确定文字串)。因为也还考虑到构成文字间的各文字的笔划位置关系,所以可以进行文字的重叠写入。因而,即使在只能准备小的书写空间的小型信息机中,也可以提供舒适的手写文字输入单元。
本发明的联机文字识别装置,其特征在于具备文字构造词典,它对于许多可以识别的文字的各自,记录有构成该文字的笔划的形状信息,以及记述笔划间的构造关系的词典信息;文字间构造词典,对于上述多个可以识别的文字中连续书写的各2个文字的组合,记录有记述了该2个文字间的构造关系的词典信息;笔迹信息取得单元,在坐标输入装置上逐次取得从笔接触该坐标输入装置到离开期间,用由该坐标输入装置检测出的笔尖的坐标序列表示的笔划;识别候补文字串生成单元,在用该笔迹信息取得单元每次取入笔迹时,对于包含该笔划的需要识别的已取得的笔划串生成可以成为识别候补的识别候补文字串;核对单元(文字串相似计算单元),它对该被生成的每一识别候补文字串,根据构成该识别候补文字串的各候补文字在上述文字构成词典中的词典信息和连续的2个文字候补之间在上述文字间构造词典中的词典信息,制作与该识别候补文字串对应的文字串构造词典,把已获得的笔划串分别和该每一识别候补文字串的文字串构造词典核对,进行确定该笔划串中的哪些笔划构成哪个候补文字的文字提取;输入文字串判定单元,对上述各识别候补文字串把从开头的上述文字提取的结果相同的文字串部分作为识别确定文字串判定并输出;识别结果显示单元,显示该被判定出的识别确定文字串。
在这种构成中,因为,在每次输入笔划(笔迹)时,对于把该笔划作为最后的笔划的识别对象笔划串的每一识别候补文字串,生成组合了文字构造词典中对应的词典信息和文字间构造词典中对应的词典信息的文字串构造词典,并把该每一识别候补文字串的文字串构造词典分别和识别对象笔划串(输入笔迹)核对,所以,即使在用户不注意文字的划分,在坐标输入装置上连续写入文字时,也可以判定并显示最相似的输入文字串(识别确定文字串)。在此,因为还考虑到文字间的构造关系,所以通过准备以文字的重叠书写为前提的文字间构造词典,也可以进行文字的重叠写入。因而,即使在只能准备小的书写空间的小型信息机等中,也可以提供舒适的手写文字输入单元。
在此,如果在设置用于储存由笔迹信息取得单元取得的笔划(输入笔划)的笔划缓冲存储器,和用于存储由识别候补文字串生成单元生成的识别候补文字串的识别候补缓冲存储器的同时,设置成把采用核对单元的笔划串(输入笔划串)和各识别候补文字串的文字串构造词典的核对结果,与该识别候补文字串对应地存储在识别候补缓冲存储器内,则可以在联机文字识别装置中进行高效率地处理。
另外,在用笔迹信息取得单元在笔划缓冲存储器中存储输入笔划时,在笔迹信息取得单元中抽出该笔划的特征(例如形状特征),以及该笔划和前面的笔划之间的特征(例如构造特征),在该识别候补文字串生成单元中,最好根据在笔迹信息取得单元中抽出的构成该笔划串的各笔划的特征以及各笔划间的特征,生成相对笔划缓冲存储器内的笔划串的识别候补文字串。
另外,在在上述核对单元内的核对处理中,在设置成把输入笔划串作为识别候补文字串计算笔迹的相似程度(表示相似程度的例如相似度)的同时,输入文字串判定单元由下述的2个单元,即,判定上述识别确定文字串并输出的识别确定文字串判定单元,和判定识别未确定文字串以及识别未确定笔划串信息并输出的识别未确定文字串以及识别未确定笔划串信息判定单元构成,进一步在识别结果显示单元中,最好设置成在显示从识别确定文字串判定单元输出的识别确定文字串的同时,显示从识别未确定文字串以及识别未确定笔划串信息判定单元输出的识别未确定文字串和识别未确定笔划串信息。
在这种构成中,用户即使在坐标输入装置上通过重叠书写连续书写文字,因为在每写1个笔划时,显示在此时的识别确定文字和识别未确定文字和识别未确定笔划串信息,所以可以在画面上逐次确认自己的笔迹的识别处理结果,可以进行舒适的文字输入。在此,最好附加显示可以识别识别确定文字串和识别未确定文字串的显示属性。另外,即使对于识别未确定笔划串信息,最好也显示可以识别识别未确定笔划串的有无。
另外,如果设置在每次用上述识别结果显示单元显示识别确定文字串时,在从上述笔划缓冲存储器中删除与该识别确定文字串对应的输入笔划的同时,从上述识别候补缓冲存储器中去除与该识别确定文字串对应的信息的缓冲存储器更新单元,则可以减少处理量。
另外,由于采用对于识别候补缓冲存储器内的全部的识别候补文字串,在进行和笔划缓冲存储器内的输入笔划串的核对后,把在该核对中为每个识别候补文字串求得的,将输入笔划串的作为该识别候补文字串书写的相似程度(相似度)和预先确定的相似程度(相似度的阈值)比较,相似程度低的识别候补文字串,全部从识别候补缓冲存储器中删除这种构成,因而可以减少处理量。
另外,如果设置在最后的笔划被输入后,在经过预先确定的一定时间期间,仍未检测到下一的笔划输入的检测单元(笔操作判定单元),和根据该检测单元的检测结果把上述识别未确定文字串作为上述识别确定文字串输出的识别文字串确定单元,则可以进一步通过用户的文字输入操作性。
在此,也可以在设置成上述坐标输入装置被重叠配置在上述显示装置的显示面上,并且在该坐标输入装置的输入面上分开确保文字书写区域和识别结果显示区域的结构的同时,设置检测在该文字书写区域上检测笔接触的检测单元(笔操作判定单元)。
此外,也可以在设置成在坐标输入装置的输入面上确保兼作文字书写区域和识别结果显示区域的公共区域的结构的同时,代替上述检测单元和识别文字串确定单元分别设置判定单元,它在笔尖留在上述公共区域的一定范围内一定时间以上时,判定为该笔尖输入是以识别结果显示的光标移动为目的的姿态,在除此以外的情况下判定为是以文字书写为目的的输入(笔操作判定单元);识别文字串确定单元,当用该判定单元判定为笔输入是姿态的情况下,把上述识别未确定文字串作为上述识别确定文字串输出。
另外,最好设置1个文字后删除指示单元,它用于指示操作1个文字后退删除;识别结果编辑单元,当由该1文字后退删除单元指示1文字后退删除的情况下,在识别未确定笔划串存在的状态下,删除该识别未确定笔划串,在识别未确定笔划串不存在而识别未确定文字串存在的状态下,在把该识别未确定文字串的最后尾后退1个文字删除的同时,把剩下的识别未确定文字串作为识别确定文字串,在识别未确定笔划串以及识别未确定文字串都不存在的状态下,把识别确定文字串后退1个文字删除。
在这种构成中,可以平滑地进行文字的删除、文字的书写操作。
另外,可以设置成在包含该识别未确定文字串的识别候补文字串的相似程度满足预先设定的条件时,或者,包含此次判定的上述识别未确定文字串的上述识别候补文字串的相似程度,满足基于包含前次判定的上述识别未确定文字串的上述识别候补文字串的相似程度的预先设定的条件时,把此次判定的识别未确定文字串换为前次判定的上述识别未确定文字串,并显示此次判定的上述识别未确定文字串。因为,在每次1笔划输入时,可以包含该输入笔划,逐次显示在此前已输入的输入笔划中最适宜的识别结果,所以,用户可以在书写后立即确认识别结果,可以进行高效率的手写文字输入。
另外,因为,用于用坐标输入装置的上述笔书写文字的文字书写区域被重叠地配置在显示装置的笔迹显示区域上,在每次在文字书写区域上书写上述笔划时,通过在笔迹显示区域上显示包含该最新的笔划的最新规定的N条(N是整数)笔划,适宜地显示被输入的笔迹,所以,可以向用户提供舒适的文字书写环境。
另外,也可以设置成具备检测在笔从上述坐标输入装置上离开后,超过预先确定的一定时间上述笔仍未接触上述坐标输入装置的情况,或者检测除了上述笔划的书写以外的笔操作的检测单元,根据该检测单元的检测结果,删除被显示在上述笔迹显示区域上的笔划。
另外,当在笔迹显示区域上显示上述预先确定的多个笔划时,可以通过改变各笔划的颜色和粗细和表示该笔划的线种类之一显示。
上述各单元,也可以通过硬件实现,但也可以通过把具有作为该单元功能的程序读入计算机的CPU实现。这种情况下,可以很容易用便携信息终端等的信息机实现本发明的联机文字识别装置。
进而,涉及以上的联机文字识别装置的本发明,作为涉及方法(联机文字识别方法)的发明也成立。
另外,本发明,作为涉及储存有用于使计算机执行相当于本发明的顺序(或者使计算机具有作为相当于本发明的各单元的功能的,或者使计算机实现相当于本发明的功能的)的程序的计算机可读存储介质的发明也成立,进而涉及该程序自身的发明也成立。


图1是展示涉及实现本发明的一实施方案的联机文字识别装置的信息机的硬件构成的方框图。
图2是展示本发明的一实施方案的联机文字识别装置的功能的方框图。
图3是用于说明在图2的联机文字识别装置中的联机文字识别处理全部顺序的流程图。
图4是展示用图1的信息机实现的联机文字识别的更详细功能构成的方框图。
图5是展示图1的信息机的外观图。
图6是展示图4中的笔划缓冲存储器208的数据构造例子的图。
图7是展示图4中的识别候补缓冲存储器209的数据构造例子的图。
图8是展示图4中的文字构造词典211的数据构造例子的图。
图9是展示图4中的文字间构造词典212的数据构造例子的图。
图10是用于说明用图1的信息机实现的图4的联机文字识别装置中的联机文字识别处理全部顺序的流程图。
图11是用于说明在图10中的步骤802中的详细处理顺序的流程图。
图12是用于说明在图10中的步骤803中的详细处理顺序的流程图。
图13是用于说明在图12中的步骤1010中的详细处理顺序的流程图。
图14是用于说明在图12中的步骤1008中的详细处理顺序的流程图。
图15是用于说明在图13中的步骤1011中的详细处理顺序的流程图。
图16是用于说明在图10中的步骤804中的详细处理顺序的流程图。
图17是用于说明在图16中的步骤1403中的详细处理顺序的流程图。
图18是用于说明在图16中的步骤1404中的详细处理顺序的流程图。
图19是用于说明在图16中的步骤1406中的详细处理顺序的流程图。
图20是用于说明在图10中的步骤805中的详细处理顺序的流程图。
图21是用于说明在图20中的步骤1801中的详细处理顺序的流程图。
图22是用于说明在图20中的步骤1802中的详细处理顺序的流程图。
图23是用于说明在图10中的步骤807中的详细处理顺序的流程图。
图24是用于说明在图10中的步骤808中的详细处理顺序的流程图。
图25是用于说明输入特征和词典特征之间的核对关系的图。
图26是展示识别结果显示例子的图。
图27是用于说明识别确定文字串和识别未确定文字串的显示处理动作的流程图。
图28是用于说明识别确定文字串和识别未确定文字串的显示处理动作的流程图。
图29是展示每次书写笔划时被判定的识别确定文字串、识别未确定文字串的显示例子的图。
图30是展示用图1的信息机实现的联机文字识别装置的更详细的功能构成的方框图,在图4所示的构成中进一步追加了笔迹显示单元、笔操作判定单元。
图31是用于说明笔迹显示单元的笔迹显示处理动作的流程图。
图32是展示笔迹的显示例子的图。
图33是展示把N设定为“2”时的笔迹显示例子的图。
图34是用于说明在为了把书写中的笔划和书写同时实时显示在书写板的处理动作的流程图。
图35是展示最新的N条笔划的显示例子的图。
图36是展示图1的信息机的外观的变形例的图。
具体实施例方式
以下,参照

本发明的实施方案。
(联机文字识别装置的构成及动作)图1展示实现本发明的一实施方案的联机文字识别装置的信息机的硬件构成。
图1的信息机,例如是便携式信息终端等的小型信息机,由CPU1、ROM2、RAM3、书写板(书写装置)4、显示器(显示装置)5、数据读入装置6、存储介质7,以及接口(I/F)8、9、10等构成。
CPU1,构成图1的信息机的中枢,是用于各种数据处理的运算和进行系统整体控制的运算·控制单元。
ROM2是预先存储有基本软件等的非易失性存储器(存储介质),RAM3是被用作CPU1的作业区域等的非易失性存储器。
书写板4是可以输入笔划数据的坐标输入装置,显示器5是显示各种信息的液晶显示器等的显示装置。
存储介质7是硬盘、软盘、CD-ROM、光盘等计算机可读存储介质。在该存储介质7中,存储有数据以及程序。数据读入装置6,是可以读取被存储在存储介质7中的数据和程序的硬盘驱动器、软盘驱动器、CD-ROM驱动器、光盘驱动器等的数据读入单元。
接口8、接口9以及接口10,分别作为书写板4、显示器5以及数据读入装置6的接口。
在存储介质7中,作为上述程序,预先存储有用于进行输入笔迹的文字识别的联机文字识别程序。该联机文字识别程序,在装置的起动时由数据读入装置6读入并存储在RAM3中。CPU1根据被存储在RAM3中的联机文字识别程序进行输入笔迹的文字识别处理。
进而,也可以预先在ROM2中存储联机文字识别程序。这种情况下,CPU1只要根据该ROM内的联机文字识别程序进行输入笔迹的文字识别处理即可。另外,也可以在装置的起动时,从ROM2向RAM3传送联机文字识别程序,根据该RAM3内的联机文字识别程序进行输入笔迹的文字识别处理。另外,也可以经由通信线路下载联机文字识别程序。
书写板4例如是透明的,被重叠配置在显示器5的显示画面上。在书写板4的输入面上设置文字书写区域301(参照图5)。如果在该书写区域上用户用专用笔P书写文字,则其笔划数据(坐标值的时间系列信息)由书写板装置4检测出,通过接口8被传送到CPU1。
图2是展示用图1的信息机实现的联机文字识别装置的功能构成的方框图。
该联机文字识别装置,由相当于图1中的书写板4的手写文字输入装置101、笔迹信息取得单元102、识别单元103,识别结果显示单元104等各功能单元、文字构造词典106以及文字间构造词典107等各词典、相当于图1中的显示器5的显示器105构成。
笔迹信息取得单元102、识别单元103、识别结果显示单元104,通过图1中的CPU1读入被存储在RAM3中的联机文字识别程序并执行。文字识别处理时产生的(生成的)各种数据,例如被暂时存储在RAM3上。
文字构造词典106以及文字间构造词典107,和上述联机文字识别程序一同例如被预先存储在图1中的存储介质7中,当该程序用数据读入装置6读入并存储在RAM3中时,被存储在该RAM3中。进而,也可以把文字构造词典106以及文字间构造词典107预先存储在ROM2中。
手写文字输入装置101,例如是书写板,以一定的时间间隔采集表示笔P接触该书写板期间的笔尖位置的2维坐标数据。把得到的坐标数据发送到笔迹信息取得单元102。
笔迹信息取得单元102,作为被称为一笔完成的数据,使用从笔P接触书写板到离开期间的坐标数据串,即笔迹的坐标数据串,把它作为笔划数据取得。在笔迹信息取得单元102中每次取得笔划数据时,把它送到识别单元103。
识别单元103,在笔划数据每次输入时,从此前被输入的笔划数据中,用文字构造词典106以及文字间构造词典107,识别最适宜的文字串。
文字构造词典106,是记录有表示为识别对象的各文字的构造的数据(文字构造词典信息),即,对各文字来说构成该文字的笔划的形状和笔划间的位置关系(构造)等的特征信息的词典。
文字间构造词典107,是对已被记录在文字构造词典106中的多个文字中连续书写的各2个文字的组合,记录了表示这2个文字间的构造关系的数据(文字间词典信息)的词典。
在书写板上,既有连续的2个文字左右并排书写的情况,又有重叠书写的情况(例如,用于以笔书写文字的文字书写区域只够1个文字的情况)。前者所谓的文字间词典信息,是2个文字左右并排书写时一个文字的笔划和另一个文字的笔划间的位置关系(构造)的特征信息,后者所谓的文字间词典信息,是2个文字重叠书写时一个文字的笔划和另一个文字的笔划之间的位置关系(构造)的特征信息。
识别单元103,在笔划数据每次输入时,使用上述文字构造词典106和文字间构造词典107,根据此前已输入的笔划的形状以及笔划间的位置关系,求最相似的、最适宜的文字串。
识别结果显示单元104,把在识别单元103中求得的最适宜的文字串输出到显示器105。
进而,书写板的文字书写区域,有确保多个文字的书写区域的类型,和只确保1个文字的书写区域的类型,但无论在哪种情况下,本实施方案都可以适用。两者的不同点只是上述的文字间词典信息。
以下,参照图3的流程图说明在如图2所示构成的联机文字识别装置中的联机文字识别处理的顺序。
在步骤S1中,如果在文字书写区域内写下1条笔划,则其笔划的坐标数据串,即笔划数据被笔迹信息取得单元102取入,送到识别单元103。
在步骤S2中,识别单元103,从此前输入的笔划数据中,使用文字构造词典106以及文字间构造词典107,识别最适宜的文字串。例如,通过该识别处理,可以在此前被输入的笔划中相似地判定可以断定为该文字串已被书写完的识别确定文字;最象它的文字(识别未确定文字);书写过程中的文字的笔划(识别未确定笔划)。
在步骤S3中,识别结果显示单元104,把在文字识别单元103中识别的最适宜的文字串(例如,识别确定文字串和识别未确定文字串)显示在显示器105上。
以上的步骤S1~S3,在笔划的输入结束前,或者此前被输入的全部的输入笔划被判定为识别确定文字串前反复进行(步骤S4)。由此,在用户不注意文字的划分,只在手写文字输入装置101上连续写字时,在图2的联机文字识别装置中,可以把其笔迹自动地识别为文字串。
图4是进一步详细展示用图1的信息机实现的联机文字识别装置的功能构成的方框图。
该联机文字识别装置,由相当于图1中的书写板4的书写板201;笔迹信息取得单元202;识别候补文字串生成单元203;文字串相似度计算单元204;输入文字串判定单元205;缓冲存储器更新单元206;识别结果显示单元207等各功能单元;笔划缓冲存储器208;识别候补缓冲存储器209以及识别结果缓冲存储器210等各缓冲存储器;文字构造词典211以及文字间构造词典212等各词典;相当于图1中的显示器5的显示器213构成。
笔迹信息取得单元202、识别候补文字串生成单元203、文字串相似度计算单元204、输入文字串判定单元205、缓冲存储器更新单元206,以及识别结果显示单元207,可以通过图1中的CPU1执行读入被存储在RAM3中的联机文字识别程序来实现。
笔划缓冲存储器208、识别候补缓冲存储器209以及识别结果缓冲存储器210,例如被确保在RAM3上。
文字构造词典211以及文字间构造词典212,和上述联机文字识别程序一同被预先储存在例如图1中的存储介质7中,当该程序由数据读入装置6读入并被存储在RAM3中时,被存储在该RAM3中。进而,也可以把文字构造词典211以及文字间构造词典212预先存储在ROM2中。
图4的笔迹信息读取单元202,与图2的笔迹信息取得单元102对应,图4的识别候补文字串生成单元203和文字串相似度计算单元204和输入文字串判定单元205和缓冲存储器更新单元206与图3的识别单元对应,图4的识别结果显示单元207与图2的识别结果显示单元104对应。另外,图4的文字构造词典211与图2的文字构造词典106对应,图4的文字间构造词典212与图2的文字间构造词典107对应。
书写板201,以一定时间间隔采集表示笔P接触该书写板201期间的笔尖位置的2维坐标数据。把得到的坐标数据发送到笔迹信息取得单元202。
笔迹信息取得单元202,作为被称为笔划的一笔完成数据使用从笔P接触书写板201到离开期间的坐标数据串,即笔迹的坐标数据串,并存储在笔划缓冲存储器208中。
识别候补文字串生成单元203,生成相对笔划缓冲存储器208内的笔划(笔划数据)串来说成为识别候补的识别候补文字串群,并存储在识别候补缓冲存储器209中。
文字串相似度计算单元204,对于识别候补缓冲存储器209内的各识别候补文字串,根据文字构造词典211和文字间构造词典212制作其核对用词典(文字串构造词典),把它和笔划缓冲存储器208中的笔划串进行核对。文字相似度计算单元204,对识别候补文字串的各自,作为笔划串和识别候补文字串的核对结果,取得该笔划串是其文字串的相似程度(相似度),和表示该笔划串中的哪些笔划与哪个文字对应的文字提取结果。文字串相似度计算单元204,把取得的每一识别候补文字串的核对结果与该识别候补文字串对应地存储在识别候补缓冲存储器209中。
输入文字串判定单元205,从识别候补缓冲存储器209内的识别候补文字串和其核对结果中,求识别确定文字串、识别未确定文字串,以及识别未确定笔划串信息,并存储在识别结果缓冲存储器210中。所谓识别确定文字串,在用笔划串(输入笔划串)构成的文字串中,是可以判定为该文字串已被输入的文字串部分。所谓识别未确定文字串,在用输入笔划串构成的文字串中,是虽然不能断定但可以推测为该文字串已被输入的文字串部分。所谓识别未确定笔划串信息,是表示被推测为是1个文字书写过程中的笔划的笔划在输入笔划串中是否存在的信息。
识别结果显示单元206,把用输入文字串判定单元205判定的识别结果缓冲存储器210内的判定输入文字串(识别确定文字串、识别未确定文字串,以及识别未确定笔划串信息)输出到显示器213。
缓冲更新单元207,以识别结果缓冲存储器210内的信息为基础,从笔划缓冲存储器208和识别候补缓冲存储器209中删除与识别确定文字串对应的部分的信息来更新内容。
图5展示图1的信息机的外观。
如图所示,在图1的信息机的主面上,即在显示器5(213)的显示画面上积层了透明的书写板4(201)的面上,确保为了用户以笔P在书写板4(201)上书写文字的文字书写区域301、显示把在该文字书写区域301上书写的笔迹作为文字串识别的结果和表示文字插入位置的光标C的识别结果显示区域302、指示光标位置之前的文字删除的1文字后退删除钮303。
图6展示图4中的笔划缓冲存储器208的数据构造。
被存储在笔划缓冲存储器208中的笔划串信息,由表示该缓冲存储器208内的笔划的数目(笔划数)的NSTRK和NSTRK个笔划数据构成。第I个笔划数据(I=1~NSTRK),由构成它(表示坐标点的数)的坐标点数NPOINT[I],和NPOINT[I]个x,y坐标数据组成。在此,第I个笔划数据的第J点(J=1~NPOINT[I])的x,y坐标数据表示成x[I][J],y[I][J]。
图7展示识别候补缓冲存储器209的数据构造例子。
识别候补缓冲存储器209,用于存储对于笔划缓冲存储器208内的笔划串成为识别候补文字串和核对结果。在本实施方案中被存储在识别候补缓冲存储器209中的信息(识别候补信息),由表示候补(识别候补文字串)数的NCAND和NCAND个候补(候补数据)构成。
候补#I,即第I候补(I=1~NCAND)的数据包含文字提取结果。该文字提取结果,由以下部分构成表示第I候补是否是识别废弃对象的废弃标志CNAD_REJFLAG[I];构成其候补的文字串(识别候补文字串)的文字数CAND_NCODE[I];CAND_NCODE[I]个文字(第J文字(J=1~CAND_NCODE[I]))的各个文字构造词典211中的输入号码CAND_REFID[I];其候补文字串的总笔划数CAND_NSTRK[I]、与其候补文字串的最终文字对应的笔划缓冲存储器208内的输入笔划的条数CAND_STRKCTR[I];与CAND_NCODE[I]个文字(第J个文字)各自对应的笔划缓冲存储器208内的输入笔划串的开始笔划号码CAND_BS[I][J]以及结束笔划号码CAND_BS[I][J]。
第I候补(I=1~NCAND)的数据,由以下部分构成上述的文字提取结果;核对CAND_NCODE[I]个文字(第J个文字)的文字构造词典211和对应的输入笔划串的结果的相似度的对数值(对数相似度)CAND_L1[I][J];核对第J文字和第J+1文字间的文字间构造词典212和对应的输入笔划间构造特征(第J文字的最后的笔划和接着的第J+1文字的最初的笔划之间的构造特征)的结果的对数相似度CAND_L2[I][J];对数相似度的总和,即核对第I候补的文字串和输入笔划串全部结果的对数相似度CAND_L[I]。
在图7的例子中,识别候补缓冲存储器209内的候补(识别候补文字串)存在第1候补(候补#1)至第10候补(候补#10)的10个。对于第1候补,废弃标志被设置成0,识别候补文字串是由文字构造词典211的第1输入“ぁ”和第2输入“ぃ”构成的2个文字长的文字串“ぁぃ”。该识别候补文字串的总笔划数是5条。在此,存储至识别候补文字串“ぁぃ”的最后文字“ぃ”的第1笔划被输入后核对的结果。与识别候补文字串“ぁぃ”的第1文字“ぁ”对应的输入笔划是从第1笔至第3笔的3条。与识别候补文字串“ぁぃ”的第2文字“ぃ”对应的输入笔划只有第4笔的1条。即只输入到“ぃ”的左侧的1划。
核对识别候补文字串“ぁぃ”的第1文字“ぁ”的文字构造词典211,和从第1笔至第3笔的输入笔划串的结果的相似度的对数值(对数相似度)是-0.70。把“ぁ”和“ぃ”之间的文字间构造词典212、第3笔划(“ぁ”的最后的笔划)和第4笔划(“ぃ”的最初笔划)的笔划间构造进行核对的结果的相似度的对数值(对数相似度)是-0.36。核对“ぃ”的文字构造词典211中的开头笔划部分,和输入笔划串的第4笔划的结果的相似度的对数值(对数相似度)是-0.22。“ぁ”的对数相似度、“ぁ”和“ぃ”的文字间对数相似度、“ぃ”的最初的笔划的对数相似度相加的整个对数相似度是-1.28。
图8展示文字构造词典211的数据构造例子。
文字构造词典211是记录有表示成为识别对象的文字构造的数据(文字构造词典信息)的词典。该文字构造词典211,由表示成为识别对象的文字个数的NREF,和NREF个文字各自的构造词典组成。
第I(I=1~#NREF)个文字的构造词典(词典#I),由以下部分构成用代码(例如SHIFT-JIS代码)表示其文字的REF_CODE[I];构成其文字的总笔划数REF_NSTRK[I];作为REF_NSTRK[I]个笔划(第J笔划(J=1~REF_NSTRK[I]))的特征的形状特征的平均向量s[I][J][1~6]以及协方差向量σ[I][J][1~6]);第J-1笔划和第J笔划之间的笔划间构造特征的平均向量s2[I][J][1~2]以及协方差向量σ2[I][J][1~2]构成。在此假设s[I][J][1~6]表示由s[I][J][1],s[I][J][2],……s[I][J][6]组成的6维向量。σ[I][J][1~6],s2[I][J][1~2],σ2[I][J][1~2]也是同样的向量表示。有关笔划形状特征和笔划间构造特征后述。
图9展示文字间构造词典212的数据构造例子。
文字间构造词典212,是记录有对已被记录在文字构造词典211中的NREF个文字(可以识别的文字)中连续书写的各2个文字的组合,表示这2个文字间的构造关系的数据(文字间词典信息)的词典。在图9中展示对于1组的2个文字表示该文字间的构造关系的文字间构造词典信息的数据构造。该文字间构造信息,由文字间构造特征的平均向量z[1~2]和协方差向量θ[1~2]构成。作为文字间构造特征,使用前面文字的最后笔划和后面的文字开头笔划间的笔划构造特征。
以下,适宜地参照图10至图24的流程图说明如上述构成的联机文字识别装置中的联机文字识别处理顺序。
首先,根据图10的流程图说明全部的处理。
步骤801是初始化联机文字识别装置内的各缓冲存储器的初始化步骤。
在步骤802中,如果在文字书写区域301内写1笔笔划,则该笔划的坐标数据串,即笔划数据由笔迹信息取得单元202取入笔划缓冲存储器208,该笔划数据的特征被抽出。
在步骤803中,由识别候补文字串生成单元203生成对被取入到笔划缓冲存储器208的笔划串来说可以成为识别候补的候补文字串(识别候补文字串),并存储在识别候补缓冲存储器209中。
在步骤804中,用文字串相似度计算单元204核对在步骤803中生成的在识别候补缓冲存储器209内的识别候补文字串和在步骤802中取入的笔划串,作为其识别候补文字串计算已书写笔划串的相似程度。
在步骤805中,根据在步骤804中和各识别候补文字串的核对结果,在输入文字串判定单元205中判定在输入笔划串中可以可靠地判定为该识别候补文字串已被书写的识别确定文字串、最象它的文字串(识别未确定文字串)部分、文字书写中途的笔划串(识别未确定笔划串)部分。
在步骤806中,在步骤805中的判定结果用识别结果显示单元207显示在识别结果显示区域302上。
在步骤807、808中,用缓冲存储器更新单元206更新笔划缓冲存储器208和识别候补缓冲存储器209。
在把全部的输入笔划串判定为识别确定文字串之前(识别候补缓冲存储器209变为空之前),重复以上的步骤802~808(步骤809)。由此,在用户不注意文字的划分,而只是在文字书写板301上连续书写文字时,在图4的联机文字识别装置中,可以自动地把笔迹识别为文字。
以下,详细说明图10的流程图中的各步骤的处理内容。
首先,在步骤801中,进行笔划缓冲存储器208以及识别候补缓冲存储器209的初始化。在此,在具有图6所示的数据构造的笔划缓冲存储器208内的笔划数NSTRK,和具有图7所示的数据构造的识别候补缓冲存储器209内的识别候补文字串数NCAND中,分别置“0”,由此进行两缓冲存储器208、209的初始化。
下一步骤802,在用户在被确保于(在显示器5的显示画面上重叠配置的)书写板201上的文字书写区域301上用笔P每写下一划时执行。被写下的笔划的数据(坐标数据)用书写板201获取。在步骤802中,用该书写板201获取的笔划数据,用笔迹信息取得单元202取入并被存储在笔划缓冲存储器208中。另外,在步骤802中,执行抽出被存储在笔划缓冲存储器208中的笔划数据(所示的笔划形状)的特征的处理。
参照图11的流程图详细说明采用此笔迹信息取得单元202的步骤802的处理。
首先,在步骤901中,把图6的数据构造的笔划缓冲存储器208内的笔划数NSTRK增加1。
在从以下的步骤902到步骤905中,把从笔P离开书写板201前期间用该书写板201获取的笔尖的x坐标以及y坐标数据逐次取入笔划缓冲存储器208。在此,第I笔划的第J点的x坐标、y坐标,在图6所示的笔划缓冲存储器208内被分别设置为x[I][J],y[I][J]。
在步骤906中,把从笔P离开书写板201前期间取入的(构成1划)坐标点数设置于NPOINT[I]。
在步骤907中,从被取入到笔划缓冲存储器208中的最新的笔划中,即第NSTRK笔划数据中,抽出表示笔划形状的笔划形状特征向量u[1~6]。在此假设u[1~6]表示由u[1],u[2],……u[6]组成的6维向量。作为形状特征,例如假设使用表示在傅立叶展开复数数值函数得到的P形傅立叶描述符的2次以下的低阶成分的6个系数,而该复数数值函数是在指数函数的指数部分中具有笔划数据的全部曲率函数的函数。对于P形傅立叶描述符的计算顺序,使用在文献“以线图形的曲折为特征的联机手写汉字识别”(电子信息通信学会论文志1990年4月Vol.J73-D-IINo.4 pp.519-525)中详细叙述的方法。
在被输入的笔划在第2划以下的情况下,在步骤909中,抽出表示第NSTRK笔划和在前1笔输入的第NSTEK-1划之间的构造关系的2维笔划间构造特征向量u2[1~2]。作为构造特征,例如使用把从第NTRK-1笔划的终点连接第NSTRK笔划的始点的向量范数归一化为1的向量。
以上,是步骤802中的详细的处理顺序。
以下,在步骤803中,用识别候补文字串生成单元203,更新识别候补缓冲存储器209内的识别候补文字串。步骤803,是在此时刻生成对于被存储在笔划缓冲存储器208中的输入笔划串可以成为识别候补的文字串的处理。
参照图12的流程图详细说明该步骤803的处理。
首先,在步骤1002中,根据识别候补缓冲存储器209中表示目前的识别候补文字串数的NCAND,判断识别候补文字串存在还是不存在。
在不存在(NCAND=0)的情况下,跨入步骤1010,进行把被记录在图8所示的数据构造的文字构造词典211中的NREF个文字的各自作为CAND_NCODE[1](I=1~NREF)是“1”的第I识别候补文字串(新识别候补文字串)存储(生成)在识别候补缓冲存储器209中的处理。图13的流程图展示了在该步骤1010中详细的处理顺序。
另一方面,当在识别候补缓冲存储器209中已存在识别候补文字串(NCAND>0)的情况下,对各第I识别候补文字串进行以下的处理。
首先在步骤1005中,根据笔划缓冲存储器208内的笔划数NSTRK是否超过第I识别候补文字串的总笔划数CAND_NSTRK[I],判断目前书写输入的笔划是否是接着现在的第I识别候补文字串的下一个新的文字的最初的笔划。
当判定为不是新的1个文字的最初的笔划的情况下,在步骤1006中,只把表示构成第I识别候补文字串的最终文字的笔划数的计数器CAND_STRKCTR[I]增加1。
与此相反,在判定为是新的1个文字的最初的笔划的情况下,在步骤1008中,进行生成在目前的第I识别候补文字串上追加1个文字的新的识别候补文字串并记录在识别候补缓冲存储器209中的处理。追加的1个文字是包含在文字构造词典211中的NREF个文字的全部,只以此数在识别候补缓冲存储器209中记录新的第K识别候补文字串(K=1~NREF)。图14展示在步骤1008中的详细的处理顺序。
对于目前的第I识别候补文字串,在步骤1009中作为旧识别候补文字串产生废弃标志。
这样对NCAND个全部的识别候补文字串,如果分别在识别候补缓冲存储器209中生成记录NREF个新识别候补文字串(步骤1004),则在从识别候补缓冲器209中除去已产生了废弃标志的旧识别候补文字串的同时,在步骤1011中进行排列新识别候补文字串的识别候补文字串更新处理。图15的流程图展示该步骤1011中的详细的处理顺序。
以上,是在步骤803中的详细的处理顺序。
以下,在步骤804中,对识别候补缓冲存储器209内的各识别候补文字串,由文字串相似度计算单元204进行和笔划缓冲储存器208内的输入笔划串的核对,其核对结果(相似度计算结果)被存储在识别候补缓冲存储器209中。
参照图16的流程图详细说明本步骤804的处理。
首先,在步骤1403中,对识别候补缓冲存储器209的各第I识别候补文字串,制成用于输入笔划串的核对的文字串构造词典。在以下的步骤1404中,进行输入笔划串和被制成的文字构造词典的核对。
在上述步骤1403中的第I识别候补文字串的文字串构造词典的制作处理,根据图17的流程图进行如下。首先,在步骤1502中根据在该缓冲存储器208内的笔划数NSTR是否比1大,判断在笔划缓冲存储器208中是否存在2条以上的笔划。在只存在一条笔划的情况下跨入步骤1506。在2条以上的情况下,在步骤1503中,判断最新笔划是否是第I识别候补文字串的最终文字的最初的笔划。
当是最初的笔划的情况下,被看作此笔划和前1笔划之间是文字间。这种情况下,在步骤1504中,从文字间构造词典212中取出对应的文字间的文字间构造词典信息,在构成该词典信息的平均向量z[1~2]以及协方差向量θ[1~2],分别被设定为v2[1~2]以及Φ2[1~2]后,进入步骤1506。
另一方面,在不是最初的笔划的情况下,被看作该笔划和前1个笔划之间是第I识别候补文字串的最终文字内的笔划间,在步骤1505中,在被记述在有关最终文字的文字构造词典211中的词典信息内的对应的笔划间构造特征的平均向量以及协方差向量,分别被设置成v2[1~2]以及Φ2[1~2]后,进入步骤1506。
在步骤1506中,对于与最新输入笔划对应的最终文字,被记述在文字构造词典211中的词典信息内的笔划形状特征的平均向量以及协方差向量,分别被设置成v[1~6]以及Φ[1~6]。
以下,在上述步骤1404中的第I识别候补文字串的文字串构造词典和输入笔划串的核对处理,根据图18的流程图进行如下。
首先,在步骤1602中,和上述步骤1502中一样判断在笔划缓冲存储器208中是否存在2条以上的笔划。在只存在1条笔划的情况下跨入步骤1607。在2条以上的情况下,在步骤1603中,判断最新笔划是否是目前的第I识别候补文字串的最终文字的最初的笔划。
在是最初的笔划的情况下,被看作该笔划和前1笔划之间是文字间。这种情况下,在步骤1604中,在前面的步骤909中抽出的输入笔划间构造特征向量u2[1~2]和在步骤1504中被设置的文字间构造特征的平均向量v2[1~2]以及协方差向量Φ2[1~2]之间进行相似度计算,在其对数值logf(u2|v2,Φ2)将作为与第I识别候补文字串对应的文字间构造部分,即把最新的笔划的前1个笔划作为最后的笔划的文字和下一个文字(目前的第I识别候补文字串的最后文字)的文字间构造部分的对数相似度设置后,进入步骤1606。
在此,上述相似度,在把将平均向量设置成v2[1~2]、将协方差向量设置成Φ2[1~2]的多元无相关正态分布作为概率密度函数的情况下的,作为输入向量u2[1~2]的概率密度函数值,用下式(1)计算。
式1f(u2|v2,φ2)=Πi=1212πφ2[i]2e-12Σi=121φ2[i]2(u2[i]-v2[i])2----(1)]]>另一方面,当在步骤1603中判定为最新的笔划不是目前的第1识别候补文字串的最终文字的最初笔划的情况下,该笔划和前1个笔划之间被看作是第I识别候补文字串的最终文字内的笔划间。这种情况下,在步骤1605中,在步骤909中被抽出的输入笔划间构造特征的平均向量u2[1~2]和在步骤1505中被设置的笔划间构造特征的平均向量v2[1~2]以及协方差向量Φ2[1~2]之间进行相似度计算,其对数值log f(u2|v2,Φ2)在被累计设置成与第I识别候补文字串对应的文字构造部分,即目前的第I识别候补文字串的最终文字的文字构造部分的对数相似度后,进入步骤1606。在相似度的计算中使用和步骤1604相同形式的概率密度函数。
在步骤1606中,在该步骤1606之前进行的步骤1604或者在1605中算出的相似度的对数值logf(u2|v2,Φ2),被累计设置为在至此时求得的,核对第I识别候补文字串和输入笔划串全体的结果的对数相似度CAND_L[I]。
在步骤1607中,在步骤907中抽出的输入笔划的形状特征向量u[1~6]和与第I识别候补文字串的最终文字的文字构造词典对应的笔划形状特征的平均向量v[1~6]以及协方差向量Φ[1~6]之间进行相似度计算,求其对数值logf(u|v,Φ)。
在此上述相似度,把将平均向量设置成v[1~6],将协方差向量设置成Φ[1~6]的多元无相关正态分布作为概率密度函数情况下的,作为输入向量u[1~6]的概率密度函数值,用下式(2)算出。
式2f(u|v,φ)=Πi=1612πφ[i]2e-12Σi=161φ[i]2(u[i]-v[i])2----(2)]]>在步骤1608中,在步骤1607中求得的对数值logf(u|v,Φ),即核对笔划形状特征得到的相似度的对数值logf(u|v,Φ),被累计设置成第I识别候补文字串的对应的文字构造部分,即第I识别候补文字串的最终文字的文字构造部分的对数相似度。
在步骤1609中,在步骤1607中取得的对数值logf(u|v,Φ),被累计设置成在至目前取得的,核对第I识别候补文字串和输入笔划串全体结果的对数相似度CAND_L[I]。
对于识别候补缓冲存储器209内的全部识别候补文字,如果进行和笔划缓冲存储器208内的输入笔划串的核对(步骤1405),则在步骤1406中进行识别候补文字串的输入。
在该步骤1406中的聚焦处理根据图19的流程图执行。在此,当对识别候补缓冲存储器209内的各第I识别候补文字串(I=1~NCAND)取得的对数相似度的总和,即核对第I识别候补文字串和输入笔划串全体的结果的对数相似度CAND_L[I],未满足预先设定的阈值α的情况下,被判定为该识别候补文字串被输入的可能性低(步骤1703)。这种情况下,从识别候补缓冲存储器209中删除该识别候补文字串。
另一方面,对数相似度CAND_L[I]超过阈值α的识别候补文字串,被判定输入其识别候补文字串的可能性高,作为第J识别候补文字串留在识别候补缓冲存储器209内(步骤1704)。
有关在文字书写区域301内重叠书写“ぁぃ”这一文字的笔迹,和识别候补文字串“ぁぃ”之间的相似度的具体例子,参照图25以笔划顺序说明在如上所述的图16的流程图(对在步骤804中的识别候补文字串的相似度计算处理的详细顺序)中的步骤1403以及步骤1404的处理。
首先,如果书写最初的笔划,则在从该笔划(第1输入笔划)中抽出的形状特征u[1~6]和“ぁ”的文字构造词典的第1笔划的形状特征s[1][1][1~6]、σ[1][1][1~6]之间进行核对。
如果书写第2输入笔划,则在和前一输入笔划(第1输入笔划)之间的笔划间构造特征u2[1~2]、“ぁ”的文字构造词典的第1笔划和第2笔划之间的笔划间构造特征s2[1][1][1~2]、σ2[1][1][1~2]之间进行核对的同时,还在第2输入笔划的形状特征u[1~6]和“ぁ”的文字构造词典的第2笔划的形状特征s[1][2][1~6]、σ[1][2][1~6]之间进行核对。
对于第3输入笔划也进行同样的相似度计算,而对于第4输入笔划,因为判定该笔划是“ぃ”的最初的笔划,所以在“ぁ”和“ぃ”的文字间构造词典特征z[1~2]、θ[1~2]之间,核对第3输入笔划和第4输入笔划间的输入笔划间构造特征u2[1~2]。通过这些核对计算的相似度的对数值的累计值,成为输入笔划串和识别候补文字串之间的对数相似度。
在步骤804的下一步骤805中,从被存储在识别候补缓冲存储器209中的各识别候补文字串和该每一识别候补文字串的进行核对结果中,用输入文字串判定单元205,确定识别确定文字串、识别未确定文字串,以及识别未确定笔划串信息。
图20是用于说明在步骤805中的处理顺序的流程图。如该流程图所示,步骤805的输入文字识别判定处理,由识别确定文字串的判定步骤1801、识别未确定文字串以及识别未确定笔划信息的判定步骤1802组成。
图21是用于说明在步骤1801中的详细处理顺序的流程图。在此,对于识别候补缓冲存储器209内的全部的第I识别候补文字串(I=1~NCAND)(步骤1902,1906,1908),以第1识别候补文字串为基础,把由从开始就相同的NSTRING1个文字构成的文字串部分的文字代码STRING1[J]的串(J=1~NSTRING1)作为识别确定文字串STRING1抽出(步骤1907),设置在识别结果缓冲存储器210中。在步骤1907中,还求NSTRING1个文字的总笔划数NSTRK1,并与识别确定文字串STRING1对应地设置在识别结果缓冲存储器210中。
图22是用于说明在步骤1802中的处理顺序的流程图。在此,首先在识别候补缓冲存储器209内的全部的第I识别候补文字串(I=1~NCAND)中求对数相似度CAND_L[I]最大的第MI识别候补文字串(最相似的识别候补文字串)(MI是1~NCAND之一)(步骤2001~2005)。
接着对求得的最相似的识别候补文字串,根据与该最终文字串对应的输入笔划串的最终笔划号码CAND_ES[MI][CAND_NCODE[MI]]是否比表示该候补文字串的总笔划数的CAND_NSTRK[MI]值小,判定该候补文字串的最终文字串是否在书写过程中(步骤2006)。
如果,最相似识别候补文字串的最后文字处于书写过程中,则把识别未确定笔划串信息USTRK_FLAG设置成“1”,进而从最相似候补文字串中取出由识别确定文字串和除去最后文字的NSTRING2个文字组成的文字串部分,把该文字串部分的文字代码STRING2[J]的串(J=1~NSTRING2)作为识别未确定文字串STEING2设置在识别结果缓冲存储器210中(步骤2007,2009~2011)。这时,包含该识别未确定文字串的最适宜识别候补文字串的对数相似度,也可以和该识别未确定文字串STRING2一同存储在识别结果缓冲存储器210中。被存储在识别结果缓冲存储器210中的该最适宜识别候补文字串的对数相似度,此后,还可以在识别结果显示装置207中显示该识别未确定文字串STRING2时使用。
另一方面,当最相似识别候补文字串的最后文字的笔划被全部书写的情况下,把识别未确定笔划信息USTRK_FLAG设置成“0”,进而从最相似识别候补文字串中取出由除去识别确定文字串的NSTRING2个文字组成的文字串部分,把该文字串部分的文字代码STRING2[J]的串(J=1~NSTRING2)作为识别未确定文字串STRING2设置在识别结果缓冲存储器210中(步骤2008~2011)。
从以上的说明可知,识别确定文字串STRING1,在输入笔划串中,是用以后的书写不能改变判定结果的已被判定的部分的文字串。同样,识别未确定文字串STRING2,具有用以后的书写改变判定结果的可能性,但是是在当前相似度最大的最相似的部分的文字串。而后,识别未确定笔划串信息USTRK_FLAG,表示有无还未写完文字的笔划串。
在步骤805的下一步骤806中,用识别结果显示单元207,把识别结果缓冲存储器210内的识别确定文字串、识别未确定文字串以及识别未确定笔划串信息变换为显示图形,显示在显示器213的显示画面中的识别结果显示区域302中。
把这样的每次书写笔划时判定的识别确定文字串、识别未确定文字串以及识别未确定笔划串信息的显示例子,与在文字书写区域301内重叠书写了叫做“ぁぃ”的文字的笔迹的各笔划(输入笔划)和笔划号码对应起来,展示于图26的第3列。
在同一图中,黑色方形的记号是表示文字插入位置的光标,相当于图5中的光标C。另外,没有下划线的文字串部分表示识别确定文字串,有下划线的文字串部分表示识别未确定未串。另外,记号“”在识别未确定笔划串信息USTRK_FLAG是“1”的情况下被显示在识别未确定文字串的下一文字位置上,表示识别未确定笔划串存在。
这样在本实施方案中,因为附加用户容易识别(看到)识别确定文字串、识别未确定文字串以及识别未确定笔划串信息的显示属性,并在每次笔划输入时显示在画面上,所以用户可以逐次确认自己的笔迹的识别处理结果,可以进行快速舒适的文字输入。
如果步骤806结束,则通过缓冲存储器更新单元206,在步骤807中进行识别候补缓冲存储器209的更新,在步骤808中进行笔划缓冲存储器208的更新。
图23的流程图展示在步骤807中的详细处理顺序。其中,当识别确定文字串NSTRING1存在的情况下,对识别候补缓冲存储器209内的各第I识别候补文字串(I=1~NCAND),从该各候补文字串中除去相当于识别确定文字串NSTRNG1的部分的信息。
以下在图24的流程图中展示步骤808中的详细处理顺序。在此,在笔划缓冲存储器208内的NSTRK个第I笔划数据(I=1~NSTRK)中,通过把I=NSTRK1+1~NSTRK的第I笔划数据,即第NSTRK1+1笔划数据~第NSTRK笔划数据作为新的NSTRK个(新NSTRK=旧NSTRK-NSTRK1)第J笔划数据,进行从该笔划缓冲存储器208中除去与识别确定文字串NSTRING1对应的(由第1笔划数据~第NSTRK1笔划数据组成)输入笔划串数据的笔划缓冲存储器更新处理。
该缓冲存储器更新处理,大致分为步骤2107、2108的循环,和步骤2109~2111。在步骤2107、2108的循环中,从笔划缓冲存储器208中删除与除去识别确定文字串NSTRING1中的最终文字的文字串对应的输入笔划串数据,在步骤2109~2111中,从笔划缓冲存储器208中删除与识别确定文字串NSTRING1中的最终文字对应的输入笔划串数据。
在步骤808的下一步骤809中,用例如缓冲存储器更新单元206进行识别候补缓冲存储器209是否是空的判定,当识别候补文字串存在的情况下返回步骤802过渡到在笔迹信息取得单元202中控制,进行下一笔划的获取。
与此相反,在识别候补缓冲存储器209是空的情况下,对被输入的笔划串全部显示输出识别结果已确定的文字串,识别处理结束。
因而,在本实施方案中的联机文字识别装置中,通过如上述那样的处理顺序,可以高精度地识别输入用户不注意文字的划分而连续书写的文字串。
(识别结果的显示方法)图4的识别结果显示单元207,如上所述,把识别结果缓冲存储器210内的识别确定文字串、识别未确定文字串以及识别未确定笔划串信息变换为显示图形,显示于显示器213的显示画面中的识别结果显示区域302。
以下,参照图27所示的流程图说明在图10的步骤806中的识别结果显示单元207中的识别结果的显示顺序的一例。图27所示的流程图,在识别结果中,是展示显示识别确定文字串和识别未确定文字串的顺序的图,尤其具有,在显示识别未确定文字串时,比较其相似度和预先确定的阈值,进行显示更新这一特征。所谓识别未确定文字串的相似度,是在当在输入文字串判定单元205中判定了识别未确定文字串时,包含该识别未确定文字串的最相似识别候补文字串的对数相似度。该对数相似度,假设和该识别未确定文字串一同被存储在识别结果缓冲存储器210中。
首先,识别结果显示单元207,从识别结果缓冲存储器210中取出并显示识别确定文字串。即,把该识别确定文字串变换为显示图形,显示在显示器213的显示画面中的识别结果显示区域302中(步骤S11)。
以下,应该进行识别未确定文字串的显示,而其中,首先,从识别结果缓冲存储器210中,取出识别未确定文字串和与该识别未确定文字串一同存储的对数相似度。而后,在该对数相似度的值比预先设定的阈值大(或者,在阈值以上)时,显示此次识别未确定文字串。即,把该识别未确定文字串变换为显示图形,显示在显示器213的显示画面中的识别结果显示区域302上(步骤S12、步骤S13)。
另一方面,当与该识别未确定文字串一同存储的对数相似度的值在预先设定的阈值以下(或者,比阈值小)时,不显示此次识别未确定文字串,而原样显示现在正在显示的识别未确定文字串(步骤S12,步骤S14)。
以下,参照图28所示的流程图说明图10的步骤806中的在识别结果显示单元207中的识别结果显示顺序的另一例子。图28所示的流程图,也是展示在识别结果中显示识别确定文字串和识别未确定文字串的顺序的图,但尤其具有在显示识别未确定文字串时,比较其相似度和现在显示的识别未确定文字串的相似度,进行显示更新这一特征。进而,所谓识别未确定文字串的相似度,是在输入文字串判定单元205中判定了识别未确定文字串时,包含该识别未确定文字串的最相似识别候补文字串的对数相似度。该对数相似度,假设和该识别未确定文字串一同,存储在识别结果缓冲存储器210中。
首先,识别结果显示单元207,从识别结果缓冲存储器210中取出并显示识别确定文字串。即,把该识别确定文字串变换为显示图形,显示在显示器213的显示画面中的识别结果显示区域302上(步骤S21)。
以下,应该进行识别未确定文字串的显示,而其中,首先,从识别结果缓冲存储器210中,取出识别未确定文字串和与该识别未确定文字串一同存储的对数相似度。而后,该对数相似度的值,在比现在显示的识别未确定文字串的相似度(被保持在识别结果显示单元207中)的值大(或者,在其上)时,显示此次识别未确定文字串。即,把该识别未确定文字串变换为显示图形,显示在显示器213的显示画面中的识别结果显示区域302中(步骤S22,步骤S23)。而后,保持此次显示的识别未确定文字串的相似度(步骤S24)。
另一方面,当和该识别未确定文字串一同存储的对数相似度的值,在现在显示的识别未确定文字串的相似度(被保持在识别结果显示单元207)的值以下(或者,小)时,不显示此次识别未确定文字串,而原样显示现在正在显示的识别未确定文字串(步骤S22,步骤S25)。
把这样的在每次书写笔划时判定的识别确定文字串、识别未确定文字串的显示例子,与在文字书写区域301内重叠书写“てがき”这一文字的笔迹的各笔划(“て”的第1划,が的第1划、第2划、…)、每次书写笔划时判定后的识别确定文字串和识别未确定文字串对应起来,展示在图29的第4列中。
在同一图第4列中,没有下划线的文字串部分表示识别确定文字串,划有下划线的文字串部分表示识别未确定文字串。
这样在本实施方案中,因为附加用户容易识别(看出)识别确定文字串、识别未确定文字串那样的显示属性,在每次笔划输入时显示在画面上,所以用户可以逐次确认自己的笔划识别处理结果,可以舒适且高效率地进行手写文字输入。
(笔迹显示方法)当在文字书写区域301上书写文字时,如果其笔迹不能全部显示,因为不能确认前一笔划的位置,所以接着书写的笔划偏离原本想要输入的位置,不仅不能输入正确的文字,而且还成为误识别的原因。另外,特别是在仅有1个文字大小的文字书写区域301上重叠书写文字的情况下,如果输入的笔划全部被显示,因为当前输入中的文字以外的笔划被显示,所以反而难以辨认。
以下,说明被书写在书写板201的文字书写区域301上的笔划的显示方法。
图30是展示具有用于显示被书写在书写板201的文字书写区域310上的笔划的笔迹显示单元的联机文字识别装置的构成图。进而,在图30中,和图4相同的部分上标注相同的符号,只说明不同的部分。即,新追加有上述笔迹显示单元220和笔操作判定单元221。另外,书写板201是透明的,而且该书写板被设置在用于显示被书写在该文字书写区域上的笔迹的显示器213的笔迹显示区域上,如果在显示器213上,显示用户用笔P在书写板201上书写的笔划的话,则用户经由该书写板201,可以看到该被显示的笔划。
笔迹显示单元220,用在笔迹信息取得单元202中取得的笔划数据在显示器213上的笔迹显示区域上显示笔迹。
因为用笔迹信息取得单元202取得在笔P接触该书写板时表示笔尖位置的坐标数据,所以笔操作判定单元221,以该坐标数据为基础,判定笔操作的种类,根据该判定结果,在笔迹显示单元220中进行规定的指示。
笔迹显示单元220,显示包含现在输入中的笔划在内的最新的N条输入笔划。所显示的笔划数N被预先设定。
以下,参照图31所示的流程图,说明笔迹显示单元220的笔迹显示处理动作。进而,图31所示的处理,在图3的步骤S1中执行。
为了进行最新的N条输入笔划的显示控制,笔迹显示单元220,具有在达到N之前计数在书写板201上输入的笔划数的笔划计数器M、存储输入笔划数据的笔划缓冲存储器B、表示该笔划缓冲存储器上的存储位置的环形缓冲存储器指针P。笔划缓冲存储器B具有存储从第1至第N的N个输入笔划数据的区域,环形缓冲存储器指针P,按照从笔划缓冲存储器B的第1存储区域开始至第2、第3、第4的顺序指示,由于在达到了第N时再次返回第1,因而环状地指明笔划缓冲存储器B的存储区域。进而,在此,为了说明的简单,把环形缓冲存储器指针P取得的值作为从笔划缓冲存储器B的笔划数据的从第1至第N的各存储区域的值,即,1~N,把笔划缓冲存储器B的第P个存储区域表示成B(P)。
首先,在用笔P进行手写文字输入开始的同时,初始化笔迹显示单元220。所谓初始化,例如,如果当前在笔迹显示区域上存在显示着的笔迹,则删除它,把笔划计数器N和环形缓冲存储器指针P设置为“0”(步骤S101)。
在输入1个笔划时(步骤S102),比较此时的环形缓冲存储器P的值和N,如果P和N不相等(步骤S103),进入步骤S104,把环形缓冲存储器指针P增加1。另一方面,在步骤S103中,如果P和N相等,则进入步骤S105,如环形缓冲存储器指针P指明笔划缓冲存储器B的第1存储区域那样,使环形缓冲存储器指针P的值返回“1”。
接着,进入步骤S106。在步骤S106中,在笔划缓冲存储器B的第P个存储区域上,存储在步骤S102中输入的该笔划数据(步骤S106)。而后,在目前已输入的笔划数M比N还小(或者,在N以下)时(步骤S107),进入步骤S108,在使笔划计数器M增加1后,在步骤S109中,从笔划缓冲存储器B中取出包含此次被存储在第P个存储区域中的笔划数据的最新的P条笔划,进行笔迹显示。这种情况下,被存储在笔划缓冲存储器B中的笔划数据,如果从新的开始顺序排列,则成为B(P),B(P-1),……B(1)。
另一方面,在步骤S107中,在目前已输入的笔划的数M在N以上(或者,比N小)时,不进行笔划计数器M的更新,进入步骤S110,从笔划缓冲存储器B中取出包含此次被存储在第P个存储区域中的笔划数据的最新的N条笔划,进行笔迹的显示。这种情况下,被存储在笔划缓冲存储器B中的笔划数据,如果从新的开始顺序排列,则成为B(p),B(P-1),……B(1),B(N),B(1),B(2),……B(P+1)。
在此,说明笔划数据的显示方法。如上所述,各笔划数据,是表示笔P接触书写板201期间笔尖位置的2维坐标数据串。假设1条笔划由J个坐标数据组成。把各坐标数据表示为(x[j],y[j])。在此,j=1~J。例如,图32展示用户书写“の”这一文字(用1笔构成的文字)时的笔迹显示例子。因为构成这种情况下的输入笔划的坐标点全部有12个,所以可以顺序连接该12个坐标数据串(x[j],y[j]),j=1~J用折线表示该输入笔划。
如果用图31所示的顺序进行输入笔划的笔迹的显示,则例如,在N被设定为“2”的情况下,在显示器213的笔迹显示区域上,显示如图33所示那样的笔迹。图33(a)展示,在书写板201的文字书写区域301上,输入完“ぃ”这一文字的第2笔划时的笔迹显示例子。图33(b)展示,在书写板201的文字书写区域301上,输入完“ぁ”这一文字的第3笔划时的笔迹显示例子。从同一图可知,第1笔划不显示。同样,图33(c)展示在书写板201的文字书写书写301上,输入完“た”这一文字的第4划时的笔迹显示例子。从同一图中可知,未显示第1和第2笔划。
在显示器213的笔迹显示区域上,用户用笔P书写在书写板201上的笔划,希望和书写同时实时显示。参照图34所示的流程图,说明为此的笔迹显示单元221的处理动作。进而,图34所示的输入中的笔划的显示处理,在图31的步骤S102中执行。
如上所述,在笔迹信息取得单元202中取得表示笔P接触该书写板期间笔尖位置的坐标数据。即,用户书写1笔期间取得的坐标数据应该输入笔迹显示单元221,而此时,在前次笔尖离开书写板后(即,1笔书写后)在笔尖开始接触书写板,最初坐标数据输入时刻开始显示笔迹。首先,把用于计数坐标点数的变量K设置成“0”(步骤S201)。而后,把变量K增加1(步骤S202),取得此时的坐标数据(x[K],y[K])(步骤S203)。包含此次取得的坐标数据,在开始笔迹显示后取得的坐标数据是1时,即,K=1时(步骤S204),进入步骤S206,进行该坐标点的显示。另一方面,在开始笔迹显示后取得的坐标数据是第2个以上时,即,K>1时,进入步骤S205,在假设此次的坐标数据是(x[K],y[K])时,显示连接此次的坐标点和前一次的坐标点(x[K-1],y[K-1])的线段。在检测出笔尖离开书写板之前(1笔的书写结束)重复以上步骤S202~步骤S206(步骤S207)。
进而,1笔的书写结束的判定,可以是笔操作判定单元220检测出笔尖离开书写板,把它通知给笔迹显示单元221,也可以是笔迹显示单元221把来自笔迹信息取得单元202的坐标数据的输入暂时中断的时刻判定为1笔的书写结束。
另外,在显示N条笔划时,最好是可以区分显示每笔笔划。例如,可以通过改变各笔划的颜色和粗细显示,也可以如图35所示,把各笔划以实线、虚线、曲线等不同的线种类显示。
进而,上述N的值,可以是用户可以设定的期望值,也可以是是否表示N条输入笔划也由用户设定。由此,对于每一用户,可以提供对该用户来说最佳的手写文字输入环境。
笔操作判定部分220,如上所述,判定笔P接触书写板上的哪个位置,判定笔操作的种类。在笔操作的种类中,例如有用于书写(文字)输入的操作,和其它的操作(例如光标移动等)。
可以在笔P接触了书写板上的规定的文字书写区域时,判定为书写(文字)输入的开始。如果判定为文字输入已开始,则进行图3和图31所示的处理动作。
例如,可以在笔P接触书写板上规定的文字书写区域以外的规定区域时,和在从笔P接触书写板后在预先确定的规定时间,以该接触点为基准笔尖限于预先设定的规定范围内时,判定为是书写输入以外的操作。
另外,测量笔尖离开书写板后的时间,在超过预先设定的时间的情况下,进行笔迹显示单元221的初始化,在此时,也可以删除被显示在显示器213的笔迹显示区域上的笔迹。
这样,如重叠书写输入文字那样,即使在文字的划分位置不明确的情况下,也可以适宜地显示被输入的笔迹,可以提供容易输入手写文字的环境。
(联机文字识别装置的附加功能)以下,参照图30所示的联机文字识别装置的构成例子,说明其附加功能。
在此前已说明的实施方案中,如图5所示,分为文字书写区域301和识别结果显示区域302。但是,即使在识别结果显示区域302中,也可以实现指示表示文字插入位置的光标C移动的笔输入。即,在本实施方案中,当在显示器213上有笔迹显示区域和识别结果显示区域的情况下,设置透明的书写板201使其覆盖在它们之上,用户通过该书写板201,在可以看见被显示在显示器213内的笔迹的同时,通过用笔P指定识别结果显示区域302内的任意的位置,就可以对作为识别结果得到的文字串进行编辑操作。还有把用于该编辑操作的指示称为“姿态(gesture)”的。
例如,在图30所示的构成中,当由笔操作判定单元220检测出用笔P指定了(接触了)识别结果显示区域302内的任意位置的情况下,判定为进行了光标移动指示,对于现在书写中的文字串的书写已完成。而后,对于输入文字串判定单元205,当此时存在识别未确定文字串的情况下,把其作为确定文字串,执行由识别结果显示单元207进行显示在识别结果显示区域302上的确定处理的指示(确定指示)。另外,这时,输入文字串判定单元205,在有识别未确定笔划串的情况下,从笔划缓冲存储器208中删除该识别未确定笔划串。也可以用缓冲存储器更新单元206进行该删除处理。
由此,可以平滑地反复进行文字插入位置的指示、文字串书写操作,可以进行舒适的文字输入。进而,上述笔操作判定单元220,和各单元202~207一样,可以通过图1的信息机中的CPU1执行联机文字识别程序实现。
另外在本实施方案中的构成是,在输入了最后的笔划后,由上述笔操作判定单元220检测超过预先确定的一定时间没有下一笔划输入的情况。而后,当检测出在超过一定时间没有下一笔划输入的情况下,也在笔操作判定单元220中,看作目前书写中的文字串的书写已完成,并进行和上述同样的确定处理。
把这样的确定处理前后的显示画面的变更例子,与重叠书写“ぁした”这一文字的笔迹的各笔划(输入笔划)和笔划号对应起来展示在图26的第3列以及第5列。
另外,也可以把图5所示的文字书写区域301和识别结果显示区域302如图36所示那样通用。在这种构成中,当笔尖的坐标在超过一定时间没有从一定坐标范围内移动的情况下,笔操作判定单元220,判定为笔输入是指示表示识别文字插入位置的光标C移动的姿态。在由笔操作判定单元220判定为笔输入是姿态的情况下,输入文字串判定单元205只要进行把识别未确定文字串作为识别确定文字串输出的和上述同样的确定处理即可。
本实施方案的联机文字识别装置,作为用于删除错误输入的文字的编辑操作单元(1文字后退删除指示单元),具有图5所示的1文字后退删除按钮303。用户如果用笔P触动该1字后退删除按钮303,则笔操作判定单元220,因为其坐标数据在1字后退删除按钮303的区域内,所以判定是进行了1字后退删除指示,可以指示删除光标C所指的文字位置之前的文字。
在本实施方案中,设置了识别结果编辑单元(未图示),如图26的第3列所示,当在识别结果显示区域302上显示表示识别未确定笔划串存在的记号“”的状态下进行了1文字后退删除指示的情况下,删除该“”。
该识别结果编辑单元,当在识别未确定笔划串不存在而识别未确定文字串存在的状态下发出了1文字后退删除指示的情况下,在对识别未确定文字串的最后进行1文字后退删除的同时,把剩余的识别未确定文字串作为识别确定文字串确定显示。另外识别结果编辑单元,当在识别未确定笔划串和识别未确定文字串都不存在的状态下发出了1文字后退删除指示的情况下,对确定文字串进行1文字后退删除。
通过执行这种处理,就可以连续平滑地进行文字的删除、文字的书写操作,可以实现舒适的文字编辑环境。把1文字后退删除指示前后的显示画面的变更例子,与重叠书写“ぁした”这一文字的笔迹的各笔划(输入笔划)和笔划号码对应起来,展示在图26的第3列以及第4列上。
上述的1文字后退删除指示并不限于由按钮(1文字后退删除按钮303)实行。例如,笔操作判定单元220,也可以把书写在文字书写区域301上的特定形状的笔划,判定为是指示1文字后退删除的姿态。除此以外,可以把例如不是通常的文字书写的输入的,从右至左方向的直线形的笔划输入定义为1文字后退删除的姿态。笔操作判定单元220,也可以很容易通过在文字识别中使用的笔划形状特征的核对实现。
进而,本发明,并不限于上述实施方案,在实施阶段中在不脱离其主旨的范围内可以有各种各样的变形。进而,在上述实施方案中包含有各个阶段的发明,通过在被揭示的多个构成要件中的适宜的组合可以抽出各种发明。例如,当即使从实施方案所示的全部构成要件中删除几个构成要件,也可以解决在发明要解决的问题中所述的问题的至少1个,可以得到在发明效果中所述的效果中的至少一个的情况下,可以把删除该构成要件的构成作为发明抽出。
如果采用以上详细叙述的本发明,则在用户书写文字串的情况下,即使不注意文字的划分而只连续书写文字时,也可以通过还考虑了文字间的构造关系的识别处理自动地识别文字串,因而可以实现平滑的文字连续书写输入。
例如如果采用本发明,因为还可以进行文字重叠书写输入,所以即使只准备小书写区域的便携信息终端等的小型信息机中,也可以提供舒适的手写文字输入环境。
权利要求
1.一种联机文字识别装置,以在坐标输入装置上从笔接触该坐标输入装置到离开期间由该坐标输入装置检测出的笔尖的坐标序列表示的笔划串为基础进行文字识别,并在显示装置上显示识别结果,其特征在于在每次检测出上述笔划时,对于此前被检测出的笔划的形状以及连续书写的各2个文字的组合,根据该2个文字间的笔划的位置关系求最适宜的文字串,把该文字串显示在上述显示装置上。
2.一种联机文字识别装置,以在坐标输入装置上从笔接触该坐标输入装置到离开期间由该坐标输入装置检测出的笔尖的坐标序列表示的笔划串为基础进行文字识别,并在显示装置上显示识别结果,其特征在于上述坐标输入装置具有用于用上述笔书写文字的1个文字份的文字书写区域,在每次检测出被书写在上述书写区域上的上述笔划时,对于此前被检测出的笔划的形状以及重叠书写的各2个文字的组合,根据该2个文字间的笔划的位置关系求最适宜的文字串,把该文字串显示在上述显示装置上。
3.一种联机文字识别装置,以在坐标输入装置上从笔接触该坐标输入装置到离开期间由该坐标输入装置检测出的笔尖的坐标序列表示的笔划串为基础进行文字识别,并在显示装置上显示识别结果,其特征在于包括文字构造词典,对多个可识别文字的每一个,记录有构成该文字的笔划的形状信息,以及记述有笔划间的构造关系的词典信息;文字间构造词典,对于上述多个可以识别文字中连续书写的各2个文字的组合,记录有记述了该2个文字间的构造关系的词典信息;笔迹信息取得单元,逐次取入由上述坐标输入装置检测出的笔划;识别候补文字串生成单元,在每次由上述笔迹信息取得单元取得笔划时,对于包含该笔划的需要识别的已取入的笔划串生成可以成为识别候补的识别候补文字串;核对单元,对于上述每一识别候补文字串,根据对于构成该识别候补文字串的各候补文字的上述文字构造词典中的词典信息和对于连续的2个候补文字间的上述文字间构造词典中的词典信息,制作与该识别候补文字串对应的文字串构造词典,通过把上述已取得的笔划串分别和该每一识别候补文字串的文字串构造词典核对,进行确定该笔划串中的哪些笔划构成哪个候补文字的文字提取;输入文字串判定单元,对于上述各识别候补文字串把从开头开始的上述文字提取结果共同的文字串部分作为识别确定文字串判定并输出;识别结果显示单元,显示由上述输入文字串判定单元输出的上述识别确定文字串。
4.一种联机文字识别装置,以在坐标输入装置上从笔接触该坐标输入装置到离开期间由该坐标输入装置检测出的笔尖的坐标序列表示的笔划串为基础进行文字识别,并在显示装置上显示识别结果,其特征在于包括文字构造词典,对多个可识别文字的每一个,记录有构成该文字的笔划的形状信息,以及记述有笔划间的构造关系的词典信息;文字间构造词典,对于上述多个可以识别文字中连续书写的各2个文字的组合,记录有记述了该2个文字间的构造关系的词典信息;笔划缓冲存储器,用于存储由上述坐标输入装置检测出的笔划;笔迹信息取得单元,逐次取入由上述坐标输入装置检测出的笔划并存储在上述笔划缓冲存储器中;识别候补缓冲存储器,用于存储对于上述笔划缓冲存储器内的笔划串成为识别候补的识别候补文字串群;识别候补文字串生成单元,在每次通过上述笔迹信息取得单元在上述笔划缓冲存储器中存储上述笔划时,生成对于该笔划缓冲存储器内的笔划串可以成为识别候补的识别候补文字串并存储在上述识别候补缓冲存储器中;核对单元,对于每个上述识别候补缓冲存储器内的识别候补文字串,根据对于构成该识别候补文字串的各候补文字的上述文字构造词典中的词典信息和对于连续的2个候补文字间的上述文字间构造词典中的词典信息,制成与该识别候补文字串对应的文字串构造词典,通过把上述笔划存储器内的笔划串分别与该每一识别候补文字串的文字串构造词典核对,进行确定该笔划串中的哪些笔划构成哪个候补文字的文字提取,把其结果与该识别候补文字串对应起来存储在上述识别候补缓冲存储器内;输入文字串判定单元,对于上述识别候补缓冲存储器内的全部识别候补文字串把从开头开始的上述文字提取结果共同的文字串部分作为识别确定文字串判定并输出;识别结果显示单元,显示由上述输入文字串判定单元输出的上述识别确定文字串。
5.一种联机文字识别装置,以在坐标输入装置上从笔接触该坐标输入装置到离开期间由该坐标输入装置检测出的笔尖的坐标序列表示的笔划串为基础进行文字识别,并在显示装置上显示识别结果,其特征在于上述坐标输入装置具有用于用上述笔书写文字的1个文字份的文字书写区域,上述文字识别装置包括文字构造词典,对于多个可识别文字的每一个,记录有构成该文字的笔划的形状信息,以及记述有笔划间的构造关系的词典信息;文字间构造词典,对于上述多个可识别文字中的重叠书写在上述文字书写区域上的各2个文字的组合,记录有记述了该2个文字间构造关系的词典信息;笔迹信息取得单元,逐次取得由上述坐标输入装置检测出的笔划;识别候补文字串生成单元,在每次由上述笔迹信息取得单元取得笔划时,对于包含该笔划的需要识别的已取得的笔划串生成可以成为识别候补的识别候补文字串;核对单元,对于上述每一识别候补文字串,根据对于构成该识别候补文字串的各候补文字的上述文字构造词典中的词典信息,和对于重叠的2个候补文字间的上述文字间构造词典中的词典信息,制作与该识别候补文字串对应的文字串构造词典,通过把上述已取得的笔划串分别和该每一识别候补文字串的文字串构造词典核对,进行确定该笔划串中的哪些笔划构成哪个候补文字的文字提取;输入文字串判定单元,对于上述各识别候补文字串把从开头开始的上述文字提取结果共同的文字串部分作为识别确定文字串判定并输出;识别结果显示单元,显示由上述输入文字串判定单元输出的上述识别确定文字串。
6.一种联机文字识别装置,以在坐标输入装置上从笔接触该坐标输入装置到离开期间由该坐标输入装置检测出的笔尖的坐标序列表示的笔划串为基础进行文字识别,并在显示装置上显示识别结果,其特征在于上述坐标输入装置具有用于用上述笔书写文字的1个文字份的文字书写区域,上述文字识别装置包括文字构造词典,对于多个可识别文字的每一个,记录有构成该文字的笔划的形状信息,以及记述有笔划间的构造关系的词典信息;文字间构造词典,对于上述多个可识别文字中的重叠书写在上述文字书写区域上的各2个文字的组合,记录有记述了该2个文字间构造关系的词典信息;笔划缓冲存储器,用于存储由上述坐标输入装置检测出的笔划;笔迹信息取得单元,逐次取得由上述坐标输入装置检测出的笔划并存储在笔划缓冲存储器中;识别候补缓冲存储器,用于存储对于上述笔划缓冲存储器内的笔划串成为识别候补的识别候补文字串群;识别候补文字串生成单元,在每次通过上述笔迹信息取得单元在上述笔划缓冲存储器中存储上述笔划时,生成对于该笔划缓冲存储器内的笔划串可以成为识别候补的识别候补文字串并存储在上述识别候补缓冲存储器中;核对单元,对于上述识别候补缓冲存储器内的每一识别候补文字串,根据对于构成该识别候补文字串的各候补文字的上述文字构造词典中的词典信息和对于重叠的2个候补文字间的上述文字间该词典中的词典信息,制成与该识别候补文字串对应的文字串构造词典,通过把上述笔划存储器内的笔划串分别与该每一识别候补文字串的文字串构造词典核对,进行确定该笔划串中的哪些笔划构成哪个文字候补的文字提取,把其结果与该识别候补文字串对应起来存储在上述识别候补缓冲存储器内;输入文字串判定单元,对于上述识别候补缓冲存储器内的全部识别候补文字串,把从开头开始的上述文字提取结果共同的文字串部分判定为识别确定文字串并输出;识别结果显示单元,显示由上述输入文字串判定单元输出的上述识别确定文字串。
7.权利要求3~6的任意1项所述的联机文字识别装置,其特征在于上述核对单元,通过把上述笔划串和上述每一识别候补文字串的上述文字串构造词典进行核对,计算把该笔划串作为该识别候补文字串书写的相似程度,上述输入文字串判定单元包含识别确定文字串判定单元,判定上述识别确定文字串并输出;识别未确定文字串以及识别未确定笔划串信息判定单元,对于根据上述核对单元的核对结果确定的上述各识别候补文字串中最相似的识别候补文字串,根据构成最后文字的笔划是否已全部被书写输入,在输出表示识别未确定笔划串不存在或者存在的识别未确定笔划串信息的同时,当上述识别未确定笔划串不存在的情况下,从上述最相似的识别候补文字串中把除去上述识别确定文字串的文字串判定为识别未确定文字串并输出,当上述识别未确定笔划串存在的情况下,从上述最相似的识别候补文字串中把除去上述识别确定文字串和最后的1个文字之后得到的文字串判定为识别未确定文字串并输出,上述识别结果显示单元,除显示上述识别确定文字串之外,进一步至少显示上述识别未确定文字串。
8.权利要求7所述的联机文字识别装置,其特征在于上述识别结果显示单元,在包含该识别未确定文字串的上述识别候补文字串的上述相似程度满足预先确定的条件时,显示上述识别未确定文字串。
9.权利要求7所述的联机文字识别装置,其特征在于上述识别结果显示单元,在包含此次被判定的上述识别未确定文字串的上述识别候补文字串的相似程度,满足根据包含前次被判定的上述识别未确定文字串的上述识别候补文字串的相似程度预先确定的条件时,替换为前次被判定的上述识别未确定文字串并显示此次判定的上述识别未确定文字串。
10.权利要求4或者6所述的联机文字识别装置,其特征在于进一步具备缓冲存储器更新单元,它在每次由上述识别结果显示单元显示上述识别确定文字串时,在从上述笔划缓冲存储器中删除与该识别确定文字串对应的输入笔划串的同时,从上述识别候补缓冲存储器中去除与该识别确定文字串对应的信息。
11.权利要求7所述的联机文字识别装置,其特征在于进一步具备检测单元,在输入最后的笔划后,检测出在超过预先设定的一定时间以上时没有下一笔输入的状态;识别文字串确定单元,根据上述检测单元的检测结果,把上述识别未确定文字串作为上述识别确定文字串输出。
12.权利要求7所述的联机文字识别装置,其特征在于上述坐标输入装置在被重叠配置在上述显示装置的显示面上的同时,在该坐标输入装置的输入面上分开确保用于用上述笔书写文字的文字书写区域和显示上述识别结果的识别结果显示区域;所述联机文字识别装置进一步具有检测单元,检测上述笔已接触上述文字书写区域的状态;识别文字串确定单元,根据上述检测单元的检测结果把上述识别未确定文字串作为上述识别确定文字串输出。
13.权利要求3~6的任意1项所述的联机文字识别装置,其特征在于上述坐标输入装置在被重叠配置在上述显示装置的显示面上的同时,在该坐标输入装置的输入面上确保兼用作用于用上述笔书写文字的文字书写区域和显示上述识别结果的识别结果显示区域的公用区域;所述联机文字识别装置进一步具有判定单元,当上述笔尖在上述公用区域的一定坐标范围内存在一定时间以上的情况下,判定为其笔输入是以识别结果显示的光标移动为目的的姿态,在除此以外的情况下判定为是以文字书写为目的的输入;识别文字串确定单元,在由上述判定单元判定为笔输入是姿态的情况下,把上述识别未确定文字串作为上述识别确定文字串输出。
14.权利要求7所述的联机文字识别装置,其特征在于进一步具有1个文字后退删除指示单元,用于指示操作1个文字的后退删除;识别结果编辑单元,当由上述1个文字后退删除指示单元指示了1个文字后退删除的情况下,在上述识别未确定笔划串存在的状态下,删除该识别未确定笔划串,在上述识别未确定笔划串不存在而上述识别未确定文字串存在的状态下,在对该识别未确定文字串的最后尾进行1文字后退删除的同时把剩余的该识别未确定文字串作为上述识别确定文字串,在上述识别未确定笔划串以及上述识别未确定文字串都不存在的状态下,对上述识别确定文字串进行1文字后退删除。
15.权利要求1~6的任意1项所述的联机文字识别装置,其特征在于用于用上述坐标输入装置的上述笔书写文字的文字书写区域被重叠配置在上述显示装置的笔迹显示区域上,每次在上述文字书写区域上书写上述笔划时,把包含该最新笔划的最新的规定的N条笔划显示上述笔迹显示区域上,其中N是整数。
16.权利要求15所述的联机文字识别装置,其特征在于具备检测单元,它在笔离开上述坐标输入装置后,检测在预先确定的一定时间以上期间,上述笔未接触上述坐标输入装置或者上述笔划的书写以外的笔操作,根据该检测单元的检测结果,删除被显示在上述笔迹显示区域上的笔划的显示。
17.权利要求15所述的联机文字识别装置,其特征在于在上述笔迹显示区域上显示上述预先设定的多条笔划时,通过改变各笔划的颜色和粗细和表示该笔划的线的种类其中之一进行显示。
18.一种联机文字识别方法,在坐标输入装置上以表示用笔书写的文字的笔划串为基础进行文字识别,包括以1笔划单位逐次取入由上述坐标输入装置检测出的笔尖的坐标序列的步骤;在上述取得步骤中每次取得笔划时,对包含该笔划的需要识别的已取得的笔划串生成可以成为识别候补的识别候补文字串的步骤;对上述每一生成的识别候补文字串,根据对于该识别候补文字串中的各候补文字构成该候补文字的笔划的形状信息以及记述了笔划间的构造关系的文字构造词典信息,和对于该识别候补文字串中的各候补文字间记述了该候补文字间的构造关系的文字间构造词典信息,制作与该识别候补文字串对应的文字串构造词典的步骤;在每次制作上述文字串构造词典时,通过在此时把取得的上述已取得的笔划串分别和上述被生成的每一识别候补文字串的文字串构造词典核对,进行确定该笔划串中的哪些笔划构成哪个候补文字的文字提取的步骤;对于上述被生成的各识别候补文字串把从开头开始的上述文字提取的结果相同的文字串部分判定为识别确定文字串后输出的步骤。
19.一种存储有联机文字识别程序的存储介质,该程序是以表示在坐标输入装置上用笔书写的文字的笔划串为基础进行文字识别的联机文字识别程序,它使计算机执行以下步骤以1笔划单位逐次取得由上述坐标输入装置检测出的笔尖的坐标序列;在上述取得步骤中每次取得笔划时,对包含该笔划的需要识别的已取得的笔划串生成可以成为识别候补的识别候补文字串;对上述每一生成的识别候补文字串,根据对于该识别候补文字串中的各候补文字构成该候补文字的笔划的形状信息以及记述了笔划间的构造关系的文字构造词典信息,和对于该识别候补文字串中的各候补文字间记述了该候补文字间的构造关系的文字间构造词典信息,制作与该识别候补文字串对应的文字串构造词典;在每次制作上述文字串构造词典时,通过在此时把取得的上述已取得的笔划串分别和上述被生成的每一识别候补文字串的文字串构造词典核对,进行确定该笔划串中的哪些笔划构成哪个候补文字的文字提取;对于上述被生成的各识别候补文字串把从开头开始的上述文字提取的结果相同的文字串部分判定为识别确定文字串后输出。
20.一种联机文字识别程序,是以表示在坐标输入装置上用笔书写的文字的笔划串为基础进行文字识别的联机文字识别程序,它使计算机执行以下步骤以1笔划单位逐次取得由上述坐标输入装置检测出的笔尖的坐标序列;在上述取得步骤中每次取得笔划时,对包含该笔划的需要识别的已取得的笔划串生成可以成为识别候补的识别候补文字串;对上述每一生成的识别候补文字串,根据对于该识别候补文字串中的各候补文字构成该候补文字的笔划的形状信息以及记述了笔划间的构造关系的文字构造词典信息,和对于该识别候补文字串中的各候补文字间记述了该候补文字间的构造关系的文字间构造词典信息,制作与该识别候补文字串对应的文字串构造词典;在每次制作上述文字串构造词典时,通过在此时把取得的上述已取得的笔划串分别和上述被生成的每一识别候补文字串的文字串构造词典核对,进行确定该笔划串中的哪些笔划构成哪个候补文字的文字提取;对于上述被生成的各识别候补文字串把从开头开始的上述文字提取的结果相同的文字串部分判定为识别确定文字串后输出。
全文摘要
连续书写文字也能自动识别文字串。笔迹信息取得单元202以1笔划为单位把笔划取入缓冲存储器208。识别候补文字串生成单元203生成识别候补文字串存储在缓冲存储器209中。文字相似度计算单元204对于每一识别候补文字串生成组合了文字构造词典211和文字间构造词典212的文字串构造词典并和输入笔划串核对。输入文字串判定单元205把从开头开始的文字串提取结果共同的文字串部分判定为识别确定文字串并显示在显示器213上。
文档编号G06K9/22GK1351310SQ01135999
公开日2002年5月29日 申请日期2001年10月31日 优先权日2000年10月31日
发明者河村聪典, 登内洋次郎 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1