图像识别装置和识别方法及记录图像识别程序的存储介质的制作方法

文档序号:6467504阅读:157来源:国知局
专利名称:图像识别装置和识别方法及记录图像识别程序的存储介质的制作方法
技术领域
本发明涉及图像识别装置、图像识别方法,及记录图像识别程序的 存储介质。

发明内容
根据本发明的图像识别装置对图像中的字符串与组成逻辑结构的逻 辑元素之间的对应关系进行识别,其中所述字符串被描述为多个所述逻 辑元素以识别每个逻辑元素。所述图像识别装置包括输出装置,其用 于在识别或重新识别所述对应关系时,输出所识别的多个逻辑元素;第 一确定装置,其用于在从识别出所述输出装置输出的所述识别结果的用 户接收到用于确定接收到所述逻辑元素的确定请求的输入时,所述第一 确定装置用于确定所述多个逻辑元素中的特定逻辑元素是正确的;第二 确定装置,其用于确定在所述第一确定装置确定的所述逻辑元素之前输 出的并根据所述用户进行的确认而定位的所有所述逻辑元素的正确性; 以及重新识别装置,其用于基于所述第一确定装置和所述第二确定装置 确定为正确的每个逻辑元素的确定内容,来重新识别仍未被确定为正确 的逻辑元素与所述字符串之间的对应关系。


图1是用于描述根据第一实施方式的图像识别装置的概况和特征的
图2是示出根据第一实施方式的图像识别装置的结构的实施例的框
图3图示表格图4是用于描述识别结果显示屏面的图;图5A和5B是用于描述逻辑结构模型存储部件的图6是用于描述识别结果显示缓冲器的图7是用于描述纠错操作的图8A到8D是用于描述逻辑元素的自动确定的图9A到9B是用于描述(转换后的)逻辑结构存储部件的图IOA和10B是用于描述纠错操作的图11是示出根据第一实施方式的图像识别装置执行的处理的实施例 的流程图12是用于描述另一识别结果显示屏面的图13A和13B是用于描述根据第二实施方式的图像识别装置的概况 和特征的图14是示出根据第二实施方式的图像识别装置的结构的实施例的框
图15A和15B是用于描述识别结果显示缓冲器和重新识别结果缓冲 器的图16是示出根据第二实施方式的图像识别装置执行的处理的实施例 的流程图17A和17B是用于描述另一识别结果显示屏面的图; 图18A和18B是用于描述根据第三实施方式的图像识别装置的概况 和特征的图19A和19B是用于描述识别结果显示缓冲器和重新识别结果缓冲 器的图20是示出根据第三实施方式的图像识别装置执行的处理的实施例 的流程图21A和21B是用于描述另一识别结果显示屏面的图;以及 图22是示出执行图像识别程序的计算机的结构的实施例的框图。
具体实施例方式
近年来,商业的计算机化伴随着对各种类型的计算机化文档的使用。因此,增加了将纸质文档转换成计算机化文档的图像识别技术的重要性。
图像识别技术包括光学字符读取器(OCR)或光学字符识别(OCR)。 然而,通过图像识别技术进行的文档识别可能在识别结果中产生错
误。在这种情况中,用户通过从视觉上对输入的文档中的字符串与识别
结果中的字符串进行比较,来纠正识别结果中的错误。
日本特开平No.5-158605公开了一种基于在数据输入装置中输入的
数据项来限制要输入的数据项的技术,在所述数据输入装置中,用户按
顺序输入这些数据项。
上面描述的相关领域中的技术具有纠正操作的负荷变得更重的问
题。例如,假设在处理因客户而不同或者因交易而不同的大量表格的银
行中执行上面的纠正操作,则这种纠正操作可能耗费许多工时并导致增
加的工作负荷。
实现下面描述的本发明的实施方式以解决上面的问题并减小纠正操 作的负荷。
根据本发明实施方式的图像识别装置防止未确定的逻辑元素(即仍 未确定为正确的逻辑元素)变得更差。
这里将参照附图详细描述本发明的实施方式。现在将描述这些实施 方式中使用的主要术语、根据第一实施方式的图像识别装置的概况、根 据第一实施方式的图像识别装置的结构,以及根据第一实施方式的图像 识别装置中的处理,随后再描述其他实施方式。
第一实施方式
术语的描述
现在将描述本发明的实施方式中使用的主要术语。这些实施方式中 使用的"图像"意指其中字符串被描述为组成特定逻辑结构的多个逻辑 元素的图像。例如,"图像"可以意指表格图像。假设表格图像包括其中 输入"姓名"、"地址"以及"电话号码"作为用户信息的项,和其中输 入"地址"和"电话号码"作为办公信息的项,并且假设字符串被表述 在表格图像中的每个项中。在这种表格图像中,"逻辑结构"意指这样的 结构,在所述结构中,"姓名"、"地址"以及"电话号码"位于"用户信息"下方,"地址"和"电话号码"位于"办公信息"下方,而"用户信 息"位于和"办公信息"相同的层次中。"姓名"、"地址"以及"电话号 码"等对应于组成"逻辑结构"的"逻辑元素"。换言之,例如,"逻辑 结构"被设置为由多个项有意或无意形成的结构,并且当表格图像的格 式的创建者创建该表格图像的格式时,所述多个项被设置为"逻辑元素"。 当图像识别装置处理该表格图像时,该表格图像中由多个项形成的结构 被处理为"逻辑结构",而所述多个项被处理为"逻辑元素"。"图像"并 不限于表格图像,而可以是任何图像,例如问巻图像,只要在字符串被 表述在每个项中即可。
根据第一实施方式的"图像识别装置"识别字符串与逻辑元素之间 的对应关系,以识别这种图像中的每个逻辑元素。例如,"图像识别装置"
通过诸如OCR的图像识别技术识别表格图像中描述的每个字符串。此外, "图像识别装置"通过使用例如逻辑结构模型来识别每个字符串被描述 为哪种逻辑元素。例如,"图像识别装置"通过使用诸如OCR的图像识 别技术来识别被手写为"David Sm他"的字符串"David Sm他",并识别 出字符串"David Smith"被描述为逻辑元素"姓名",以识别表格图像中 的每个逻辑元素。在下面描述的这些实施方式中,这种识别被适当地称 为"逻辑结构识别"或"识别逻辑结构"。
然而,"图像识别装置"并不总是正确地识别字符串与逻辑元素之间 的对应关系,而可能获得错误的识别结果。"图像识别装置"可能错误地 识别表格图像的各个逻辑元素。例如,"图像识别装置"可能将手写地址 "111 llth Avenue East, Suite 11, Seattle, WA"错误地识别为"777 11th Avenue East, Suite 11, Seattle, WA;",或者"图像识别装置"可能将针对 "office (办公)"地址写的地址"111 llth Avenue East, Suite 11, Seattle, WA"错误地识别为"home (家庭)"地址。在这种情况中,执行纠正操 作来纠正识别结果中的任何错误。提供根据第一实施方式的"图像识别 装置"用于减小纠正操作的负荷。
根据第一实施方式的图像识别装置的概况
现在将参照图1描述根据第一实施方式的图像识别装置的概况。图1
8是描述根据第一实施方式的图像识别装置的概况的图。
如上文所述,根据第一实施方式的图像识别装置识别图像中字符串 与多个逻辑元素之间的对应关系,以识别每个逻辑元素从而减小纠正操 作的负荷,在所述图像中,字符串被描述为组成特定逻辑结构的逻辑元 素。
例如,根据第一实施方式的图像识别装置识别图1中上半部分中示 出的表格图像内的每个逻辑元素。具体的是,该图像识别装置识别该表 格图像中字符串与多个逻辑元素之间的对应关系,在所述表格图像中, 作为用户信息的字符串"姓名"、作为办公信息的字符串"地址"和"电 话号码",以及作为用户信息的字符串"地址"和"电话号码"被描述为 逻辑元素。
如图1中下半部分中所示,根据第一实施方式的图像识别装置存储 被表示为图1中树结构的概念的逻辑结构模型,并且基于该逻辑结构模 型来识别逻辑结构。具体的是,图像识别装置存储这样的逻辑结构模型, 所述逻辑结构模型被设置成对应于其中"姓名"、"地址"以及"电话号 码"位于"用户信息"下方,"地址"和"电话号码"位于办公信息的下 方,而"用户信息"位于和"办公信息"相同的层次内的结构。在该逻 辑结构模型中还可设置位置关系,例如其中在"用户信息"下方描述"办 公信息"。
在上面的结构中,当根据第一实施方式的图像识别装置识别表格图 像(参照图1中的(l))的逻辑结构时,该图像识别装置以特定顺序(参
照图1中的(2))将作为识别结果的多个逻辑元素输出到输出单元。例 如,图像识别装置按照下面的顺序将作为用户信息中的"姓名"的"David Smith"、作为用户信息中的"地址"的"llth Avenue East, Suite 11, Seattle, WA"、作为用户信息中的"电话号码"的"888-444-5555",作为办公信 息中的"地址"的"Apple Street,#lll,Seattle,WA",以及作为办公信息中 的"电话号码"的"999-666-7777"输出到输出单元。如从图1中上半部 分中示出的表格图像(应用)的内容可见,图像识别装置错误地颠倒了 用户信息中的"地址"和"电话号码"与办公信息中的"地址"和"电话号码"。
当图像识别装置从确认识别结果的用户处接收到用于确定多个逻辑 元素中的特定逻辑元素正确的确定请求的输入时,图像识别装置确定该 特定逻辑元素是正确的(参照图l中的(3))。例如,当图像识别装置从
用户处接收到确定请求的输入,从而确定用户信息中的"地址"不是"llth Avenue East, Suite 11, Seattle, WA"而是"Apple Street, #111, Seattle, WA"
时,图像识别装置确定该"地址"正确。
然后,图像识别装置确定在确定的特定逻辑元素之前被输出、并且 根据用户的确认(参照图1中的(4))而定位的所有逻辑元素的正确性。 例如,假设用户通常在图1中的(2)示出的输出中从顶至底顺序地逐一 确认这些项。在这种情况中,在确定的逻辑元素(用户信息中的"地址") 之前被输出、并且根据用户的确认而定位的逻辑元素意指定位在用户信 息中的"地址"上方的逻辑元素。用户信息中的"姓名"对应于在确定 的逻辑元素之前输出的逻辑元素,并且对应于根据用户的确认被定位的 逻辑元素。因此,图像识别装置还确定用户信息中的"姓名"是正确的。
根据第一实施方式,用确定的字符串替换图像识别装置中存储的逻 辑结构模型中被确定要纠正的逻辑元素,如图1中的(3)和(4)所示, 并且转换逻辑结构模型本身。
然后,根据第一实施方式的图像识别装置基于针对要纠正的逻辑元 素的确定内容,来重新识别仍未被确定为正确的逻辑元素的逻辑结构。 因此,通过在图像识别装置中以特定顺序输出重新识别结果来给出图1 中的(5)。例如,图像识别装置基于转换的逻辑结构模型来识别字符串 与逻辑元素之间的对应关系。具体来说,图像识别装置重新识别用户信 息中的"电话号码"和办公信息中的"地址"和"电话号码",以获得 "999-666-7777"、 "11th Avenue East, Suite 11, Seattle, WA,"以及 "888-444-5555"作为重新识别的结果。如从图1中(2)的输出和图1 中(5)的输出之间的比较所见,(2)中的输出与(5)中的输出在用户 信息内的"电话号码"和办公信息内的"地址"和"电话号码"方面不 同。换言之,重新识别的结果中反映出确定的内容。
10根据第一实施方式的图像识别装置以上面方式可以减小纠正操作的 负荷。在图1中示出的实施例中通过图像识别装置进行的第一识别的结 果中,错误地识别了用户信息中除了 "姓名"以外的所有信息,并且需 要用户纠正或者确定所有被错误识别的项。然后,当确定用户信息中的 "地址"为正确时,根据第一实施方式的图像识别装置确定不仅用户信 息中的"地址"为正确,而且其中的"姓名"为正确,并且重新识别这 些信息。因此,能够减少用户必须按顺序确定的项的数目。此外,例如, 用户信息中的"地址"和其中的"电话号码"之间的不一致表明用户信 息中的"电话号码"不正确,并且用户信息中的"地址"和办公信息中 的"地址"的不一致表明办公信息不正确。因此,在某些情况中,可以 减少或者甚至消除用户必须按顺序纠正的项的数目。
如上面所描述的,当用户确定或纠正特定逻辑元素时,根据第一实 施方式的图像识别装置参考具有固定的确定逻辑元素的逻辑结构模型, 并立即重新识别逻辑结构以改善其他未确定逻辑元素的识别结果。如果 针对未确定逻辑元素的识别结果的候选数被减小为1,则能够确定该逻辑 元素。因此,因为用户确定或纠正的结果可以被用来确定其他逻辑元素, 所以能够减小用户的纠正操作的负荷。
根据第一实施方式的图像识别装置的结构
现在将参照图2到10描述根据第一实施方式的图像识别装置。图2 是示出根据第一实施方式的图像识别装置的结构的实施例的框图。图3 例示了表格图像。图4是用于描述识别结果显示屏面的图。图5A和5B 是用于描述逻辑结构模型存储部件的图。图6是用于描述识别结果显示 缓冲器的图。图7是用于描述纠错操作的图。图8A到8D是用于描述逻 辑元素的自动确定的图。图9A到9B是用于描述逻辑结构模型存储部件 (转换后)的图。图10A和10B是用于描述纠错操作的图。
参照图2,根据第一实施方式的图像识别装置10包括图像输入单元 11、用户操作输入单元12、显示单元13、第一存储单元20、第二存储单 元25以及控制单元30。
图像输入单元11接收表格图像。具体的是,图像输入单元11接收要通过图像识别装置IO识别的表格图像,并将该表格图像提供给下面描 述的字符串识别器31。例如,可以通过扫描仪实现图像输入单元11,或 者可以通过将另一装置读取的表格图像(图像数据)预先存储在存储器
中并将该表格图像提供给字符串识别器31的功能来实现图像输入单元11。
现在将利用实施例来描述图像输入单元11接收到的表格图像。例如,
图像输入单元11接收图3中示出的表格图像。图3中示出的表格图像具 有这样的逻辑结构,其中"姓名"、"地址"以及"电话号码"被定位于 "用户信息"的下方,"地址"和"电话号码"被定位于"办公信息"的 下方,而"用户信息"被定位在与"办公信息"相同的层次内。图3中 示出的表格图像的逻辑结构指示这样的位置关系,其中在"用户信息" 中的"姓名"下方描述"办公信息"中的"地址"和"电话号码",在所 述"用户信息"下方描述用户信息中的"地址"和"电话号码"。图像识 别装置IO要识别的图像并不限于图3中示出的表格图像,而可以是任何 图像,例如其中为多个问题给出答案的问巻图像,只要字符串被表述在 每个项中即可。图像识别装置IO要识别的图像并不限于其中手写字符串 的图像,例如图3中示出的图像。
回来参照图2,用户操作输入单元12接收用户确认图像识别装置10 的识别结果的操作。具体的是,操作输入单元12接收用于确定多个逻辑 元素中的特定逻辑元素为正确地确定请求的输入,并且将该确定请求提 供给下面描述的第一逻辑元素确定器34。用户操作输入单元12通常由鼠 标和键盘实现。
显示单元13显示图像识别装置10中的识别结果。具体的是,显示 单元13显示由下面描述的识别结果显示缓冲器26中存储的、通过下面 描述的识别结果输出器33输出的识别结果。显示单元13通常通过显示 设备实现。注意,显示单元13对应于权利要求书中描述的"输出器"。
现在将利用实施例来描述显示单元13中显示的识别结果。例如,显 示单元13将图4中右半部分中示出的屏面显示为识别结果显示屏面。在 图4中的左半部分中示出要识别的表格图像,而在图4中的右半部分中示出识别结果。在本实施例中,通过比较图4的左半部分和右半部分, 显然图像识别装置10错误地颠倒了用户信息中的"地址"和"电话号码" 与办公信息中的"地址"和"电话号码"。
返回参照图2,诸如只读存储器(ROM)的第一存储单元20存储控 制单元30执行的各种处理中使用的数据。第一存储单元20包括作为与 第一实施方式紧密相关的组件的字符识别字典存储部件21和逻辑结构模 型存储部件22。
字符识别字典存储部件21存储在通过使用诸如OCR的图像识别技 术的字符串识别中使用的字典。具体的是,字符识别字典存储部件21存 储字符串的识别中使用的字典,并且存储的字典被用于由下面描述的字 符串识别器31进行的处理。
逻辑结构模型存储部件22存储由图像识别装置10用来识别表格图 像的逻辑结构的逻辑结构模型。具体的是,逻辑结构模型存储部件22存 储用于表格图像中的每个逻辑元素的识别的逻辑结构模型。存储的逻辑 结构模型被用于由下面描述的逻辑结构识别器32进行的处理。例如,逻 辑结构模型存储部件22存储这样的逻辑结构模型,其中的逻辑结构与逻 辑元素由用户等使用图像识别装置IO预先适当设计并准备。
现在将利用实施例来描述逻辑结构模型存储部件22中存储的逻辑结 构模型。例如,逻辑结构模型存储部件22存储图5A和5B中示出的逻 辑结构模型。实际上,图5A和5B中示出的逻辑结构模型在概念上可由 实际上存储在第一存储单元20中的如图5A中示出的树结构和如图5B 中示出的表结构来表示。
在图5B中示出的表结构中,在每行中描述每个逻辑元素的类型。从 左开始按顺序描述每个逻辑元素的ID号、逻辑元素的名称、树结构中逻 辑元素的层次、树结构中逻辑元素的父节点的ID号、逻辑元素之间的位 置关系、属性以及数据字符串的内容。例如,位置关系指示项"姓"在 右侧具有包括"ID-6"的项"姓名"。在位置关系中描述逻辑元素之间的 相对位置关系。树结构中具有实体的项具有"节点"属性,而不具有实 体并且为语义相关项的集合的项具有"组"属性。针对每个节点描述字符串应该满足的字符条件。例如,针对"电话号码"定义包括"数字串" 和"_"的字符类型。
返回参照图2,诸如随机访问存储器(RAM)的第二存储单元25存 储在由控制单元30执行的各种处理中使用的数据。如图2中所示,第二 存储单元25包括作为与第一实施方式紧密相关的组件的识别结果显示缓 冲器26。
识别结果显示缓冲器26存储图像识别装置10的识别结果。具体的 是,识别结果显示缓冲器26存储下面描述的字符串识别器31和逻辑结 构识别器32的识别结果。存储的识别结果被用于下面描述的识别结果输 出器33中的处理,并且被显示在显示单元13中。
现在将利用实施例来描述识别结果显示缓冲器26中存储的识别结 果。例如,识别结果显示缓冲器26存储图6中示出的识别结果。在图6 中示出,根据对不同类型逻辑元素的字符串的识别而产生的识别结果(包 括候选识别结果),和指示每个字符串被描述为哪种逻辑元素的识别结果 (包括候选识别结果)。
"用户信息"中"姓名"中的逻辑元素"姓"被识别为字符串"Smith ", 并且不存在其他候选。"用户信息"中"姓名"中的逻辑元素"名"被识 别为第一候选字符串"David"和第二候选字符串"Devid"。针对"用户 信息"中的逻辑元素"地址"识别出第一到第四候选字符串。候选中"777 " 和"111"的识别指示出字符串的识别产生多个候选。候选中"1 lth Avenue East, Suite 11, Seattle, WA"和"Apple Street, #111, Seattle, WA"的识别指 示每个字符串被描述为其逻辑元素的识别产生多个候选。相同的识别操 作也应用于其他逻辑元素。
返回参照图2,控制单元30控制图像识别装置10以执行各种处理。 控制单元30包括作为与第一实施方式紧密相关的组件的字符串识别器 31、逻辑结构识别器32、识别结果输出器33、第一逻辑元素确定器34、 第二逻辑元素确定器35、逻辑结构重新识别控制器36以及逻辑结构模型 转换器37。识别结果输出器33对应于权利要求中描述的"输出装置"; 第一逻辑元素确定器34对应于其中描述的"第一确定装置";第二逻辑
14元素确定器35对应于其中描述的"第二确定装置";并且逻辑结构重新 识别控制器36和逻辑结构模型转换器37对应于其中描述的"重新识别 装置"。
在控制单元30中,字符串识别器31通过诸如OCR的图像识别技术 来识别字符串。具体的是,字符串识别器31通过使用存储在字符识别字 典存储部件21中的字典来识别字符串的字符串和候选(多个候选)在由 图像输入单元11接收到的表格图像中的位置。识别结果被用于由逻辑结 构识别器32进行的处理。
如上面所描述的,在图6中示出的识别结果显示缓冲器的描述中, 例如,表格图像中字符串"David"的作为第一候选"David"和第二候 选"Devid"的识别由字符串识别器31执行。
逻辑结构识别器32识别每个字符串被描述为哪种逻辑元素。具体的 是,逻辑结构识别器32参照逻辑结构模型存储部件22中存储的逻辑结 构模型,以将逻辑结构模型的内容与由字符串识别器31识别的识别结果 相关联。这些识别结果被存储在识别结果显示缓冲器26中,并且被用于 由识别结果输出器33进行的处理。
如上面所述,在图6中示出的识别结果显示缓冲器的描述中,例如, "用户信息"中逻辑元素"地址"的作为第一到第四候选的"777 llth Avenue East, Suite 11, Seattle, WA"、 "111 llth Avenue East, Suite 11, Seattle, WA"、 "777Apple Street, #111, Seattle, WA",以及"111 Apple Street, # 111 , Seattle, WA"的识别由逻辑结构识别器32执行。
识别结果输出器33以特定顺序输出作为识别结果的多个逻辑元素。 具体的是,当作为存储在识别结果显示缓冲器26中的识别结果的逻辑元 素被字符串识别器31和逻辑结构识别器32识别或重新识别时,识别结 果输出器33以特定顺序在显示单元13中显示逻辑元素。
如上面所述,在显示单元13的描述中,识别结果输出器33输出例 如图4中示出的识别结果显示屏面。根据第一实施方式的识别结果输出 器33垂直排列逻辑元素,来显示这些逻辑元素。
当接收到用于确定特定逻辑元素为正确的确定请求的输入时,第一
15逻辑元素确定器34确定多个逻辑元素中的特定逻辑元素为正确。具体的 是,当第一逻辑元素确定器34接收到用户通过用户操作输入单元12输 入的确定请求的输入时,第一逻辑元素确定器34确定接收到的逻辑元素 为正确,并向第二逻辑元素确定器35指示被确定正确的逻辑元素,所述 用户对通过识别结果输出器33显示在显示单元13中的且被存储在识别 结果显示缓冲器26中的识别结果进行确认。
现在将利用实施例来描述第一逻辑元素确定器34进行的确定。例如, 假设图7中示出的识别结果显示屏面通过识别结果输出器33显示在显示 单元13中。还假设已经确认识别结果的用户确定"用户信息"中"地址" 中的字符串"777 llth Avenue East, Suite 11, Seattle, WA"是错误项,并且 希望将该项纠正为"111 Apple Street, #111, Seattle, WA"。当用户使用用户 操作输入单元12 (在本实施例中为鼠标)将指针移动到"777 llth Avenue East, Suite 11, Seattle, WA",并右键点击错误项(参照图7中的(l))以 纠正该错误项时,随后的候选字符串"111 llth Avenue East, Suite 11, Seattle, WA"、 "777 Apple Street, #111, Seattle, WA"以及"111 Apple Street, #111, Seattle, WA"显示在窗口中(参照图7中的(2))。这些随后的候选 是存储在识别结果显示缓冲器26中的识别结果(参照图6)。
接着,当用户使用用户操作输入单元12 (鼠标)左键点击"lll Apple Street, #111, Seattle, WA"时,"111 Apple Street, #111, Seattle, WA"被输入 为针对"地址"的字符串(图7中未示出),并且例如,"确定"图标改 变为词语"已确定"。
第一逻辑元素确定器34在用户点击"确定"图标以清楚地指令进行 指定项的确定时确定所述指定项为正确,而不是在用户纠正错误项时确 定纠正后的项为正确。
返回参照图2,第二逻辑元素确定器35确定在特定逻辑元素之前输 出的所有逻辑元素的正确性。具体的是,当第一逻辑元素确定器34确定 特定逻辑元素为正确时,第二逻辑元素确定器35确定在该特定逻辑元素 之前输出并且根据用户进行的确认定位的所有逻辑元素的正确性,并向 逻辑结构重新识别控制器36指示被确定为正确的逻辑元素。假设用户通常从顶至底按顺序逐一确认图7中示出的识别结果显示
屏面中的项。在这种情况中,在确定的逻辑元素(用户信息中的"地址") 之前被输出的、并且根据用户的确认被定位的逻辑元素指的是定位在用 户信息中的"地址"上方的逻辑元素。用户信息中的"姓名"对应于在 确定的逻辑元素之前输出并根据用户的确认被定位的逻辑元素。因此,
第二逻辑元素确定器35还确定用户信息中的"姓"和"名"正确。换言 之,第二逻辑元素确定器35例如通过对逻辑元素在表(如图6中示出的) 中被描述在哪行进行计数以知道行号,来获取存储在识别结果显示缓冲 器26中的显示顺序,并确定以较早顺序(例如具有小行号)显示的所有 逻辑元素的正确性。
具体的是,第二逻辑元素确定器35将存储在识别结果显示缓冲器26 内的识别结果中由第一逻辑元素确定器34确定的"用户信息"中的逻辑 元素"地址"确定为"111 Apple Street, #111, Seattle, WA",并且例如,向 第二及其后的候选指派禁用标记,以实际删除这些候选。然后,第二逻 辑元素确定器35将"用户信息"中的逻辑元素"姓"确定为"Smith", 并将逻辑元素"名"确定为"David",并且向第二候选"Devid"指派禁 用标记,以实际删除第二候选。例如图8A中示出的信息被存储其中反映 确定的内容的识别结果显示缓冲器26中(有阴影线的逻辑元素指示已确 定的逻辑元素)。
逻辑结构重新识别控制器36基于逻辑元素的确定内容来控制逻辑结 构识别器32和逻辑结构模型转换器37,以重新识别仍未被确定为正确的 逻辑元素的对应关系。具体的是,逻辑结构重新识别控制器36基于通过 第一逻辑元素确定器34和第二逻辑元素确定器35确定为正确的逻辑元 素的确定内容,来控制逻辑结构识别器32和逻辑结构模型转换器37,以 促使逻辑结构识别器32重新识别仍未被确定为正确的逻辑元素与字符串 之间的对应关系。
逻辑结构模型转换器37转换逻辑结构模型。具体的是,逻辑结构模 型转换器37受逻辑结构重新识别控制器36的控制,并且反映了存储在 逻辑结构模型存储部器34和第二逻辑元素确定器35获得的确定内容。逻辑结构模型中的反 映指的是将确定内容描述在逻辑结构模型中,以唯一地确定对应的字符 串。
现在将利用实施例来描述通过逻辑结构模型转换器37转换的逻辑结 构模型。例如,逻辑结构模型存储部件22存储图9A中示出的根据逻辑 结构模型转换器37的转换而产生的逻辑结构模型。如从图5B和图9A 之间的比较所见,逻辑结构模型转换器37分别描述了 "用户信息"中"地 址"、"姓"以及"名"内的"111 Apple Street, #111, Seattle, WA"、 "Smith" 以及"David",以唯一地确定对应字符串。创建其中描述了通过逻辑结 构模型转换器37的转换而获得的已确定内容的逻辑结构模型。
返回参照逻辑结构重新识别控制器36的描述,在促使逻辑结构模型 转换器37转换存储在逻辑结构模型存储部件22中的逻辑结构模型之后, 逻辑结构重新识别控制器36控制逻辑结构识别器32,以执行重新识别。 逻辑结构识别器32参照经受转换并存储在逻辑结构模型存储部件22 'Ii 的逻辑结构模型,并将该逻辑结构模型的内容与字符串识别器31识别出 的识别结果相关联。这些识别结果同样被存储在识别结果显示缓冲器26 中,并被用于通过识别结果输出器33进行的处理。
具体的是,假设获得了通过逻辑结构识别器32进行的识别的结果 (即,存储在图8B中示出的识别结果显示缓冲器26中的识别结果)。换 言之,假设"用户信息"中"地址"的确定将"用户信息"中的"电话 号码"限制为以"999"开始的号码、将"办公信息"中的"地址"限制 为包括"llth Avenue East, Suite 11"的地址,并将"办公信息"中的"电 话号码"限制为以"888"开始的号码。
在上面的情况中,识别结果输出器33在显示单元13中显示图10A 中示出的识别结果显示屏面。在图10A中示出的识别结果显示屏面中, 注意"用户信息"中"姓名"和"地址"右侧的"确定"图标被改变为 词语"己确定",意思是字符串己被确定。假设己经确认了识别结果的用 户确定"用户信息"中"电话号码"中的"999-666-7777"为错误项,并 且此时希望将该项纠正为"999-666-1111"。当用户使用用户操作输入单
18元12 (鼠标)将指针移动到"999-666-7777"上,并右键点击该错误项 以纠正该错误项时,随后的候选字符串"999-666-llll"被显示在窗口中。 接着,当用户使用用户操作输入单元12(鼠标)左键点击"999-666-1111" 时,"999-666-1111"被输入为针对"电话号码"的字符串,并且"用户 信息"中"电话号码"右侧的"确定"图标被改变为词语"己确定",如 图10B中所示出。
此时,第二逻辑元素确定器35将存储在识别结果显示缓冲器26内 的识别结果中的由第一逻辑元素确定器34确定的"用户信息"中的逻辑 元素"电话号码"确定为"999-666-1111",并且向第二候选指派禁用标 记,以实际删除该候选(参照图8C)。
然后,逻辑结构重新识别控制器36促使逻辑结构模型转换器37转 换存储在逻辑结构模型存储部件22中的逻辑结构模型(参照图9B),并 控制逻辑结构识别器32,以执行重新识别。然而,在这种情况中,识别 结果未被改变(参照图8D),并且识别结果输出器33保持图10B中示出 的识别结果显示屏面的显示。
根据第一实施方式的图像识别装置执行的处理
现在将参照图11描述根据第一实施方式的图像识别装置执行的处 理。图11是示出根据第一实施方式的图像识别装置执行的处理的实施例 的流程图。
参照图ll,在步骤S101中,图像识别装置10中的字符串识别器31 确定是否从图像输入单元11接收到表格图像的输入。如果接收到表格图 像的输入(步骤SIOI中的确定为肯定的),则在步骤S102中,字符串识 别器31识别字符串并将识别结果提供给逻辑结构识别器32。
在步骤S103中,逻辑结构识别器32参照存储在逻辑结构模型存储 部件22中的逻辑结构模型,并将逻辑结构模型的内容与字符串识别器31 识别的识别结果相关联。逻辑结构识别器32将识别结果提供给识别结果 输出器33。
在步骤S104处,识别结果输出器33以特定顺序在显示单元13中显 示作为识别结果的逻辑元素。在步骤S105中,第一逻辑元素确定器34确定是否按下所有项确定 按钮,例如图4中示出的识别结果显示屏面的右半部分中底部处的"确 定"图标。如果按下了所有项确定按钮(步骤S105中的确定为肯定的), 则处理终止。
如果未按下所有项确定按钮(步骤S105中的确定为否定的),则在 步骤S106中,第一逻辑元素确定器34确定是否执行纠错操作。如果执 行纠错操作(步骤S106中的确定为肯定),则在步骤S107中,第一逻辑 元素确定器34确定针对其执行纠错操作的特定逻辑元素的正确性,并向 第二逻辑元素确定器35指示被确定为正确的逻辑元素。如果纠错操作未 被执行(步骤S106中的确定为否定),则在步骤S108中,第一逻辑元素 确定器34确定是否按下指定项确定按钮,例如图4中示出的识别结果显 示屏面的右半部分中每个项右侧的"确定"图标。如果按下指定项确定 按钮(步骤S108中的确定为肯定),则在步骤S109中,第一逻辑元素确 定器34确定已确定指定项的逻辑元素为正确,并向第二逻辑元素确定器 35指示被确定为正确的逻辑元素。
当特定逻辑元素被第一逻辑元素确定器34确定为正确(步骤107和 109)时,第二逻辑元素确定器35在步骤S110中获取存储在识别结果显 示缓冲器26中的显示顺序,并获取已确定项的顺序。在歩骤Slll中, 第二逻辑元素确定器35确定在已确定项的逻辑元素之前输出并且根据用 户进行的确认来定位的所有逻辑元素的正确性,并向逻辑结构重新识别 控制器36指示被确定为正确的逻辑元素。
在步骤S112中,逻辑结构重新识别控制器36确定是否确定了所有 项,例如,用户是否按下所有项确定按钮。如果未确定所有项(步骤S112 中的确定为否定),则逻辑结构重新识别控制器36促使逻辑结构模型转 换器37转换逻辑结构模型存储部件22中存储的逻辑结构模型,然后, 在步骤S113中,逻辑结构重新识别控制器36控制逻辑结构识别器32, 以执行重新识别。此时,逻辑结构识别器32参照经受转换的逻辑结构模 型,以将该逻辑结构模型的内容与字符串识别器31识别的识别结果相关 联。然后,处理返回到步骤S104。
20根据第一实施方式的另一识别结果显示屏面
尽管在上面的第一实施方式中描述了图4中示出的识别结果显示屏 面,但是识别结果显示屏面并不限于图4中所示出的识别结果显示屏面。 例如,可以采用图12中示出的识别结果显示屏面。如上面所描述的,第 二逻辑元素确定器35确定在特定逻辑元素之前输出并且根据用户进行的 确认来定位的所有逻辑元素的正确性。现在将进一步描述"在特定逻辑 元素之前根据用户进行的确认定位的顺序"的含义。
例如,在图12中的下部中示出的识别结果显示屏面中,假设用户通 常在顶行以从左到右的顺序逐一确认该行中的项,直到该行的右端处的 项。当确认了顶行的右端处的最后项时,用户通常向下到底行,并在该 行以从左到右的顺序注逐一确认这些项,直到该行的右端处的项。因为 这里的"确认"并未伴随有用户进行的任何操作,所以该确认的顺序可 以是任意的。然而,可以根据画面的操作模式或设计预先假定确认的顺 序。根据这种观点,根据第一实施方式的图像识别装置假定"在特定逻 辑元素之前根据用户进行的确认定位的顺序",并且例如,当识别结果被 存储在通过用户使用图像识别装置预先设置的识别结果显示缓冲器中 时,设置ID的升序。此外,根据这种观点,在用户确定特定逻辑元素之 后,在该特定逻辑元素之前输出并且根据用户进行的确认定位的所有逻 辑元素可以被认为是己确定。
在图12中示出的识别结果显示屏面中,当已确定逻辑元素为办公"地 址"时,第二逻辑元素确定器35认为用户信息中的"姓名"、"地址"以 及"电话号码"是在该办公"地址"之前输出并根据用户进行的确认定 位的逻辑元素,并确定这些逻辑元素正确。
如上面所描述的,根据本发明的第一实施方式,能够减小纠正操作 的负荷。具体的是,根据第一实施方式的图像识别装置参照具有通过选 定用户确定或纠正的逻辑元素的逻辑结构模型,以改善其他未确定逻辑 元素的识别结果。如果针对未确定逻辑元素的识别结果的候选数被降低 为l,则能够确定该逻辑元素。因此,由于用户确定或纠正的结果可以被 用来确定其他逻辑元素,因此能够减少用户进行纠正操作的负荷。
2此外,根据本发明的第一实施方式,在确定特定逻辑元素之后,自 动确定位于已确定逻辑元素之前的逻辑元素。因此,能够自动确定大量 未确定的逻辑元素,由此进一步减小了用户进行纠正操作的负荷。
此外,本发明的第一实施方式在识别具有未知格式的表格图像以记 录每个项的字符串数据时非常有效,并且有助于改善使用表格图像进行 的数据输入操作的效率。因此,能够便于在纸质表格与计算机化数据之 间进行交换,并改善使用纸质表格进行操作的效率。
第二实施方式
在本发明的第一实施方式中描述了,当图像识别装置重新识别表格 图像时,立即在识别结果显示屏面中反映重新识别结果的方法。然而, 替代立即在识别结果显示屏面中反映重新识别结果的方法,可以采用显 示如下信息的显示方法,所述信息指示出重新识别结果与当前在输出单 元中显示的识别结果不同。这种方法被描述为本发明的第二实施方式。
根据第二实施方式的图像识别装置的概况
现在将参照图13A和13B描述根据第二实施方式的图像识别装置的 概况和特征。图13A和13B是描述根据第二实施方式的图像识别装置的 概况的图。
通过该图像识别装置进行的表格图像的重新识别可以改善未确定逻 辑元素的识别结果。换言之,从用户观点来看, 一个项的纠正会自动纠 正其他项的识别结果。例如,假设显示的多个逻辑元素包括一个错误项。 在这种情况中,自然考虑通过用户对一个错误项进行纠正而使所有识别 结果都正确。然而,当在用户纠正错误项之后执行重新识别时,正确显 示的未确定正确项可能被变为错误项。尽管重新识别通常可以改善识别 结果,但是不能否认使正确结果变坏的可能性。换言之,未确定逻辑元 素的自动改变可能减小针对用户的可用性。
为了解决上面的问题,如图13A和13B中所示出的,当在错误项被 纠正之后执行的重新识别导致针对未确定逻辑元素的第一候选的识别结 果的改变时,根据第二实施方式的图像识别装置并不简单地改变该项的 字符串,而是高亮显示被改变的识别结果。具体的是,当在用户信息中的错误项"地址"如图13A中所示出, 从"777 llth Avenue East, Suite 11, Seattle, WA"改变为"111 Apple Street, #111, Seattle, WA"之后执行重新识别,以改变针对用户信息中"电话号 码"(所述"电话号码"为从"888-444-5555"到"999-666-7777"的未确
定逻辑元素)的第一候选的识别结果时,如图13B中所示出,图像识别 装置高亮显示被改变的识别结果,而不是简单地改变这些项的字符串。 由于使用户充分关注对高亮显示项的确认,所以可以期待减小操作负荷。 根据第二实施方式的图像识别装置的结构
现在将参照图14描述根据第二实施方式的图像识别装置的结构。图 14是示出根据第二实施方式的图像识别装置的结构的实施例的框图。
在图14中示出的框图中,用粗线环绕的组件被添加到根据第--实施 方式的图像识别装置的组件中。具体的是,除根据第一实施方式的图像 识别装置中的组件之外,根据第二实施方式的图像识别装置IO还包括控 制单元30中的重新识别结果缓冲器存储部件38和第二存储单元25中的 重新识别结果缓冲器27。
重新识别结果缓冲器存储部件38存储重新识别结果缓冲器27中的 重新识别结果。重新识别结果缓冲器27是具有与重新识别结果显示缓冲 器26类似的结构的存储器区。例如,图15B中示出的信息被存储在重新 识别结果缓冲器27中。
当输出重新识别的结果时,识别结果输出器33针对每个逻辑元素, 将通过重新识别结果缓冲器存储部件38存储在重新识别结果缓冲器27 中的重新识别结果(参照图15B)与当前在显示单元13中显示的识别结 果(参照图15A)进行比较。如果存储在重新识别结果缓冲器27中的逻 辑元素的重新识别结果与当前在显示单元13中显示的识别结果不--致, 则识别结果输出器33高亮显示存储在重新识别结果缓冲器27中的重新 识别结果,以指示重新识别的结果与当前在显示单元13中显示的识别结 果不同。
根据第二实施方式的图像识别装置执行的处理
现在将参照图16描述根据第二实施方式的图像识别装置执行的处理。图16是示出根据第二实施方式的图像识别装置执行的处理的实施例
的流程图。
如从图11和图16之间的比较所见,根据第二实施方式的图像识别 装置执行的处理与根据第一实施方式的图像识别装置执行的处理的不同 之处仅在于增加了步骤S214。
具体的是,在根据第二实施方式的图像识别装置中,在步骤S212中, 逻辑结构重新识别控制器36确定是否确定了所有项。如果未确定所有项 (步骤S212中的确定为否定),则逻辑结构重新识别控制器36促使逻辑 结构模型转换器37转换逻辑结构模型存储部件22中存储的逻辑结构模 型,然后,在步骤S213中,逻辑结构重新识别控制器36控制逻辑结构 识别器32,以执行重新识别。在步骤S214中,重新识别结果缓冲器存储 部件38将重新识别的结果存储在重新识别结果缓冲器27中。
然后,在步骤S204中,识别结果输出器33针对每个逻辑元素,将 存储在重新识别结果缓冲器27中的重新识别结果与存储在识别结果显示 缓冲器26中的识别结果进行比较。如果存储在重新识别结果缓冲器27 中的逻辑元素的重新识别结果与存储在识别结果显示缓冲器26中的识别 结果不一致,则识别结果输出器33高亮显示存储在重新识别结果缓冲器 27中的重新识别结果,以指示该重新识别的结果与当前在显示单元13中 显示的识别结果不同。
根据第二实施方式的另一识别结果显示屏面
尽管上面参照图13A和13B描述的识别结果显示屏面被假设为第二 实施方式中的识别结果显示屏面,但是识别结果显示屏面并不限于上面 参照图13A和13B描述的识别结果显示屏面。例如,可以采用参照图17A 和17B描述的识别结果显示屏面。具体的是,如图17A和17B中所示出, 图像识别装置反映针对如下字符串的候选中的重新识别结果,即当即使 在纠正错误项之后也在不改变未确定逻辑元素的显示的情况下选择未确 定逻辑元素时显示的所述字符串。
例如,当在用户信息中的错误项"地址"从"777 llth Avenue East, Suite 11, Seattle, WA"改变为如图17A中所示出的"111 Apple Street, #111,Seattle, WA"之后执行重新识别,以将针对用户信息中的未确定逻辑元素 "电话号码"的第一候选的识别结果从"888-444-5555 "改变为 "999-666-7777"时,图像识别装置并不立即改变用户信息中"电话号码" 的输出。图像识别装置保持"888-444-5555"的显示,并反映针对在选择 用户信息中的未确定逻辑元素"电话号码"时显示的字符串的候选屮的 重新识别的结果("999-666-7777")(参照图17B)。
在这种情况中,即使在执行重新识别之后,重新识别的结果也不被 立即存储到识别结果显示缓冲器26中,并且不显示在显示单元13中; 换言之,重新识别的结果未被呈现给用户。当用户选择一项以纠正该项 的识别结果时,该项的纠正被指示给识别结果输出器33,在所述识别结 果输出器33中仅将用户选择的项从重新识别结果缓冲器27复制到识别 结果显示缓冲器26。按照上面的方式,仅呈现用户选择要进行纠错的项 的重新识别的结果。
如上面所述,根据本发明的第二实施方式,能够防止未确定逻辑元 素(未被确定为正确的逻辑元素)变得更差。
第三实施方式
在第二实施方式中描述了一种方法,其中当图像识别装置从用户接 收到用于确定特定逻辑元素的确定请求的输入时,图像识别装置确定在 特定逻辑元素之前输出的所有逻辑元素为正确的,以执行重新识别并将 重新识别的结果临时存储在缓冲器中。然而,"将重新识别的结果临时存 储在缓冲器中"的方法也可应用于其中图像识别装置在分别确定逻辑元 素时执行重新识别的情况。
换言之,只要使用"将重新识别的结果临时存储在缓冲器中"的方 法就具有如下优点减小了用户进行纠正操作的负荷,并且防止了未确 定逻辑元素变得更差。因此,不论图像识别装置是分别确定逻辑元素, 还是自动确定位于特定逻辑元素之前的所有逻辑元素,都可以采用这种 方法。
根据第三实施方式的图像识别装置的概况
现在将参照图18A和18B以及19A和19B来描述根据本发明第三实
25施方式的图像识别装置的概况和特征。图18A和18B是用于描述根据第 三实施方式的图像识别装置的概况和特征的图。图19A和19B是用于描 述识别结果显示缓冲器和重新识别结果缓冲器的图。
例如,根据第三实施方式的图像识别装置在显示单元13中显示图 18A和18B中示出的识别结果显示屏面。在图18A中示出的识别结果显 示屏面中,假设已经确认识别结果的用户确定针对用户信息中的"地址" 的字符串"777 llth Avenue East, Suite 11, Seattle, WA"为错误项,并将该 项纠正为"111 Apple Street, #111, Seattle, WA"。图18B示出根据该纠正 产生的识别结果显示屏面。注意,"确定"图标被保持显示在"用户信息" 中的"姓名"的右侧并且未被改变为词语"已确定"。
换言之,即使当根据第三实施方式的图像识别装置接收用于确定特 定逻辑元素为正确(用户信息中的"地址")的确定请求的输入时,该图 像识别装置也并不确定在特定逻辑元素之前根据通过用户的确认的定位 顺序输出的逻辑元素(用户信息中的"姓名")的正确性,而是,该图像 识别装置将该逻辑元素作为未确定的逻辑元素来处理。
还要注意,在图18B中高亮显示用户信息中的"电话号码"和办公 信息中的"地址"和"电话号码"。
当用户信息中的"地址"从"777 llth Avenue East, Suite 11, Seattle, WA"改变为"111 Apple Street, #111, Seattle, WA"之后,执行重新识别时, 根据第三实施方式的图像识别装置并不高亮显示其识别结果未被改变的 未确定逻辑元素(用户信息中的"姓名")。替代的是,根据第三实施方 式的图像识别装置高亮显示其识别结果被改变的未确定逻辑元素(用户 信息中的"电话号码"和办公信息中的"地址"和"电话号码")。
现在将参照图19A和19B来描述此时的识别结果显示缓冲器26和 重新识别结果缓冲器27。图19A示出用户己经确定用户信息中的"地址" 之后,用户信息中的"地址"被重新识别之前的识别结果显示缓冲器26。 在图19A中示出的识别结果显示缓冲器26中,用户信息中的"姓"和"名" 并未被识别为已确定逻辑元素。图19B示出用户已经确定用户信息中的 "地址"并且已经执行重新识别之后的重新识别结果缓冲器27。在图19B
26中示出的重新识别结果缓冲器27中,仅高亮显示其第一候选与图19A中 的识别结果显示缓冲器26中的第一候选不同的逻辑元素(仅用户信息中 的"电话号码"和办公信息中的"地址"与"电话号码")。 根据第三实施方式的图像识别装置执行的处理
现在将参照图20来描述根据第三实施方式的图像识别装置执行的处 理。图20是示出根据第三实施方式的图像识别装置执行的处理的实施例 的流程图。
如从图16和图20之间的比较所见,根据第三实施方式的图像识别
装置执行的处理与根据第二实施方式的图像识别装置执行的处理的不同 之处仅在于,因为不需要第二逻辑元素确定器35,所以删除了图16中的 步骤S210和S211。
具体的是,在根据第三实施方式的图像识别装置中,在步骤S305中, 第一逻辑元素确定器34确定是否按下所有项确定按钮。如果未按下所有 项确定按钮(步骤S305中的确定为否定),则在步骤S306中,第一逻辑 元素确定器34确定是否执行纠错操作。如果执行纠错操作(步骤S306 中的确定为肯定),则在步骤S307中,第一逻辑元素确定器34确定针对 其执行纠错操作的特定逻辑元素的正确性,并向逻辑结构重新识别控制 器36指示被确定为正确的逻辑元素。
如果不执行纠错操作(步骤S306中的确定为否定),则在步骤S308 中,第一逻辑元素确定器34确定是否按下指定项确定按钮。如果按下了 指定项确定按钮(步骤S308中的确定为肯定),则在步骤S309中,第一 逻辑元素确定器34确定已确定指定项的逻辑元素为正确,并向逻辑结构 重新识别控制器36指示被确定为正确的逻辑元素。
在步骤S310中,逻辑结构重新识别控制器36确定是否确定了所有 项。如果未确定所有项(步骤S310中的确定为否定),则逻辑结构重新 识别控制器36促使逻辑结构模型转换器37转换逻辑结构模型存储部件 22中存储的逻辑结构模型,然后,在步骤S311中,逻辑结构重新识别控 制器36控制逻辑结构识别器32,以执行重新识别。在步骤S312中,重 新识别结果缓冲器存储部件38将重新识别的结果存储在重新识别结果缓冲器27中。
然后,在步骤S304中,识别结果输出器33针对每个逻辑元素,将 存储在重新识别结果缓冲器27中的重新识别结果与存储在识别结果显示 缓冲器26中的识别结果进行比较。如果存储在重新识别结果缓冲器27 中的逻辑元素的重新识别结果与存储在识别结果显示缓冲器26中的识别 结果不一致,则识别结果输出器33高亮显示存储在重新识别结果缓冲器 27中的重新识别结果,以指示该重新识别的结果与当前在显示单元13中 显示的识别结果不同。
根据第三实施方式的另一识别结果显示屏面
尽管上面参照图18A和18B描述的识别结果显示屏面被假设为第三 实施方式中的识别结果显示屏面,但是识别结果显示屏面并不限于上面 参照图18A和18B描述的识别结果显示屏面。例如,可以釆用参照图21A 和21B描述的识别结果显示屏面。具体的是,如图21A和21B中所示, 图像识别装置反映如下字符串的候选中的重新识别结果,即当即使在纠 正错误项之后也在不改变未确定逻辑元素的显示的情况下选择未确定逻 辑元素时显示的所述字符串。
还是在这种情况下,如图21B中所示,注意,"确定"图标在"用户 信息"中的"姓名"右侧被保持显示,并且未被改变为词语"已确定"。
如上面所述,根据本发明的第三实施方式,能够减小纠正操作的负 荷。具体的是,根据第三实施方式的图像识别装置参照具有通过选定用 户确定或纠正的逻辑元素的逻辑结构模型,以改善其他未确定逻辑元素 的识别结果。如果针对未确定逻辑元素的识别结果的候选数被降为1,则 能够确定该逻辑元素。因此,由于用户确定或纠正的结果可以被用来确 定其他逻辑元素,所以能够减少用户纠正操作的负荷。
此外,本发明的第三实施方式在识别具有未知格式的表格图像,以 针对每个项记录字符串数据的情况中非常有效,并且有助于改善使用表 格图像进行的数据输入操作的效率。因此,能够便于在纸质表格和计算 机化数据之间进行交换,并改善使用纸质表格进行操作的效率。
此外,根据本发明的第三实施方式,能够防止未确定的逻辑元素(即未被确定为正确的逻辑元素)变得更差。 第四实施方式
可以通过不同于上面描述的实施方式的各种实施方式来实施本发明。
尽管在上面的实施方式中,图像识别装置包括逻辑结构重新识别控 制器,并控制逻辑结构识别器,以在促使逻辑结构模型转换器转换逻辑 结构模型之后执行重新识别,但是本发明并不限于上面的方法。可以采 用任何基于已确定逻辑元素的确定内容来重新识别未确定逻辑元素的逻 辑结构的方法。
在上面的实施方式中描述的处理中,可手动执行被描述为自动执行 的处理的全部或者一部分,并且可自动执行被描述为手动执行的处理的 全部或者一部分。此外,如果未另作说明,则在上述描述中示出的处理
(图11、 16以及20)、控制处理、指定的姓名、包括各种数据和参数的 信息以及附图可以任意变化。
在附图中示出的装置中的组件为功能概念,并且可以不必如图(例 如图2和图14)中所示地被物理构建。具体的是,每个装置的分布和集 成的特定模式并不限于图中示出的模式。根据各种负荷和使用,可以将 所有或一些特定模式在功能上或物理上分布或集成在任意单元中。此外, 每个装置中执行的处理和功能的全部或者一部分可以通过每个装置的中 央处理单元(CPU)和由该CPU分析并执行的程序来实现,或者可以通 过硬布线逻辑来实现。
上述实施方式中描述的各种处理可以通过执行预先准备的程序的计 算机(例如个人计算机或工作站)来实现。现在将参照图22来描述执行 具有类似于根据第一实施方式的功能的图像识别程序的计算机的实施 例。图22是示出执行图像识别程序的计算机的结构的实施例的框图。
参照图22,图像识别装置(计算机)40包括通过总线46相互连接 的高速缓存存储器41、 RAM 42、硬盘驱动器(HDD)、 ROM 44以及CPU 45。具有类似于根据第一实施方式的功能的图像识别程序被预先存储在 ROM 44中。具体的是,如图22中所示出,字符串识别程序44a、逻辑结构识别程序44b、识别结果输出程序44c、第一逻辑元素确定程序44d、 第二逻辑元素确定程序44e、逻辑结构重新识别控制程序44f以及逻辑结 构模型转换程序44g被存储在ROM 44中。
如图22中所示,CPU 45读取并执行从字符串识别程序44a到逻辑 结构模型转换程序44g的程序,以执行字符串识别处理45a、逻辑结构识 别处理45b、识别结果输出处理45c、第一逻辑元素确定处理45d、第二 逻辑元素确定处理45e、逻辑结构重新识别控制处理45f以及逻辑结构模 型转换处理45g。从字符串识别处理45a到逻辑结构模型转换程序44g的 处理分别对应于如图2中所示出的字符串识别器31、逻辑结构识别器32、 识别结果输出器33、第一逻辑元素确定器34、第二逻辑元素确定器35、 逻辑结构重新识别控制器36,以及逻辑结构模型转换器37。
如图22中所示,HDD 43包括字符识别字典表43a和逻辑结构模型 表43b。字符识别字典表43a和逻辑结构模型表43b分别对应于图2中示 出的字符识别字典存储部件21和逻辑结构模型存储部件22。如图22中 所示,RAM42包括识别结果显示缓冲器42a。
从字符串识别程序44a到逻辑结构模型转换程序44g的程序可以不 必存储在ROM44中。例如,这些程序可以被存储在计算机40中装载的
"便携式物理介质"(诸如软盘(FD)、光盘只读存储器(CD-ROMA)、 磁光(MO)盘、数字化光盘(DVD),或集成电路(IC)卡)、"固定的 物理介质"(诸如设置在计算机40内部或外部的HDD)、或者通过公共 电路、因特网、局域网(LAN)或广域网(WAN)连接到计算机40的"另 一计算机(或服务器)"中。在这种情况中,计算机40读取并执行来自
"便携式物理介质"、"固定的物理介质"或"另一计算机(或服务器)" 的程序。
本申请基于并要求2007年10月31日递交的在先日本专利申请 NO.2007-284294的优先权,这里通过引用并入该申请的全部内容。
权利要求
1、一种图像识别装置,所述图像识别装置对图像中的字符串与组成逻辑结构的多个逻辑元素之间的对应关系进行识别以识别每个逻辑元素,在所述图像中,所述字符串被描述为所述多个逻辑元素,所述图像识别装置包括输出装置,其用于在识别或重新识别所述对应关系时,输出所识别出的多个逻辑元素;第一确定装置,其用于在从识别出所述输出装置输出的所述识别结果的用户接收到用于确定所述逻辑元素的确定请求的输入时,确定所述多个逻辑元素中的特定逻辑元素的正确性;第二确定装置,其用于确定在通过所述第一确定装置确定的所述逻辑元素之前输出的并根据所述用户进行的确认而定位的所有所述逻辑元素的正确性;以及重新识别装置,其用于基于所述第一确定装置和所述第二确定装置确定为正确的每个逻辑元素的确定内容,来重新识别仍未被确定为正确的逻辑元素和所述字符串之间的对应关系。
2、 根据权利要求1所述的图像识别装置,所述图像识别装置还包括 存储装置,其用于存储由所述重新识别装置识别的识别结果, 其中,当所述重新识别装置输出所述重新识别结果时,所述输出装置针对每个逻辑元素,将所述存储装置存储的识别结果与当前显示的识 别结果进行比较,并针对其中所述存储装置存储的识别结果与当前显示 的识别结果不一致的逻辑元素,输出用于指示所述重新识别装置的重新 识别结果与当前显示的识别结果不一致的信息。
3、 一种图像识别方法,所述图像识别方法对图像中的字符串与组成 逻辑结构的多个逻辑元素之间的对应关系进行识别以识别每个逻辑元 素,在所述图像中,所述字符串被描述为所述多个逻辑元素,所述图像 识别方法包括以下步骤输出步骤,其在识别或重新识别所述对应关系时,输出所识别出的多个逻辑元素;第一确定步骤,其在从识别出所述输出步骤输出的所述识别结果的 用户接收到用于确定所述逻辑元素的确定请求的输入时,确定所述多个 逻辑元素中的特定逻辑元素为正确的;第二确定步骤,其确定在所述第一确定步骤确定的所述逻辑元素之 前输出的并根据所述用户进行的确认而定位的所有所述逻辑元素的正确 性;以及重新识别步骤,其基于所述第一确定步骤和所述第二确定步骤确定 为正确的每个逻辑元素的确定内容,来重新识别仍未被确定为正确的逻 辑元素与所述字符串之间的对应关系。
4、 根据权利要求3所述的图像识别方法,所述图像识别方法还包括以下步骤存储步骤,其存储通过所述重新识别步骤识别的识别结果, 其中,当输出所述重新识别步骤的重新识别结果时,所述输出步骤 针对每个逻辑元素,将所述存储步骤存储的识别结果与当前显示的识别 结果进行比较,并针对其中所述存储步骤存储的识别结果与当前显示的 识别结果不一致的逻辑元素,输出用于指示所述重新识别步骤的重新识 别结果与当前显示的识别结果不一致的信息。
5、 一种记录有图像识别程序的记录介质,所述图像识别程序使计算 机执行对图像中的字符串与组成逻辑结构的多个逻辑元素之间的对应关 系进行识别以识别每个逻辑元素的方法,在所述图像中,所述字符串被 描述为所述多个逻辑元素,所述图像识别方法包括以步骤当识别或重新识别所述对应关系时,输出所识别出的多个逻辑元素; 第一确定步骤,其在从识别出所述输出步骤输出的识别结果的用户接收到用于确定所述逻辑元素的确定请求的输入时,确定所述多个逻辑元素中的特定逻辑元素的正确性;第二确定步骤,其确定在所述第一确定步骤确定的所述逻辑元素之前输出的并根据所述用户进行的确认而定位的所有所述逻辑元素的正确性;以及重新识别步骤,其基于所述第一确定步骤和所述第二确定步骤确定 为正确的每个逻辑元素的确定内容,来重新识别仍未被确定为正确的逻 辑元素与所述字符串之间的对应关系。
6、根据权利要求5所述的记录有图像识别程序的记录介质,所述图像识别程序还包括以下步骤存储步骤,其存储所述重新识别步骤识别出的识别结果, 其中,当输出所述重新识别步骤的重新识别结果时,所述输出步骤 针对每个逻辑元素,将所述存储步骤存储的识别结果与当前显示的识别 结果进行比较,并针对所述存储步骤存储的识别结果与当前显示的识别 结果不一致的逻辑元素,输出用于指示所述重新识别步骤的重新识别结 果与当前显示的识别结果不一致的信息。
全文摘要
本发明提供图像识别装置和方法及记录图像识别程序的存储介质。图像识别装置对其中字符串被描述为逻辑元素的图像中的字符串与组成逻辑结构的逻辑元素之间的对应关系进行识别以识别每个逻辑元素。该图像识别装置包括输出装置,用于在识别或重新识别所述对应关系时,输出所识别的逻辑元素;第一确定装置,用于在从用户接收到用于确定所述逻辑元素的确定请求的输入时,确定特定逻辑元素为正确;第二确定装置,用于确定在第一确定装置确定的所述逻辑元素之前输出的并根据用户的确认而定位的所有逻辑元素的正确性;以及重新识别装置,用于基于每个逻辑元素的确定内容,来重新识别仍未被确定为正确的逻辑元素与字符串之间的对应关系。
文档编号G06K9/00GK101425132SQ20081017068
公开日2009年5月6日 申请日期2008年10月30日 优先权日2007年10月31日
发明者堀田悦伸, 小泽宪秋, 武部浩明, 深沢克夫, 渡边起一郎, 田中宏, 皆川明洋, 稻见真树, 藤井勇作, 藤本克仁 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1