用于处理照相机捕捉的文档图像的方法和装置的制作方法

文档序号:7948606阅读:191来源:国知局
专利名称:用于处理照相机捕捉的文档图像的方法和装置的制作方法
技术领域
本发明涉及用于识别照相机捕捉的文档图像上的字符以及存储所识别字符的方法和装置。特别地,本发明涉及用于识别由具有内置或外置照相机的移动照相电话捕捉的名片图像上的字符,并且自动将所识别的字符存储在如电话号簿数据库的预定表格的相应字段中的方法和装置。
背景技术
光学字符识别(OCR)系统或基于扫描仪的字符识别系统被广泛地用于识别文档图像上的字符。然而,因为这些系统是用于识别文档图像上字符的专用系统,所以需要大量应用软件和硬件资源来处理和识别文档图像。因此,很难简单地将使用在OCR系统或基于扫描仪的识别系统的字符识别方法应用到具有有限的处理能力和存储器的装置。可以设计移动照相电话来识别字符。也就是说,使用所述照相电话给小的名片照相,识别所捕捉的图像上的字符,并且自动将所识别的字符存储在电话号码数据库。然而,因为移动照相电话具有有限的处理器和存储器,所以很难准确地处理图像以及识别在所述图像上的字符。
详细地描述一种使用移动照相电话识别名片的方法,首先由移动照相电话的照相机捕捉名片图像,使用字符识别算法按字段识别在所捕捉的名片图像上的字符。所识别的字符按如姓名、电话号码、电子邮件地址等字段被显示。然后,改正和修改按字段显示的字符。改正和修改的字符存储在电话号码数据库的预定表格中。
然而,当没有准确地调整名片图像的焦点或者没有正确放置所述名片图像时,识别率被降低。尤其地,当所述照相机不具备自动聚焦功能或扭转时,所述名片图像的聚焦和正确放置必须由使用者的眼睛来确定。这很难照出能用于正确识别的清楚的名片图像。
通常,当使用者从顾客、朋友等处收到名片时,使用者打开他/她的移动电话的电话号码编辑器,并且使用移动电话的按键自己输入名片上的信息。这对于使用者而言非常麻烦。因此,开发了具有字符识别功能的移动照相电话以给名片照相,并且自动将名片上的信息存储在电话号码数据库。也就是说,移动照相电话的内置或外置照相机捕捉文档/名片图像,并且根据字符识别算法识别在所捕捉的图像上的字符。所识别的字符被自动地存储在电话号码数据库中。
然而,当照相机或扫描仪所捕捉的图像上存在相当多数量的字符时,因为移动电话具有有限的处理和存储器资源,所以即使当识别过程被优化时,也需要相当长的处理时间。此外,当所述字符由多种语言组成时,相对于其由一种语言组成时,识别率变差。
图1为具有字符识别功能的现有的移动电话的示意性结构图。
移动电话包括控制单元5、按键1、显示单元3、存储器单元9、音频转换单元7c、照相机模块单元7b以及无线电电路单元7a。
所述控制单元5处理由照相机模块单元7b读取的文档(名片)图像的数据,输出所处理的数据到显示单元3,处理使用者输入的对显示数据的编辑命令,并且将使用者编辑的数据存储在存储器单元9。所述按键1作为移动电话的选择和操作功能的使用者接口。所述显示单元3显示多种菜单屏幕、运行屏幕和结果屏幕。所述显示单元3进一步显示如文档图像数据屏幕、数据编辑屏幕和编辑数据存储屏幕的接口屏幕,以使使用者编辑数据并且存储所编辑的数据。所述存储器单元9通常包括闪存、随机存取存储器、只读存储器。所述存储器9存储用于处理移动电话的实时操作系统和软件,以及所述软件和操作系统的参数和状态信息,并且依照控制单元5的命令执行数据输入/输出。特别地,存储单元9存储有电话号码数据库,在其中对应于所识别字符的信息通过映射过程存储。
所述音频转换单元7c处理使用者通过麦克风输入的声音信号,并且将处理过的信号传输到控制单元5或通过扬声器输出处理过的信号。所述照相机模块单元7b处理照相机捕捉的名片图像的数据,并且将处理过的数据传输到控制单元5。所述照相机可以内置或外置于移动电话。所述照相机是数字照相机。所述无线电电路单元7a用于连接移动通信网络,并且处理信号的传输/接收。
图2为现有的名片识别工具的结构图。
现有的名片识别工具包括静止图像捕捉块11、字符行识别块12和用于名片识别编辑器的应用软件13。
所述静止图像捕捉块11将数码照相机10捕捉的图像转换为静止图像。所述字符行识别块12识别在静止图像上的字符,将所识别的字符转换成字符行,并且将字符行传输到应用软件。所述应用软件13根据在图3中描述的流程图执行名片识别。
首先使用按键1选择照相菜单(S31),由照相机照的名片图像被显示在显示单元(S32)。选择用于读取名片的名片识别菜单S33。因为在初始步骤中识别的数据并不准确,所以数据不能被直接传输到存储在存储器单元的数据库(个人信息管理数据库,如电话号码数据库)。因此,名片识别工具识别所述名片,将其转换成字符行,并且将所述字符行传输到应用软件。所述应用软件支持映射功能,以使字符行与存储在数据库中的输入表格匹配。
在显示单元上显示识别的名片数据和编辑屏幕,以使使用者能够编辑名片数据并且执行映射过程(S34和S35)。当在字符行中存在错误时,使用者改正或删除字符。然后,使用者选择他/她想要存储的字符行并且存储所选择的字符行。也就是说,当映射过程完成时,使用者选择菜单“存储到个人信息箱”以将所照的名片图像的识别后的字符信息存储在存储器单元(S36)。
图4和图5示出了名片识别过程的一个例子。
图4是编辑屏幕,当使用者在察看步骤S34和步骤S35中提供的屏幕时发现错误字符时,通过该屏幕使用者能改正或删除错误的字符。在编辑屏幕,使用者移动光标到错误的字符“DEL”40,将其改正为正确的字符“TEL”。在完成编辑之后,使用者只选择他/她想要存储在数据库中的字符行,并且将其存储在存储器单元。例如,如图5所示,当名片上的职务是“正研究员”时,行“正研究员”50被框出,并且菜单列表60中的字段“头衔”61被选中。然后,执行映射过程将识别结果“正研究员”存储在数据库的头衔字段。

发明内容
为了提高移动电话的识别率,必须提供给字符识别系统的输入装置清楚、正确的文档图像数据(所照的名片图像数据)。
清楚的文档图像与焦点密切相关。所述焦点高度地影响字符与背景的分离以及分离后的字符的识别。图像的扭转也影响字符识别的准确性,因为当整个图像扭转时,字符也扭转了。虽然高性能照相机或可携式摄像机具有自动聚焦功能,但是当不具备自动聚焦功能的照相机与移动电话结合时,由照相机捕捉的图像的聚焦和扭转状态必须由使用者的肉眼识别。这导致字符识别率被降低。
因此,本发明是针对一种文档图像处理方法和装置,其充分地消除了由于相关技术的局限性和缺点产生的一个或多个问题。
本发明的一个目的是提供一种用于处理文档图像的方法和装置,其能检测由照相机捕捉的文档图像的聚焦和扭转状态,并且通过预览屏幕将检测结果提供给使用者,从而能获得清楚、正确的文档图像。
本发明的另一个目的是提供一种用于处理文档图像的方法和装置,其通过在文档图像的字符被识别之前,由预览屏幕显示由照相机捕捉的文档图像的聚焦和扭转状态,能获得清楚、正确的文档图像。
本发明的另一个目的是提供一种用于处理文档图像的方法和装置,其即使使用不具备自动聚焦功能的移动电话照相机,也能获得清楚、正确的文档图像。
本发明的其他优点、目的和特征将在下面描述中分部阐明,其将在本领域普通技术人员查阅后面描述或从本发明的应用中变得清楚。本发明的目的和其它优点可以通过从所写的说明书和权利要求以及附图中特别选择出的结构来实现和获得。
为按照本发明的目的达到这些目标和其它优点,如在此具体化并且广泛描述的,提供了一种文档图像处理装置,包括用于捕捉文档图像的图像捕捉单元;用于检测捕捉的图像的聚焦和扭转状态的检测单元;用于显示检测的聚焦和扭转状态的显示单元;用于识别写在捕捉的图像上的字符的字符识别单元;以及用于按字段存储识别的字符的存储单元。
所述聚焦和扭转状态显示在预览屏幕上,以使使用者调整图像的焦点和扭转。
根据本发明的另一个方面,提供一种具有名片识别功能的移动电话,其包括用于检测由照相机捕捉的名片图像的聚焦和扭转状态的检测单元;用于显示名片图像的聚焦和扭转状态的显示单元;用于识别写在名片图像上的字符的字符识别单元;以及用于按字段将识别字符存储在个人信息管理数据库的存储单元。
所述名片的聚焦和扭转状态通过从名片图像中提取兴趣区域(interesting area),计算从兴趣区域中获得的亮度分量(brightcomponent)的扭转级别,并由从亮度分量中提取高频分量计算聚焦级别而被检测。
根据本发明的另一方面,提供一种移动电话的文档图像处理方法,包括使用照相机捕捉文档的图像;检测捕捉图像的聚焦和/或扭转状态;显示所检测的聚焦和扭转状态;以及指导使用者基于所显示的聚焦和/或扭转状态最终捕捉文档图像。
根据本发明的另一个方面,提供一种移动电话的名片图像处理方法,包括捕捉名片图像;检测所捕捉的名片图像的聚焦和/或扭转状态;显示所检测的聚焦和扭转状态;指导使用者基于所显示的聚焦和/或扭转状态最终捕捉文档图像;识别写在捕捉图像上的字符;以及按字段存储所识别的字符。
可以理解本发明上述的概括描述和下面的详细描述是示例性和解释性的,并意图提供如权利要求所要求保护的发明的进一步解释。
本发明提供一种用于处理文档图像的方法和装置,其能检测由照相机捕捉的文档图像的聚焦和/或扭转状态,并且通过预览屏幕将检测结果提供给使用者,从而使能获得清楚、正确的文档图像。
本发明提供一种用于处理文档图像的方法和装置,其通过在文档图像的字符被识别之前,通过预览屏幕显示由照相机捕捉的文档图像的聚焦和扭转状态,能获得清楚、正确的文档图像。
本发明提供一种用于处理文档图像的方法和装置,其即使使用不具备自动聚焦功能的移动电话照相机,也能获得清楚、正确的文档图像。
根据本发明,因为所照的图像的聚焦和扭转状态被显示在预览屏幕上,所以使用者能调整聚焦和扭转状态以拍出较清楚的图像。


所包含的附图提供了对本发明进一步的理解并且被合并为本申请的组成部分,其阐明本发明的实施例和说明书一起用于解释本发明的原理,在附图中[37]图1为具有字符识别功能的现有的移动电话的示意性结构图;[38]图2为现有的名片识别工具的示意性结构图;[39]图3为说明现有的名片识别过程的流程图;[40]图4和图5是图3中所描述的名片识别过程的实例的视图;[41]图6是根据本发明的实施例的移动电话的名片识别工具的结构图;[42]图7是说明根据本发明的实施例的名片识别过程的流程图;[43]图8是示出拍照支持单元的名片识别过程的视图;[44]图9是示出识别字段选择单元的名片识别过程的视图;[45]图10是示出识别结果编辑单元的名片识别过程的视图;[46]图11是示出根据本发明实施例的移动电话的图像捕捉单元和图像处理单元的视图;[47]图12是示出根据本发明实施例的由照相机捕捉的图像的显示过程的流程图;[48]图13是示出根据本发明实施例的在识别图像之后提取兴趣区域的过程的流程图; 图14是示出根据本发明的实施例的焦点检测单元的图像检测过程的流程图;[50]图15是示出根据本发明的实施例的焦点检测单元的聚焦级别检测过程的流程图;[51]图16是示出根据本发明的实施例的扭转检测单元的扭转检测过程的流程图。
具体实施例方式现在将详细描述本发明的优选实施例,其实例将结合附图被阐明。在可能情况下,相同的附图标记将在全部附图中用于表示相同或类似的部分。
图6是根据本发明的实施例的移动电话的名片识别工具的结构图。
如图6所示,集成到移动电话的名片识别工具包括用于对名片拍照的照相机100和照相机传感器110,用于确定由照相机和照相机传感器100和110捕捉的图像的聚焦和校平(leveling)状态的拍照支持单元200,用于从拍照支持单元200捕捉的名片图像中选择将要被识别的字段的识别字段选择单元300,当名片图像的聚焦和校平状态被拍照支持单元200调整时,执行名片图像的识别过程的识别工具单元400,用于编辑在识别的名片图像上的识别后的字符、符号、数字等的识别结果编辑单元500,以及用于存储包括字符、符号、数字等被识别结果编辑单元500编辑的图像信息的数据存储单元600。
下面将描述名片识别工具的操作。
由照相机和照相机传感器100和110捕捉的名片图像由所述拍照支持单元200预处理。所述拍照支持单元200通过预览屏幕显示名片图像的聚焦和校平状态,以使使用者确定名片图像是否清楚。聚焦和校平越高,图像的识别率就越高。因此,当图像被拍照时调节图像的焦点是很重要的。在本发明中,拍照支持单元显示名片图像的聚焦和校平状态,以使使用者知道照相机100是否处于其能准确地识别在名片图像上字符的状态。
通常地,当假设图像不是向下时,认为使用者在-20~+20角度的扭转角度范围内对图像拍照。在这种情况下,通过使得使用者由预览屏幕知道图像的扭转,可能调整图像扭转角度接近0度。这将在后面详细描述。
所述识别字段选择单元300允许使用者从清楚的图像中选择字段。因此,只对被选择的字段执行识别过程。另外,识别工具单元400只对使用者选择的字段执行识别过程。在识别工具单元400中识别的字段通过识别结果编辑单元500存储在相应的选择字段,如姓名字段、电话号码字段、传真号码字段、移动电话号码字段、电子邮件地址字段、公司名称字段、头衔字段和地址字段等。在这些字段中,只显示六个主要字段,如姓名字段、电话号码字段、传真号码字段、移动电话号码字段、电子邮件地址字段和备忘录字段。其它字段在额外备忘录字段中显示。
所述识别结果编辑单元500将识别结果以数据库形式存储在数据存储单元600中,并且允许数据搜索、数据编辑、SMS数据传输、打电话、指定组别。所述识别结果编辑单元500确定是否需要名片的额外拍照。当执行额外拍照时,当前的图像数据被存储在临时缓冲器中。
图7是根据本发明的实施例的名片识别过程的流程图。
如图7所示,由照相机和照相机传感器捕捉的名片图像根据照相机的预览功能被显示(S701)。名片图像的聚焦和校平状态被显示在预览屏幕上,所以使用者能识别字符、符号、数字等。当确定不需要额外选择额外字段时,确定是否需要进一步对名片拍照。当确定需要进一步对名片拍照时,当前识别结果被存储在临时缓冲器中(S710)并且使用者重新对所述名片拍照(S708和S701)。当使用者所需的字段存在于名片的两面上时,通常需要对名片重新拍照。也就是说,在对名片的前表面拍照并且在前表面所选择的字段被识别并被存储在临时缓冲器中之后,使用者对名片的后表面拍照并且后表面所选的字段被识别和存储。当确定不需要额外重新对名片拍照时,识别的字段被存储在数据存储单元中(S709)。
图8示出了拍照支持单元的名片识别过程。
如图8所示,由照相机和照相机传感器捕捉的名片图像的聚焦和校平状态根据拍照支持单元的照相机预览功能被实时显示。也就是说,聚焦和校平状态由聚焦和校平状态显示单元801和802通过预览屏幕被显示,以便使用者能在观察预览屏幕的同时拍出清楚、准确的名片图像。名片图像的聚焦和校平状态可以以数值或显示水平(level)的图形图像显示。也就是说,当聚焦状态显示单元801显示“OK”时,意味着焦点被调整到写在名片图像上的字符能被准确识别的状态。在这时,校平状态显示单元802使得使用者确定是否名片图像被校平到写在名片图像上的字符能被精确识别的状态。也就是说,因为校平显示单元802实时显示名片图像的校平状态,所以使用者能在调整名片图像的水平的同时对名片图像拍照。也就是说,在执行识别过程之前,因为能确定名片是否被拍照到字符、符号和数字能被准确识别的状态,所以在下面的识别过程中能最小化错误。
图9示出了识别字段选择单元的名片识别过程。
如图9所示,使用者从由拍照支持单元清楚地拍摄的名片图像中选择所需字段。识别工具只对所选择的字段执行识别过程,从而改进识别效率。字段按行选择或根据字符间距在每行中按部分(section)选择。在图9中,指针901指向一个字段,放大的窗口903显示指出的字段。当指针901指向姓名“Yu Nam KIM”并且使用者选择了与在选择部分904上显示的“姓名”对应的数字“1”时,所指向的姓名“YuNam KIM”被映射到姓名字段。如上所述,对所需的字段执行预先选择,字符识别由识别工具执行。
图10示出了识别结果编辑单元的名片识别过程。
使用者选择的字段和对所选择字段的识别结果在图10中示出。也就是说,姓名、移动电话号码、电话号码、传真号码、电子邮件地址和头衔被识别。如上所述,字符识别过程只对使用者所选的字段执行,并且识别结果编辑单元存储识别的图像数据或确定是否有必要额外拍照或在图像上重新选择额外字段。
图11示出了根据本发明实施例的移动电话的图像捕捉单元和图像处理单元。
如图11所示,为了拍照并且识别所拍照片的字符(包括符号、数字、人脸、物体形状),所述移动电话包括图像捕捉单元100,该图像捕捉单元具有照相机透镜101、传感器103和用于对所拍图像的A/D转换和色彩空间(color space)转换的照相机控制单元104,所述移动电话还包括具有多个用于检测从图像捕捉单元100捕捉的图像的聚焦和/或扭转状态的传感器的图像处理单元200,以及用于显示由图像处理单元200处理的图像的显示单元300。
在图像捕捉单元100和照相机透镜101之间提供有由电荷耦合器件或互补金属氧化物半导体构成的传感器103。
使用图像捕捉单元100的照相机透镜101、传感器103和照相机控制单元104,对写在名片上的字符拍照。在这时,图像处理单元200的检测单元200检测所拍图像的聚焦和校平状态是否处于写在名片上的字符能被准确识别的状态。
当确定所述焦点没有被准确调整时,改变移动电话的位置直到生成了表示精确聚焦的信号。同样地,校平也用上述方法调整。
图12示出了根据本发明实施例的由照相机捕捉的图像的显示过程。
如图12所示,名片图像由具有照相机透镜、传感器和照相机控制器的图像捕捉单元所捕捉(S501)。所需的字段被从所捕捉图像中选择出(S502)。检测单元检测所需字段的聚焦和和校平状态(S503a和S503b)。
捕捉的名片图像的亮度信号可以被用于检测所需字段的聚焦和/或和校平状态。也就是说,所述检测单元只接收从图像捕捉单元输入的图像的亮度分量。从图像捕捉单元输入的图像的尺寸小于QVGA(320×240)。更通常地,尺寸是QCIF(176×144)以实时处理所有15fps图像的帧,从而在显示单元上显示聚焦和和校平值(S504)。
图13示出了根据本发明实施例,在识别图像之后提取兴趣区域的过程。
如图13所示,基于局部区域从由图像捕捉单元捕捉的图像信号的亮度分量计算柱状图分布(S601)。每个局部区域的尺寸是1像素×10像素。在位置(I,j)的局部区域histogram_Y能由下面的公式1表达。
也就是说,尺寸可以是10像素×1像素,并且可以调整亮度以减少柱状图的计算量。在本发明中,基于8个步骤能完成该描述。
Histogram_Y[I,j+k]/32]……(公式1)[80]Y(I,j)是位置(I,j)的亮度值,k具有从0到9的值。另外,i代表轴向坐标,j代表垂直坐标。
整个图像被来自根据局部区域计算的柱状图信息二进制编码(S602)。在该二进制编码过程中,计算10_Histogram_Y[k]的最大值(max{Histogram_Y[k]})和最小值(min{Histogram_Y[k]})之间的差值。当该差值大于临界值T1时,所述局部区域被视为兴趣区域。值“1”被输入到Y(i,j)。当该差值小于临界值T1时,所述局部区域被视为非兴趣区域。值“0”被输入到Y(i,j)。在本发明中,虽然临界值T1被设为“4”,但是在本发明的范围内能使用其它适当值。
当整个图像被二进制编码后,所述二进制编码的图像被映射到轴向,并且在垂直方向上兴趣区域与映射到轴向的图像数据分离(S603和S604)。
在将二进制编码图像映射到轴向的过程中,在纵向映射的结果值被作为第m行存储在Vert(m),其能由下面的公式2所表达。
Vert[m]=Σn=0175Y(n,m),(m=0,....143)]]>……(公式2)[85]当从Vert[m]值减去20个像素所获得的值小于20像素时,其被设为“0”。当Vert[m-1]与Vert[m+1]相等时,只有当在轴向上不为“0”的值在2像素以上时,其被设为“0”。当兴趣区域如上所述分离时,计算兴趣区域在垂直方向宽度的总数值和平均值(S605)。
在轴向上分隔兴趣区域的过程中,当扫描映射在垂直方向的值时,发现空格并被用作分隔区域的分界线。也就是说,当假设兴趣区域在垂直方向的起点和终点被按顺序存储在ROI[m]时,其被描述如下。
首先,存储在Vert[m]的值0~143被顺序扫描。当具有不为“0”的Vert[m]值的区域被识别为兴趣区域时,并且在Vert[m]值不是以“0”开始的情况下,位置值m被连续地从Roi[I]映射到奇数位置。当在Vert[m]不是以“0”结束的情况下时,位置值m被连续地从Roi[1]映射到奇数位置。然后,根据垂直方向宽度的总数值和平均值确定兴趣区域的尺寸(S606)。
在用于计算垂直方向的宽度的总数值和平均值的过程中,首先通过将由分界分开的区域的宽度值相加计算总数值,再通过将总数值除以区域数来计算平均值。也就是说,总数值ROI_SUM和平均值ROI_Mean能通过下列公式3和4表达。
ROISUM=Σn=0ROInumber(ROI[2*n+1]-ROI[2*N])]]>……公式3[90]ROI_Mean=ROIsum/ROInumber……(公式4)[91]在根据垂直方向宽度的总数值和平均值确定兴趣区域尺寸的过程中,通过其将兴趣区域划分为较大区域和较小区域的临界值被与垂直方向的总数值相比较。
在公式3和公式4中,ROI_SUM是用于焦点检测单元的值,ROI_Mean是用于扭转检测单元的值。这将在后文中更详细地描述。
图14是示出了根据本发明的实施例的焦点检测单元的图像检测过程的流程图。
检测单元从图像捕捉单元输入的图像中提取高频分量(S701)。通过过滤高频分量,从高频分量中去除噪音,从而提供纯高频分量(S702)。当高频分量从输入图像中被提取时,预先从输入的图像中提取亮度分量,然后提取高频分量。
为了去除噪音,预设一个临界值。一些高于临界值的分量被确定为噪音。一些低于临界值的分量被确定为纯高频分量。
用于提取高频分量的方法是基于下面的行列式5和6。行列式5是mask行列式,行列式6代表局部图像亮度值。
h1 h2 h3h4 h5 h6……(行列式5)
h7 h8 h9[98]Y(0.0) Y(0.1) Y(0.2)Y(1.0) Y(1.1) Y(1.2) ……(行列式6)Y(2.0) Y(2.1) Y(2.2)[99]高频分量能通过下列基于行列式5和行列式6的公式5获得。
high=h1×(0,0)+h2×Y(0,1)+h3×Y(0,2)+h4×Y(1,0)+h5×Y(1,1)+h6×Y(1,2)+h7×Y(2,0)+h8×Y(2,0)+h8×Y(2,1)+h9×Y(2,2)……(公式5)[101]在获得没有噪音的纯高频分量的过程中,当假设临界值是T2并且被确定为高频分量的值的像素数相对于输入图像的总像素数是high_count时,根据下列描述可获得纯高频分量。
在扫描输入图像的全部区域时,当由公式5计算的高绝对值是|high|并且在每个像素位置满足条件|high|<T2时,像素数high_count增加1。在本发明中,临界值T2被设为40。然而,临界值T2可以根据图像的种类而变化。
在根据兴趣区域的尺寸从高频分量中计算聚焦级别值的过程中,通过临界值T3将兴趣区域的尺寸分类为大尺寸和小尺寸的情况。另外,根据聚焦级别值的数目,通过使高频分量值对应于聚焦级别值来计算聚焦级别值。也就是说,当临界值是T3并且聚焦级别为Focus_level,其能由图15根据公式3计算的总数值ROIsum表达。在本发明中,聚焦级别被设为10,临界值T3被设为25。然而,所述聚焦级别数和所述临界值T3能根据图像的类型而变化。
如上所述,当兴趣区域的尺寸通过提取兴趣区域而获得(S703),并且聚焦级别值根据兴趣区域的尺寸从高频分量计算出和被显示在预览屏幕(S704)时,使用者准确地调整焦点是可能的。
也就是说,聚焦级别值从垂直方向宽度的总数值计算。
图15示出了根据本发明的实施例的焦点检测单元的聚焦级别检测过程。
如图15所示,当临界值是T3时,首先确定ROI_Sum是否小于3(S801),当所述ROI_Sum小于3时,确定HIGH_count是否大于或等于1800(S802)。当所述HIGH_count大于或等于1800时,所述聚焦级别被调整为9(S804)。当HIGH_count不大于或等于1800时,确定HIGH_count是否小于1400(S803)。当所述HIGH_count小于1400时,所述聚焦级别被调整为0(S805)。当所述HIGH_count不小于1400时,所述聚焦级别根据(HIGH_count-1400)/50+1调整(S806)。另外,当ROI_sum大于或等于3S801时,确定所述HIGH_count是否大于或等于6400(S807)。当所述HIGH_count大于或等于6400时,所述聚焦级别被调整为9(S809)。当所述HIGH_count不大于或等于6400时,确定所述HIGH_count是否小于2400(S808)。当所述HIGH_count小于2400时,所述聚焦级别被调整为0(S810)。当所述HIGH_count不小于2400时,所述聚焦级别被根据(HIGH_count-2400)/500+1调整(S811)。
图16示出了根据本发明的实施例的扭转检测单元的扭转检测过程。
首先结合公式4从ROI_Mean中计算角度级别值(angle level)。确定ROI_Mean是否大于或者等于4并且小于16(S901)。当所述ROI_Mean大于或者等于4并且小于16时,扭转角度值被设为2(S903)。当所述ROI_Mean不大于或者等于4并且小于16时,确定所述ROI_Mean是否大于或者等于16并且小于30(S902)。当所述ROI_Mean大于或者等于16并且小于30时,扭转角度值被设为1(S904)。当所述ROI_Mean不大于或者等于16并且小于30时,扭转角度值被设为0(S905)。也就是说,根据扭转级别数的在垂直方向宽度的平均值是扭转级别值。
对本领域的技术人员而言在本发明中做出各种修改和改变是明显的。因此,本发明意图覆盖在所附的权利要求范围内的本发明的各种修改和改变及其等价物。
工业应用[111]根据本发明,因为所拍的图像的聚焦和扭转状态在预览屏幕上显示,所以使用者能调整聚焦和扭转状态以拍出较清楚的照片图像。
因此,即使当在照相机中没有提供聚焦控制单元时,通过计算聚焦和扭转级别值,能获得较清楚的图像,从而可能准确地识别写在拍照的图像上的字符。
权利要求
1.一种文档图像处理装置,包括用于捕捉文档图像的图像捕捉单元;用于检测捕捉的图像的聚焦和扭转状态的检测单元;用于显示检测的聚焦和扭转状态的显示单元;用于识别写在捕捉的图像上的字符的字符识别单元;以及用于按字段存储识别的字符的存储单元。
2.如权利要求1所述的文档图像处理装置,其特征在于,所述聚焦和扭转状态显示在预览屏幕上,以使使用者调整图像的聚焦和扭转。
3.如权利要求1所述的文档图像处理装置,其特征在于,所述存储单元是个人信息管理数据库。
4.如权利要求1所述的文档图像处理装置,其特征在于,所述聚焦和扭转状态以数值或显示水平的图形图像显示。
5.一种具有名片识别功能的移动电话,包括用于检测由照相机捕捉的名片图像的聚焦和扭转状态的检测单元;用于显示所述名片图像的所述聚焦和扭转状态的显示单元;用于识别写在所述名片图像上的字符的字符识别单元;以及用于按字段将所述识别的字符存储在个人信息管理数据库的存储单元。
6.如权利要求5所述的移动电话,其特征在于,所述名片的所述聚焦和扭转状态通过从所述名片图像中提取兴趣区域,计算从所述兴趣区域中获得的亮度分量的扭转级别,通过从亮度分量中提取高频分量计算聚焦级别而被检测。
7.一种移动电话的文档图像处理方法,包括使用照相机捕捉文档的图像;检测捕捉的图像的聚焦和/或扭转状态;显示检测的所述聚焦和所述扭转状态;以及指导使用者基于所显示的所述聚焦和/或扭转状态最终捕捉文档图像。
8.一种移动电话的名片图像处理方法,包括捕捉名片图像;检测所捕捉的名片图像的聚焦和/或扭转状态;显示所检测的聚焦和扭转状态;指导使用者基于所显示的聚焦和/或扭转状态最终捕捉文档图像;识别写在捕捉的图像上的字符;以及按字段存储所识别的字符。
9.如权利要求8所述的名片图像处理方法,其特征在于,所述检测聚焦和/或扭转状态包括从名片图像中提取兴趣区域;从所述兴趣区域中获得的亮度分量计算扭转级别;以及通过从所述亮度分量中提取高频分量计算聚焦级别。
10.如权利要求9所述的名片图像处理方法,其特征在于,所述提取兴趣区域包括根据局部区域从亮度分量中获得柱状图信息;对来自所述柱状图信息的名片图像进行二进制编码;将在垂直方向上的兴趣区域与投影在轴向的二进制编码的图像数据分离;计算所述兴趣区域宽度的总数值和平均值;以及根据所述总数值和平均值确定所述兴趣区域的尺寸。
11.如权利要求10所述的名片图像处理方法,其特征在于,所述柱状图信息通过将局部区域设定为像素单元块而获得。
12.如权利要求10所述的名片图像处理方法,其特征在于,对所述柱状图信息进行二进制编码是通过将兴趣区域和非兴趣区域二进制编码为“1”或“0”而执行,基于柱状图的最大值和最小值之间的差值确定兴趣区域和非兴趣区域。
13.如权利要求10所述的名片图像处理方法,其特征在于,将所述二进制编码的图像映射到轴向是通过设定轴向和垂直方向的宽度作为像素单元块而执行。
14.如权利要求10所述的名片图像处理方法,其特征在于,在垂直方向的兴趣区域由通过扫描映射在垂直方向上的值而得到的空格所分开。
15.如权利要求10所述的名片图像处理方法,其特征在于,所述总数值通过将分开区域的全部宽度相加而获得,所述平均值通过将所述总数值除以区域数而获得。
16.如权利要求10所述的名片图像处理方法,其特征在于,所述兴趣区域的尺寸通过比较使用者为确定兴趣区域是大或小的情况而预先设定的预定临界值和在垂直方向的宽度的总数值而确定。
17.如权利要求9所述的名片图像处理方法,其特征在于,所述扭转级别从名片图像在垂直方向的宽度的平均值计算。
18.如权利要求17所述的名片图像处理方法,其特征在于,所述扭转级别是在垂直方向宽度的平均值。
19.如权利要求9所述的名片图像处理方法,其特征在于,所述计算聚焦级别包括从名片图像获得高频分量;以及根据兴趣区域的尺寸从高频值计算聚焦级别值。
20.如权利要求19所述的名片图像处理方法,进一步包括在获得名片图像的高频分量之前获得所述名片图像的亮度分量。
全文摘要
一种文档图像处理装置包括用于捕捉文档图像的图像捕捉单元,用于检测捕捉的图像的聚焦和扭转状态的检测单元,用于显示检测的聚焦和扭转状态的显示单元,用于识别写在捕捉的图像上的字符的字符识别单元,以及用于按字段存储识别的字符的存储单元。
文档编号H04N5/243GK101015201SQ200580029229
公开日2007年8月8日 申请日期2005年8月30日 优先权日2004年8月31日
发明者金有南, 朴相昱, 金成贤, 边盛赞 申请人:Lg电子有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1