图像处理装置、图像处理方法和图像处理程序的制作方法

文档序号：10694514阅读：362来源：国知局

图像处理装置、图像处理方法和图像处理程序的制作方法
【专利摘要】图像处理装置(100)具有：图像取得部(102)，其取得图像；文字区域估计部(104)，其判定由图像取得部(102)取得的图像内的表示排列文字的可能性较高的方向的线作为文字区域候选线，估计沿着所述文字区域候选线排列文字的可能性较高的区域作为文字区域候选；以及输出部(106)，其输出由文字区域估计部(104)估计出的文字区域候选的信息。文字区域估计部(104)具有：垂直线检测部(1041)，其检测图像内的多个垂直线；水平线检测部(1042)，其检测图像内的多个水平线；以及文字区域候选线判定部(1043)，其根据由检测所检测到的多个垂直线间的颜色分布或所述检测到的多个水平线间的颜色分布的颜色分布检测部(1043a)检测到的颜色分布，来判定文字区域候选线。
【专利说明】
图像处理装置、图像处理方法和图像处理程序
技术领域
[0001]本发明涉及图像处理装置、图像处理方法和图像处理程序。
【背景技术】
[0002]例如在专利文献I中提出了读取图像内的文字的技术。例如，在专利文献I中，根据优先级来提取静态图像中包含的对象(包含文字区域)，进行对提取出的对象赋予视觉效果等的处理。
[0003]现有技术文献
[0004]专利文献
[0005]专利文献1:日本特许第4519531号公报

【发明内容】

[0006]发明要解决的课题
[0007]在专利文献I等现有的具有文字读取功能的图像处理装置中，在不能进行文字识别的情况下，大多向用户通知不能读取。这里，认为多数情况下即使在装置中无法读取文字，在人的目视中也能够读取。因此，认为即使实际上无法读取文字，向用户提示场景内的包含文字的区域也是有效的。
[0008]本发明是鉴于所述情况而完成的，其目的在于，提供能够估计图像内的认为包含文字的区域并向用户进行提示的图像处理装置、图像处理方法和图像处理程序。
[0009]用于解决课题的手段
[0010]为了实现所述目的，本发明的第I方式的图像处理装置具有:图像取得部，其取得图像;文字区域估计部，其判定所取得的所述图像内的表示排列文字的可能性较高的方向的线作为文字区域候选线，估计沿着所述文字区域候选线排列文字的可能性较高的区域作为文字区域候选；以及输出部，其输出由所述文字区域估计部估计出的文字区域候选的信息，所述文字区域估计部具有:垂直线检测部，其检测所述图像内的多个垂直线；水平线检测部，其检测所述图像内的多个水平线;颜色分布检测部，其检测所检测到的所述多个垂直线之间的颜色分布或所检测到的所述多个水平线之间的颜色分布；以及文字区域候选线判定部，其根据所检测到的所述颜色分布来判定所述文字区域候选线。
[0011]本发明的第2方式的图像处理方法具有以下步骤:判定所取得的图像内的表示排列文字的可能性较高的方向的线作为文字区域候选线;估计沿着所述文字区域候选线排列文字的可能性较高的区域作为文字区域候选；以及输出所估计出的所述文字区域候选的信息，所述文字区域候选线的判定具有以下步骤:检测所述图像内的多个垂直线;检测所述图像内的多个水平线;检测所检测到的所述多个垂直线之间的颜色分布或所检测到的所述多个水平线之间的颜色分布；以及根据所检测到的所述颜色分布来判定所述文字区域候选线。
[0012]本发明的第3方式的图像处理程序用于使计算机执行以下步骤:判定所取得的图像内的表示排列文字的可能性较高的方向的线作为文字区域候选线;估计沿着所述文字区域候选线排列文字的可能性较高的区域作为文字区域候选；以及输出所估计出的所述文字区域候选的信息，所述文字区域候选线的判定具有以下步骤:检测所述图像内的多个垂直线;检测所述图像内的多个水平线;检测所检测到的所述多个垂直线之间的颜色分布或所检测到的所述多个水平线之间的颜色分布；以及根据所检测到的所述颜色分布来判定所述文字区域候选线。
[0013]发明效果
[0014]根据本发明，能够提供能够估计图像内的认为包含文字的区域并向用户进行提示的图像处理装置、图像处理方法和图像处理程序。
【附图说明】
[0015]图1是本发明的一个实施方式的图像处理装置的功能框图。
[0016]图2是示出将本发明的一个实施方式的图像处理装置应用于摄像装置的情况的结构的图。
[0017]图3A是示出摄像装置的动作的概要的第I图。
[0018]图3B是示出摄像装置的动作的概要的第2图。
[0019]图3C是示出摄像装置的动作的概要的第3图。
[0020]图4A是示出本发明的一个实施方式的摄像装置的拍摄时的动作的流程图的第I图。
[0021]图4B是示出本发明的一个实施方式的摄像装置的拍摄时的动作的流程图的第2图。
[0022]图5A是示出文字区域候选判定I的处理的概要的第I图。
[0023]图5B是示出文字区域候选判定I的处理的概要的第2图。
[0024]图5C是示出文字区域候选判定I的处理的概要的第3图。
[0025]图6是示出文字区域候选判定I的处理的流程图。
[0026]图7A是示出文字区域候选线的例子的第I图。
[0027]图7B是示出文字区域候选线的例子的第2图。
[0028]图7C是示出文字区域候选线的例子的第3图。
[0029]图7D是示出文字区域候选线的例子的第4图。
[0030]图7E是示出文字区域候选线的例子的第5图。
[0031 ]图7F是示出文字区域候选线的例子的第6图。
[0032]图8是示出文字区域候选判定2的处理的流程图。
[0033]图9A是用于说明文字区域候选判定2的处理的第I图。
[0034]图9B是用于说明文字区域候选判定2的处理的第2图。
[0035 ]图1O是示出步骤S110中生成的图像文件的一例的图。
[0036]图11是示出步骤S120中进行关联的图像文件的一例的图。
[0037]图12A是示出本发明的一个实施方式的变形例I的摄像装置的拍摄时的动作的流程图的第I图。
[0038]图12B是示出本发明的一个实施方式的变形例I的摄像装置的拍摄时的动作的流程图的第2图。
[0039]图13A是示出作为车载用途的变形例2的第I图。
[0040]图13B是示出作为车载用途的变形例2的第2图。
【具体实施方式】
[0041]下面，参照附图对本发明的实施方式进行说明。图1是本发明的一个实施方式的图像处理装置的功能框图。图像处理装置100具有图像取得部102、文字区域估计部104、输出部106。
[0042]图像取得部102取得作为判定包含文字的区域的对象的图像。该图像取得部102例如取得通过摄像部的摄像而得到的图像。除此以外，图像取得部102也可以构成为取得从图像处理装置100的外部的设备输入的图像。
[0043]文字区域估计部104估计由图像取得部102输入的图像内的认为包含文字的区域(在该时刻也可以不判定是否是文字)。该文字区域估计部104具有垂直线检测部1041、水平线检测部1042、文字区域候选线判定部1043、阴影检测部1044、文字区域候选估计部1045。垂直线检测部1041检测图像内的多个垂直线。水平线检测部1042检测图像内的水平线。文字区域候选线判定部1043根据图像内的多个垂直线的关系或图像内的多个水平线的关系，判定表示排列文字的可能性较高的方向的线作为文字区域候选线。该文字区域候选线判定部1043具有作为颜色分布检测部1043a的功能和作为颜色判定部1043b的功能。作为颜色分布检测部1043a的功能是检测多个垂直线间和多个水平线间的颜色分布的功能。作为颜色判定部1043b的功能是判定颜色分布是否是大致相等的颜色分布的功能。阴影检测部1044检测图像内的阴影分布。文字区域候选估计部1045根据沿着文字区域候选线的方向的阴影分布，估计认为包含文字的区域(文字区域候选)。
[0044]输出部106将由文字区域估计部104的文字区域候选估计部1045估计出的文字区域候选的信息输出到显示部等。该信息例如是文字区域候选的坐标。
[0045]图2是示出将图1所示的图像处理装置100应用于摄像装置的情况的结构的图。图2所示的摄像装置200具有控制部202、摄像部204、显示部206、记录部208、操作部210、触摸面板212、姿势检测部214、位置检测部216、计时部218、通信部220。图2所示的摄像装置200例如是数字照相机或智能手机这样的各种具有摄像功能的设备。
[0046]控制部202例如由CPU构成，具有图1所示的图像处理装置100。除此以外，控制部202具有摄像控制部2022、图像处理部2023、文字识别部2024、元数据生成部2025、显示控制部2026、通信控制部2027。摄像控制部2022对摄像部204的摄像动作进行控制。图像处理部2023对由摄像部204取得的图像数据实施显示或记录所需要的图像处理。该图像处理包括白平衡校正、灰度校正、颜色校正这样的与画质有关的校正、尺寸调整处理、压缩处理、解压缩处理等。文字识别部2024参照文字辞典DB2082识别图像数据中的文字。元数据生成部2025根据文字识别部2024的识别结果，生成用于附加给图像文件的元数据。显示控制部2026对针对显示部206的各种图像的显示进行控制。通信控制部2027进行摄像装置200与外部设备的通信时的控制。通过通信控制部2027，摄像装置200以通信自如的方式与服务器300连接。并且，通过通信控制部2027的控制，摄像装置200还以通信自如的方式与其他终端设备(智能手机)400连接。
[0047]摄像部204对被摄体进行摄像而取得与被摄体有关的图像(图像数据)。该摄像部204具有摄影镜头2041、摄像元件2042、模拟/数字(A/D)转换部2043。摄影镜头2041使来自被摄体的光束会聚在摄像元件2042上。摄像元件2042具有受光面。在受光面上配置有像素。像素例如是光电二极管，输出与入射光的光量对应的电信号(图像信号hA/D转换部2043将由摄像元件2042得到的模拟图像信号转换为数字图像信号(图像数据)。
[0048]显示部206例如是液晶显示器或有机EL显示器，根据各种图像数据来显示图像。该图像数据是通过摄像部204的摄像而得到的图像数据或记录部208中记录的图像数据。
[0049]记录部208例如是闪存，记录图像数据等作为文件。并且，在记录部208中构筑连接目的地数据库(DB)2081和文字辞典(DB)2082。连接目的地DB2081是存储与作为摄像装置200的通信对象的设备(服务器300或终端设备400)进行通信所需要的地址信息等的数据库。文字辞典DB2082是存储文字识别用的文字的图案的信息的数据库。另外，记录部208可以内置在摄像装置200中，也可以相对于摄像装置200拆装自如。
[0050]操作部210是用于供用户进行摄像装置200的操作的机械式的操作部件。作为操作部210，例如包括释放按钮和电源开关。释放按钮是用于供用户指示拍摄动作的执行的按钮。并且，电源开关是用于供用户指示摄像装置200的电源的接通或断开的开关。
[0051]触摸面板212形成在显示部206的显示画面上，检测用户的触摸操作。控制部202进行与由触摸面板212检测到的触摸操作对应的处理。例如，使用触摸面板212来代替释放按钮。除此之外，触摸面板212用于供用户指定显示部206的显示画面中显示的图像的特定部分。
[0052]姿势检测部214例如是3轴的加速度传感器，在摄像装置200的姿势(例如标准姿势(所谓的横向位置)中，设摄像装置200的水平方向为X方向。设正的X方向是从被摄体侧观察摄像装置200时的右方向。进而，设摄像装置200的垂直方向为Y方向。设正的Y方向是标准姿势中的上方向。在这种坐标系中，检测绕Z轴(摄影镜头2014的光轴)的旋转运动为滚动，绕X轴的旋转运动为俯仰的正方向旋转，从原点观察X轴正方向时的绕Z轴的左旋转为滚动的正方向旋转，从原点观察Y轴正方向时的绕Y轴的右旋转为偏航的正方向旋转)。位置检测部216例如具有内置在摄像装置200主体中、或安装在未图示的热靴上的GPS(GlobalPosit1ning System)。该GPS接收从外部发送的信号或者接收从智能手机等终端机发送的GPS通信信息，由此检测摄像装置200的当前位置。另外，也可以是，能够通过位置检测部216，根据摄像装置200内的摄影镜头2014的光轴方向来检测方位。或者，通过将由智能手机等终端机记录的GPS日志转送到摄像装置200，也可以在摄像装置200中保存的图像数据的Exif信息中追加记录GPS标签。计时部218取得当前时刻。通信部220根据通信控制部2027的控制而与服务器300或终端设备400进行通信。另外，基于通信部220的通信可以是有线通?目，也可以是无线通?目。
[0053]并且，服务器300具有控制部302、记录部304、通信部306。这里，图1的服务器300可以是云服务器。例如，控制部302和记录部304可以位于不同场所。
[0054]控制部302具有文字识别部3021、通信控制部3022。文字识别部3021在从摄像装置200通过通信取得的图像数据中的文字区域候选内进行文字的识别。通信控制部3022进行与摄像装置200之间的通信时的控制。
[0055]记录部304例如是硬盘。在该记录部304中构筑文字辞典数据库(DB) 3041。文字辞典DB3041是存储文字识别用的文字的形状信息的数据库。另外，文字辞典DB3041可以是信息量比文字辞典DB2082的信息量多的数据库。
[0056]通信部306根据通信控制部3022的控制而与摄像装置200进行通信。
[0057]下面，对具有本实施方式的图像处理装置100的摄像装置200的动作进行说明。在本实施方式中，摄像装置200适用于包含广告牌等具有文字的被摄体的场景的拍摄时。例如，假设用户要拍摄图3A所示的记载了 “Λ高原”这样的文字的石碑。此时，摄像装置200(图像处理装置100)估计通过摄像而得到的图像中的文字区域候选。该估计在后面详细说明。
[0058]当估计出文字区域候选后，如图3B所示，对显示部206中显示的图像的文字区域候选的部分206a进行强调显示(用框包围等)。此时，如果文字识别完成，则也可以向用户提示文字识别结果。
[0059]通过强调显示，能够使用户注视文字区域候选的部分。然后，识别出在文字区域候选内存在文字的用户如图3B所示触摸显示部206的显示画面(即触摸面板212)等，进行拍摄指示。此时，进行基于摄像装置200的拍摄，然后，如图3C所示，在实时取景图像中显示关联引导206b。关联引导206b例如是文字区域候选的部分的缩小图像。通过这种关联引导206b，能够使用户识别场景中的文字的存在，能够对用户提示台子的拍摄。
[0060]图4A和图4B是示出本实施方式的摄像装置200的拍摄时的动作的流程图。图4A和图4B所示的动作由控制部202来控制。在图4A和图4B中，控制部202判定摄像装置200的工作模式是否是拍摄模式(步骤S101)。作为工作模式，摄像装置200至少具有拍摄模式和再现模式。拍摄模式是用于拍摄记录用的图像的工作模式。再现模式是用于再现所记录的图像的工作模式。在步骤SlOl中判定为摄像装置200的工作模式是再现模式的情况下，控制部202进行再现模式的处理。对再现模式的处理进行简单说明。在再现模式中，控制部202使显示部206显示记录部208中记录的图像文件的一览。当用户在一览显示的图像文件中选择期望图像文件后，控制部202使显示部206显示与该选择出的图像文件对应的图像。
[0061 ]在步骤SlOl中判定为工作模式是拍摄模式的情况下，控制部202进行实时取景显示(步骤S102)。实时取景显示是使显示部206实时地显示通过摄像部204的连续动作而得到的图像的动作。另外，也可以在实时取景显示中进行面部检测等。在实时取景显示后，控制部202判定当前的拍摄模式的设定是否是关联拍摄模式(步骤S103)。关联拍摄模式是对用户提示包含文字的被摄体的拍摄的拍摄模式。在后面详细说明。
[0062]在步骤S103中判定为当前的拍摄模式的设定不是关联拍摄模式的情况下，控制部202进行文字区域候选判定I的处理(步骤S104)。文字区域候选判定I的处理是判定文字区域候选线的处理。下面，对文字区域候选判定I的处理进行说明。
[0063]如图5A所示，例如，如果实时取景显示中得到的图像内的文字与图像的水平方向或垂直方向平行排列，则容易识别文字。这里，广告牌等不是必须相对于人物水平配置。并且，根据用户的构图的决定方法的不同，文字也不一定相对于图像水平或垂直配置。例如，在图5B所示的被摄体即人物S位于石碑P的倾斜横向位置的场景中，文字相对于图像的水平方向和垂直方向具有倾斜，不容易进行文字识别。但是，如果能够判别石碑的水平或垂直方向，则能够估计为在该方向上可能排列文字。
[0064]本实施方式的摄像装置200在无法识别文字的状况下，也向用户提示认为存在文字的文字区域候选的信息，由此，向用户建议根据需要从适当方向进行文字的拍摄。例如，如图5C所示，即使文字相对于图像不是水平，如果记载了文字的区域(在图5C的例子中为石碑P)相对于地面为水平，则判定为文字区域候选。然后，这种情况下，向用户建议文字区域候选的存在。
[0065]图6是示出文字区域候选判定I的处理的流程图。图6的处理由控制部202的图像处理装置100来进行。在图6中，图像处理装置100的图像取得部102取得通过实时取景显示用的摄像而得到的图像数据，将所取得的图像数据输入到文字区域估计部104。文字区域估计部104的垂直线检测部1041检测所输入的图像数据中的垂直线(步骤S201)。另外，优选步骤S201中检测的垂直线是与地面垂直的线。因此，根据由姿势检测部214检测的摄像装置200的姿势，检测图像数据中的与地面平行的线(地平线)，检测相对于该地平线成为铅直方向的线作为垂直线。能够利用边缘检测或角部检测等公知手法来检测垂直线。
[0066]在垂直线检测后，垂直线检测部1041判定是否检测到了2根以上的垂直线(步骤S202)。在图像内的文字区域候选即广告牌或石碑中，如图7A、图7B和图7F所示的长方体状的形状、图7C所示的平板状的形状、图7D和图7E所示的圆柱状的形状那样存在各种形状。并且，关于记载文字的位置，也存在上侧、侧面等各种位置。但是，在作为图像观察的情况下，认为是文字区域候选的区域成为闭合区域。步骤S202的处理是用于探寻闭合区域即文字区域候选的垂直线的处理。为了探寻作为文字区域候选的闭合区域，检测2根以上的垂直线。通过步骤S202的处理，在图7A、图7B、图7D和图7E的例子中检测到垂直线Lvl和Lv2。并且，在图7C和图7F的例子中检测到垂直线Lvl、Lv2和L3。这样，在包含图7A?图7F所示的广告牌等的场景的拍摄时，在步骤S202中判定为检测到了 2根以上的垂直线。
[0067]在步骤S202中垂直线检测部1041判定为在实时取景拍摄时取得的图像数据内能够到2根以上的垂直线的情况下，文字区域候选线判定部1043对由垂直线检测部1041检测到的垂直线的长度进行比较。然后，文字区域候选线判定部1043判定是否存在长度相等且相邻的2根垂直线(步骤S203)。在本实施方式的例子中，在存在长度相等且相邻的2根垂直线的情况下，如图7A?图7F所示，认为可能在这2根垂直线之间的区域内存在文字。
[0068]此时，文字区域候选线判定部1043根据实时取景拍摄时取得的图像数据，检测相邻的2根垂直线之间的区域的颜色(颜色信息信号:彩度、色相)。作为检测这些区域的颜色信息的手段，例如，实时取景拍摄时取得的图像数据包含亮度信号成分(Y)和2个色差信号(Cr、Cb)信号，但是，仅提取其中的2个色差信号(Cr、Cb)信号成分。
[0069]上述2个色差信号(Cr、Cb)是针对从摄像元件得到的R、G、B的三原色的图像信号输出(R信号、G信号、B信号)、分别从R信号和B信号输出中减去亮度信号成分(Y)而得到的输出值。这里，第I色差信号(Cr)是从R信号输出中减去亮度信号成分(Y)而得到的输出值。而且，第2色差信号(Cb)是从B信号输出中减去亮度信号成分(Y)而得到的输出值。
[0070]在将这些第I色差信号(Cr)、第2色差信号(Cb)分别表示为水平方向、垂直方向的矢量量的情况下，根据基于这2个色差信号的矢量的大小，示出颜色信息的彩度。颜色信息的彩度表示基于2个色差信号的矢量的大小越大，则颜色越鲜艳。并且，根据基于这2个色差信号的矢量所成的方向，检测色相信息作为颜色信息。色相表示色调。
[0071]关于基于这2个色差信号的矢量所成的方向，通过计算第I色差信号(Cr)、第2色差信号(Cb)的大小之比而示出方向。
[0072]具体而言，在第I色差信号(Cr)与第2色差信号(Cb)的比率较大的情况下，作为颜色信息，实时取景拍摄时取得的图像数据示出红色较强的颜色。另一方面，在第I色差信号(Cr)与第2色差信号(Cb)的比率较小的情况下，作为颜色信息，实时取景拍摄时取得的图像数据示出蓝色较强的颜色。并且，作为上述所示的相邻的2根垂直线之间的区域的颜色的代表值，计算色差信号的平均输出值或与面积最大的区域对应的色差信号的平均输出值等。然后，文字区域候选线判定部1043判定相邻的2根垂直线之间的区域的颜色是否是大致相同的颜色(步骤S204)。
[0073]在步骤S204的颜色判定中，具体而言，首先，分别根据比较判定中所示的区域的图像数据计算第I色差信号(Cr)、第2色差信号(Cb)。接着，根据计算出的第I色差信号(Cr)、第2色差信号(Cb)检测彩度信息和色相信息。
[0074]关于步骤S204中所示的2根垂直线之间的区域的颜色是否是大致相同的颜色的判定，分别对彩度信息和色相信息进行比较，判定各个值的差是否较大。
[0075]作为具体的一例，在广告牌或台子(例如石碑)等的情况下，认为文字的部分以外的部分是大致相同的颜色(例如图7A的垂直线Lvl与垂直线Lv2之间成为大致相同的颜色)。因此，在相邻的2根垂直线之间的区域的颜色是大致相同的颜色(详细地讲，根据色差信号检测色相、彩度，在作为比较对象的颜色的色相、彩度之差小于规定范围的情况下，判断为大致相同的颜色)的情况下，认为可能在该区域中存在文字。此时，文字区域候选线判定部1043将连接相邻的2根垂直线的端部的线(直线或曲线)作为文字区域候选线(步骤S205)。例如，在图7A的例子中，连接垂直线Lvl的端部和垂直线Lv2的端部的Lhl和Lh2成为文字区域候选线。
[0076]在步骤S205之后、或步骤S202中判定为无法检测到2根以上的垂直线的情况下、步骤S203中判定为不存在长度相等且相邻的2根垂直线的情况下、或步骤S204中判定为相邻的2根垂直线之间的区域的颜色不是大致相同的颜色的情况下，水平线检测部1042检测所输入的图像数据中的水平线(步骤S206)。能够利用边缘检测或角部检测等公知的物体检测中的轮廓检测的手法来检测水平线。
[0077]在水平线检测后，水平线检测部1042判定是否能够检测到2根以上的水平线(步骤S207)。在步骤S207中水平线检测部1042判定为能够检测到2根以上的水平线的情况下，文字区域候选线判定部1043对由水平线检测部1042检测到的水平线的长度进行比较。然后，文字区域候选线判定部1043判定是否存在长度相等且相邻的2根水平线(步骤S208)。在步骤S208中判定为存在长度相等且相邻的2根水平线的情况下，文字区域候选线判定部1043检测相邻的2根水平线之间的区域的颜色。然后，文字区域候选线判定部1043判定相邻的2根水平线之间的区域的颜色是否是大致相同的颜色(详细地讲，根据色差信号检测色相、彩度，在作为比较对象的颜色的色相、彩度之差小于规定范围的情况下，判断为大致相同的颜色)(步骤S209)。在步骤S209中判定为相邻的2根水平线之间的区域的颜色是大致相同的颜色的情况下，文字区域候选线判定部1043将连接相邻的2根水平线的端部的线(直线或曲线)作为文字区域候选线(步骤S210)。例如，在图7A的例子中，连接水平线Lhl的端部和水平线Lh2的端部的Lvl和Lv2成为文字区域候选线。
[0078]在步骤S210之后、或步骤S207中判定为无法检测到2根以上的水平线的情况下、步骤S208中判定为不存在长度相等且相邻的2根水平线的情况下、或步骤S209中判定为相邻的2根水平线之间的区域的颜色不是大致相同的颜色的情况下，文字区域候选线判定部1043判定是否能够检测到图像数据内的闭合线(由直线或曲线包围的区域)(步骤S211)。根据由垂直线检测部1041和水平线检测部1042提取出的边缘的形状等来检测闭合线。
[0079]在步骤S211中能够检测到闭合线的情况下，认为可能在由闭合线形成的区域内包含文字。此时，文字区域候选线判定部1043检测所检测到的线内的区域的颜色。然后，文字区域候选线判定部1043判定检测到的线内的区域的颜色是否是大致相同的颜色(步骤S212)。在步骤S212中判定为区域内的颜色是大致相同的颜色的情况下，文字区域候选线判定部1043将检测到的线作为文字区域候选线(步骤S213)。例如，在图7A的例子中，垂直线Lvl和Lv2以及水平线Lhl和水平线Lh2成为文字区域候选线。通过步骤S213的处理，能够检测闭合曲线作为文字区域候选线。
[0080]在步骤S213之后、或步骤S211中无法检测到闭合线的情况下或步骤S212中区域的颜色不是大致相同的颜色的情况下，文字区域估计部104结束图6的处理，返回到图4A和图4B的处理。在处理返回到图4A和图4B的处理后，控制部202进行文字区域候选判定2的处理(步骤S105)。文字区域候选判定2的处理是根据文字区域候选线判定文字区域候选的处理。下面，对文字区域候选判定2的处理进行说明。
[0081]图8是示出文字区域候选判定2的处理的流程图。图8的处理也由控制部202的图像处理装置100来进行。在图8中，文字区域估计部104的文字区域候选估计部1045判定在由文字区域候选线判定部1043检测到的文字区域候选线的附近、在沿着文字区域候选线的方向上是否存在规则形状的空白部(单一灰度部)(步骤S301)。
[0082]如图9A所示，认为广告牌等中记载的文字沿着广告牌等的水平方向或垂直方向排列的可能性较高。并且，由于在文字中存在各种形状，所以，认为在图像中的排列文字的部分中不存在(较少)规则形状的空白部。因此，将是否存在沿着文字区域候选线的方向的规则形状的空白部作为第I判定基准，根据该判定结果来判定文字区域候选。在图9A这样的与石碑有关的判定中，在沿着文字区域候选线Lhl (Lh2)的方向和沿着文字区域候选线Lh3(Lh4)的方向上进行判定。然后，在沿着文字区域候选线Lh I的方向的判定中判定为存在规则形状的空白部，在沿着文字区域候选线Lh3的方向的判定中，由于包含文字而判定为不存在规则的空白部。另一方面，在图9B这样的具有窗户的建筑物的例子中，在沿着文字区域候选线Lh I的方向的判定中和沿着文字区域候选线Lh3的方向的判定中，均判定为存在规则形状的空白部。根据这种判定，能够降低将不包含文字的区域误判定为文字区域候选的可能性。
[0083]在步骤S301中判定为在沿着文字区域候选线的方向上不存在规则形状的空白部的情况下，文字区域候选估计部1045参照记录部208的文字辞典DB2082，判定是否能够在图像数据中的文字区域候选线的附近的区域中检测到表示文字的图案(步骤S302)。如上所述，认为文字沿着文字区域候选线配置的可能性较高。因此，认为如果是文字区域候选线的附近的区域，则容易检测文字。
[0084]在步骤S302中判定为无法检测到表示文字的图案的情况下，文字区域候选估计部1045判定是否在规则形状的空白部的附近的区域中存在由线构成的图案(步骤S303)。在步骤S303中，即使是实际上无法判定为文字的图案，如果存在由线构成的图案，则认为在该区域中存在文字。
[0085]在步骤S302中判定为检测到表示文字的图案的情况下或步骤S303中判定为在规则形状的空白部的附近的区域中存在由线构成的图案的情况下，文字区域候选估计部1045将能够检测到表示文字的图案的区域或能够检测到由线构成的图案的区域作为文字区域候选(步骤S304)。另一方面，在步骤S301中判定为在沿着文字区域候选线的方向上存在规则形状的空白部的情况下、或步骤S303中判定为在规则形状的空白部的附近的区域中不存在由线构成的图案的情况下，文字区域候选估计部1045判定为不存在文字区域候选(步骤S305)。在步骤S304或步骤S305之后，文字区域估计部104结束图8的处理，返回到图4A和图4B的处理。
[0086]在处理返回到图4A和图4B的处理后，控制部202从图像处理装置100的输出部106取得文字区域候选判定I和文字区域候选判定2的处理结果，根据该处理结果判定是否在图像数据中存在文字区域候选(步骤S106)。在步骤S106中判定为存在文字区域候选的情况下，例如如图3B所示，控制部202对文字区域候选的部分进行强调显示(步骤S107)。另外，在步骤S107中，只要能够对文字区域候选的存在进行强调即可，所以，也可以不对文字区域候选的部分进行强调显示，而通过声音等通知文字区域候选的存在。
[0087]在步骤S106中判定为不存在文字区域候选的情况下或步骤S107之后，控制部202判定是否存在基于用户的拍摄指示(步骤S108)。拍摄指示例如是释放按钮的按压操作或使用触摸面板212的触摸释放操作。在步骤S108中判定为存在拍摄指示的情况下，控制部202执行拍摄动作(步骤S109)。拍摄动作是对摄像部204进行控制而取得记录用的图像数据的动作。
[0088]在拍摄动作后，控制部202根据摄像部204中得到的图像数据生成图像文件(步骤S110)。图10示出步骤SllO中生成的图像文件的一例。如图10所示，图像文件分为图像数据部和标签信息部。在图像数据部中以被压缩的状态记录通过拍摄动作而得到的图像数据。在标签信息部中记录由位置检测部216检测到的拍摄场所和由计时部218检测到的拍摄时刻这样的拍摄时的各种信息作为元数据。
[0089]在图像文件生成后，控制部202判定是否存在文字区域候选(步骤S111)。在步骤Slll中判定为存在文字区域候选的情况下，控制部202显示图3C所示的关联引导206b(步骤SI 12)。然后，控制部202使拍摄模式的设定成为关联拍摄模式(步骤SI 13)。
[0090]接着，控制部202判定是否断开摄像装置200的电源(步骤S114)。例如，在电源开关断开的情况下或规定时间内未进行操作的情况下，断开电源。在步骤S114中判定为断开电源的情况下，控制部202结束图4A和图4B的处理。另一方面，在步骤S114中判定为未断开电源的情况下，控制部202使处理返回到步骤SlOl。
[0091]在步骤S103中判定为当前的拍摄模式的设定是关联拍摄模式的情况下，显示图3C所示的关联引导206b。用户观看关联引导206b，识别场景中的包含文字的被摄体，根据需要握持摄像装置200进行拍摄指示，以使得容易映出文字的部分。为了判定该拍摄指示，在步骤S103中判定为当前的拍摄模式的设定是关联拍摄模式的情况下，控制部202判定是否进行了拍摄指示(步骤S116)。在步骤S116中判定为进行了拍摄指示的情况下，控制部202执行拍摄动作(步骤S117)。在拍摄动作执行后，控制部202通过文字识别部2024识别通过拍摄动作而得到的图像数据中的文字(步骤S118)。然后，控制部202判定是否能够进行文字识别(步骤 S119)。
[0092]在步骤S119中判定为无法进行文字识别的情况下，控制部202判定是否得到了文字的识别候选(步骤S120)。有时即使由于污垢等无法识别文字的一部分，但是能够根据可识别的部分估计整体的文字。步骤S120的处理是用于判定是否能够进行这种估计的处理。
[0093]在步骤S120中判定为未得到文字的识别候选的情况下，控制部202使显示部206显示表示无法进行文字判别的不可判别消息(步骤S121)。并且，在步骤S120中判定为得到了文字的识别候选的情况下，控制部202也使显示部206显示不可判别消息(步骤S122)。然后，控制部202使显示部206显示文字的识别候选的一览(步骤S123)。在一览显示后，控制部202判定用户是否选择了识别候选(步骤S124)。在步骤S124中判定为例如在规定时间内未选择识别候选的情况下，控制部202使处理转移到步骤S127。
[0094]在步骤SI19中判定为能够进行文字识别的情况下或步骤S124中判定为选择了识别候选的情况下，控制部202通过元数据生成部2025将识别出的文字信息与图像文件关联起来(步骤S126)。然后，控制部202使处理转移到步骤S127。图11示出步骤S120中关联的图像文件的一例。如图11所示，识别出的文字信息记录在图像文件的标签信息部中。
[0095]在步骤S116中判定为不存在拍摄指示的情况下、步骤S124中判定为在规定时间内未选择识别候选的情况下、或步骤S216之后，控制部202解除关联模式的设定(步骤S127)。然后，控制部202使处理转移到步骤S114。
[0096]如以上说明的那样，根据本实施方式，根据图像内的垂直线或水平线来判定文字区域候选线，沿着判定出的文字区域候选线判定存在文字的可能性较高的区域作为文字区域候选，向用户提示文字区域候选的部分的信息，由此，能够使用户得知场景内的广告牌等的具有文字的被摄体的存在。并且，在能够判定文字区域候选时，拍摄模式的设定被设定为关联拍摄模式。在关联拍摄模式中的实时取景显示中，显示关联引导206b，所以，能够向用户提示在容易识别文字的朝向拍摄广告牌等。
[0097]下面，对本实施方式的变形例进行说明。
[0098][变形例I]
[0099]在所述实施方式中，在摄像装置200中进行文字的识别，在摄像装置200中无法进行文字识别的情况下，进行不可判别显示，然后结束处理。但是，不需要仅在摄像装置200中进行文字识别。变形例I是在摄像装置200中无法进行文字识别的情况下、在服务器300中进行文字识别的例子。
[0100]图12A和图12B是示出本实施方式的变形例I的摄像装置200的拍摄时的动作的流程图。另外，在图12A和图12B中，对与图4A和图4B相同的处理标注与图4A和图4B相同的参照标号，从而省略说明。即，省略步骤S1I?步骤S117的处理的说明。在步骤S118中的文字识别后，控制部202判定是否能够进行文字识别(步骤S119)。
[0101]在步骤S119中判定为能够进行文字识别的情况下，控制部202通过元数据生成部2025将识别出的文字信息与图像文件关联起来(步骤S126)。另一方面，在步骤S119中判定为无法进行文字识别的情况下，控制部202使记录部208记录通过步骤S117的拍摄动作而得到的包含文字的被摄体的图像数据作为之前记录的图像文件的关联图像文件(步骤S131)。然后，控制部202使处理转移到步骤S127。
[0102]在步骤SlOl中判定为摄像装置200的工作模式不是拍摄模式的情况下，控制部202判定摄像装置200的工作模式是否是再现模式(步骤S132)。在步骤S132中判定为摄像装置200的工作模式是再现模式的情况下，控制部202进行再现模式的处理。另一方面，在步骤S132中判定为摄像装置200的工作模式不是再现模式的情况下，控制部202判定摄像装置200的工作模式是否是通信模式(步骤S133)。在步骤S133中判定为摄像装置200的工作模式不是通信模式的情况下，控制部202使处理转移到步骤S114。
[0103]在步骤S133中判定为摄像装置200的工作模式是通信模式的情况下，控制部202判定用户是否进行了通信指示(步骤S134)。例如，在通信模式中用户选择任意的图像文件，由此进行通信指示。在步骤S134中判定为未进行通信指示的情况下，控制部202使处理转移到步骤S114。
[0104]在步骤S134中判定为进行了通信指示的情况下，控制部202的通信控制部2027通过通信部220向服务器300发送由用户选择出的图像文件(步骤S135)。服务器300的控制部302在接收到图像文件的情况下，使记录部304记录接收到的图像文件。此时，控制部302在接收到的图像文件是关联图像文件的情况下，通过文字识别部3021进行文字识别。服务器300中搭载的文字辞典DB3041的信息量比摄像装置200中搭载的文字辞典DB2082的信息量多，所以，基于服务器300的文字识别的成功率比基于摄像装置200的文字识别的成功率高。
[0105]在图像文件发送后，控制部202判定是否接收到基于服务器300的文字识别结果(步骤S136)。在步骤S136中判定为未接收到基于服务器300的文字识别结果的情况下，控制部202使处理转移到步骤S114。在步骤S136中判定为接收到基于服务器300的文字识别结果的情况下，控制部202通过元数据生成部2025将识别出的文字信息与图像文件关联起来(步骤SI 37)。然后，控制部202使处理转移到步骤SI 14。
[0106]在以上说明的变形例I中，在摄像装置200中无法对关联拍摄模式时拍摄的图像进行文字识别的情况下，使记录部208记录该图像作为关联图像。通过向服务器300发送该关联图像，能够利用基于服务器300的高精度的文字识别来提高文字识别的成功概率。
[0107][变形例2]
[0108]在所述实施方式和变形例I中，主要对摄像装置200是数字照相机或智能手机这样的便携设备的例子进行了说明。与此相对，例如，摄像装置200也可以搭载在车辆中进行使用。例如如图13A所示，是变形例2的车辆C中搭载的摄像部204 ο摄像部204的摄影镜头2041具有规定焦点位置处的开口角α。摄像部204在行驶中进行前方的摄像，根据摄像中得到的图像中的垂直线和水平线来判定文字区域候选线和文字候选区域。
[0109]变形例2的车辆C具备具有图像显示功能的前方反光镜。在该前方反光镜的附近配置摄像装置200，以使得能够对车辆C的前方进行摄像。图13Β是示出车辆C的前方反光镜的部分的图。如图13Β所示，在能够判定文字区域候选的情况下，与所述实施方式同样，进行关联引导显示206b。例如，在图13Β的例子中，“PARK”的区域沿着连接2根垂直线的水平线排列文字，所以，通过所述本实施方式的手法判定为文字区域候选。
[0110]这里，在道路的情况下，在人行横道等白线404的附近配置文字的可能性较高。但是，道路上的白线404在图像上成为图13B所示的倾斜方向的线。因此，白线404未判定为本实施方式中的垂直线或水平线。因此，在变形例2中，通过在图像内检测道路的侧线402，根据图像内的侧线402的角度和车辆C的行进方向来进行图像的角度校正。然后，在进行了角度校正后的图像内检测与侧线402垂直的白线404，将该白线404作为文字区域候选线。由此，能够将图13A所示的道路上的包含“注意”的文字的区域作为文字区域候选。
[0111]以上根据实施方式对本发明进行了说明，但是，本发明不限于上述实施方式，当然能够在本发明的主旨的范围内进行各种变形和应用。并且，在所述各动作流程图的说明中，为了简便而使用“首先”、“接着”等来说明动作，但是，并不意味着必须按照该顺序来实施动作。这里，强调说明了作为图像处理装置的方面，但是，当然可以作为图像显示装置、检查装置、警告装置进行应用，除了消费者用途以外，当然可以作为产业用设备、医疗用设备进行应用。在这样的现场，进行各种文字显示，向用户提示警告或注意的情况较多，这种文字大多水平、垂直书写。利用机械等进行显示的情况也不例外，能够应用与这里说明的广告牌或标识同样的想法。由此，当然能够应用于根据图像的数据来判定人不容易注意的信息而消除漏看的应用的用途、提示再次拍摄、再次检查、再次观察的用途。只要能够读取文字，则在此进行文字判定，能够通过基于文本的检索、地址的读入等实现因特网等的协作，容易从第三方支援进一步的观察和拍摄的辅助，能够实现进一步的鉴赏、观察、检查。
[0112]并且，上述实施方式的各处理可以作为能够由控制部202执行的程序进行存储。除此之外，可以存储在存储卡(ROM卡、RAM卡等)、磁盘(硬盘等)、光盘(⑶-R0M、DVD等)、半导体存储器等外部存储装置的存储介质中进行发布。而且，控制部202读入该外部存储装置的存储介质中存储的程序，通过该读入的程序对动作进行控制，由此能够执行上述处理。
[0113]标号说明
[0114]100:图像处理装置；102:图像取得部；104:文字区域估计部；106:输出部；200:摄像装置；202:控制部；204:摄像部；206:显示部；208:记录部；210:操作部；212:触摸面板；214:姿势检测部；216:位置检测部；218:计时部；220:通信部；300:服务器；302:控制部；304:记录部;306:通信部;400:终端设备；1041:垂直线检测部；1042:水平线检测部；1043:文字区域候选线判定部；1043a:颜色分布检测部；1043b:颜色判定部；1044:阴影检测部；1045:文字区域候选估计部;2022:摄像控制部；2023:图像处理部；2024:文字识别部；2025:元数据生成部；2026:显示控制部；2027:通信控制部；2041:摄影镜头；2042:摄像元件；2043:模拟/数字(A/D)转换部;2081:连接目的地数据库(DB); 2082:文字辞典数据库(DB);3021:文字识别部;3022:通信控制部;3041:文字辞典数据库(DB)。
【主权项】
1.一种图像处理装置，其具有: 图像取得部，其取得图像；文字区域估计部，其判定所取得的所述图像内的表示排列文字的可能性较高的方向的线作为文字区域候选线，估计沿着所述文字区域候选线排列文字的可能性较高的区域作为文字区域候选;以及输出部，其输出由所述文字区域估计部估计出的文字区域候选的信息，所述文字区域估计部具有: 垂直线检测部，其检测所述图像内的多个垂直线；水平线检测部，其检测所述图像内的多个水平线；颜色分布检测部，其检测所检测到的所述多个垂直线之间的颜色分布或所检测到的所述多个水平线之间的颜色分布；以及文字区域候选线判定部，其根据所检测到的所述颜色分布来判定所述文字区域候选线。2.根据权利要求1所述的图像处理装置，其中，所述文字区域候选线判定部具有颜色分布判定部，该颜色分布判定部判定所检测到的所述多个垂直线之间的颜色分布是否是大致相等的颜色分布，或所检测到的所述多个水平线之间的颜色分布是否是大致相等的颜色分布，在由所述颜色分布判定部判定为所检测到的所述多个垂直线之间的颜色分布是大致相等的颜色分布的情况下，将连接所述多个垂直线的端部的线判定为所述文字区域候选线，在所检测到的所述多个水平线之间的颜色分布是大致相等的颜色分布的情况下，将连接所述多个水平线的端部的线判定为所述文字区域候选线。3.根据权利要求1或2所述的图像处理装置，其中，所述文字区域估计部具有: 阴影检测部，其检测沿着所述文字区域候选线的方向的阴影分布；以及文字区域候选估计部，其根据由所述阴影检测部检测到的阴影分布来估计所述文字区域候选。4.根据权利要求3所述的图像处理装置，其中，在由所述阴影检测部检测到的阴影分布不包含规则形状的单一灰度部，并且，在沿着所述文字区域候选线的方向上检测到包含表示文字的图案的区域、或检测到所述单一灰度部以外包含由线构成的图案的区域的情况下，所述文字区域候选估计部将包含所述表示文字的图案的区域或所述单一灰度部以外包含由线构成的图案的区域估计为所述文字区域候选。5.根据权利要求1所述的图像处理装置，其中，所述图像处理装置还具有控制部，该控制部根据所述文字区域候选的信息，对所述图像中的所述文字区域候选的存在进行强调。6.根据权利要求1所述的图像处理装置，其中，所述图像处理装置具有用于使用户拍摄所述文字区域候选的图像的关联拍摄模式。7.—种图像处理方法，其具有以下步骤: 判定所取得的图像内的表示排列文字的可能性较高的方向的线作为文字区域候选线；估计沿着所述文字区域候选线排列文字的可能性较高的区域作为文字区域候选；以及输出所估计出的所述文字区域候选的信息，所述文字区域候选线的判定具有以下步骤: 检测所述图像内的多个垂直线；检测所述图像内的多个水平线；检测所检测到的所述多个垂直线之间的颜色分布或所检测到的所述多个水平线之间的颜色分布；以及根据所检测到的所述颜色分布来判定所述文字区域候选线。8.一种图像处理程序，其用于使计算机执行以下步骤: 判定所取得的图像内的表示排列文字的可能性较高的方向的线作为文字区域候选线；估计沿着所述文字区域候选线排列文字的可能性较高的区域作为文字区域候选；以及输出所估计出的所述文字区域候选的信息，其中，所述文字区域候选线的判定具有以下步骤: 检测所述图像内的多个垂直线；检测所述图像内的多个水平线；检测所检测到的所述多个垂直线之间的颜色分布或所检测到的所述多个水平线之间的颜色分布；以及根据所检测到的所述颜色分布来判定所述文字区域候选线。
【文档编号】G06T7/40GK106063247SQ201480076455
【公开日】2016年10月26日
【申请日】2014年7月1日
【发明人】野中修, 山宫国雄, 儿玉裕, 阿部慎也, 土持裕, 土持裕一
【申请人】奥林巴斯株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：野中修;山宫国雄;儿玉裕;阿部慎也;土持裕一;
技术所有人：奥林巴斯株式会社;
我是此专利的发明人

上一篇：通用捕获的制作方法
上一篇：具有立体视觉和机上处理的智能项链的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。