用于有助于检测图像内的文本的方法和装置制造方法

文档序号:6497362阅读:153来源:国知局
用于有助于检测图像内的文本的方法和装置制造方法
【专利摘要】提供用于有助于检测图像内的文本的方法和装置。一种方法可以包括计算与包含假设的文本片段的图像区域关联的阿尔法值。可以定义阿尔法值为用于假设的文本片段的弯曲字符长度分布、字符宽度分布和字符间间距分布的函数。该方法还可以包括至少部分地基于针对假设的文本片段确定的间隔长度分布计算伽马值。该方法也可以包括至少部分地基于计算出的阿尔法值和伽马值对图像区域是否为包含文本的区域进行分类。也提供了对应的装置。
【专利说明】用于有助于检测图像内的文本的方法和装置
【技术领域】
[0001]本发明的实施例总体涉及图像处理技术并且更具体地涉及用于有助于检测图像内的文本的方法和装置。
【背景技术】
[0002]现代计算时代已经带来计算能力的迅速扩张从而产生可负担并且强大的计算设备的发展。现代计算设备的使用已经变得在跨社会经济背景范畴的消费者之中几乎无处不在。这些现代计算设备可以能够执行多种基于图像的服务、例如包括增强现实应用、兴趣点导航服务和/或其它应用,在这些其它应用中,可以捕获用户的周围环境的图像并且用可以通过处理图像而获得的附加情境信息扩充图像。作为又一示例,三维地图绘制技术可以使用捕获的现实图像以产生三维地图,这些三维地图包括可以从图像情境获得的与兴趣点有关的三维定位信息和内容。
[0003]这样的基于图像的服务可以依赖于检测捕获的现实图像内的文本和/或通过该检测来增强。就此而言,在现实图像内识别的文本可以用来有助于兴趣点识别、提供捕获的文本的音频回读、为异国旅行者提供语言翻译服务等。然而图像内的文本检测仍然成问题。就此而言,尽管已经在文档识别领域内使用图像中的文本检测,但是在自然界图像(比如室外场景中的文本检测)已经证实由于如下挑战而明显更困难,这些挑战由于大量文本字体和样式、相机视点、图像对比度以及其它因素而产生,这些其它因素影响捕获的自然界图像内的文本的可视性。另外,尽管文档文本在文档识别领域中可以是在捕获的图像内的主要焦点,但是在自然界图像内的文本覆盖范围通常是图像的很小部分(经常在数十兆像素的图像中占用数百像素)。

【发明内容】

[0004]这里提供用于有助于在图像内的文本检测的方法、装置和计算机程序产品。根据各种实施例的方法、装置和计算机程序产品可以向计算设备、计算设备用户和设备服务提供商提供若干优点。更具体而言,一些示例实施例提供检测图像中的文本,这可以特别有益于检测在自然界图像(比如室外图像)内的文本,在该自然界图像中可能存在多种字体样式和大小,并且在该自然界图像中,背景对比度可能另外妨碍文本检测。就此而言,一些示例实施例提供在自然界图像内独立于文本的字体、字母样式、语言和定向的文本检测。更具体而言,一些示例实施例利用可以独立于字体、字母样式和语言的文本性质,这些性质可以通过使用可以基于理解的文本性质的模型而更迅速执行的计算来提供比先前方法更快的文本检测。另外,一些示例实施例所提供的基于模型的文本检测方式可以比先前基于试探的方式更可靠。一些示例实施例还提供用于为文本检测指定性能界限的能力,从而可以根据可以由文本模型定义的已知文本性质来提供某个检测率、由此使用户能够调节文本检测以满足希望的性能界限。
[0005]在第一示例实施例中,提供一种方法,该方法可以包括计算与包含假设的文本片段的图像区域关联的阿尔法值。阿尔法值可以被定义为用于假设的文本片段的弯曲字符长度分布、字符宽度分布和字符间间距分布的函数。这一示例实施例的方法还可以包括至少部分地基于针对假设的文本片段确定的间隔长度分布计算伽马值。这一示例实施例的方法也可以包括至少部分地基于计算出的阿尔法值和伽马值对图像区域是否为包含文本的区域进行分类。
[0006]在另一示例实施例中,提供了一种装置。这一示例实施例的装置可以包括至少一个处理器和存储计算机程序代码的至少一个存储器。至少一个存储器和存储的计算机程序代码可以被配置为与至少一个处理器一起使这一示例实施例的装置至少计算与包含假设的文本片段的图像区域关联的阿尔法值。阿尔法值可以被定义为用于假设的文本片段的弯曲字符长度分布、字符宽度分布和字符间间距分布的函数。至少一个存储器和存储的计算机程序代码可以被配置为与至少一个处理器一起还使这一示例实施例的装置至少部分地基于针对假设的文本片段确定的间隔长度分布计算伽马值。至少一个存储器和存储的计算机程序代码可以被配置为与至少一个处理器一起还使这一示例实施例的装置至少部分地基于计算出的阿尔法值和伽马值对图像区域是否为包含文本的区域进行分类。
[0007]在另一示例实施例中,提供了一种计算机程序产品。这一实施例的计算机程序产品包括至少一个计算机可读存储介质,至少一个计算机可读存储介质具有在其中存储的计算机可读程序指令。这一示例实施例的程序指令可以包括被配置为计算与包含假设的文本片段的图像区域关联的阿尔法值的程序指令。阿尔法值可以被定义为用于假设的文本片段的弯曲字符长度分布、字符宽度分布和字符间间距分布的函数。这一示例实施例的程序指令还可以包括被配置为至少部分地基于针对假设的文本片段确定的间隔长度分布计算伽马值的程序指令。这一示例实施例的程序指令可以包括被配置为至少部分地基于计算出的阿尔法值和伽马值对图像区域是否为包含文本的区域进行分类的程序指令。
[0008]在更多另一示例实施例中,提供了一种装置,该装置可以包括用于计算与包含假设的文本片段的图像区域关联的阿尔法值的装置。阿尔法值可以被定义为用于假设的文本片段的弯曲字符长度分布、字符宽度分布和字符间间距分布的函数。这一示例实施例的装置还可以包括用于至少部分地基于针对假设的文本片段确定的间隔长度分布计算伽马值的装置。这一示例实施例的装置也可以包括用于至少部分地基于计算出的阿尔法值和伽马值对图像区域是否为包含文本的区域进行分类的装置。
[0009]提供以上
【发明内容】
仅用于概括本发明的一些示例实施例以便提供对本发明的一些方面的基本理解。因而将认识到以上描述的示例实施例仅为示例而不应解释为以任何方式缩小本发明的范围或者精神实质。将认识到本发明的范围除了这里概括的实施例之外还涵盖许多潜在实施例,以下将进一步描述这些潜在实施例中的一些潜在实施例。
【专利附图】

【附图说明】
[0010]已经这样用一般措词描述本发明的一些示例实施例,现在将参照附图,这些附图未必按比例绘制,并且在这些附图中:
[0011]图1图示根据一些示例实施例的用于有助于检测图像内的文本的文本检测装置的框图;
[0012]图2是根据一些示例实施例的移动终端的示意框图;[0013]图3图示根据一些示例实施例的用于执行文本检测的系统;
[0014]图4图示根据一些示例实施例的用于单词生成的示例贝叶斯网络,该贝叶斯网络可以用来描述对在捕获的图像内的文本的影响变量和效果;
[0015]图5图示根据一些示例实施例跨假设的文本片段应用扫描线;
[0016]图6图示根据一些示例实施例的针对训练数据集计算的阿尔法值和伽马值,可以使用这些阿尔法值和伽马值作为用于对假设的文本片段进行分类的模型;
[0017]图7图示用于阿尔法值和伽马值的示例散点图;
[0018]图8图示根据一些示例实施例的样本分类结果;
[0019]图9图示根据一些示例实施例的有助于检测图像内的文本的示例方法的流程图;并且
[0020]图10图示根据一些示例实施例的有助于检测图像内的文本的另一示例方法的流程图。
【具体实施方式】
[0021]现在下文将参照附图更完全地描述本发明的一些实施例,在附图中示出本发明的一些、但是并非所有实施例。实际上,本发明可以用许多不同形式来体现而不应解释为限于这里阐述的实施例;实际上,提供这些实施例使得本公开内容将满足适用法律要求。相似标号全篇指代相似单元。
[0022]如这里所用,术语“数据”、“内容”、“信息”和相似术语可以根据各种示例实施例可互换地用来指代能够传输、接收、显示和/或存储的数据。因此,使用任何这样的术语不应解释为限制公开内容的精神实质和范围。另外,在这里描述计算设备从另一计算设备接收数据时,将认识到可以从另一计算设备直接接收数据或者可以经由一个或者多个中间计算设备(如比如一个或者多个服务器、中继、路由器、网络接入点、基站等)间接接收数据。
[0023]如这里所用术语“计算机可读介质”指代被配置为参与向处理器提供信息的任何介质,该信息包括用于执行的指令。这样的介质可以采用许多形式,这些形式包括、但不限于非瞬态计算机可读存储介质(例如非易失性介质、易失性介质)和传输介质。传输介质例如包括同轴线缆、铜线、光纤线缆和经过空间行进而没有接线或者线缆的载波、比如声波和电磁波,这些电磁波包括无线电波、光波和红外线波。非瞬态计算机可读介质的示例包括软盘、硬盘、磁带、任何其它非瞬态磁介质、紧致盘只读存储器(CD-ROM)、紧致盘可重写(CD-RW)、数字万用盘(DVD)、蓝光、任何其它非瞬态光介质、随机存取存储器(RAM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、FLASH-EPR0M、任何其它存储器芯片或者盒或者计算机可以从其读取的任何其它非瞬态介质。术语计算机可读存储介质这里用来指代除了传输介质之外的任何计算机可读介质。然而将认识到在描述实施例使用计算机可读存储介质时,可以在备选实施例中用其它类型的计算机可读介质替换计算机可读存储介质或者除了计算机可读存储介质之外还使用其它类型的计算机可读介质。
[0024]此外,如这里所用,术语‘电路装置’指代:(a)仅硬件的电路实现方式(比如在模拟电路装置和/或数字电路装置中的实现方式);(b)电路与计算机程序产品的组合,该计算机程序产品包括在一个或者多个计算机可读存储器上存储的软件和/或固件指令,这些电路和计算机程序产品一起工作以使装置执行这里描述的一个或者多个功能;以及(C)电路、如比如微处理器或者微处理器的一部分,这些电路需要用于操作的软件或者固件,即使软件或者固件并非物理上存在。‘电路装置’的这一定义适用于这一术语在这里、包括在任何权利要求中的所有使用。作为又一示例,如这里所用,术语‘电路装置’也包括如下实现方式,该实现方式包括一个或者多个处理器和/或其部分以及附带软件和/或固件。作为另一示例,如这里所用的术语‘电路装置’也例如包括用于移动电话的基带集成电路或者应用处理器集成电路或者在服务器、蜂窝网络设备、其它网络设备和/或其它计算设备中的相似集成电路。
[0025]图1图示根据一些示例实施例的用于有助于检测图像内的文本的文本检测装置102的框图。将认识到文本检测装置102被提供作为一些实施例的示例而不应解释为以任何方式缩小公开内容的范围或者精神实质。就此而言,公开内容的范围除了这里图示和描述的实施例之外还涵盖许多潜在实施例。这样,尽管图1图示用于有助于检测图像内的文本的装置的配置的一个示例,但是其它配置也可以用来实施在公开内容的范围内的实施例。
[0026]文本检测装置102可以被体现为桌面型计算机、膝上型计算机、移动终端、移动计算机、移动电话、移动通信设备、平板计算设备、一个或者多个服务器、一个或者多个网络节点、游戏设备、数字相机/可携式摄像机、音频/视频播放器、电视设备、无线电接收器、数字录像机、定位设备、芯片组、包括芯片组的装置、其任何组合等。在一个示例实施例中,文本检测装置102可以被体现为移动终端、比如图2中所示的移动终端。
[0027]就此而言,图2图示移动终端10的框图,该移动终端代表文本检测装置102的一个实施例。然而应当理解图示并且下文描述的移动终端10仅举例说明可以实施和/或受益于各种实施例的一个类型的文本检测装置102、因此不应解读为限制公开内容的范围。尽管出于示例的目的而图示并且下文将描述电子设备的若干实施例,但是其它类型的电子设备、比如移动电话、移动计算机、便携数字助理(PDA)、寻呼机、膝上型计算机、桌面型计算机、游戏设备、电视和其它类型的电子系统可以运用本发明的各种实施例。
[0028]如图所示,移动终端10可以包括与发射器14和接收器16通信的一个天线12 (或者多个天线12)。移动终端10也可以包括被配置为分别向发射器和接收器提供信号和从其接收信号的处理器20。处理器20可以例如被体现为各种装置,这些装置包括电路装置、具有附带数字信号处理器的一个或者多个微处理器、没有附带数字信号处理器的一个或者多个处理器、一个或者多个协同处理器、一个或者多个多核处理器、一个或者多个控制器、处理电路装置、一个或者多个计算机、包括集成电路、如比如ASIC(专用集成电路)或者FPGA(现场可编程门阵列)的各种其它处理单元或者其某种组合。因而虽然在图2中图示为单个处理器,但是在一些实施例中,处理器20包括多个处理器。这些由处理器20发送和接收的信号可以包括根据适用蜂窝系统的空中接口标准和/或任何数目的不同有线或者无线联网技术的信令信息,这些联网技术包括、但不限于W1-F1、无线局域网(WLAN)技术、t匕如、电气和电子工程师协会(IEEE)802.1U802.16等。附加地,这些信号可以包括话音数据、用户生成的数据、用户请求的数据等。就此而言,移动终端可以能够用一个或者多个空中接口标准、通信协议、调制类型、接入类型等操作。更具体而言,移动终端可以能够根据各种第一代(IG)、第二代(2G)、2.5G、第三代(3G)通信协议、第四代(4G)通信协议、网际协议多媒体子系统(MS)通信协议(例如会话发起协议(SIP))、可以将来开发的协议等操作。例如移动终端可以能够根据2G无线通信协议IS-136(时分多址接入(TDMA))、全球移动通信系统(GSM)、IS-95(码分多址接入(CDMA))等操作。还例如移动终端可以能够根据通用分组无线电服务(GPRS)、增强型数据GSM环境(EDGE)等这些2.5G无线通信协议操作。另外例如移动终端可以能够根据3G无线通信协议、比如通用移动电信系统(UMTS)、码分多址接入2000(CDMA2000)、宽带码分多址接入(WCDMA)、时分-同步码分多址接入(TD-SCDMA)等操作。移动终端可以附加地能够根据4G无线通信协议、比如长期演进(LTE)、LTE高级(LTE-A)、演进通用地面无线电接入网络(E-UTRAN)等操作。
[0029]一些窄带高级移动电话系统(NAMPS)以及全接入通信系统(TACS)移动终端也可以如双模或者更高模式的电话(例如数字/模拟或者TDMA/CDMA/模拟电话)应当的那样从本发明的实施例中受益。附加地,移动终端10可以能够根据无线保真(W1-Fi)或者全球微波接入互操作性(WiMAX)协议操作。
[0030]理解到处理器20可以包括用于实施移动终端10的音频/视频和逻辑功能的电路装置。例如处理器20可以包括数字信号处理器设备、微处理器设备、模数转换器、数模转换器等。可以根据这些设备的相应能力在它们之间分配移动终端的控制和信号处理功能。处理器可以附加地包括内部语音编码器(VC) 20a、内部数据调制解调器(DM) 20b等。另外,处理器可以包括用于操作可以在存储器中存储的一个或者多个软件程序的功能。例如,处理器20可以能够操作连接程序、比如web浏览器。连接程序可以允许移动终端10根据协议(比如无线应用协议(WAP)、超文本传送协议(HTTP)等)发送和接收web内容、比如基于位置的内容。移动终端10可以能够使用传输控制协议/网际协议(TCP/IP)以跨因特网或者其它网络发送和接收web内容。
[0031]移动终端10也可以包括可以操作地耦合到处理器20的用户接口,该用户接口例如包括耳机或者扬声器24、振铃器22、麦克风26、显示器28、用户输入接口等。就此而言,处理器20可以包括用户接口电路装置,该用户接口电路装置被配置为控制用户接口的一个或者多个单元、如比如扬声器24、振铃器22、麦克风26、显示器28等的至少一些功能。处理器20和/或包括处理器20的用户接口电路装置可以被配置为通过在处理器20可访问的存储器(例如易失性存储器40、非易失性存储器42等)上存储的计算机程序指令(例如软件和/或固件)控制用户接口的一个或者多个单元的一个或者多个功能。虽然未示出,但是移动终端可以包括用于向与移动终端有关的各种电路(例如用于提供机械振动作为可检测输出的电路)供电的电池。用户输入接口可以包括允许移动终端接收数据的设备、比如键区30、触摸屏(未示出)、操纵杆(未示出)和/或其它输入设备。在包括键区的实施例中,键区可以包括数字键(0-9)和有关键(#、*)和/或用于操作移动终端的其它键。
[0032]如图2中所示,移动终端10也可以包括用于共享和/或获得数据的一个或者多个装置。例如,移动终端可以包括短程射频(RF)收发器和/或询问器64,从而可以根据RF技术与电子设备共享和/或从电子设备获得数据。移动终端可以包括其它短程收发器、如t匕如红外线(IR)收发器66、使用Bluetooth?特别兴趣组开发的Bluetooth?品牌无线技术来操作的Bluetooth?(BT)收发器68、无线通用串行总线(USB)收发器70等。Bluetooth?收发器68可以能够根据超低功率Bluetooth?技术(例如Wibree?)无线电标准操作。就此而言,移动终端10并且具体为短程收发器可以能够向在移动终端的邻域内(如比如在10米内)的电子设备发送数据和/或从这些电子设备接收数据。虽然未示出,但是移动终端可以能够根据各种无线联网技术传输和/或接收来自电子设备的数据,这些无线联网技术包括无线保真(W1-Fi)、WLAN技术、比如IEEE802.11技术、IEEE802.15技术、IEEE802.16技术等。
[0033]移动终端10可以包括与处理器20通信的媒体捕获单元、比如相机、视频和/或音频模块。媒体捕获单元可以包括用于捕获图像、视频和/或音频用于存储、显示或者传输的任何装置。例如在其中媒体捕获单元包括相机模块36的一些示例实施例中,相机模块36可以包括被配置为从捕获的图像形成数字图像的数字相机。此外,相机模块36的数字相机可以被配置为捕获视频剪辑。这样,相机模块36可以包括为了从捕获的图像创建数字图像文件以及从捕获的视频剪辑创建数字视频文件而必需的所有硬件、比如透镜或者其它光学部件以及软件。备选地,相机模块36可以仅包括为了查看图像而需要的硬件,而移动终端10的存储器设备以为了从捕获的图像创建数字图像文件而必需的软件的形式存储用于由处理器20执行的指令。作为更多另一备选,可以在移动终端10的显示器28上显示在相机模块36的视野内的一个对象或者多个对象以图示如果用户希望则可以捕获的当前显示的图像的视图。这样,捕获的图像可以例如包括相机模块36捕获的并且在图像文件中存储的图像。作为另一示例,捕获的图像可以包括移动终端10的显示器或者取景器当前显示的、但是未必在图像文件中存储的一个对象或者多个对象。在一些示例实施例中,相机模块36还可以包括被配置为辅助处理器20处理图像数据的处理单元、比如协同处理器以及用于压缩和/或解压图像数据的编码器和/或解码器。编码器和/或解码器可以例如根据联合图象专家组(JPEG)标准、运动图象专家组(MPEG)标准或者其它格式编码和/或解码。
[0034]移动终端10可以包括可以存储与移动用户有关的信元的存储器、比如用户身份模块(SM) 38、可拆卸用户身份模块(R-UM)等。除了 SM之外,移动终端还可以包括其它可拆卸和/或固定存储器。移动终端10可以包括易失性存储器40和/或非易失性存储器42。例如易失性存储器40可以包括随机存取存储器(RAM)、片上或者片外高速缓存存储器等,该RAM包括动态和/或静态RAM。可以是嵌入的和/或可拆卸的非易失性存储器42可以例如包括只读存储器、闪速存储器、磁存储设备(例如硬盘、软盘驱动、磁带等)、光盘驱动和/或介质、非易失性随机存取存储器(NVRAM)等。如同易失性存储器40,非易失性存储器42可以包括用于暂时存储数据的高速缓存区域。存储器可以存储移动终端可以用于执行移动终端的功能的一个或者多个软件程序、指令、一条或者多条信息、数据等。例如,存储器可以存储能够唯一标识移动终端10的标识符、比如国际移动设备标识(IMEI)代码。
[0035]回顾图1,在一些示例实施例中,文本检测装置102包括用于执行这里描述的各种功能的各种装置。这些装置可以包括处理器110、存储器112、通信接口 114、用户接口 116、图像捕获电路装置118或者检测电路装置120中的一项或者多项。如这里描述的文本检测装置102的装置可以例如被体现为电路装置、硬件单元(例如适当编程的处理器、组合逻辑电路等)、包括计算机可读介质(例如存储器112)的计算机程序产品或者其某种组合,该计算机可读介质存储可以由适当配置的处理设备(例如处理器110)执行的计算机可读程序指令(例如软件或者固件)。
[0036]在一些示例实施例中,图3中所示装置中的一个或者多个装置可以被体现为芯片或者芯片组。换而言之,文本检测装置102可以包括一个或者多个物理封装(例如芯片),该一个或者多个物理封装包括结构组件(例如基板)上的材料、部件和/或接线。结构组件可以提供用于在其上包括的部件电路装置的物理强度、尺寸节约和/或电互作用限制。就此而言,可以体现处理器110、存储器112、通信接口 114、用户接口 116、图像捕获电路装置118和检测电路装置120中的一项或者多项或者其某种组合为芯片或者芯片组。文本检测装置102因此可以在一些示例实施例中被配置为在单个芯片上或者作为单个“片上系统”实施本发明的实施例。作为另一示例,在一些示例实施例中,文本检测装置102可以包括被配置为在单个芯片上或者作为单个“片上系统”实施本发明的实施例的部件。这样,在一些情况下,芯片或者芯片组可以构成用于执行一个或者多个操作的装置,该一个或者多个操作用于提供这里描述的功能和/或实现用于关于这里描述的功能和/或服务的用户接口导航。
[0037]处理器110例如可以被体现为各种装置,这些装置包括具有附带数字信号处理器的一个或者多个微处理器、没有附带数字信号处理器的一个或者多个处理器、一个或者多个协同处理器、一个或者多个多核处理器、一个或者多个控制器、处理电路装置、一个或者多个计算机、包括集成电路、如比如ASIC(专用集成电路)或者FPGA(现场可编程门阵列)的各种其它处理单元或者其某种组合。因而虽然在图1中图示为单个处理器,但是在一些实施例中,处理器110包括多个处理器。多个处理器可以相互操作通信并且可以被共同地配置为执行如这里描述的文本检测装置102的一个或者多个功能。多个处理器可以被体现在单个计算设备上或者跨被共同地配置为作为文本检测装置102工作的多个计算设备分布。在其中文本检测装置102被体现为移动终端10的实施例中,处理器110可以被体现为或者包括处理器20。在一些示例实施例中,处理器110被配置为执行在存储器112中存储的或者处理器110另外可访问的指令。这些指令在由处理器110执行时可以使文本检测装置102执行如这里描述的文本检测装置102的功能中的一个或者多个功能。这样,无论通过硬件或者软件方法或者通过其组合来配置,处理器110可以包括能够当被相应地配置时根据本发明的实施例执行操作的实体。因此,例如在处理器110被体现为ASIC、FPGA等时,处理器110可以包括用于进行这里描述的一个或者多个操作而专门配置的硬件。备选地,作为另一示例,在处理器110被体现为比如可以在存储器112中存储的指令的执行器时,指令可以具体地配置处理器110以执行这里描述的一个或者多个算法和操作。
[0038]存储器112可以例如包括易失性存储器、非易失性存储器或者其某种组合。就此而言,存储器112可以包括非瞬态计算机可读存储介质。虽然在图1中图示为单个存储器,但是存储器112可以包括多个存储器。多个存储器可以被体现在单个计算设备上或者可以跨被共同地配置为作为文本检测装置102工作的多个计算设备分布。在各种示例实施例中,存储器112可以例如包括硬盘、随机存取存储器、高速缓存存储器、闪速存储器、紧致盘只读存储器(CD-ROM)、数字万用盘只读存储器(DVD-ROM)、光盘、被配置为存储信息的电路装置或者其某种组合。在其中文本检测装置102被体现为移动终端10的实施例中,存储器112可以包括易失性存储器40和/或非易失性存储器42。存储器112可以被配置为存储用于使文本检测装置102能够根据各种示例实施例执行各种功能的信息、数据、应用、指令等。例如在至少一些实施例中,存储器112被配置为缓冲用于由处理器110处理的输入数据。附加地或者备选地,在至少一些实施例中,存储器112可以被配置为存储用于由处理器110执行的程序指令。存储器112可以用静态和/或动态信息的形式存储信息。存储的信息可以例如包括用于脸部检测的模型、图像、视频、视频帧等。图像捕获电路装置118和/或检测电路装置120可以在执行它们的功能的过程期间存储和/或使用这一存储的信息。
[0039]通信接口 114可以被体现为被配置为从另一计算设备接收和/或/向其发送数据的、在电路装置、硬件、包括计算机可读介质(例如存储器112)的计算机程序产品或者其组合中体现的任何设备或者装置,该计算机可读介质存储可以由适当配置的处理设备(例如处理器110)执行的计算机可读程序指令(例如软件或者固件)。例如,通信接口 114可以通过网络接口接收代表图像或者视频的数据。就此而言,在其中文本检测装置102包括服务器、网络节点等的实施例中,通信接口 114可以被配置为与远程图像源(例如图像源304)通信以接收图像,该图像可以由文本检测装置102处理以根据一个或者多个示例实施例检测图像内的文本。在一些示例实施例中,通信接口 114可以被至少部分体现为处理器110或者另外由处理器110控制。就此而言,通信接口 114可以比如经由总线与处理器110通信。通信接口 114可以例如包括用于实现与一个或者多个远程计算设备通信的天线、发射器、接收器、收发器和/或支持硬件或者软件。通信接口 114可以被配置为使用可以用于在计算设备之间通信的任何协议来接收和/或发送数据。就此而言,通信接口 114可以被配置为使用任何可以用于通过无线网络、有线网络、其某种组合等(文本检测装置102和一个或者多个计算设备可以通过该网络通信)传输数据的协议来接收和/或发送数据。通信接口 114可以附加地比如经由总线与存储器112、用户接口 116、图像捕获电路装置118和/或检测电路装置120通信。
[0040]用户接口 116可以与处理器110通信以接收用户输入的指示和/或向用户提供可听、可视、机械或者其它输出。这样,用户接口 116可以例如包括键盘、鼠标、操纵杆、显示器、触摸屏显示器、麦克风、扬声器和/或其它输入/输出机制。在其中用户接口 116包括触摸屏显示器的实施例中,用户接口 116可以附加地被配置为检测和/或接收向触摸屏显示器的触摸手势或者其它输入的指示。在其中文本检测装置102被体现为一个或者多个服务器的实施例中,可以减少用户接口 116的方面或者可以甚至消除用户接口 116。用户接口 116可以比如经由总线与存储器112、通信接口 114、图像捕获电路装置118和/或检测电路装置120通信。
[0041]在一些示例实施例中,文本检测装置102可以包括图像捕获电路装置118。然而将认识导在一些示例实施例中可以排除图像捕获电路装置118。图像捕获电路装置118可以被体现为各种装置、比如电路装置、硬件、包括计算机可读介质(例如存储器112)的计算机程序产品或者其某种组合,该计算机可读介质存储存储可以由适当配置的处理设备(例如处理器110)执行的计算机可读程序指令(例如软件或者固件),并且在一个实施例中图像捕获电路装置118被体现为处理器110或者另外由处理器110控制。在其中图像捕获电路装置118与处理器110分离地体现的实施例中,图像捕获电路装置118可以与处理器110通信。图像捕获电路装置118还可以比如经由总线与存储器112、通信接口 114、用户接口116或者检测电路装置120中的一项或者多项通信。
[0042]图像捕获电路装置118可以包括被配置为捕获图像和/或视频的硬件。就此而言,图像捕获电路装置118可以包括相机透镜和/或用于捕获数字图像的其它光学部件。作为另一示例,图像捕获电路装置118可以包括被配置为指引可以在文本检测装置102中体现的或者另外操作地连接到文本检测装置102的分离相机模块对图像的捕获。在其中体现文本检测装置102被体现为移动终端10的实施例中,图像捕获电路装置118可以包括相机模块36和/或可以被配置为控制相机模块36对图像的捕获。
[0043]检测电路装置120可以被体现为各种装置、比如电路装置、硬件、包括计算机可读介质(例如存储器112)的计算机程序产品或者其某种组合,该计算机可读介质存储可以由适当配置的处理设备(例如处理器110)执行的计算机可读程序指令(例如软件或者固件),并且在一个实施例中检测电路装置120被体现为处理器110或者另外由处理器110控制。在其中检测电路装置120与处理器110分离地体现的实施例中,检测电路装置120可以与处理器110通信。检测电路装置120还可以比如经由总线与存储器112、通信接口 114、用户接口 116或者图像捕获电路装置118中的一项或者多项通信。
[0044]图3图示根据一些示例实施例的用于执行文本检测的系统300。系统300包括被配置为通过网络306通信的文本检测装置302和图像源304。文本检测装置302可以例如包括文本检测装置102的实施例,其中文本检测装置102可以被配置为接收图像和/或通过网络306从图像源304访问图像以便检测图像内的文本。网络306可以包括有线网络、无线网络(例如蜂窝网络、无线局域网、无线广域网、其某种组合等)或者其组合并且在一些示例实施例中可以包括因特网。
[0045]图像源304可以包括被配置为接入网络306并且与文本检测装置302通信以便向文本检测装置302提供图像的任何计算设备。就此而言,图像源304可以包括可以被配置为捕获和/或存储图像的任何装置。举例而言,图像源304可以例如被体现为桌面型计算机、膝上型计算机、移动终端、移动计算机、移动电话、移动通信设备、平板计算设备、移动终端10、游戏设备、数字相机/可携式摄像机、音频/视频播放器、电视设备、相机设备、数字录像机、网络附着存储设备、其任何组合等。
[0046]这样,在图3中所示的示例系统中,文本检测装置302可以被配置为从图像源304访问和/或接收图像(例如静止图像、视频剪辑、视频帧等)。文本检测装置302(例如检测电路装置120)可以被配置为根据以下关于文本检测装置102描述的实施例中的任何实施例执行文本检测操作以检测接收的图像内的文本。在一些示例实施例中,文本检测装置302 (例如检测电路装置120和/或通信接口 114)还可以被配置为向图像源304发送由文本检测装置302执行的文本检测的结果。
[0047]在一些示例实施例中,图像源304可以包括用户终端,该用户终端可以被配置为访问可以由文本检测装置302提供的文本检测功能。就此而言,可以根据一些示例实施例执行的至少一些图像处理操作可以包括可以由服务器执行的基于云的操作。因此例如在一些示例实施例中,可以根据一些示例实施例向终端用户提供文本检测服务而实际的文本检测操作无需在终端用户的设备上执行。
[0048]作为又一示例,在系统300的一些示例实施例中,检测电路装置120的方面可以被分配在图像源304与文本检测装置302之间。就此而言,可以在文本检测装置302与图像源304之间划分和/或另外分布用于根据一个或者多个示例实施例执行在图像内的文本检测的任务。
[0049]因而将认识到在描述文本检测装置102检测图像内的文本、对图像的区域是否为包含文本的区域进行分类等时,图像可以例如包括由文本检测装置102捕获的图像(例如由图像捕获电路装置118捕获的图像)、对文本检测装置102可访问的本地存储的图像(例如在存储器112中存储的图像)、可以通过网络从远程图像源(例如从图像源304)接收和/或访问的图像等。
[0050]在一些示例实施例中,文本检测装置102可以被配置为根据模型检测图像(例如静止图像、视频、视频帧等)内的文本,该模型捕获可以独立于字体、样式、视点、背景对比度和/或可以对图像内的文本的感知有影响的其它因素的文本性质。就此而言,一些示例实施例可以至少部分地基于可以根据一般文本性质预测的模型提供文本检测,这些一般文本性质可以基本上不在可变字体、文本样式、文本与图像背景之间的对比度或者在图像中捕获文本时的视点之间变化。这些性质可以例如包括:
[0051].笔画宽度一般跨文本相当恒定。
[0052].字符高度一般跨文本相当恒定。
[0053].字符间距一般相当恒定。
[0054].可读性规定对于给定的文本高度,对应的笔画宽度和字符间距可以与高度成比例,从而笔画宽度和字符间距不能太大或者太小。
[0055]?假设存在文本下面的某个类型的背景,那么在图像内包围文本的定界区域(例如框)可以在强度上为双模态(bimodal)。
[0056]现在参照图4,图4图示根据一些示例实施例的用于单词生成的示例贝叶斯网络,该贝叶斯网络可以用来描述对捕获的图像内的文本的影响变量和效果。如图4中所示,变量402-418中的一个或者多个变量的任何组合可以影响文本几何结构320。更具体而言,影响文本几何结构320的变量可以包括用于文本的字母表402 (例如拉丁字母表、中文本母表、西里尔字母表等)、文本的样式404 (例如粗体、斜体等)、用于文本的字体406、文本框或者涵盖文本的其它区域的高度408 (例如文本的字符的高度)、包括文本的字符的笔画的长度410、文本字符的缩放的笔画宽度412、在文本的字符之间的间距414、用于字符的字符宽度416和在文本片段中的字符数目418。
[0057]文本几何结构420可以与文本外观因素(比如背景颜色422和文本颜色424) —起又影响三维(3D)文本片段426 (如它可以在现实中存在的那样)的性质。可以在3D文本片段426的图像中捕获的二维(2D)文本片段434的生成又可以受3D文本片段426的现实外观和如下变量(比如变量428-432)影响,这些变量可以影响用来捕获图像的成像过程。更具体而言,可以影响成像过程的变量可以包括从其捕获图像的视点428、相机测光性(photometry)性质430、捕获的图像的场景的照度432等。
[0058]给定以上描述的贝叶斯网络,可以根据一些示例实施例定义若干随机变量,这些随机变量可以描述固有的文本几何性质。这些变量可以包括:
[0059].H =字符的高度(例如图4中的节点408)
[0060].L = λ H =字符的一维(ID)长度,可以定义为字符的骨架的总弯曲长度(例如图4中的节点410)
[0061].B = β H =字符的宽度(例如图4中的节点416)
[0062].S = ΨΗ =字符的笔画宽度(例如图4中的节点412)
[0063].D = δ H =相邻字符之间的间距(例如图4中的节点414)
[0064].m = 在单词或者其它文本片段中的字符数目(例如图4中的节点418)
[0065]在先前定义中的数量λ、β、ψ和δ可以被定义为表示相应文本性质的随机变量。就此而言,λ可以表示相对于文本高度的字符长度。β可以表示相对于文本高度的字符长度。Ψ可以表示相对于文本高度的字符宽度。S可以表示相对于文本高度的字符间间距。给定字母表(例如英文、中文等)、样式(即粗体、斜体、常规)和字体(例如Arial,Courier等)的选择,该选择可以映射到用于λ、β、ψ和δ的概率分布。因而在给定字符数目m的情况下,可以从四个概率分布抽取m个实例以创建用于单词的字符集合。因而一些示例实施例可以使用这些文本几何性质以用可以对影响文本外观的变量(比如背景颜色422和文本颜色424)以及影响成像过程的变量(比如视点428、相机测光性430和照度432)而言稳健的方式提供文本检测。
[0066]就此而言,根据一些示例实施例,可以使用阿尔法值(α )对图像内的文本片段进行建模,该阿尔法值可以被定义为是弯曲字符长度分布(λ)、字符宽度分布(β)和字符间间距分布(δ )的函数的随机变量,这些分布如在图4的上下文中讨论的那样可以在给定具体字母表、字体和样式的情况下是文本的固有性质。可以示范阿尔法值的推导如下。
[0067]给定在图像内的单词或者其它文本片段,文本框的字符在包含文本片段的图像区域(例如文本框)内占用的面积可以被定义如下:
[0068]At ^ mLS
[0069]^πιλψΗ2[I]
[0070]被包含文本片段的总图像区域(例如文本框)占用的面积可以被定义如下:
[0071]Ab = HW
[0072]^ mH (B+D)
[0073]^ mH2 ( β + δ )[2]
[0074]被包含文本片段的图像区域占用的面积与被文本片段占用的面积之比可以称为占用比(ω)。占用比可以被定义如下:
【权利要求】
1.一种方法,包括: 计算与包含假设的文本片段的图像区域关联的阿尔法值,所述阿尔法值被定义为用于所述假设的文本片段的弯曲字符长度分布、字符宽度分布和字符间间距分布的函数;至少部分地基于针对所述假设的文本片段确定的间隔长度分布计算伽马值;以及至少部分地基于计算出的所述阿尔法值和所述伽马值对所述图像区域是否为包含文本的区域进行分类。
2.根据权利要求1所述的方法,其中计算所述阿尔法值包括在不直接计算用于所述假设的文本片段的所述弯曲字符长度分布、所述字符宽度分布或者所述字符间间距分布的情况下计算所述阿尔法值。
3.根据权利要求1至2中任一项所述的方法,其中计算所述阿尔法值包括至少部分地基于占用比和用于所述假设的文本片段的笔画宽度计算所述阿尔法值,所述占用比定义确定的所述图像区域中被所述假设的文本片段占用的面积与确定的所述图像区域的总面积之比。
4.根据权利要求1至2中任一项所述的方法,其中计算所述阿尔法值包括至少部分地基于确定的所述图像区域的总面积和穿过所述假设的文本片段的至少一个假设的字符的、以线间间距为特征的多个基本平行线的交点数目来计算所述阿尔法值。
5.根据权利要求1至4中任一项所述的方法,其中至少部分地基于所述间隔长度分布计算所述伽马值包括计算被文本高度除得的所述间隔长度的分布的均值与被文本高度除得的所述间隔长度的所述分布的标准偏差之比。
6.根据权利要求1至5中任一项所述的方法,还包括: 跨所述假设的文本片段应用至少一个扫描线; 至少部分地基于所应用的至少一个扫描线确定所述假设的文本片段的至少一个性质;以及 其中计算所述阿尔法值和所述伽马值包括至少部分地基于所确定的所述假设的文本片段的至少一个性质计算所述阿尔法值和所述伽马值。
7.根据权利要求1至6中任一项所述的方法,还包括: 通过二值化确定的所述图像区域来得出二值图像; 至少部分地基于所述二值图像确定所述图像区域是否使用仅两个概率分布可描述; 仅在其中确定所述图像区域使用仅两个概率分布可描述的实例中,使用所述二值图像来计算所述阿尔法值并且计算所述伽马值;以及 在其中所述图像区域使用仅两个概率分布不可描述的实例中,将所述图像区域分类为非包含文本的区域。
8.根据权利要求1至7中任一项所述的方法,其中至少部分地基于计算出的所述阿尔法值和所述伽马值对所述图像区域是否为包含文本的区域进行分类包括: 确定计算出的所述阿尔法值和所述伽马值是否满足所定义的、与期望的阿尔法值和伽马值的阈值关系; 在其中确定计算出的所述阿尔法值和所述伽马值满足与期望的阿尔法值和伽马值的所述阈值关系的实例中,将所述图像区域分类为包含文本的区域;以及 在其中确定计算出的所述阿尔法值和所述伽马值不满足与期望的阿尔法值和伽马值的所述阈值关系的实例中,将所述图像区域分类为非包含文本的区域。
9.根据权利要求1至8中任一项所述的方法,其中至少部分地基于计算出的所述阿尔法值和所述伽马值对所述图像区域是否为包含文本的区域进行分类包括: 应用高斯分布函数; 在其中计算出的所述阿尔法值和所述伽马值满足与所述高斯分布函数的阈值关系的实例中,将所述图像区域分类为包含文本的区域;以及 在其中计算出的所述阿尔法值和所述伽马值不满足与所述高斯分布函数的阈值关系的实例中,将所述图像区域分类为非包含文本的区域。
10.一种计算机程序,包括被配置为使装置执行根据权利要求1至9中任一项所述的方法的指令。
11.一种装置,包括至少一个处理器和存储计算机程序代码的至少一个存储器,其中所述至少一个存储器和存储的计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少: 计算与包含假设的文本片段的图像区域关联的阿尔法值,所述阿尔法值被定义为用于所述假设的文本片段的弯曲字符长度分布、字符宽度分布和字符间间距分布的函数; 至少部分地基于针对所述假设的文本片段确定的间隔长度分布计算伽马值;并且 至少部分地基于计算出的所述阿尔法值和所述伽马值对所述图像区域是否为包含文本的区域进行分类。
12.根据权利要求11所述的装置,其中所述至少一个存储器和存储的计算机程序代码被配置为与所述至少一个处理器一起使所述装置在不直接计算用于所述假设的文本片段的所述弯曲字符长度分布、所述字符宽度分布或者所述字符间间距分布的情况下计算所述阿尔法值。
13.根据权利要求11至12中任一项所述的装置,其中所述至少一个存储器和存储的计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少部分地基于占用比和用于所述假设的文本片段的笔画宽度计算所述阿尔法值,所述占用比定义确定的所述图像区域中被所述假设的文本片段占用的面积与确定的所述图像区域的总面积之比。
14.根据权利要求11至12中任一项所述的装置,其中所述至少一个存储器和存储的计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少部分地基于确定的所述图像区域的总面积和穿过所述假设的文本片段的至少一个假设的字符的、以线间间距为特征的多个基本平行线的交点数目来计算所述阿尔法值。
15.根据权利要求11至14中任一项所述的装置,其中所述至少一个存储器和存储的计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少部分地通过计算被文本高度除得的所述间隔长度的分布的均值与被文本高度除得的所述间隔长度的所述分布的标准偏差之比来至少部分地基于所述间隔长度分布计算所述伽马值。
16.根据权利要求11至15中任一项所述的装置,其中所述至少一个存储器和存储的计算机程序代码被配置为与所述至少一个处理器一起还使所述装置: 跨所述假设的文本片段应用至少一个扫描线; 至少部分地基于所应用的至少一个扫描线确定所述假设的文本片段的至少一个性质;并且至少部分地通过至少部分地基于所确定的所述假设的文本片段的至少一个性质计算所述阿尔法值和所述伽马值来计算所述阿尔法值和所述伽马值。
17.根据权利要求11至16中任一项所述的装置,其中所述至少一个存储器和存储的计算机程序代码被配置为与所述至少一个处理器一起还使所述装置: 通过二值化确定的所述图像区域来得出二值图像; 至少部分地基于所述二值图像确定所述图像区域是否使用仅两个概率分布可描述; 仅在其中确定所述图像区域使用仅两个概率分布可描述的实例中,使用所述二值图像来计算所述阿尔法值并且计算所述伽马值;并且 在其中所述图像区域使用仅两个概率分布不可描述的实例中,将所述图像区域分类为非包含文本的区域。
18.根据权利要求11至17中任一项所述的装置,其中所述至少一个存储器和存储的计算机程序代码被配置为与所述至少一个处理器一起还使所述装置至少部分地通过以下操作来至少部分地基于计算出的所述阿尔法值和所述伽马值对所述图像区域是否为包含文本的区域进行分类: 确定计算出的所述阿尔法值和所述伽马值是否满足所定义的、与期望的阿尔法值和伽马值的阈值关系; 在其中确定计算出的所述阿尔法值和所述伽马值满足与期望的阿尔法值和伽马值的所述阈值关系的实例中,将所述图像区域分类为包含文本的区域;以及 在其中确定计算出的所述阿尔法值和所述伽马值不满足与期望的阿尔法值和伽马值的所述阈值关系的实例中,将所述图像区域分类为非包含文本的区域。
19.根据权利要求11至18中任一项所述的装置,其中所述至少一个存储器和存储的计算机程序代码被配置为与所述至少一个处理器一起还使所述装置至少部分地通过以下操作来至少部分地基于计算出的所述阿尔法值和所述伽马值对所述图像区域是否为包含文本的区域进行分类: 应用高斯分布函数; 在其中计算出的所述阿尔法值和所述伽马值满足与所述高斯分布函数的阈值关系的实例中,将所述图像区域分类为包含文本的区域;以及 在其中计算出的所述阿尔法值和所述伽马值不满足与所述高斯分布函数的阈值关系的实例中,将所述图像区域分类为非包含文本的区域。
20.根据权利要求11至19中任一项所述的装置,其中所述装置包括移动计算设备或者被体现在所述移动计算设备上,所述移动计算设备包括用户接口电路和在所述至少一个存储器中的一个或者多个存储器上存储的用户接口软件;其中所述用户接口电路和用户接口软件被配置为: 通过使用显示器有助于对所述移动计算设备的至少一些功能的用户控制;并且 使所述移动计算设备的用户接口的至少一部分显示于所述显示器上以有助于对所述移动计算设备的至少一些功能的用户控制。
21.一种包括至少一个计算机可 读存储介质的计算机程序产品,所述至少一个计算机可读存储介质具有在其中存储的计算机可读程序指令,所述计算机可读程序指令包括: 被配置为计算与包含假设的文本片段的图像区域关联的阿尔法值的程序指令,所述阿尔法值被定义为用于所述假设的文本片段的弯曲字符长度分布、字符宽度分布和字符间间距分布的函数; 被配置为至少部分地基于针对所述假设的文本片段确定的间隔长度分布计算伽马值的程序指令;以及 被配置为至少部分地基于计算出的所述阿尔法值和所述伽马值对所述图像区域是否为包含文本的区域进行分类的程序指令。
22.根据权利要求21所述的计算机程序产品,其中被配置为计算所述阿尔法值的所述程序指令包括被配置为在不直接计算用于所述假设的文本片段的所述弯曲字符长度分布、所述字符宽度分布或者所述字符间间距分布的情况下计算所述阿尔法值的程序指令。
23.根据权利要求21至22中任一项所述的计算机程序产品,其中被配置为计算所述阿尔法值的所述程序指令包括被配置为至少部分地基于占用比和用于所述假设的文本片段的笔画宽度计算所述阿尔法值的程序指令,所述占用比定义确定的所述图像区域中被所述假设的文本片段占用的面积与确定的所述图像区域的总面积之比。
24.根据权利要求21至22中任一项所述的计算机程序产品,其中被配置为计算所述阿尔法值的所述程序指令包括被配置为至少部分地基于确定的所述图像区域的总面积和穿过所述假设的文本片段的至少一个假设的字符的、以线间间距为特征的多个基本平行线的交点数目来计算所述阿尔法值的程序指令。
25.根据权利要求21至24中任一项所述的计算机程序产品,其中被配置为至少部分地基于所述间隔长度分布计算所述伽马值的所述程序指令包括被配置为计算被文本高度除得的所述间隔长度的分布的均值与被文本高度除得的所述间隔长度的所述分布的标准偏差之比的程序指令。
26.根据权利要求21至25中任一项所述的计算机程序产品,还包括: 被配置为跨所述假设的文本片段应用至少一个扫描线的程序指令; 被配置为至少部分地基于所应用的至少一个扫描线确定所述假设的文本片段的至少一个性质的程序指令;并且 其中被配置为计算所述阿尔法值和所述伽马值的所述程序指令包括被配置为至少部分地基于所确定的所述假设的文本片段的至少一个性质计算所述阿尔法值和所述伽马值的程序指令。
27.根据权利要求21至26中任一项所述的计算机程序产品,还包括: 被配置为通过二值化确定的所述图像区域来得出二值图像的程序指令; 被配置为至少部分地基于所述二值图像确定所述图像区域是否使用仅两个概率分布可描述的程序指令; 被配置为仅在其中确定所述图像区域使用仅两个概率分布可描述的实例中使用所述二值图像来计算所述阿尔法值并且计算所述伽马值的程序指令;以及 被配置为在其中所述图像区域使用仅两个概率分布不可描述的实例中将所述图像区域分类为非包含文本的区域的程序指令。
28.根据权利要求21至27中任一项所述的计算机程序产品,其中被配置为至少部分地基于计算出的所述阿尔法值和所述伽马值对所述图像区域是否为包含文本的区域进行分类的所述程序指令包括:被配置为确定计算出的所述阿尔法值和所述伽马值是否满足所定义的、与期望的阿尔法值和伽马值的阈值关系的程序指令; 被配置为在其中确定计算出的所述阿尔法值和所述伽马值满足与期望的阿尔法值和伽马值的所述阈值关系的实例中将所述图像区域分类为包含文本的区域的程序指令;以及 被配置为在其中确定计算出的所述阿尔法值和所述伽马值不满足与期望的阿尔法值和伽马值的所述阈值关系的实例中将所述图像区域分类为非包含文本的区域的程序指令。
29.根据权利要求21至28中任一项所述的计算机程序产品,其中被配置为至少部分地基于计算出的所述阿尔法值和所述伽马值对所述图像区域是否为包含文本的区域进行分类的所述程序指令包括: 被配置为应用高斯分布函数的程序指令; 被配置为在其中计算出的所述阿尔法值和所述伽马值满足与所述高斯分布函数的阈值关系的实例中将所述图像区域分类为包含文本的区域的程序指令;以及 被配置为在其中计算出的所述阿尔法值和所述伽马值不满足与所述高斯分布函数的阈值关系的实例中将所述图像区域分类为非包含文本的区域的程序指令。
30.一种装置,包括: 用于计算与包含假设的文本片段的图像区域关联的阿尔法值的装置,所述阿尔法值被定义为用于所述假设的 文本片段的弯曲字符长度分布、字符宽度分布和字符间间距分布的函数; 用于至少部分地基于针对所述假设的文本片段确定的间隔长度分布计算伽马值的装置;以及 用于至少部分地基于计算出的所述阿尔法值和所述伽马值对所述图像区域是否为包含文本的区域进行分类的装置。
31.根据权利要求30所述的装置,其中所述用于计算所述阿尔法值的装置包括用于在不直接计算用于所述假设的文本片段的所述弯曲字符长度分布、所述字符宽度分布或者所述字符间间距分布的情况下计算所述阿尔法值的装置。
32.根据权利要求30至31中任一项所述的装置,其中所述用于计算所述阿尔法值的装置包括用于至少部分地基于占用比和用于所述假设的文本片段的笔画宽度计算所述阿尔法值的装置,所述占用比定义确定的所述图像区域中被所述假设的文本片段占用的面积与确定的所述图像区域的总面积之比。
33.根据权利要求30至31中任一项所述的装置,其中所述用于计算所述阿尔法值的装置包括用于至少部分地基于确定的所述图像区域的总面积和穿过所述假设的文本片段的至少一个假设的字符的、以线间间距为特征的多个基本平行线的交点数目来计算所述阿尔法值的装置。
34.根据权利要求30至33中任一项所述的装置,其中所述用于至少部分地基于所述间隔长度分布计算所述伽马值的装置包括用于计算被文本高度除得的所述间隔长度的分布的均值与被文本高度除得的所述间隔长度的所述分布的标准偏差之比的装置。
35.根据权利要求30至34中任一项所述的装置,还包括: 用于跨所述假设的文本片段应用至少一个扫描线的装置; 用于至少部分地基于所应用的至少一个扫描线确定所述假设的文本片段的至少一个性质的装置;并且 其中所述用于计算所述阿尔法值和所述伽马值的装置包括用于至少部分地基于所确定的所述假设的文本片段的至少一个性质计算所述阿尔法值和所述伽马值的装置。
36.根据权利要求30至35中任一项所述的装置,还包括: 用于通过二值化确定的所述图像区域来得出二值图像的装置; 用于至少部分地基于所述二值图像确定所述图像区域是否使用仅两个概率分布可描述的装置; 用于仅在其中确定所述图像区域使用仅两个概率分布可描述的实例中使用所述二值图像来计算所述阿尔法值并且计算所述伽马值的装置;以及 用于在其中所述图像区域使用仅两个概率分布不可描述的实例中将所述图像区域分类为非包含文本的区域的装置。
37.根据权利要求30至36中任一项所述的装置,其中所述用于至少部分地基于计算出的所述阿尔法值和所述伽马值对所述图像区域是否为包含文本的区域进行分类的装置包括: 用于确定计算出的所述阿尔法值和所述伽马值是否满足所定义的、与期望的阿尔法值和伽马值的阈值关系的装置; 用于在其中确定计算出的所述阿尔法值和所述伽马值满足与期望的阿尔法值和伽马值的所述阈值关系的实例中将所述图像区域分类为包含文本的区域的装置;以及 用于在其中确定计算出的所述阿尔法值和所述伽马值不满足与期望的阿尔法值和伽马值的所述阈值关系的实例中将所述图像区域分类为非包含文本的区域的装置。
38.根据权利要求30至37中任一项所述的装置,其中所述用于至少部分地基于计算出的所述阿尔法值和所述伽马值对所述图像区域是否为包含文本的区域进行分类的装置包括: 用于应用高斯分布函数的装置; 用于在其中计算出的所述阿尔法值和所述伽马值满足与所述高斯分布函数的阈值关系的实例中将所述图像区域分类为包含文本的区域的装置;以及 用于在其中计算出的所述阿尔法值和所述伽马值不满足与所述高斯分布函数的阈值关系的实例中将所述图像区域分类为非包含文本的区域的装置。
【文档编号】G06K9/20GK103946865SQ201280057054
【公开日】2014年7月23日 申请日期:2012年10月8日 优先权日:2011年11月21日
【发明者】V·帕拉梅斯瓦兰, S-H·特赛, R·格泽茨克祖克 申请人:诺基亚公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1