图片审核方法和系统的制作方法

文档序号:6399691阅读:901来源:国知局
专利名称:图片审核方法和系统的制作方法
技术领域
本发明涉及图像处理技术,尤其涉及图片审核方法和系统。
背景技术
随着互联网的兴起,给人们提供了更加丰富的信息,它极大地融合了全球信息,扩展了人们获取信息的途径,增大了人们搜索信息的范围。目前,对国内互联网上的图片的内容一般采用人工审核,但是人工审核工作量大、效率低、成本高,其准确性会受到光线,审核者疲劳程度等不确定因素的影响。另外还有一些专门的图片审核系统,其主要利用图像匹配技术将待审核图片与审核库中的图片进行相似性比较,选择相似性较高的图片进行剔除过滤。其主要方法流程如图1所示,包括如下步骤:SlOl:对待审核图片进行特征提取。S102:将提取的特征与审核图片特征库中特征进行比较。S103:将比较结果相似度高于阈值的待审核图片进行剔除过滤。现有技术的图片审核方法,其审核重点,往往集中在色块,线条,形状等要素所构成的图形图像上,对于不同的图片,其包含的这些组成要素具有较大差异,因此可以利用这些图像要素计算出相应的图像特征对不同的图像加以区分。但对于文本图片,其图像要 素的排布特点为,各像素点全局上以整行条状排列,局部以密集点阵分别。对于不同的图片,其外在视觉上没有明显差异,无法通过计算图像特征对不同图片加以区分。而且,对于文本图片的审核,主要是对文字内容所携带的信息审核,如果仍采用建立审核图片库进行相似度比照的方法进行过滤,则所需建立的审核库图片数量巨大,几乎不可穷举。所以,这也决定了文本图片不适合用图像特征匹配的技术来进行审核过滤。因此,现有技术的图片审核方法不适用对文本图片进行审核。

发明内容
本发明的实施例提供了一种图片审核方法和系统,用以对文本图片进行审核。根据本发明的一个方面,提供了一种图片审核方法,包括:对文本图片进行OCR处理,提取该文本图片中的文本信息;对提取的文本信息进行关键字/词的匹配,判断其中是否包含要过滤的关键字/词;若是,则对该文本图片进行过滤处理。进一步,在所述对文本图片进行OCR处理,提取该文本图片中的文本信息之前,还包括:对所述文本图片进行二值化处理。进一步,在所述对所述文本图片进行二值化处理之前,还包括:对所述文本图片进行灰度化处理。
进一步,在所述对文本图片进行OCR处理,提取该文本图片中的文本信息之前,还包括:对所述文本图片进行去除噪声处理。其中,所述对文本图片进行OCR处理,提取该文本图片中的文本信息具体包括:对所述文本图片的图像进行字符切割;对所述文字图片中切割出的字符,按照设定单位进行划分;并对每个设定单位内的字符进行识别:对所述设定单位内的每个字符进行特征提取和特征匹配后,确定每个字符的候选字;针对所述设定单位内的每个字符,确定该字符的每个候选字的相似度、以及该字符的每个候选字与该字符相邻的字符的候选字之间的转移概率;根据确定出的相似度和转移概率,确定出所述设定单位内的字符的识别结果;根据每个设定单位内的字符的识别结果,确定该文本图片中的文本信息。其中,所述根据确定出的相似度和转移概率,确定出所述设定单位内的字符的识别结果具体包括:确定该设定单位内的第I个字符的候选字的维特比概率为该候选字的相似度;从该设定单位内的第2个字符起,对于当前字符的每个候选字,根据该候选字的相似度、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,确定出所述当前字符的每个候选字与所述在前字符的各候选字之间的维特比概率;在确定出当前候选字与各在前候选字之间的维特比概率后,比较各维特比概率,从中选择最大的维特比概率作为当前候选字的维特比概率;其中,所述当前候选字为所述当前字符的候选字之一,所述在前候选字为所述在前字符的候选字之一;以所述当前候选字作为当前节点,选择与该当前候选字之间的维特比概率最大的在前候选字作为与该当前候选字相邻的在前节点;确定候选路径;其中,所述候选路径中的每个节点为分别针对所述设定单位内的每个字符选择出的候选字,同一候选路径中的相邻节点是根据每个候选字的在前节点确定的;比较各候选路径的最后节点的维特比概率,以最后节点的维特比概率最大的候选路径作为所述识别结果。其中,所述根据该候选字的相似度、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,确定出所述当前字符的每个候选字与所述在前字符的各候选字之间的维特比概率,具体根据如下公式5或4:Pv=P2XRXPv' (公式 5)1gPv=b X logP2+c X logR+dX 1gPv' (公式 4)其中,Pv为所述当前候选字与所述在前候选字之间的维特比概率A为所述当前候选字的出现概率,P2为所述在前候选字与所述当前候选字之间的转移概率;R为所述当前候选字的相似度;PV’为所述在前候选字的维特比概率;logPv、1gP1、1gP21gR, logP;分另IJ为对Pv、P1、P2、R、Pv’取对数后得到的值山、c、d分别为设置的权重值。其中,所述识别结果还根据所述设定单位内的每个字符的每个候选字的出现概率确定;以及
根据确定出的相似度和转移概率,以及根据所述设定单位内的每个字符的每个候选字的出现概率,确定出所述设定单位内的字符的识别结果具体包括:对于该设定单位内的第I个字符的候选字的维特比概率,根据该候选字的相似度、和/或该候选字的出现概率确定;从该设定单位内的第2个字符起,对于当前字符的每个候选字,根据该候选字的相似度、出现概率、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,确定出所述当前字符的每个候选字与所述在前字符的各候选字之间的维特比概率;在确定出当前候选字与各在前候选字之间的维特比概率后,比较各维特比概率,从中选择最大的维特比概率作为当前候选字的维特比概率;其中,所述当前候选字为所述当前字符的候选字之一,所述在前候选字为所述在前字符的候选字之一;以所述当前候选字作为当前节点,选择与该当前候选字之间的维特比概率最大的在前候选字作为与该当前候选字相邻的在前节点;确定候选路径;其中,所述候选路径中的每个节点为分别针对所述设定单位内的每个字符选择出的候选字,同一候选路径中的相邻节点是根据每个候选字的在前节点确定的;比较各候选路径的最后节点的维特比概率,以最后节点的维特比概率最大的候选路径作为所述识别结果。根据本发明的另一个方面,还提供了一种图片审核系统,包括:文本信息提取模块,用于对文本图片进行OCR处理,提取该文本图片中的文本信息;过滤模块,用于对所述文本信息提取模块提取的文本信息进行关键字/词的匹配,判断其中是否包含要过滤的关键字/词;若是,则对该文本图片进行过滤处理。进一步,所述系统还包括:预处理模块;所述预处理模块用于对所述文本图片进行预处理,并向所述文本信息提取模块输出预处理后的文本图片;其中,所述预处理模块具体包括:用于对所述文本图片进行二值化处理的二值化单元;或者,所述预处理模块具体包括:用于对所述文本图片进行灰度化处理并输出的灰度化单元,用于对所述灰度化单元输出的文本图片进行二值化处理的二值化单元;或者,所述预处理模块具体包括:用于对所述文本图片进行灰度化处理并输出的灰度化单元;以及用于对所述灰度化单元输出的文本图片进行二值化处理后输出的二值化单元;以及用于对所述二值化单元输出的文本图片进行去除噪声处理的噪声去除单元。本发明实施例由于将文本图片中的文本信息提取出来,根据提取的文本信息对文本图片进行要过滤的关键字/词的审核,从而可以实现对文本图片进行审核的目的。此外,本发明实施例由于在进行字符识别的过程中,对于字符的多个候选字,除了依据候选字的相似度(即字形信息)外,还根据相邻候选字之间的转移概率(即语义信息),从多个候选字中选择出一个作为该字符的识别结果;从而既参考了候选字与字符的相似度夕卜,还考虑了该候选字与在后字符之间的关联度的因素,综合考虑这些因素可以大大提高字符识别的准确率。进一步,还可参考候选字的出现概率来决定识别结果,更进一步保证字符识别的准确率。进一步,本发明中以计算维特比概率的方式来确定多条候选路径,则是一种较佳地将字符间的关联关系作为决定识别结果的参考的方法,更进一步保证字符识别的准确率。


图1为现有技术的图片审核方法流程图;图2a为本发明实施例的图片审核方法流程图;图2b为本发明实施例的进行字符识别的方法流程图;图3为本发明实施例的确定设定单位内的字符的识别结果的方法流程图;图4为本发明实施例的以文字行为设定单位所取字符以及每个字符的候选字的示意图;图5为本发明实施例的根据确定出的相似度、转移概率,确定设定单位内的字符的识别结果的方法流程图;图6为本发明实施例的图片审核系统的内部结构框图。
具体实施例方式为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。本申请使用的“模块”、“系统”等术语旨在包括与计算机相关的实体,例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如,模块可以是,但并不仅限于:处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说,计算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/或线程内,一个模块也可以位于一台计算机上和/或分布于两台或更多台计算机之间。本发明的发明人考虑到,针对文本图片,其审核重点在于文本图片中的文字内容信息,因此可以将图片中的文本信息提取出来进行判别,实现对文本图片的审核。由此,本发明提供了一种基于文本信息提取的图片审核的方法和系统,对文本图片进行审核。下面结合附图详细说明本发明实施例的技术方案。本发明实施例的技术方案中,针对文本图片,进行图片审核的方法流程,如图2a所示,包括如下步骤:S211:对文本图片进行OCR处理,提取该文本图片中的文本信息。较佳地,在对文本图片进行OCR (Optical Character Recognition,光学字符识另O)处理,提取该文本图片中的文本信息之前,还可对文本图片进行一些预处理,包括:对文本图片进行灰度化处理、对文本图片进行二值化处理,还可对所述文本图片进行去除噪声处理。以便于更好地从文本图片中提取出文本信息。去除噪声处理具体可以是在对文本图片进行灰度化处理之前,也可以是在对文本图片进行二值化处理之前或之后;去除噪声处理的次数可以是一次,也可以是多次,可以依照图片质量、根据具体情况而定。S212:对提取的文本信息进行关键字/词的匹配,判断其中是否包含要过滤的关键字/词;若是,执行步骤S213,对文本图片进行过滤处理;否则,执行步骤S214,对文本图片保留。具体地,对提取的文本信息进行关键字/词的匹配:在过滤关键字/词库中存有要过滤的关键字/词(也有称为敏感词),将提取的文本信息与过滤关键字/词库中存有的、要过滤的关键字/词进行匹配,判断提取的文本信息中是否包含有要过滤的关键字/词;如果包含有要过滤的关键字/词,则执行步骤S213,对文本图片进行过滤处理;否则,执行步骤S214,对文本图片保留。S213:对文本图片进行过滤处理。具体地,提取的文本信息中包含有要过滤的关键字/词,则表明审核未通过,对文本图片进行过滤处理。S214:对文本图片保留。具体地,提取的文本信息中没包含要过滤的关键字/词,则表明审核通过,对文本图片保留。对于上述步骤S211中,对文本图片进行OCR处理,提取该文本图片中的文本信息的方法,本领域技术人员还可采用多种方法进行文本图片中的文本信息的提取;本发明实施例中提供的一种具体方法,流程如图2b所示,包括如下步骤:S200:对文本图片中的图像进行字符切割。S201:对文本图片中切割出的字符,按照设定单位进行划分。输入的文本图片可能是包括多个段落、多个文字行的文本图片;在本发明中,是将文本图片中的字符按照设定单位进行划分,分批次处理;也就是说,每次处理是针对同一设定单位内的字符进行识别。本领域技术人员可以根据实际情况来设置设定单位,例如,设置设定单位为文字行,即文本图片中同一行的字符作为同一设定单位内的字符;或者,设置设定单位为段落,即文本图片中同一段落中的字符作为同一设定单位内的字符;或者,设置设定单位为固定字符数,如,设置设定单位为10个字符数,即文本图片中每10个字符划分为同一设定单位内的字符。S202:针对每个设定单位内的字符进行识别。按顺序依次对每个设定单位进行处理:对该设定单位中的各个字符进行识别。图3示出了对于一个设定单位,确定该设定单位内的字符的识别结果的方法流程,具体包括如下步骤:S301:对该设定单位内的每个字符进行特征提取和特征匹配后,确定每个字符的
候选字。对字符进行特征提取和特征匹配,确定该字符的若干个候选字的方法可采用现有技术中通常所采用的方法,为本领域技术人员所熟知的技术,此处不再赘述。S302:针对该设定单位内的每个字符,确定该字符的每个候选字的相似度,以及该字符的每个候选字与该字符相邻的字符的候选字之间的转移概率。在确定出字符的各候选字后,还可确定出每个候选字的相似度,即每个候选字与该字符的相似程度;在确定出字符的各候选字后,还可针对该字符的每个候选字,分别确定出该候选字与该字符相邻的字符的候选字之间的转移概率;为便于描述,本文中将相邻字符的候选字称为相邻候选字,则上述候选字与该字符相邻的字符的候选字之间的转移概率,即为相邻候选字之间的转移概率;相邻候选字之间的转移概率指的是,相邻候选字一起出现的概率。例如,如图4所示,以文字行为设定单位取了 9个字符,序号分别为1-9 ;第1-9字符的候选字,以及每个候选字的相似度如下(相似度为括号内的数值):第I字符的候选字包括:中(0.9);第2字符的候选字包括:国(0.8)、团(0.6);第3字符的候选字包括:运(0.9);第4字符的候选字包括:动(0.8)、劲(0.8);第5字符的候选字包括:员(0.8);第6字符的候选字包括:成(0.8);第7字符的候选字包括:绩(0.9);第8字符的候选字包括:喜(0.9);第9字符的候选字包括:人(0.9)、入(0.9)。每个候选字与相邻的在前字符的候选字之间的转移概率,即相邻候选字之间的转移概率,取对数后,如下所示:中国:-0.5644877 ;中团:_5.6734289 ;国运:_2.864447 ;团运:_3.303452 ;运动:-0.7526801 ;运劲:-3.527933 ;动员:_1.370795 ;劲元:_2.221847 ;员成:_2.667307 ;成绩:-1.386276 ;绩喜:-2.938662 ;喜人:-1.630958 ;喜入:-3.583296。可以看出,候选字“国”,与其相邻的在前字符的候选字“中”之间的转移概率取对数后为-0.5644877 ;候选字“团”,与其相邻的在前字符的候选字“中”之间的转移概率取对数后为-5.6734289 ;则“中”与“国”之间的转移概率要大于“中”与“团”之间的转移概率,这意味着“中国” 一起出现的概率要大于“中团”。S303:根据确定出的相似度和转移概率,确定出所述设定单位内的字符的识别结
果O在本步骤中,更优地,还可根据确定出的所述设定单位内的每个字符的每个候选字的出现概率确定出所述设定单位内的字符的识别结果;候选字的出现概率指的是统计出的该候选字被使用的概率。在确定出每个设定单位内的字符的识别结果后,根据每个设定单位内的字符的识别结果确定该文本图片的文本信息。即根据确定出的相似度,以及转移概率,确定出所述设定单位内的字符的识别结果;具体方法流程如图5所示,包括如下步骤:S501:计算该设定单位内的每个字符的每个候选字的维特比概率;该设定单位内的第I个字符的候选字的维特比概率可以如下方法确定:
以该候选字的出现概率作为该候选字的维特比概率;或者,以该候选字的相似度作为该候选字的维特比概率;或者,根据该候选字的相似度和出现概率作为该候选字的维特比概率,比如,以该候选字的相似度与该候选字的出现概率的乘积作为该候选字的维特比概率。从该设定单位内的第2个字符起,对于当前字符的每个候选字,根据该候选字的相似度、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,分别确定出当前字符的每个候选字,与在前字符的各候选字之间的维特比概率;当前字符的相邻字符可以包括在后字符和在前字符,在计算当前字符的候选字与相邻字符的候选字之间的维特比概率时,可以是计算当前字符的候选字与在前字符的候选字之间的维特比概率,也可以是计算当前字符的候选字与在后字符的候选字之间的维特比概率;本发明实施例以计算当前字符的候选字与在前字符的候选字之间的维特比概率为例进行详细的方案说明: 从该设定单位内的第2个字符起,对于当前字符的每个候选字,根据该候选字的相似度、出现概率、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,分别确定出当前字符的每个候选字,与在前字符的各候选字之间的维特比概率具体可以根据如下公式1、或公式2、或公式3计算:Pv=P1 XP2XRXP;(公式 I )公式I中,Pv为当前候选字与在前候选字之间的维特比概率,其中,当前候选字为当前字符的候选字之一,在前候选字为在前字符的候选字之一 T1为当前候选字的出现概率,P2为在前候选字与当前候选字之间的转移概率洱为当前候选字的相似度;PV’为在前候选字的维特比概率。logP^logPi+logPjlogR+logPv’ (公式 2)公式2 中,1gPvUogPp l0gP2、logR、logPv’ 分别为对取对数后得到的值;1gPv=aX 1gP^b X logP2+c X logR+dX 1gPv' (公式 3)公式3中,a、b、c、d分别为设置的权重值,本领域技术人员可以根据实际情况进行设置;事实上,若设置a=0,则上述公式3实际如公式4所示:1gPv=b X logP2+c X logR+dX 1gPv' (公式 4)从公式4可以看出,可以仅根据当前候选字的相似度、以及该当前候选字与在前候选字之间的转移概率,确定当前候选字与在前候选字之间的维特比概率,也就是说,根据公式4计算出的当前候选字与在前候选字之间的维特比概率,没有考虑当前候选字的出现概率。若设置公式4中的b=l、c=l、d=l,则公式4即可用公式5表达:Pv=P2XRXPv' (公式 5)也就是说,从该设定单位内的第2个字符起,对于当前字符的每个候选字,根据该候选字的相似度、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,分别确定出当前字符的每个候选字,与在前字符的各候选字之间的维特比概率具体可以根据如上公式4或5确定。在确定当前候选字与各在前候选字之间的维特比概率后,比较各维特比概率,从中选择最大的维特比概率作为当前候选字的维特比概率;并以当前候选字作为当前节点,选择与当前候选字之间的维特比概率最大的在前候选字作为与该当前候选字相邻的在前节点。S502:根据计算的各候选字的维特比概率,确定候选路径;根据确定出的每个候选字的在前节点,确定出若干条候选路径;其中,候选路径中的每个节点为分别针对所述设定单位内的每个字符选择出的候选字,同一候选路径中的相邻节点是根据每个候选字的在前节点确定的。例如,图4中所示的各字符的各候选字,根据上述方法可以确定出两条候选路径,分别为:候选路径一:人-喜-绩-成-员-动-运-国-中;候选路径二:入-喜-绩-成-员-动-运-国-中。S503:选择一条候选路径作为识别结果。本步骤中,比较各候选路径的最后节点的维特比概率,以最后节点的维特比概率最大的候选路径作为所述识别结果。例如,对于上述的候选路径一和候选路径二,由于候选路径一的最后节点“人”的维特比概率,大于候选路径二的最后节点“入”的维特比概率,因此,最终判定识别结果为候选路径一,从而得到图4中的序号分别为1-9的字符的识别结果为:中国运动员成绩喜人。由此选择出的候选路径综合考虑了字形信息(相似度)和语义信息(转移概率),综合结果为最大值,相比于仅考虑字形信息(相似度)的现有技术具有更高的准确率。本发明实施例提供的一种图片审核系统,如图6所示,包括:文本信息提取模块601、过滤模块602。文本信息提取模块601用于对文本图片进行OCR处理,提取该文本图片中的文本信息;文本信息提取模块601提取文本信息的一种具体方法在上述图2b、图3、图5的步骤中详细介绍了,此处不再赘述;此外,本领域技术人员还可采用其它方法进行文本图片中的文本信息的提取。过滤模块602用于对文本信息提取模块601提取的文本信息进行关键字/词的匹配,判断其中是否包含要过滤的关键字/词;若是,则对该文本图片进行过滤处理;否则,对该文本图片保留。进一步,图片审核系统中还可包括:预处理模块603 ;预处理模块603用于对所述文本图片进行预处理,并向所述文本信息提取模块输出预处理后的文本图片;文本信息提取模块601接收预处理模块603输出的文本图片后,对接收的文本图片进行OCR处理,提取该文本图片中的文本信息。其中,预处理模块603具体包括:用于对所述文本图片进行二值化处理的二值化单元;二值化单元输出二值化处理过的文本图片到文本信息提取模块601。或者,预处理模块603具体包括:用于对所述文本图片进行灰度化处理并输出的灰度化单元,用于对所述灰度化单元输出的文本图片进行二值化处理的二值化单元;二值化单元输出二值化处理过的文本图片到文本信息提取模块601。或者,预处理模块603具体包括:用于对所述文本图片进行灰度化处理并输出的灰度化单元;以及用于对所述灰度化单元输出的文本图片进行二值化处理后输出的二值化单元;以及用于对所述二值化单元输出的文本图片进行去除噪声处理的噪声去除单元;噪声去除单元输出经去除噪声处理的文本图片到文本信息提取模块601。本发明实施例由于将文本图片中的文本信息提取出来,根据提取的文本信息对文本图片进行要过滤的关键字/词的审核,从而可以实现对文本图片进行审核的目的。此外,本发明实施例由于在进行字符识别的过程中,对于字符的多个候选字,除了依据候选字的相似度(即字形信息)外,还根据相邻候选字之间的转移概率(即语义信息),从多个候选字中选择出一个作为该字符的识别结果;从而既参考了候选字与字符的相似度夕卜,还考虑了该候选字与在后字符之间的关联度的因素,综合考虑这些因素可以大大提高字符识别的准确率。进一步,还可参考候选字的出现概率来决定识别结果,更进一步保证字符识别的准确率。进一步,本发明中以计算维特比概率的方式来确定多条候选路径,则是一种较佳地将字符间的关联关系作为决定识别结果的参考的方法,更进一步保证字符识别的准确率。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读取存储介质中,如:R0M/RAM、磁碟、光盘等。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
权利要求
1.一种图片审核方法,其特征在于,包括: 对文本图片进行光学字符识别OCR处理,提取该文本图片中的文本信息; 对提取的文本信息进行关键字/词的匹配,判断其中是否包含要过滤的关键字/词;若是,则对该文本图片进行过滤处理。
2.如权利要求1所述的方法,其特征在于,在所述对文本图片进行OCR处理,提取该文本图片中的文本信息之前,还包括: 对所述文本图片进行二值化处理。
3.如权利要求2所述的方法,其特征在于,在所述对所述文本图片进行二值化处理之前,还包括: 对所述文本图片进行灰度化处理。
4.如权利要求3所述的方法,其特征在于,在所述对文本图片进行OCR处理,提取该文本图片中的文本信息之前,还包括:对所述文本图片进行去除噪声处理。
5.如权利要求1-4任一所述的方法,其特征在于,所述对文本图片进行OCR处理,提取该文本图片中的文本信息具体包括: 对所述文本图片的图像进行字符切割; 对所述文字图片中切割出的字符,按照设定单位进行划分;并对每个设定单位内的字符进行识别: 对所述设定单位内的 每个字符进行特征提取和特征匹配后,确定每个字符的候选字;针对所述设定单位内的每个字符,确定该字符的每个候选字的相似度、以及该字符的每个候选字与该字符相邻的字符的候选字之间的转移概率; 根据确定出的相似度和转移概率,确定出所述设定单位内的字符的识别结果; 根据每个设定单位内的字符的识别结果,确定该文本图片中的文本信息。
6.如权利要求5所述的方法,其特征在于,所述根据确定出的相似度和转移概率,确定出所述设定单位内的字符的识别结果具体包括: 确定该设定单位内的第I个字符的候选字的维特比概率为该候选字的相似度; 从该设定单位内的第2个字符起,对于当前字符的每个候选字,根据该候选字的相似度、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,确定出所述当前字符的每个候选字与所述在前字符的各候选字之间的维特比概率; 在确定出当前候选字与各在前候选字之间的维特比概率后,比较各维特比概率,从中选择最大的维特比概率作为当前候选字的维特比概率;其中,所述当前候选字为所述当前字符的候选字之一,所述在前候选字为所述在前字符的候选字之一; 以所述当前候选字作为当前节点,选择与该当前候选字之间的维特比概率最大的在前候选字作为与该当前候选字相邻的在前节点; 确定候选路径;其中,所述候选路径中的每个节点为分别针对所述设定单位内的每个字符选择出的候选字,同一候选路径中的相邻节点是根据每个候选字的在前节点确定的;比较各候选路径的最后节点的维特比概率,以最后节点的维特比概率最大的候选路径作为所述识别结果。
7.如权利要求6所述的方法,其特征在于,所述根据该候选字的相似度、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,确定出所述当前字符的每个候选字与所述在前字符的各候选字之间的维特比概率,具体根据如下公式5或4: Pv=P2XRXPv' (公式 5) logPv=b X logP2+c X logR+dX 1gPv' (公式 4) 其中,Pv为所述当前候选字与所述在前候选字之间的维特比概率为所述当前候选字的出现概率,P2为所述在前候选字与所述当前候选字之间的转移概率;R为所述当前候选字的相似度;PV’为所述在前候选字的维特比概率;logPv、1gP1UogP2UogRUogPv'分别为对Pv、Pp P2、R、P;取对数后得到的值;b、c、d分别为设置的权重值。
8.如权利要求5所述的方法,其特征在于,所述识别结果还根据所述设定单位内的每个字符的每个候选字的出现概率确定;以及 根据确定出的相似度和转移概率,以及根据所述设定单位内的每个字符的每个候选字的出现概率,确定出所述设定单位内的字符的识别结果具体包括: 对于该设定单位内的第I个字符的候选字的维特比概率,根据该候选字的相似度、和/或该候选字的出现概率确定; 从该设定单位内的第2个字符起,对于当前字符的每个候选字,根据该候选字的相似度、出现概率、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,确定出所述当前字符的每个候选字与所述在前字符的各候选字之间的维特比概率;在确定出当前候选字与各在前候选字之间的维特比概率后,比较各维特比概率,从中选择最大的维特比概率作为当前候选字的维特比概率;其中,所述当前候选字为所述当前字符的候选字之一,所述在前候选字为所述在前字符的候选字之一; 以所述当前候选字作为当前节点,选择与该当前候选字之间的维特比概率最大的在前候选字作为与该当前候选字相邻的在前节点; 确定候选路径;其中,所述候选路径中的每个节点为分别针对所述设定单位内的每个字符选择出的候选字,同 一候选路径中的相邻节点是根据每个候选字的在前节点确定的;比较各候选路径的最后节点的维特比概率,以最后节点的维特比概率最大的候选路径作为所述识别结果。
9.一种图片审核系统,其特征在于,包括: 文本信息提取模块,用于对文本图片进行光学字符识别OCR处理,提取该文本图片中的文本信息; 过滤模块,用于对所述文本信息提取模块提取的文本信息进行关键字/词的匹配,判断其中是否包含要过滤的关键字/词;若是,则对该文本图片进行过滤处理。
10.如权利要求9所述的系统,其特征在于,还包括:预处理模块; 所述预处理模块用于对所述文本图片进行预处理,并向所述文本信息提取模块输出预处理后的文本图片;其中, 所述预处理模块具体包括:用于对所述文本图片进行二值化处理的二值化单元;或者, 所述预处理模块具体包括:用于对所述文本图片进行灰度化处理并输出的灰度化单元,用于对所述灰度化单元输出的文本图片进行二值化处理的二值化单元;或者, 所述预处理模块具体包括:用于对所述文本图片进行灰度化处理并输出的灰度化单元;以及用于对所述灰度化单元输出的文本图片进行二值化处理后输出的二值化单元;以及用于对所述 二值化单元输出的文本图片进行去除噪声处理的噪声去除单元。
全文摘要
本发明公开了一种图片审核方法和系统,所述方法包括对文本图片进行OCR处理,提取该文本图片中的文本信息;对提取的文本信息进行关键字/词的匹配,判断其中是否包含要过滤的关键字/词;若是,则对该文本图片进行过滤处理。由于将文本图片中的文本信息提取出来,根据提取的文本信息对文本图片进行要过滤的关键字/词的审核,从而可以实现对文本图片进行审核的目的。
文档编号G06K9/20GK103116752SQ201310058758
公开日2013年5月22日 申请日期2013年2月25日 优先权日2013年2月25日
发明者郝双 申请人:新浪网技术(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1