移动设备中融合切分识别和语义分析的翻译方法

文档序号：6380421阅读：246来源：国知局

专利名称：移动设备中融合切分识别和语义分析的翻译方法
技术领域：
本发明涉及图像处理、模式识别和自然语言处理领域，特别涉及移动设备中融合切分识别和语义分析的翻译方法背景技术
随着各国之间的交流日益频繁，在陌生的国度里面文字语言之间的隔阂是人们交流过程中的主要障碍。较之传统的PC设备，移动设备在协助解决这一问题中有更好的便捷性。从目前来看，使用移动设备来识别翻译诸如路牌、通知、菜单等自然场景中的图像或视频的字符已经成为一种迫切的需求。专利文献CN 200610027256描述了一种简单的在手持设备上结合图像处理，字符识别和翻译的方法。专利文献CN 200810135701描述了一种提高结合主题分类提高翻译准确度的方法。然而，上述方法并未解决移动设备中因为图像质量不高识别率低下的问题。
传统的文字识别将图像处理、文字切分、分类器识别等部分分开。有些系统会在识别之后加上利用语言模型的矫正后处理。事实上，不少类似CN 200510092380专利文献的方法也是采用类似的目标函数来结合语言模型和识别模型。但其仍采用传统的viterbi算法来进行解码，所以不能把字符切分的过程融合其中。专利文献CN 200510012195提出了一种融合文字切分的方法，但其中叙述的方法实质是先基于几何代价寻找部分最有可能的文字切分备选方案，之后仍是分别对被选中的部分字符切分备选方案来做传统的viterbi 解码。传统的viterbi解码实质属于二维动态规划，而本发明所用的解码模块采用了四维动态规划，所以有能力对字符切分的所有方案进行遍历，并且可以做最优值的几何均值补偿。本发明的优势在于可以有机直观地结合字符切分、模式识别与语言模型。发明内容
为解决上述移动设备中文字切分和识别准确率低下的问题，本发明提供了一种移动设备中文字图像或视频识别并翻译的装置及方法。通过该装置及方法可以有机地将文字切分、光学字符识别和基于语言模型的语义分析有机结合起来。达到高准确率地识别移动设备上文字图像或视频的识别和翻译，具体技术方案如下。
移动设备中融合切分识别和语义分析的翻译方法，其包括如下步骤
(I)通过移动设备的相机镜头获得一个或多个第一语言字符的图像或视频；
(2)由用户指定或自动检测步骤(I)所得图像或视频中带有文字字符的部分；
(3)对(2)中所得图像进行预处理。
(4)利用解码模块对预处理后的图像进行最终解码，获得最优的文字切分和识别结果;
(5)通过翻译模块将步骤(4)中所得结果翻译至用户所要求的语言。
进一步的，所述解码模块包括文字切分模块、OCR模块和语言模型模块，步骤(4) 包括3
(4. I)利用字符切分模块对预处理后的部分进行字符切分；
(4. 2)切分后可能出现过切分(指字符被进一步切分成部首，如“路”字可能被过切分为“ ”与“各”)，因此对切分后连续片段组成的区域整体利用OCR模块进行识别获得相应备选文字的识别概率；
(4. 3)结合已经训练好的语言模型模块以及步骤(4. 2)中所得的识别概率对文字切分与文字识别决策做最终解码，获得最优的文字切分和识别结果。
进一步的，步骤(4. I)具体是所述的字符切分模块负责将所述预处理得到的图像切成零散的部件，其中，对印刷体采用水平垂直投影法或连通域分析法，将图片分割成不重叠的矩阵区域；对手写体字符的图片，由于手写体的交叠、粘连，因此还要结合字符几何特征或其他方法来进一步分割。
进一步的，步骤(4. 2)所述OCR模块负责对切分后合并的区域图像的文字识别出备选文字，并且计算备选文字对应的识别概率。
进一步的，步骤(4. 3)所述语言模型模块负责分析连续文字的语义可能性，所述所述语言模型采用N-gram模型。
进一步的，步骤(4. 3)中根据步骤(4. 2)中识别的结果判断待识别文字的主题类型，继而根据该类型选择针对相应主题的语言模型。
与现有技术相比，本发明主要针对移动设备中单独模式识别准确率不高、文字切分容易出错的特点，将文字切分、文字识别及语言模型融合成一个解码过程。这种方法结合了多种信息做出识别决策，提高了识别的准确性。

图I是实施方式中的翻译方法流程图。
图2是切分实例图。
图3是切分后的合并实例图。
具体实施方式
以下结合附图和实例对本发明的具体实施作进一步说明，但本发明的实施和保护范围不限于此。
如图1，移动设备中融合切分识别和语义分析的翻译方法包含如下几个步骤
(I)通过移动设备的相机镜头获得一个或多个第一语言字符的图像或视频；
(2)由用户指定或自动检测(I)中所得带有文字字符的部分；
(3)对提取出的部分进行图像预处理，包括二值化、去噪、倾斜矫正、去除非文本区域以及孤立点等；
(4)对处理后的部分进行字符切分；
(5)对切分后可能合并的区域整体利用OCR模块进行识别获得相应备选文字的识别概率；
(6)结合已经训练好的语言模型模块以及(5)中所得的识别概率对文字切分与文字识别决策做最终解码。获得最优的文字切分和识别结果。
(7)通过翻译模块将(6)中所得第一语言结果翻译至用户所要求的语言。
所述的字符切分模块负责将选定识别区域后并处理的图像切成一些零散的部件。具体实施有多种办法，例如对印刷体采用简单的水平垂直投影法，将图片分割成不重叠的矩阵区域。又或者对手写体字符的图片，结合字符的几何特征将之分割成几个可能是重叠的笔画部分。
所述的OCR模块负责获得某个切分合并区域图像的文字识别备选，并且计算对应的识别概率。一般来说，这一部分的典型特征包含一个图像特征提取的方法，一个分类器的训练及识别决策办法，而且为了将这一部分融合进解码模块，必须有计算识别概率的办法。
所述的语言模型模块负责分析连续文字的语义可能性。常用的语言模型是ngram，其特征是通过文库来训练语言模型获得计算概率值Pl (SkI Sk-D sk-2，· · Sk_n+1)的办法，其中Si 表示第i个字符。一般情况下，3-gram能取得很好的效果。在移动设备中,推荐采用2-gram 以提高实时性及节约存储空间。
优选地，可以根据(5)中初步识别的结果判断待识别文字的主题类型，继而根据该类型选择针对相应主题的语言模型以提高准确性。
所述的解码模块，其主要特点是，利用动态规划算法，将文字切分模块，OCR模块，语言模型模块的信息结合起来做出最终的文字切分和识别决策。现介绍一个基于2-gram 语言模型的解码模块实例
A.步骤(4)已经将图像切分为N个切分区域Ui (l〈=i〈=N)。
B.步骤(5)中的OCR模块已经为每个可能的合并区域Xj的生成了一个识别备选集合{sk} (Sk表示一个第一语言字符，K=K=Snj，其中Snj是该集合的大小)，并且也已经计算了选择备选Sk的概率Pr (Sk I Xj)
C. 2-gram模型已经训练完毕，可以计算某两个备选文字Sp，Sq连续出现的概率，即 Pl(SjSp)
D.解码的任务就是确定一种合并决策，该方案将图像分为L个合并区域Xj =队-尸—…丄1—， ) (l〈=j〈=L,其中start」是第j个合并区域中第一个切分区域的下标，count j则表明该合并区域含有几个切分区域)。并且还需从每个合并区域Xj的识别备选集合{Sk}中取出一个S」作为识别决策。以附图为例，图2是切分后的结果，有6 个切分区域U1-U6，图3是一种可能的合并方案，有四个合并区域X1-X4^ X1=U1; X2=U21U3; X3=U4, U5; X4=U6。并且每一个合并区域Xi都选择了一种可能的识别方案Si (每个区域可能不止一种识别方案)，即31=’解’，S2=，觞，，S3=’彼’，S1=,各，。
E.设置一个四维动态规划函数f (i, count, state, Ien),表示从第I到第i个切分区域，在最后一个合并区域Xj=(UiImwUiIimtVUi)长度为count时，并且Xj的识别决策选择了 Sstate时，这前i个区域最优决策概率值的常用对数，并对字数Ien取均值。
F.初始化Ien = I的f边界值，对于所有的I〈= i = count <= MAXcount (MAXcount是一个系统参数，此处不妨取3，因为大部分汉字最多由3个部分组成) f (i, count, state, I) = log (Pr (Sstate | (U1U2. . . Ucount)))
G.计算 Ien > I 的 f 值。当 Ien > I 时 f(i, count，state,Ien)=Idf — I
—~ max ! f(1- count, count', state', Ien -1) + log(Pr(Sslale | X)) + log(PlfSslate | S、l llc)) jcount'.state'其中，乂=(11卜。_1+111卜。_1+2…Ui)。并且,解码模块会用一个数组track[i, count, state, len] 记录下当f (i, count, state, len)取最大值时的参量count’ , state’。
H.遍历所有i=N的f值,求出最大的f (n, count, state, len),根据对应track数组反向回溯出最优解。
上面所述的基于2-gram语言模型的解码模块的方法可以扩展至其他ngram语言模型，不过动规函数f在G步骤中所用的递归式需稍作改动。
五、所述的翻译模块负责将解码模块所得的识别字符进行翻译。具体的实施办法也有多种，例如简单地使用词典翻译，或者采用更复杂的最大熵模型来翻译。
优选地，可以预先判断识别字符的主题，然后根据不同的主题制定不同的翻译规则。例如，对于路牌中的中文路名，可以直接翻译为汉语拼音。
本发明融合了识别信息、切分信息和语义信息。具有如下所述的理论支持
已知切分后的图像{UJ (l<=i<=N),所取最佳识别字符应使得如下概率值最大 P (S1, S2... SlIu1, U2. · · Un)。其中L是合并后的字符个数。设Xj代表一个合并后的图像区域。则根据贝叶斯公式有
PiSlS2..Sl IU1U2..UN) = PiS1S2..Sl | X1X2-Λ) = ..Χ^χ S^S^-..足)一方面，根据ngram语言模型
PiSlS2...SL) = r[尸(A.1U/=2
另一方面，因为每个字基于图片的识别概率是独立的，i^lP(SAXi)XP(Xi)
PiXlX2-X, IM2..足)=YlPiXj ISj)-Π P L/=1;=1尸(A)L
又因为图像的存在概率相互独立即Π7)(Χ,)，并且假设每个汉字户I的出现概率相同，即P(Sj)为常数，则有P[X1X,...Xl IS1S,…SL)xP{S乂…SL)| 尤)[。。56] ~^
所以，
argmax(/)(‘VS’:...‘S; |"/12...1/')) = argmax( P(S丨 | X,)\\ PkSj | Si,,))MJ=2
必须注意的是，上述目标函数会倾向于选择L较小的切分方案。所以需要补偿目标函数，可以采用几何均值。即目标函数变换为彳IIDV j_=i/=2
优选地，有些识别分类器可以方便求得P (Xj I Sj)的值，则不需做P (Sj)为常数的假设，而采用更精确的目标函数
权利要求
1.移动设备中融合切分识别和语义分析的翻译方法，其特征在于包括如下步骤 (1)通过移动设备的相机镜头获得一个或多个第一语言字符的图像或视频； (2)由用户指定或自动检测步骤(I)所得图像或视频中带有文字字符的部分图像； (3)对(2)中所得图像进行预处理； (4)利用解码模块对预处理后的图像进行最终解码，获得最优的文字切分和识别结果; (5)通过翻译模块将步骤(4)中所得结果翻译至用户所要求的语言。
2.根据权利要求I所述的移动设备中融合切分识别和语义分析的翻译方法，其特征在于所述解码模块包括文字切分模块、OCR模块和语言模型模块，步骤(4)包括 (4. I)利用字符切分模块对预处理后的部分进行字符切分； (4. 2)对切分后连续片段组成的区域整体利用OCR模块进行识别获得相应备选文字的识别概率； (4. 3)结合已经训练好的语言模型模块以及步骤(4. 2)中所得的识别概率对文字切分与文字识别决策做最终解码，获得最优的文字切分和识别结果。
3.根据权利要求2所述的移动设备中融合切分识别和语义分析的翻译方法，其特征在于步骤(4. I)具体是所述的字符切分模块负责将所述预处理得到的图像切成零散的部件，其中，对印刷体采用水平垂直投影法或连通域分析法，将图片分割成不重叠的矩阵区域；对手写体字符的图片，由于手写体的交叠、粘连，因此还要结合字符几何特征进一步分割。
4.根据权利要求2所述的移动设备中融合切分识别和语义分析的翻译方法，其特征在于步骤(4. 2)所述OCR模块负责对切分后连续片段合并的区域图像的文字识别出备选文字，并且计算备选文字对应的识别概率。
5.根据权利要求2所述的移动设备中融合切分识别和语义分析的翻译方法，其特征在于步骤(4. 3)所述语言模型模块负责分析连续文字的语义可能性，所述所述语言模型采用N-gram 模型。
6.根据权利要求5所述的移动设备中融合切分识别和语义分析的翻译方法，其特征在于步骤(4. 3)中根据步骤(4. 2)中识别的结果判断待识别文字的主题类型，继而根据该类型选择针对相应主题的语言模型。
全文摘要
本发明公开了移动设备中融合切分识别和语义分析的翻译方法，其包括(1)通过移动设备的相机镜头获得一个或多个第一语言字符的图像或视频；由用户指定或自动检测步骤(1)所得图像或视频中带有文字字符的部分图像；对(2)中所得图像进行预处理；利用解码模块对预处理后的图像进行最终解码，获得最优的文字切分和识别结果；通过翻译模块将步骤(4)中所得结果翻译至用户所要求的语言。本发明主要针对移动设备中单独模式识别准确率不高、文字切分容易出错的特点，将文字切分、文字识别及语言模型融合成一个解码过程。这种方法结合了多种信息做出识别决策，提高了识别的准确性。
文档编号G06K9/46GK102982329SQ201210434478
公开日2013年3月20日申请日期2012年11月2日优先权日2012年11月2日
发明者廖睿之, 麦跃, 陈强, 蔡洽吾, 邓春风, 金连文申请人:华南理工大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：廖睿之;麦跃;陈强;蔡洽吾;邓春风;金连文
技术所有人：华南理工大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。