一种翻译方法、装置和用于翻译的装置与流程

文档序号：21781650发布日期：2020-08-07 20:09阅读：129来源：国知局

本发明涉及计算机
技术领域：
：，尤其涉及一种翻译方法、装置和用于翻译的装置。
背景技术：
：：随着计算机技术的不断发展，利用翻译工具可以对图像中的文本进行翻译，将图像中的源语言文本翻译为目标语言文本，并且输出翻译后的图像。例如，参照图1，示出了一种待翻译图像的示意图，该图像中包括源语言为英文的如下源语言文本：“chinaisleadingtheworldinfacialrecognitionalgorithmswithitsbestalgorithmabletorecognize10millionpeoplewithoutasinglemistakeinlessthanasecond.”，假设目标语言为中文，则该源语言文本对应的翻译结果可以如下：“中国的人脸识别算法在世界上处于领先地位，其中最好的算法能够在不到一秒的时间内识别出一千万人而不会出现任何错误。”然而，由于在图1所示的图像中，源语言文本分为被分为多个文本行显示，因此，翻译工具会对识别出的多个文本行分别进行翻译，最终输出如图2所示的翻译后的图像。用户最终看到的目标语言文本为：“中国在脸部世界领先”、“最佳识别算法”、“能够识别10的算法”、“百万人口”、“不到一秒钟的错误。”。可以看出，图2中的每一行目标语言文本虽然与图1中的每一行源语言文本相对应，但是，图2所示的目标语言文本与图1的源语言文本的语义偏差较大，不仅影响翻译的准确率，而且为用户的理解增加了难度。技术实现要素：本发明实施例提供一种翻译方法、装置和用于翻译的装置，可以提高用户查看商品信息的效率。为了解决上述问题，本发明实施例公开了一种翻译方法，所述方法包括：确定图像中的源语言文本行区域；若确定相邻的源语言文本行区域中包括同一个段落的文本内容，则合并所述相邻的源语言文本行区域，以得到源语言文本段区域；对所述源语言文本段区域中的源语言文本进行翻译，以得到所述源语言文本对应的目标语言文本。另一方面，本发明实施例公开了一种翻译装置，所述装置包括：确定模块，用于确定图像中的源语言文本行区域；合并模块，用于若确定相邻的源语言文本行区域中包括同一个段落的文本内容，则合并所述相邻的源语言文本行区域，以得到源语言文本段区域；翻译模块，用于对所述源语言文本段区域中的源语言文本进行翻译，以得到所述源语言文本对应的目标语言文本。再一方面，本发明实施例公开了一种用于翻译的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：确定图像中的源语言文本行区域；若确定相邻的源语言文本行区域中包括同一个段落的文本内容，则合并所述相邻的源语言文本行区域，以得到源语言文本段区域；对所述源语言文本段区域中的源语言文本进行翻译，以得到所述源语言文本对应的目标语言文本。又一方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前述一个或多个所述的翻译方法。本发明实施例包括以下优点：本发明实施例在确定图像中的源语言文本行区域之后，进一步判断相邻的源语言文本行区域中是否包括同一个段落的文本内容，若确定相邻的源语言文本行区域中包括同一个段落的文本内容，则合并所述相邻的源语言文本行区域，以得到源语言文本段区域，再对所述源语言文本段区域中的源语言文本进行翻译，以得到所述源语言文本对应的目标语言文本。由于合并后得到的源语言文本段区域中的文本内容包括完整的段落，且合并后的段落包括完整的句子，由此，对合并后的源语言文本段区域中的源语言文本进行翻译，可以得到语义表达更加准确的目标语言文本，以提高翻译的准确率。附图说明为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。图1是一种待翻译图像的示意图；图2是一种翻译后图像的示意图；图3是本发明的一种翻译方法实施例的步骤流程图；图4是本发明的一种源语言文本行区域的示意图；图5是本发明的另一种源语言文本行区域的示意图；图6是本发明的一种翻译装置实施例的结构框图；图7是本发明的一种用于翻译的装置800的框图；及图8是本发明的一些实施例中服务器的结构示意图。具体实施方式下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。方法实施例参照图3，示出了本发明的一种翻译方法实施例的步骤流程图，具体可以包括如下步骤：步骤301、确定图像中的源语言文本行区域；步骤302、若确定相邻的源语言文本行区域中包括同一个段落的文本内容，则合并所述相邻的源语言文本行区域，以得到源语言文本段区域；步骤303、对所述源语言文本段区域中的源语言文本进行翻译，以得到所述源语言文本对应的目标语言文本。本发明实施例可应用于翻译场景，所述翻译场景对应的翻译客户端可以根据用户设置的源语言以及目标语言的种类，将图像中的源语言文本翻译成目标语言文本。可以理解，本发明实施例对源语言和目标语言的种类不加以限制，例如，所述源语言可以为中文，所述目标语言可以为英文；或者，所述源语言可以为英文，所述目标语言可以为日文等。本发明实施例对所述翻译客户端的形式不加以限制，例如，所述翻译客户端可以为翻译app(application，应用程序)，用户可以在终端中下载安装并使用该app；或者，所述翻译客户端可以为网页在线工具，用户可以打开网页，使用网页中的在线翻译客户端等。所述翻译客户端可以运行在终端上，所述终端具体包括但不限于：智能手机、平板电脑、电子书阅读器、mp3(动态影像专家压缩标准音频层面3，movingpictureexpertsgroupaudiolayeriii)播放器、mp4(动态影像专家压缩标准音频层面4，movingpictureexpertsgroupaudiolayeriv)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。在本发明实施例中，待翻译的所述图像可以是任意类型的图像，如商品图、细节图、画报封面图、广告图等，图像的格式包括但不限于jpg(jointphotographicexpertsgroup，联合图像专家组)、png(portablenetworkgraphics，便携式网络图形)、tiff(tagimagefileformat，标签图像文件格式)、bmp(bitmap，位图)等。可以理解，本发明实施例对所述图像的获取方式不加以限制，例如可以从网页下载，也可以通过终端设备采集，如利用手机或者照相机拍照得到待翻译的图像等。对于待翻译的所述图像，本发明实施例首先确定图像中的源语言文本行区域，所述源语言文本行区域由多个文字沿同一方向组合而成，每一个源语言文本行区域中可以包括一行文字。参照图4，示出了本发明的一种源语言文本行区域的示意图。如图4所示，其中的矩形框区域可以表示识别得到的源语言文本行区域，可以看出，图4中包括5个源语言文本行区域。可以理解，本发明实施例对所述源语言文本行区域的方向不加以限制，根据图像中文字的排版方式，所述源语言文本行区域的方向可以为横向、纵向等任意方向。本发明实施例对确定图像中的源语言文本行区域的具体方式不加以限制。例如，可以对所述图像进行阈值化处理，以确定图像中的源语言文本行区域。具体地，所述阈值化处理可根据实际情况选取不同的阈值化方法，如固定阈值化方法、自适应阈值化方法、大津法、迭代法等。可以理解，本实施例对所述源语言文本行区域的大小不加以限制，例如，所述源语言文本行区域可以为包含所述源语言文本行的最小外接矩形，也即，该最小外接矩形的四条边分别与所述源语言文本行中文字的最上端、最下端、最左端以及最右端相切。然而，阈值化处理的方法通常适用于简单背景的图像，对背景较为复杂的图像，很难准确定位其中的文本区域，因此，本发明实施例利用卷积神经网络确定图像中的源语言文本行区域。在本发明的一种可选实施例中，所述源语言文本行区域可以为根据卷积神经网络所确定。具体地，可以采集大量包含文本内容的图像作为样本数据，以训练得到卷积网络预测模型，通过该卷积网络预测模型，可以识别图像中的文本行区域。例如，首先构建并初始化卷积网络的初始模型，包括卷积层的层数、上采样层的层数、卷积核的大小、偏置等；然后，可以采用梯度下降算法对该初始模型进行迭代优化，直到优化的模型达到预设条件时，停止迭代优化，将最后一次优化的模型作为卷积网络预测模型。在本发明实施例中，所述初始模型可以是由7层卷积层和1层上采样层组成的网络模型。当然，在实际应用中，也可以根据实际需要设置卷积层的层数和上采样层的层数，本发明实施例对此不加以限制。由于所述卷积网络预测模型为根据大量样本数据训练得到，相比阈值化处理的方式，在图像背景复杂的情况下，利用卷积神经网络确定得到的源语言文本行区域更加准确。由于一个源语言文本行区域中的文本可能并不是一个完整的句子，对每一个源语言文本行区域中的文本单独进行翻译，将会导致语义表达不准确。而段落是文章中最基本的单位，一个段落的内容通常具有一个相对完整的意思。因此，本发明实施例进一步判断相邻的源语言文本行区域中是否包括同一个段落的文本内容，若确定相邻的源语言文本行区域中包括同一个段落的文本内容，则可以合并所述相邻的源语言文本行区域，以使合并后得到的源语言文本段区域中的文本内容包括完整的段落，且使得合并后的段落包括完整的句子，由此，对源语言文本段区域中的源语言文本进行翻译，可以得到语义表达更加准确的目标语言文本，以提高翻译的准确率。其中，所述源语言文本段区域中可以包括一个或多个段落，且一个段落中可以包括一个句子或者多个句子。可以理解，本发明实施例对一个源语言文本段区域中段落的数目，以及一个段落中句子的数目均不加以限制。具体地，本发明实施例可以根据源语言文本行区域在图像中的参数信息，判断相邻的源语言文本行区域中是否包括同一个段落的文本内容。在本发明的一种可选实施例中，所述确定相邻的源语言文本行区域中包括同一个段落的文本内容，具体可以包括：若相邻的源语言文本行区域的尺寸差异小于预设差异值、行间距小于预设间距值、以及相邻的源语言文本行区域中的文本方向相同，则确定相邻的源语言文本行区域中包括同一个段落的文本内容；其中，所述尺寸包括：所述源语言文本行区域的高度、和/或、所述源语言文本行区域的宽度。在确定图像中的源语言文本行区域之后，本发明实施例可以确定每个源语言文本行区域对应的参数信息，所述参数信息至少可以包括：源语言文本行区域的尺寸(如宽度、和/或、高度)、源语言文本行区域之间的行间距(如纵向距离)、文本方向。在具体应用中，同一个段落的文本内容通常具有相同的文本格式，如相同的字体类型、相同的字体大小、以及相同的文本方向等，并且同一个段落的文本内容通常位于较近的位置区域。因此，若确定相邻的源语言文本行区域的尺寸差异小于预设差异值、行间距小于预设间距值、以及相邻的源语言文本行区域中的文本方向相同，则可以确定相邻的源语言文本行区域中包括同一个段落的文本内容；其中，所述尺寸具体可以包括：所述源语言文本行区域的高度、和/或、所述源语言文本行区域的宽度。可以理解，本发明实施例对所述预设差异值以及预设间距值的具体数值不加以限制，例如可以根据常规的文本排版经验，设置所述预设差异值以及预设间距值为较小的数值。在本发明的一种应用示例中，参照图5，示出了本发明的另一种源语言文本行区域的示意图。如图5所示，其中包括源语言文本行区域501、502、503、504、505、506、507和508。其中，503和504的尺寸差异较小，假设小于预设差异值，且503和504的行间距也较小，假设小于预设间距值，此外，503和504中的文本方向相同，因此，可以确定503和504中包括同一个段落的文本内容，因此，可以对503和504进行合并。同理，可以合并506、507和508，合并后可以得到如下5个源语言文本段区域：段落区域1(包括501)、段落区域2(包括502)、段落区域3(包括503和504)、段落区域4(包括505)、段落区域5(包括506、507、508)。可以理解，上述根据源语言文本行区域的尺寸(如宽度、和/或、高度)、源语言文本行区域之间的行间距(如纵向距离)、以及文本方向判断相邻的源语言文本行区域中是否包括同一个段落的文本内容，仅作为本发明的一种应用示例。本发明实施例对判断过程中依据的源语言文本行区域对应的参数信息不加以限制，例如，所述参数信息还可以包括：源语言文本行区域的左上顶点坐标、右上顶点坐标、角度(左上顶点和右上顶点连线与x轴之间的夹角)、高度比值、文本颜色等。例如，本发明实施例在确定相邻的源语言文本行区域中是否包括同一个段落的文本内容时，还可以进一步判断相邻的源语言文本行区域的角度差是否小于预设角度(如设置预设角度为3度)，若相邻的源语言文本行区域的尺寸差异小于预设差异值、行间距小于预设间距值、以及相邻的源语言文本行区域的角度差小于3度，则可以确定相邻的源语言文本行区域中包括同一个段落的文本内容。再如，本发明实施例在确定相邻的源语言文本行区域中是否包括同一个段落的文本内容时，还可以进一步判断相邻的源语言文本行区域中文本的颜色是否相同，例如，若相邻的源语言文本行区域的尺寸差异小于预设差异值、且行间距小于预设间距值、以及相邻的源语言文本行区域中文本的方向和颜色均相同，则可以确定相邻的源语言文本行区域中包括同一个段落的文本内容。本发明实施例还可以对源语言文本行区域中的文本进行识别，以根据相邻的源语言文本行区域中文本之间的关联关系，确定相邻的源语言文本行区域中是否包括同一个段落的文本内容的准确性，以进一步提高判断的准确性。在本发明的一种可选实施例中，所述确定相邻的源语言文本行区域中包括同一个段落的文本内容，具体可以包括：步骤s11、确定第一区域中文本行的末尾词，以及确定第二区域中文本行的起始词；其中，所述第一区域和所述第二区域为相邻的源语言文本行区域，且所述第一区域位于相邻源语言文本行区域中的第一位置，所述第二区域位于相邻源语言文本行区域中的第二位置；步骤s12、若确定所述末尾词与所述起始词之间满足关联条件，则确定所述第一区域与所述第二区域中包括同一个段落的文本内容。在实际应用中，文本的排版主要包括横向和纵向两种方式，对于横向排版方式，所述第一位置具体可以为相邻源语言文本行区域中的上行位置，所述第二位置具体可以为相邻源语言文本行区域中的下行位置。对于纵向排版方式，如果文本方向是从左至右，则所述第一位置具体可以为相邻源语言文本行区域中的左行位置，所述第二位置具体可以为相邻源语言文本行区域中的右行位置。同理，对于纵向排版方式，如果文本方向是从右至左，则所述第一位置具体可以为相邻源语言文本行区域中的右行位置，所述第二位置具体可以为相邻源语言文本行区域中的左行位置。为便于描述，本发明实施例中均以横向排版方式为例进行说明。可选地，本发明实施例可以提供如下三种确定所述末尾词与所述起始词之间是否满足关联条件的判断方式。方式一在本发明的一种可选实施例中，所述确定所述末尾词与所述起始词之间满足关联条件，具体可以包括：步骤s21、确定所述末尾词为句尾词的第一概率；步骤s22、确定所述起始词为句首词的第二概率；步骤s23、确定在所述末尾词出现的情况下，所述起始词出现的第三概率；步骤s24、若所述第一概率小于第一阈值、所述第二概率小于第二阈值，且所述第三概率大于第三阈值，则确定所述末尾词与所述起始词之间满足关联条件。语言模型是根据语言客观事实而进行的语言抽象数学建模，其可以在语言模型与语言客观事实之间建立某种映射关系，本发明实施例可以根据语言模型确定相邻的源语言文本行区域中的末尾词和起始词之间是否满足关联条件。需要说明的是，本发明实施例主要以统计语言模型为例进行说明，非统计语言模型相互参照即可。可选地，统计语言模型可以概率分布的形式描述任意词序列s属于某种语言集合的可能性，这里并不要求词序列s在语法上是完备的，该统计语言模型可以对任意的词序列s可以给出一个概率参数值，相应的计算公式可以表示为：p(s)＝p(w1,w2,w3,w4,w5,…,wn)＝p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)(1)公式(1)中，s包括n个词汇，公式(1)中wi表示词序列中的第i个词汇。可选地，训练“语言模型”的过程，就是估计模型参数p(wi|wi-n+1,...,wi-1)的过程，其中，p(wi|wi-n+1,...,wi-1)可用于表示前n-1个词为wi-n+1,...,wi-1的情况下、后词为wi的概率。依据统计语言模型的概念，现有的统计语言模型可以基于统计算法对预置语料进行处理，以给出词序列的概率，或者，在给定上下文数据的情况下，预测下一个最可能出现的单词。在本发明实施例中，上述统计语言模型具体可以包括：上下文无关模型、n元文法模型(n-grammodel)、隐马尔科夫模型(hmm，hiddenmarkovmodel)、最大熵模型(maximumentropymodel)、循环神经网络模型(rnn，recurrentneuralnetworksmodel)。其中，上下文无关模型可以不依赖于上下文环境，n元文法模型、hmm模型、最大熵模型、rmm模型等需要依赖于上下文环境，n元文法模型、hmm模型、最大熵模型、rmm模型使用的机器学习方法不同，hmm模型、最大熵模型、rmm模型所使用的机器学习方法不仅考虑了预置语料(也即训练文本)之间的联系，而且使用了训练文本的时序特性；而n元文法模型可以不考虑训练文本之间的联系，其中，n为大于等于2的正整数。以所述语言模型为n-gram语言模型为例，本发明实施例在确定图像中的源语言文本行区域之后，可以对源语言文本行区域进行文本识别，以确定源语言文本行区域中的文本，并且对识别的文本内容进行分词，以得到对应的分词序列，进而可以获取相邻的源语言文本行区域中位于上行的第一区域中文本行的末尾词w1、以及位于下行的第二区域中文本行的起始词w2，并根据n-gram语言模型，确定w1为句尾词的第一概率p(w1)、确定w2为句首词的第二概率p(w2)，以及确定在所述末尾词w1出现的情况下，所述起始词w2出现的第三概率p(w2|w1)；若所述第一概率p(w1)小于第一阈值，所述第二概率p(w2)小于第二阈值，且所述第三概率p(w2|w1)大于第三阈值，说明所述末尾词w1作为句尾词的概率较小，所述起始词w2作为句首词的概率较小，并且所述末尾词w1和所述起始词w2同时出现的概率较大，则确定所述末尾词与所述起始词之间满足关联条件，也即可以确定第一区域和第二区域中包括同一个段落的文本内容，可以对第一区域和第二区域进行合并。可以理解，本发明实施例对所述第一阈值、第二阈值、以及第三阈值的具体数值不加以限制，例如，所述第一阈值和所述第二阈值可以为相同数值或者不同数值，如设置第一阈值和第二阈值均为30％，以及设置第三阈值为80％。在本发明的一种应用示例中，假设对某图像中的文本区域进行检测以及文本识别，得到相邻的源语言文本行区域中位于上行的第一区域包括如下文本内容：“10十条高铁新线年底前开通，试运行车上3瓶矿泉水惊”，以及位于下行的第二区域包括如下文本内容：“呆众人”。对第一区域中的文本内容进行分词，可以得到如下分词序列“10条/高铁/新线/年底/前/开通，试运行/车上/3瓶/矿泉水/惊”，可以确定第一区域中文本行的末尾词w1为“惊”；同理，可以确定第二区域中文本行的起始词w2为“呆”；假设根据n-gram语言模型，确定末尾词w1“惊”为句尾词的第一概率p(w1)为25％、确定起始词w2“呆”为句首词的第二概率p(w2)为19％，以及确定在所述末尾词w1出现的情况下，所述起始词w2出现的第三概率p(w2|w1)为95％。可以看出，第一概率p(w1)小于第一阈值30％，第二概率p(w2)小于第二阈值30％，且第三概率p(w2|w1)大于第三阈值80％，则可以确定第一区域第一区域和第二区域中包括同一个段落的文本内容，可以对第一区域和第二区域进行合并，得到合并后的源语言文本段区域中的源语言文本为“10十条高铁新线年底前开通，试运行车上3瓶矿泉水惊呆众人”，再对合并后的源语言文本段区域中的源语言文本进行翻译，可以提高翻译的准确率。方式二在本发明的一种可选实施例中，所述确定所述末尾词与所述起始词之间满足关联条件，具体可以包括：若所述末尾词的词性与第一预置词性相匹配，或者，若所述起始词的词性与第二预置词性相匹配，则确定所述末尾词与所述起始词之间满足关联条件。词性指以词的特点作为划分词类的根据。以中文为例，现代汉语的词可以分为两类14种词性(词类)。一类是实词：名词、动词、形容词、区别词、代词、数词、量词、一类是虚词：副词、介词、连词、助词、语气词、拟声词、叹词。在实际应用中，不同词性的词由于作用不同，其出现在句子中的位置也不同，例如，连接词是用来连接词与词、词组与词组或句子与句子、表示某种逻辑关系的虚词，可以表并列、承接、转折、顺承、选择、假设、比较、让步等关系。因此，连接词通常出现在一句话的中间，而不会出现在句尾或者句首。此外，介词、冠词、限定词通常也不会出现在句尾。又如，语气词是表示语气的虚词，常用在句尾或句中停顿处表示种种语气。常见的语气词有：的、了、么、呢、吧、啊。语气词：附着在词语、句子末，表示语气。根据词性的上述特征，本发明实施例可以对第一区域中文本行的末尾词以及第二区域中文本行的起始词的词性进行识别，若确定所述末尾词的词性与第一预置词性相匹配，或者，若确定所述起始词的词性与第二预置词性相匹配，则可以确定所述末尾词与所述起始词之间满足关联条件。可选地，所述第一预置词性至少可以包括如下任意一种：连接词、介词、冠词、限定词；所述第二阈值词性至少可以包括如下任意一种：连接词、语气词。具体地，本发明实施例可以对收集的大量句子中分词的词性进行标注，根据标注的数据训练词性识别模型，通过训练后的词性识别模型，可以对第一区域中文本行的末尾词以及第二区域中文本行的起始词的词性进行识别，进而可以根据识别得到的词性与第一预置词性或者第二预置词性进行匹配，若确定所述末尾词的词性与第一预置词性相匹配，或者，若确定所述起始词的词性与第二预置词性相匹配，则可以确定所述末尾词与所述起始词之间满足关联条件。方式三在本发明的一种可选实施例中，所述确定所述末尾词与所述起始词之间满足关联条件，具体可以包括：若所述起始词的格式不符合所述源语言对应的句首词的格式，则确定所述末尾词与所述起始词之间满足关联条件。本发明实施例还可以对所述源语言进行识别，以确定源语言的语言种类，进而判断所述起始词的格式是否符合所述源语言对应的句首词的格式，如果所述起始词的格式不符合所述源语言对应的句首词的格式，说明所述起始词不是句首词的概率较高，则可以所述起始词与上一行(第一区域中的文本行)的末尾词之间满足关联条件。以源语言为英文为例，英文句子中句首词的首字母通常为大写字母，因此，如果确定起始词的首字母不是大写字母，则确定所述起始词的格式不符合源语言为英文对应的句首词的格式，可以确定所述起始词与上一行的末尾词之间满足关联条件，可以与上一行的文本内容进行合并。在本发明的一种可选实施例中，所述确定所述末尾词与所述起始词之间满足关联条件，具体可以包括：所述第一区域中文本行的末尾词之后不存在标点符号，则确定所述末尾词与所述起始词之间满足关联条件。在具体应用中，一个完整的句子通常会以标点符号作为终结，因此，如果所述第一区域中文本行的末尾词之后不存在标点符号，则说明该第一区域中的文本内容并没有结束，所述末尾词与下一行(第二区域中的文本行)的起始词具有关联关系的概率较高，则可以确定所述末尾词与所述起始词之间满足关联条件。可以理解，在实际应用中，上述判断相邻的源语言文本行区域中是否包括同一个段落的文本内容的方案可以单独使用，也可以结合使用。例如，可以根据源语言文本行区域对应的参数信息，判断相邻的源语言文本行区域中是否包括同一个段落的文本内容；或者，可以根据第一区域中的末尾词与第二区域中的起始词之间的关联关系，判断相邻的源语言文本行区域中是否包括同一个段落的文本内容；或者，还可以在确定图像中的源语言文本行区域之后，首先根据源语言文本行区域对应的参数信息，判断相邻的源语言文本行区域中是否包括同一个段落的文本内容，以对相邻的源语言文本行区域进行初步组段，然后，对初步组段后的源语言文本行区域中的文本进行识别，并根据第一区域中的末尾词与第二区域中的起始词之间的关联关系，进一步判断经过初步组段后相邻的源语言文本行区域中是否包括同一个段落的文本内容，以对初步组段的结果进行再次组段，以得到更加准确的源语言文本段区域；最后，对再次组段后得到的源语言文本段区域中的源语言文本进行翻译，以得到所述源语言文本对应的目标语言文本。可以理解，本发明实施例对源语言文本行区域中的文本进行识别的执行时机不加以限制，例如，本发明实施例可以在确定图像中的源语言文本行区域之后，以及在对相邻的源语言文本行区域进行组段之前，对源语言文本行区域中的源语言文本进行识别；可选地，本发明实施例可以训练两个卷积神经网络，其中一个卷积神经网络用于对图像中的源语言文本行区域进行检测，以确定图像中的源语言文本行区域，另一个卷积神经网络用于对检测得到的源语言文本行区域进行文本识别，以得到每个源语言文本行区域中的文本内容；或者，也可以在对相邻的源语言文本行区域进行组段之后，再对组段后的源语言文本段区域中的源语言文本进行识别等。综上，本发明实施例在确定图像中的源语言文本行区域之后，进一步判断相邻的源语言文本行区域中是否包括同一个段落的文本内容，若确定相邻的源语言文本行区域中包括同一个段落的文本内容，则合并所述相邻的源语言文本行区域，以得到源语言文本段区域，再对所述源语言文本段区域中的源语言文本进行翻译，以得到所述源语言文本对应的目标语言文本。由于合并后得到的源语言文本段区域中的文本内容包括完整的段落，且合并后的段落包括完整的句子，由此，对合并后的源语言文本段区域中的源语言文本进行翻译，可以得到语义表达更加准确的目标语言文本，以提高翻译的准确率。需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。装置实施例参照图6，示出了本发明的一种翻译装置实施例的结构框图，所述装置具体可以包括：确定模块601，用于确定图像中的源语言文本行区域；合并模块602，用于若确定相邻的源语言文本行区域中包括同一个段落的文本内容，则合并所述相邻的源语言文本行区域，以得到源语言文本段区域；翻译模块603，用于对所述源语言文本段区域中的源语言文本进行翻译，以得到所述源语言文本对应的目标语言文本。可选地，所述合并模块602，具体可以包括：第一确定子模块，用于若相邻的源语言文本行区域的尺寸差异小于预设差异值、行间距小于预设间距值、以及相邻的源语言文本行区域中的文本方向相同，则确定相邻的源语言文本行区域中包括同一个段落的文本内容；其中，所述尺寸包括：所述源语言文本行区域的高度、和/或、所述源语言文本行区域的宽度。可选地，所述合并模块602，具体可以包括：第二确定子模块，用于确定第一区域中文本行的末尾词，以及确定第二区域中文本行的起始词；其中，所述第一区域和所述第二区域为相邻的源语言文本行区域，且所述第一区域位于相邻源语言文本行区域中的第一位置，所述第二区域位于相邻源语言文本行区域中的第二位置；第三确定子模块，用于若确定所述末尾词与所述起始词之间满足关联条件，则确定所述第一区域与所述第二区域中包括同一个段落的文本内容。可选地，所述第三确定子模块，具体可以包括：第一确定单元，用于确定所述末尾词为句尾词的第一概率；第二确定单元，用于确定所述起始词为句首词的第二概率；第三确定单元，用于确定在所述末尾词出现的情况下，所述起始词出现的第三概率；第四确定单元，用于若所述第一概率小于第一阈值、所述第二概率小于第二阈值，且所述第三概率大于第三阈值，则确定所述末尾词与所述起始词之间满足关联条件。可选地，所述第三确定子模块，具体可以包括：第五确定单元，用于若所述末尾词的词性与第一预置词性相匹配，或者，若所述起始词的词性与第二预置词性相匹配，则确定所述末尾词与所述起始词之间满足关联条件。可选地，所述第三确定子模块，具体可以包括：第六确定单元，用于若所述起始词的格式不符合所述源语言对应的句首词的格式，则确定所述末尾词与所述起始词之间满足关联条件。可选地，所述源语言文本行区域为根据卷积神经网络所确定。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。本发明实施例提供了一种用于翻译的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：确定图像中的源语言文本行区域；若确定相邻的源语言文本行区域中包括同一个段落的文本内容，则合并所述相邻的源语言文本行区域，以得到源语言文本段区域；对所述源语言文本段区域中的源语言文本进行翻译，以得到所述源语言文本对应的目标语言文本。图7是根据一示例性实施例示出的一种用于翻译的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。参照图7，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(i/o)的接口812，传感器组件814，以及通信组件816。处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(mic)，当装置800处于操作模式，如呼叫模式、记录模式和语音信息处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。i/o接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如wifi，2g或3g，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频信息处理(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。在示例性实施例中，装置800可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。图8是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessingunits，cpu)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如windowsservertm，macosxtm，unixtm,linuxtm，freebsdtm等等。一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行图1所示的翻译方法。一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行一种翻译方法，所述方法包括：确定图像中的源语言文本行区域；若确定相邻的源语言文本行区域中包括同一个段落的文本内容，则合并所述相邻的源语言文本行区域，以得到源语言文本段区域；对所述源语言文本段区域中的源语言文本进行翻译，以得到所述源语言文本对应的目标语言文本。本发明实施例公开了a1、一种翻译方法，包括：确定图像中的源语言文本行区域；若确定相邻的源语言文本行区域中包括同一个段落的文本内容，则合并所述相邻的源语言文本行区域，以得到源语言文本段区域；对所述源语言文本段区域中的源语言文本进行翻译，以得到所述源语言文本对应的目标语言文本。a2、根据a1所述的方法，所述确定相邻的源语言文本行区域中包括同一个段落的文本内容，包括：若相邻的源语言文本行区域的尺寸差异小于预设差异值、行间距小于预设间距值、以及相邻的源语言文本行区域中的文本方向相同，则确定相邻的源语言文本行区域中包括同一个段落的文本内容；其中，所述尺寸包括：所述源语言文本行区域的高度、和/或、所述源语言文本行区域的宽度。a3、根据a1所述的方法，所述确定相邻的源语言文本行区域中包括同一个段落的文本内容，包括：确定第一区域中文本行的末尾词，以及确定第二区域中文本行的起始词；其中，所述第一区域和所述第二区域为相邻的源语言文本行区域，且所述第一区域位于相邻源语言文本行区域中的第一位置，所述第二区域位于相邻源语言文本行区域中的第二位置；若确定所述末尾词与所述起始词之间满足关联条件，则确定所述第一区域与所述第二区域中包括同一个段落的文本内容。a4、根据a3所述的方法，所述确定所述末尾词与所述起始词之间满足关联条件，包括：确定所述末尾词为句尾词的第一概率；确定所述起始词为句首词的第二概率；确定在所述末尾词出现的情况下，所述起始词出现的第三概率；若所述第一概率小于第一阈值、所述第二概率小于第二阈值，且所述第三概率大于第三阈值，则确定所述末尾词与所述起始词之间满足关联条件。a5、根据a3所述的方法，所述确定所述末尾词与所述起始词之间满足关联条件，包括：若所述末尾词的词性与第一预置词性相匹配，或者，若所述起始词的词性与第二预置词性相匹配，则确定所述末尾词与所述起始词之间满足关联条件。a6、根据a3所述的方法，所述确定所述末尾词与所述起始词之间满足关联条件，包括：若所述起始词的格式不符合所述源语言对应的句首词的格式，则确定所述末尾词与所述起始词之间满足关联条件。本发明实施例公开了b7、一种翻译装置，所述装置包括：确定模块，用于确定图像中的源语言文本行区域；合并模块，用于若确定相邻的源语言文本行区域中包括同一个段落的文本内容，则合并所述相邻的源语言文本行区域，以得到源语言文本段区域；翻译模块，用于对所述源语言文本段区域中的源语言文本进行翻译，以得到所述源语言文本对应的目标语言文本。b8、根据b7所述的装置，所述合并模块，包括：第一确定子模块，用于若相邻的源语言文本行区域的尺寸差异小于预设差异值、行间距小于预设间距值、以及相邻的源语言文本行区域中的文本方向相同，则确定相邻的源语言文本行区域中包括同一个段落的文本内容；其中，所述尺寸包括：所述源语言文本行区域的高度、和/或、所述源语言文本行区域的宽度。b9、根据b7所述的装置，所述合并模块，包括：第二确定子模块，用于确定第一区域中文本行的末尾词，以及确定第二区域中文本行的起始词；其中，所述第一区域和所述第二区域为相邻的源语言文本行区域，且所述第一区域位于相邻源语言文本行区域中的第一位置，所述第二区域位于相邻源语言文本行区域中的第二位置；第三确定子模块，用于若确定所述末尾词与所述起始词之间满足关联条件，则确定所述第一区域与所述第二区域中包括同一个段落的文本内容。b10、根据b9所述的装置，所述第三确定子模块，包括：第一确定单元，用于确定所述末尾词为句尾词的第一概率；第二确定单元，用于确定所述起始词为句首词的第二概率；第三确定单元，用于确定在所述末尾词出现的情况下，所述起始词出现的第三概率；第四确定单元，用于若所述第一概率小于第一阈值、所述第二概率小于第二阈值，且所述第三概率大于第三阈值，则确定所述末尾词与所述起始词之间满足关联条件。b11、根据b9所述的装置，所述第三确定子模块，包括：第五确定单元，用于若所述末尾词的词性与第一预置词性相匹配，或者，若所述起始词的词性与第二预置词性相匹配，则确定所述末尾词与所述起始词之间满足关联条件。b12、根据b9所述的装置，所述第三确定子模块，包括：第六确定单元，用于若所述起始词的格式不符合所述源语言对应的句首词的格式，则确定所述末尾词与所述起始词之间满足关联条件。本发明实施例公开了c13、一种用于翻译的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：确定图像中的源语言文本行区域；若确定相邻的源语言文本行区域中包括同一个段落的文本内容，则合并所述相邻的源语言文本行区域，以得到源语言文本段区域；对所述源语言文本段区域中的源语言文本进行翻译，以得到所述源语言文本对应的目标语言文本。c14、根据c13所述的装置，所述确定相邻的源语言文本行区域中包括同一个段落的文本内容，包括：若相邻的源语言文本行区域的尺寸差异小于预设差异值、行间距小于预设间距值、以及相邻的源语言文本行区域中的文本方向相同，则确定相邻的源语言文本行区域中包括同一个段落的文本内容；其中，所述尺寸包括：所述源语言文本行区域的高度、和/或、所述源语言文本行区域的宽度。c15、根据c13所述的装置，所述确定相邻的源语言文本行区域中包括同一个段落的文本内容，包括：确定第一区域中文本行的末尾词，以及确定第二区域中文本行的起始词；其中，所述第一区域和所述第二区域为相邻的源语言文本行区域，且所述第一区域位于相邻源语言文本行区域中的第一位置，所述第二区域位于相邻源语言文本行区域中的第二位置；若确定所述末尾词与所述起始词之间满足关联条件，则确定所述第一区域与所述第二区域中包括同一个段落的文本内容。c16、根据c15所述的装置，所述确定所述末尾词与所述起始词之间满足关联条件，包括：确定所述末尾词为句尾词的第一概率；确定所述起始词为句首词的第二概率；确定在所述末尾词出现的情况下，所述起始词出现的第三概率；若所述第一概率小于第一阈值、所述第二概率小于第二阈值，且所述第三概率大于第三阈值，则确定所述末尾词与所述起始词之间满足关联条件。c17、根据c15所述的装置，所述确定所述末尾词与所述起始词之间满足关联条件，包括：若所述末尾词的词性与第一预置词性相匹配，或者，若所述起始词的词性与第二预置词性相匹配，则确定所述末尾词与所述起始词之间满足关联条件。c18、根据c15所述的装置，所述确定所述末尾词与所述起始词之间满足关联条件，包括：若所述起始词的格式不符合所述源语言对应的句首词的格式，则确定所述末尾词与所述起始词之间满足关联条件。本发明实施例公开了d19、一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如a1至a6中一个或多个所述的翻译方法。本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本
技术领域：
：中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。以上对本发明所提供的一种翻译方法、一种翻译装置和一种用于翻译的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。当前第1页12当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张玉亭;马龙
技术所有人：搜狗(杭州)智能科技有限公司;北京搜狗科技发展有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。