一种基于空间变换的自然场景下文本识别方法与流程

文档序号：12604515阅读：150来源：国知局

本发明属于计算机视觉技术领域，更具体地，涉及一种基于空间变换的自然场景下文本识别方法。

背景技术：
人们在生产和生活中，会接触到大量的自然场景下的文字，像路标、广告牌、产品包装等，这些文字包含着丰富的信息，自动地获取图像中的文字信息可以帮助人们更有效地理解图像，提取这些文字信息具有非常重要的实用价值，对无人驾驶、自动获取地理位置以及基于图像的自动翻译等都有着很强的实用性。自然场景图像背景通常比较复杂，文字分布不规律，且容易受到拍摄角度及光照等因素的影响，因此自然场景中的文本分析一直是计算机视觉技术领域的难点之一。

技术实现要素：
本发明的目的在于提供一种基于空间变换的自然场景下文本识别方法，该方法文本识别准确率高，适应能力强。为实现上述目的，按照本发明的一个方面，提供了一种基于空间变换的自然场景下文本识别方法，包括下述步骤：(1)训练得到文本识别的参数，所述参数包括基准点定位网络模型、图像预处理网络模型、图像编码器网络模型以及特征解码器网络模型：(1.1)标记训练图像集中所有文本图像的文本内容，得到训练数据集；具体地，对给定的文本图像，用人工标注的方法获取文本图像中文本的内容；对训练图像集中的所有文本图像都进行标注，就可以得到训练数据集，记为其中Itri表示训练图像集中的第i张图像，Ltri表示图像Itri中的文本内容，ltri,t表示Ltri中的第t个字符，Ttri表示Ltri中字符个数，Ntr为训练图像个数；(1.2)定义用于对待识别图像进行识别的级联网络，所述级联网络由基准点定位网络、图像预处理网络、图像编码器网络以及特征解码器网络构成，根据上述训练数据集，利用反向传导方法训练该级联网络，得到基准点定位网络模型、图像编码器网络模型以及特征解码器网络模型；(1.2.1)对训练图像Itr，在图像上取两条平行的线段，线段的端点都在图像的左右边界上，在这两条线段上分别等间距的取K/2个点作为基准点，其中K为设置的基准点个数，这样就可以得到K个初始化的基准点，将这些基准点的坐标保存在基准点坐标矩阵Ctr中，记为Ctr＝[ctr1,...,ctrK]，其中坐标系的原点为图像的中点，ctrk表示第k个基准点，且ctrk＝[xctrk,yctrk]T，xctrk和yctrk分别表示该基准点在训练图像Itri上归一化后的横纵坐标，xctrk∈[-1,1]，yctrk∈[-1,1]，上标T表示矩阵转置；(1.2.2)以卷积神经网络作为图像基准点定位网络，该卷积神经网络包含四个卷积层、四个最大池化层、两个全连接层以及一个双曲正切输出层；根据基准点坐标初始化所述基准点定位网络的的权重参数和偏置量，其中权重参数均为0，基准点对应的偏置量为1，其他的偏置量均为0；(1.2.3)对训练图像Itr，令图像Itr′为Itr经过变换后的图像，且变换后图像的宽度和高度分别为Wf和Hf，均为固定的值，定义变换后的图像的基准点坐标矩阵为Ctr′＝[ctr′1,...,ctr′K]，其中K为基准点的个数，变换后的图像中的基准点与原训练图像中的基准点是一一对应的，且变换后的图像的基准点等间距的分布在图像Itr′的上下两条边上，其中第ktr个基准点ctr′ktr＝[xctr′ktr,yctr′ktr]T，ctr′k对应原始训练图像Itr中的第ktr个基准点ctrktr，xctr′ktr和yctr′ktr分别表示该基准点在图像Itr′上归一化后的横纵坐标，xctr′ktr∈[-1,1]，yctr′ktr∈[-1,1]；(1.2.4)计算薄板样条函数转换矩阵Tps，记为：其中Os为1×K的矩阵，且Os中所有元素的值均为1，Ctr′为变换后的图像的基准点坐标矩阵，Zs为3×3的矩阵，且Zs中所有元素的值均为0，R为K×K的矩阵，且其第row行、第col列的元素值rrow，col为训练图像Itr的第row个基准点Ctrrow和变换后的图像Itr′的第col个基准点Ctr′col之间的欧式距离，上标T表示矩阵转置，K为基准点的个数，则利用训练图像的基准点坐标矩阵Ctr和薄板样条函数转换矩阵Tps计算转换参数矩阵A＝[a1,a2,a3]T，B＝[b1,b2,b3]T，F＝[f1,...,fK]T，G＝[g1,...,gK]T，其中矩阵A、B、F、G中的元素为转换参数，转换参数矩阵计算方程为：CtrT＝TpsPa解该方程即可得到转换参数矩阵Pa，对变换后的图像Itr′上的一个点ptr′＝[xptr′,yptr′]T，计算其对应于原始训练图像Itr的点ptr＝[xptr,yptr]T，其中xptr′和yptr′分别表示点ptr′的在Itr′的横纵坐标，xptr和yptr分别表示点ptr在Itr的横纵坐标，计算公式为：ptr＝PaTptr″，ptr″＝[1,xptr′,yptr′,rtr′1,...,rtr′K]T，其中dtrktr表示点ptr′与Itr′的第ktr个基准点ctr′ktr之间的欧式距离，对图像Itr′中的每个点都执行上述运算，就可以得到Itr′上每个点与图像Itr中点的对应关系；(1.2.5)对图像Itr′中的每个点ptr′，通过步骤(1.2.4)可以计算出其在原始图像Itr中对应的点ptr，利用双线性插值的方法通过点ptr周围的像素点的值计算出点ptr′的像素值，这样就可以得到原始训练图相Itr经过变换后的图像Itr′；(1.2.6)以步骤(1.2.5)中得到的经过变换的图像作为输入，经过由卷积层构成的图像预处理网络，经过图像预处理网络可以得到D个Wf×Hf的特征图，其中D为常数，Wf和Hf分别表示预设的变换后图像的宽度和高度；对特征图的每一列，将其每个像素在D个特征图上对应的值拼接起来，可以组成一个D×Hf的特征向量，一共可以得到Wf个D×Hf的特征向量；然后以双向长短程记忆网络作为图像编码器网络，这些特征向量通过图像编码器网络进行计算得到训练图像的特征序列PItr＝{Xtr1,...,XtrWf}，其中Xtrwtr表示图像Itr′第wtr列的特征向量；(1.2.7)以门限递归单元网络构建特征解码器网络，特征解码由Td个过程构成，其中Td表示特征解码器网络循环次数，特征解码的第td步具体为：首先计算权重向量αtd，计算方法如下：etd,wtr＝vaTtanh(Wastd-1+UaXtrwtr)其中，αtd,wtr表示权重向量αtd的第wtr维的值，Wf表示预设的变换后图像的宽度，va、Wa、Ua为训练得到的参数矩阵，std-1表示解码过程第td-1步的输出，Xtrwtr表示步骤(1.2.6)中得到的图像Itr′第wtr列的特征向量，αtd是一个Wf维的向量；然后计算步骤(1.2.6)中得到的图像特征序列的上下文关系特征向量，记为：其中αtd,wtr表示权重向量αtd的第wtr维的值，Xtrwtr表示步骤(1.2.6)中得到的图像表示序列PItr＝{Xtr1,...,XtrWf}中的第wtr个向量；然后以得到的上下文关系特征向量otd、特征解码过程第td-1步的输出std-1以及预测的字符l′td-1为输入，经过该特征解码过程，可以得到输出std，然后将std输入到软最大分类器进行分类，即可得到预测的概率分布ytd；(1.2.8)将步骤(1.2.2)至(1.2.7)中所述的基准点定位网络、图像预处理网络、图像编码器网络以及特征解码器网络级联在一起，即为文本识别的网络，记为级联网络，利用反向传导的方法对该级联网络进行训练，可以得到步骤(1.2.2)中的基准点定位网络模型θloc、步骤(1.2.6)中的图像预处理网络模型θconv和图像编码器网络模型θblstm以及步骤(1.2.7)中的特征解码器网络模型θrnn和软最大分类器的模型W，组合在一起即为级联网络的模型，组合在一起即为级联网络的参数，记为θ，该级联网络代价函数为：其中χ为训练数据集，Itri和Ltri分别表示第i个训练图像及其标注的文本内容，Ttri表示文本内容Ltri中字符的个数，ltri,t表示Ltri中的第t个字符，p(ltri,t|Itri,θ)由级联网络最后输出；(2)利用基准点定位网络对待识别图像做空间变换：(2.1)利用基准点定位网络模型计算待识别图像的基准点位置；具体地，对待识别图像集中的每一张图像Itst，利用步骤(1.2.2)中训练好的基准点定位网络模型θloc，将图像Itst输入到基准点定位网络即可得到基准点的坐标矩阵Ctst＝[ctst1,...,ctstK]，其中ctstktst＝[xtstktst,ytstktst]T表示图像Itst的第ktst个基准点，K为基准点个数，xtstktst和ytstktst分别表示第ktst个基准点的横纵坐标，且xtstktst∈(-1,1)，ytstktst∈(-1,1)，上标T表示矩阵转置；(2.2)根据所述待识别图像的基准点位置，利用薄板样条函数转换矩阵获取原待识别图像和变换后待识别图像的坐标对应关系；具体地，对步骤(2.1)中得到的待识别图像的基准点坐标矩阵Ctst，利用步骤(1.2.3)和步骤(1.2.4)的方法计算原待识别图像Itst和变换后待识别图像Itst′之间坐标的对应关系，其中图像Itst′的宽度和高度分别为既定的值Wf和Hf；(2.3)根据上述原待识别图像和变换后待识别图像的坐标对应关系获取变换后的待识别图像；具体地，根据步骤(2.2)中得到的原待识别图像Itst和变换后待识别图像Itst′之间坐标的对应关系，利用步骤(1.2.5)中所述的方法计算Itst′中各个点的像素值，得到变换后的待识别图像Itst′；(3)对变换后的待识别图像进行识别：(3.1)利用图像编码器网络模型获取变换后的待识别图像的特征向量；具体地，对步骤(2.3)中获取的变换后的待识别图像Itst′，利用步骤(1.2.6)中所述的方法以及训练得到的图像预处理网络模型θconv和图像编码器网络模型θblstm，得到图像Itst′的编码，即为图像Itst′的特征向量，记为PItst＝{Xtst1,...,XtstWf}；(3.2)根据上述待识别图像的特征向量，利用特征解码器网络模型，获取待识别图像的预测概率序列；具体地，对步骤(3.1)中获取的图像Itst′的特征向量序列PItst＝{Xtst1,...,XtstWf}，利用步骤(1.2.7)中所述的方法以及训练好的特征解码器网络模型θrnn和软最大分类器的模型W，获取图像的预测概率分布序列，记为Y＝{y1,...,yTd}，其中Td为步骤(1.2.7)中所述的特征解码的步数；(3.3)利用上述得到的预测概率序列获取待识别图像最终的识别结果；具体地，对于没有词典情况，首先由步骤(1.2.7)所述的特征解码器网络的初始状态预测出第一步的概率分布，取最大概率的字符作为第一个字符，并把第一个字符以及第一步特征解码器网络的状态作为第二步的输入，并计算第二个字符的概率分布，同样的取概率最大的字符作为输出，并与第二步的状态一道作为下一步的输入，依次类推直到输出的概率分布中终止符的概率最大为止或者步长到了预设的最大值，则预测结束，此时输出的字符串即为预测的字符串；对于有词典的情况，对于词典中的每个单词，首先由步骤(1.2.7)所述的特征解码器网络的初始状态得到第一步的概率分布，并得到单词中第一个字符的概率，然后把单词中第一个字符以及第一步的状态作为第二步的输入，并得到第二步的字符概率分布，并得到单词中第二个字符的概率，依次进行下去，把整个单词中各个字符的概率相乘就可以得到这个单词对应的概率，算出字典中所有单词的概率，取概率最大的单词作为最终的输出。通过本发明所构思的以上技术方案，与现有技术相比，本发明具有以下技术效果：1、自然场景下获取的文本经常出现排列不规律的现象，现有的识别方法很难适应文本排列的影响，导致识别准确率非常低；本发明方法通过自动地进行文本空间变换，能够在一些不规则的文字上去的更好的识别准确率，包括非水平方向的文字、非正面拍摄的文字以及弯曲排列的文字；2、现有的对自然场景下的不规则排列的文本进行变换的算法，一般都需要人工标注文本图片中的基准点，因而需要大量的人工标注工作；本发明方法中网络模型的参数完全从数据中学习得到，在训练和测试时都不需要人工标注变换。附图说明图1是本发明基于空间变换的自然场景下文本识别方法流程图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。以下首先就本发明的技术术语进行解释和说明：卷积神经网络(ConcolutionalNeuralNetwork，CNN)：一种可用于图像分类、回归等任务的神经网络。网络通常由卷积层、降采样层和全连接层构成。卷积层和降采样层负责提取图像的特征，全连接层负责分类或回归。网络的参数包括卷积核以及全连接层的参数及偏置，参数可以通过反向传导算法，从数据中学习得到；薄板样条曲线(ThinPlateSpline，TPS)：一种非线性空间变换算法。给定图像和图像上的准点(fiducialpoints)，该算法可以对图像进行非线性的扭曲变换；递归神经网络(RecurrentNeuralNetwork，RNN)：一种通常用于序列分析的网络。网络可以接收一个序列作为输入，通过记忆机制，分析序列的前后关系，并最终输出一个序列或者一个特征向量；长短期记忆(Long-ShortTermMemory，LSTM)：递归神经网络的一种。该网络包含三个门(gates)结构：输入门、输出门和遗忘门；它们分别起到调整输入、调整输出和清除记忆的作用；由于门机制的作用，该网络可以捕捉序列中的长期(long-term)相关关系，并且可以避免训练递归神经网络中常出现的梯度爆炸(gradientexplosion)和梯度消失(gradientvanishing)的现象；双向长短期记忆(BidirectionalLong-ShortTermMemory，BLSTM)：由两个方向相反的LSTM结合而成。可以同时分析两个方向上的上下文关系；门递归神经网络的一种(GatedRecurrentUnit，GRU)：类似LSTM，但只包括更新门和重置门两种门结构。结构上更为简单。本发明基于空间变换的自然场景下文本识别方法包括以下步骤：(1)训练得到文本识别的参数，所述参数包括基准点定位网络模型、图像预处理网络模型、图像编码器网络模型以及特征解码器网络模型：(1.1)标记训练图像集中所有文本图像的文本内容，得到训练数据集；具体地，对给定的文本图像，用人工标注的方法获取文本图像中文本的内容；对训练图像集中的所有文本图像都进行标注，就可以得到训练数据集，记为其中Itri表示训练图像集中的第i张图像，Ltri表示图像Itri中的文本内容，ltri,t表示Ltri中的第t个字符，Ttri表示Ltri中字符个数，Ntr为训练图像个数；(1.2)定义用于对待识别图像进行识别的级联网络，所述级联网络由基准点定位网络、图像预处理网络、图像编码器网络以及特征解码器网络构成，根据上述训练数据集，利用反向传导方法训练该级联网络，得到基准点定位网络模型、图像编码器网络模型以及特征解码器网络模型；(1.2.1)对训练图像Itr，在图像上取两条平行的线段，线段的端点都在图像的左右边界上，在这两条线段上分别等间距的取K/2个点作为基准点，其中K为设置的基准点个数，这样就可以得到K个初始化的基准点，将这些基准点的坐标保存在基准点坐标矩阵Ctr中，记为Ctr＝[ctr1,...,ctrK]，其中坐标系的原点为图像的中点，ctrk表示第k个基准点，且ctrk＝[xctrk,yctrk]T，xctrk和yctrk分别表示该基准点在训练图像Itri上归一化后的横纵坐标，xctrk∈[-1,1]，yctrk∈[-1,1]，上标T表示矩阵转置；(1.2.2)以卷积神经网络作为图像基准点定位网络，该卷积神经网络包含四个卷积层、四个最大池化层、两个全连接层以及一个双曲正切输出层；根据基准点坐标初始化所述基准点定位网络的的权重参数和偏置量，其中权重参数均为0，基准点对应的偏置量为1，其他的偏置量均为0；(1.2.3)对训练图像Itr，令图像Itr′为Itr经过变换后的图像，且变换后图像的宽度和高度分别为Wf和Hf，均为固定的值，定义变换后的图像的基准点坐标矩阵为Ctr′＝[ctr′1,...,ctr′K]，其中K为基准点的个数，变换后的图像中的基准点与原训练图像中的基准点是一一对应的，且变换后的图像的基准点等间距的分布在图像Itr′的上下两条边上，其中第ktr个基准点ctr′ktr＝[xctr′ktr,yctr′ktr]T，ctr′k对应原始训练图像Itr中的第ktr个基准点ctrktr，xctr′ktr和yctr′ktr分别表示该基准点在图像Itr′上归一化后的横纵坐标，xctr′ktr∈[-1,1]，yctr′ktr∈[-1,1]；(1.2.4)计算薄板样条函数转换矩阵Tps，记为：其中Os为1×K的矩阵，且Os中所有元素的值均为1，Ctr′为变换后的图像的基准点坐标矩阵，Zs为3×3的矩阵，且Zs中所有元素的值均为0，R为K×K的矩阵，且其第row行、第col列的元素值rrow,col为训练图像Itr的第row个基准点Ctrrow和变换后的图像Itr′的第col个基准点Ctr′col之间的欧式距离，上标T表示矩阵转置，K为基准点的个数，则利用训练图像的基准点坐标矩阵Ctr和薄板样条函数转换矩阵Tps计算转换参数矩阵A＝[a1,a2,a3]T，B＝[b1,b2,b3]T，F＝[f1,...,fK]T，G＝[g1,...,gK]T，其中矩阵A、B、F、G中的元素为转换参数，转换参数矩阵计算方程为：CtrT＝TpsPa解该方程即可得到转换参数矩阵Pa，对变换后的图像Itr′上的一个点ptr′＝[xptr′,yptr′]T，计算其对应于原始训练图像Itr的点ptr＝[xptr,yptr]T，其中xptr′和yptr′分别表示点ptr′的在Itr′的横纵坐标，xptr和yptr分别表示点ptr在Itr的横纵坐标，计算公式为：ptr＝PaTptr″，ptr″＝[1,xptr′,yptr′,rtr′1,...,rtr′K]T，其中dtrktr表示点ptr′与Itr′的第ktr个基准点ctr′ktr之间的欧式距离，对图像Itr′中的每个点都执行上述运算，就可以得到Itr′上每个点与图像Itr中点的对应关系；(1.2.5)对图像Itr′中的每个点ptr′，通过步骤(1.2.4)可以计算出其在原始图像Itr中对应的点ptr，利用双线性插值的方法通过点ptr周围的像素点的值计算出点ptr′的像素值，这样就可以得到原始训练图相Itr经过变换后的图像Itr′；(1.2.6)以步骤(1.2.5)中得到的经过变换的图像作为输入，经过由卷积层构成的图像预处理网络，经过图像预处理网络可以得到D个Wf×Hf的特征图，其中D为常数，Wf和Hf分别表示预设的变换后图像的宽度和高度；对特征图的每一列，将其每个像素在D个特征图上对应的值拼接起来，可以组成一个D×Hf的特征向量，一共可以得到Wf个D×Hf的特征向量；然后以双向长短程记忆网络作为图像编码器网络，这些特征向量通过图像编码器网络进行计算得到训练图像的特征序列PItr＝{Xtr1,...,XtrWf}，其中Xtrwtr表示图像Itr′第wtr列的特征向量；(1.2.7)以门限递归单元网络特征解码器网络，特征解码由Td个过程构成，其中Td表示特征解码器网络循环次数，特征解码的第td步具体为：首先计算权重向量αtd，计算方法如下：etd,wtr＝vaTtanh(Wastd-1+UaXtrwtr)其中，αtd,wtr表示权重向量αtd的第wtr维的值，Wf表示预设的变换后图像的宽度，va、Wa、Ua为训练得到的参数矩阵，std-1表示特征解码过程第td-1步的输出，Xtrwtr表示步骤(1.2.6)中得到的图像Itr′第wtr列的特征向量，αtd是一个Wf维的向量；然后计算步骤(1.2.6)中得到的图像特征序列的上下文关系特征向量，记为：其中αtd,wtr表示权重向量αtd的第wtr维的值，Xtrwtr表示步骤(1.2.6)中得到的图像表示序列PItr＝{Xtr1,...,XtrWf}中的第wtr个向量；然后以得到的上下文关系特征向量otd、特征解码过程第td-1步的输出std-1以及预测的字符l′td-1为输入，经过该特征解码过程，可以得到输出std，然后将std输入到软最大分类器进行分类，即可得到预测的概率分布ytd；(1.2.8)将步骤(1.2.2)至(1.2.7)中所述的基准点定位网络、图像预处理网络、图像编码器网络以及特征解码器网络级联在一起，即为文本识别的网络，记为级联网络，利用反向传导的方法对该级联网络进行训练，可以得到步骤(1.2.2)中的基准点定位网络模型θloc、步骤(1.2.6)中的图像预处理网络模型θconv和图像编码器网络模型θblstm以及步骤(1.2.7)中的特征解码器网络模型θrnn和软最大分类器的模型W，组合在一起即为级联网络的模型，记为θ，该级联网络代价函数为：其中χ为训练数据集，Itri和Ltri分别表示第i个训练图像及其标注的文本内容，Ttri表示文本内容Ltri中字符的个数，ltri,t表示Ltri中的第t个字符，p(ltri,t|Itri,θ)由级联网络最后输出；(2)利用基准点定位网络对待识别图像做空间变换：(2.1)利用基准点定位网络模型计算待识别图像的基准点位置；具体地，对待识别图像集中的每一张图像Itst，利用步骤(1.2.2)中训练好的基准点定位网络模型θloc，将图像Itst输入到基准点定位网络即可得到基准点的坐标矩阵Ctst＝[ctst1,...,ctstK]，其中ctstktst＝[xtstktst,ytstktst]T表示图像Itst的第ktst个基准点，K为基准点个数，xtstktst和ytstktst分别表示第ktst个基准点的横纵坐标，且xtstktst∈(-1,1)，ytstktst∈(-1,1)，上标T表示矩阵转置；(2.2)获取原待识别图像和变换后待识别图像的坐标对应关系；具体地，对步骤(2.1)中得到的待识别图像的基准点坐标矩阵Ctst，利用步骤(1.2.3)和步骤(1.2.4)的方法计算原待识别图像Itst和变换后待识别图像Itst′之间坐标的对应关系，其中图像Itst′的宽度和高度分别为既定的值Wf和Hf；(2.3)根据上述原待识别图像和变换后待识别图像的坐标对应关系获取变换后的待识别图像；具体地，根据步骤(2.2)中得到的原待识别图像Itst和变换后待识别图像Itst′之间坐标的对应关系，利用步骤(1.2.5)中所述的方法计算Itst′中各个点的像素值，得到变换后的待识别图像Itst′；(3)对变换后的待识别图像进行识别：(3.1)利用图像编码器网络模型获取变换后的待识别图像的特征向量；具体地，对步骤(2.3)中获取的变换后的待识别图像Itst′，利用步骤(1.2.6)中所述的方法以及训练得到的图像预处理网络模型θconv和图像编码器网络模型θblstm，得到图像Itst′的编码，即为图像Itst′的特征向量，记为PItst＝{Xtst1,...,XtstWf}；(3.2)根据上述待识别图像的特征向量，利用特征解码器网络模型，获取待识别图像的预测概率序列；具体地，对步骤(3.1)中获取的图像Itst′的特征向量序列PItst＝{Xtst1,...,XtstWf}，利用步骤(1.2.7)中所述的方法以及训练好的特征解码器网络模型θrnn和软最大分类器的模型W，获取图像的预测概率分布序列，记为Y＝{y1,...,yTd}，其中Td为步骤(1.2.7)中所述的解码器的步数；(3.3)利用上述得到的预测概率序列获取待识别图像最终的识别结果；具体地，对于没有词典情况，首先由步骤(1.2.7)所述的特征解码器网络的初始状态预测出第一步的概率分布，取最大概率的字符作为第一个字符，并把第一个字符以及第一步特征解码器网络的状态作为第二步的输入，并计算第二个字符的概率分布，同样的取概率最大的字符作为输出，并与第二步的状态一道作为下一步的输入，依次类推直到输出的概率分布中终止符的概率最大为止或者步长到了预设的最大值，则预测结束，此时输出的字符串即为预测的字符串；对于有词典的情况，对于词典中的每个单词，首先由步骤(1.2.7)所述的特征解码器网络的初始状态得到第一步的概率分布，并得到单词中第一个字符的概率，然后把单词中第一个字符以及第一步的状态作为第二步的输入，并得到第二步的字符概率分布，并得到单词中第二个字符的概率，依次进行下去，把整个单词中各个字符的概率相乘就可以得到这个单词对应的概率，算出字典中所有单词的概率，取概率最大的单词作为最终的输出。本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：白翔;石葆光;张新浩;
技术所有人：华中科技大学;
我是此专利的发明人

上一篇：可放零钱的帽子的制作方法与工艺
上一篇：一种三维场景中模型合并的方法及装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。