1.一种基于统计的机器翻译方法,其特征在于,包括:
根据预先生成的翻译规则,对待翻译句子进行解码,生成所述待翻译句子的候选译文;
根据各个候选译文的对翻译概率产生影响的特征,以及预先生成的翻译概率预测模型,生成所述待翻译句子到各个候选译文的翻译概率;所述对翻译概率产生影响的特征至少包括所述待翻译句子和所述候选译文的语义相似度;
选取预设数量的所述翻译概率排在高位的候选译文,作为所述待翻译句子的译文。
2.根据权利要求1所述的基于统计的机器翻译方法,其特征在于,所述待翻译句子和候选译文的语义相似度,采用如下步骤计算:
获取所述待翻译句子的句子向量,以及所述候选译文的句子向量;
计算所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离,作为所述待翻译句子和候选译文的语义相似度;
其中,所述待翻译句子的句子向量和所述候选译文的句子向量包括句子的语义信息。
3.根据权利要求2所述的基于统计的机器翻译方法,其特征在于,所述待翻译句子的句子向量和所述候选译文的句子向量,采用如下步骤生成:
根据预先生成的词与词向量的对应关系、与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,构建与所述待翻译句子和候选译文包括的N元短语分别对应的神经网络语言模型样本;
以最大化所述与待翻译句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,以及所述与候选译文包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,同时最小化所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离作为训练目标,学习获取所述待翻译句子的句子向量和所述候选译文的句子向量;
其中,所述源语言是指所述待翻译句子所属的语言;所述目标语言是指所述候选译文所属的语言;所述神经网络语言模型的输入层包括与所述N元短语所在的句子对应的句子向量。
4.根据权利要求3所述的基于统计的机器翻译方法,其特征在于,所述根 据预先生成的词与词向量的对应关系、与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,构建与所述待翻译句子和候选译文包括的N元短语分别对应的神经网络语言模型样本,包括:
解析所述待翻译句子和所述候选译文,获取所述待翻译句子和所述候选译文包括的词;
根据所述词与词向量的对应关系,获取所述待翻译句子和所述候选译文包括的词对应的词向量;
随机设置所述待翻译句子的句子向量和所述候选译文的句子向量;
针对所述待翻译句子包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述待翻译句子的句子向量,以及所述与源语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本;
针对所述候选译文包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述候选译文的句子向量,以及所述与目标语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本。
5.根据权利要求3所述的基于统计的机器翻译方法,其特征在于,所述以最大化所述与待翻译句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,以及所述与候选译文包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,同时最小化所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离作为训练目标,学习获取所述待翻译句子的句子向量和所述候选译文的句子向量,包括:
根据已构建的各个神经网络语言模型样本,计算第一目标函数的值;
判断所述第一目标函数的值是否大于上一次所述第一目标函数的值;若是,则采用最优化算法,更新所述待翻译句子的句子向量和所述候选译文的句子向量,并返回执行所述根据已构建的各个神经网络语言模型样本,计算第一目标函数的值的步骤;
其中,所述第一目标函数,是指第一平均值与第二平均值之和,与所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离的差值;所述第一平均值,是指所述与待翻译句子包括的各个N元短语对应的神经网络语言模型样本的似然概率的平均值;所述第二平均值,是指所述与候选译文包括的各个N元短语对应的神经网络语言模型样本的似然概率的平均值。
6.根据权利要求5所述的基于统计的机器翻译方法,其特征在于,所述最优化算法采用随机梯度算法;所述采用最优化算法,更新所述待翻译句子的句子向量和所述候选译文的句子向量,包括:
根据预设的学习速率和所述第一目标函数,计算所述待翻译句子的句子向量和所述候选译文的句子向量的梯度;
根据所述待翻译句子的句子向量和所述候选译文的句子向量的梯度,更新所述待翻译句子的句子向量和所述候选译文的句子向量。
7.根据权利要求2所述的基于统计的机器翻译方法,其特征在于,所述向量之间的距离包括余弦夹角距离或欧式距离。
8.根据权利要求3所述的基于统计的机器翻译方法,其特征在于,所述神经网络语言模型包括前向神经网络算法语言模型或循环神经网络语言模型。
9.根据权利要求3所述的基于统计的机器翻译方法,其特征在于,所述神经网络语言模型的输入层到隐藏层的各个连接权重均相同;所述神经网络语言模型的输入层到输出层的各个连接权重为0。
10.根据权利要求3所述的基于统计的机器翻译方法,其特征在于,所述神经网络语言模型的隐藏层的激励函数为线性函数。
11.根据权利要求3所述的基于统计的机器翻译方法,其特征在于,所述神经网络语言模型的隐藏层的向量值为输入层的各个向量值的加和平均值或组合拼接。
12.根据权利要求3所述的基于统计的机器翻译方法,其特征在于,所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,采用如下步骤生成:
获取平行语料库;
解析所述平行语料库包括的各个句子,获取所述平行语料库包括的所有词;
为所述平行语料库包括的各个词设置第一预设维度的词向量,形成所述词和词向量的对应关系;以及为所述各个句子随机设置第二预设维度的句子向量;
针对所述平行语料库中的各对平行语料,根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型,构建与源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模 型样本;
以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标,学习获取所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型。
13.根据权利要求12所述的基于统计的机器翻译方法,其特征在于,所述根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型,构建与源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本,包括:
解析所述源语言句子和所述目标语言句子,获取所述源语言句子和所述目标语言句子包括的词;
根据所述词与词向量的对应关系,获取所述源语言句子和所述目标语言句子包括的词对应的词向量;
针对所述源语言句子包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述源语言句子的句子向量,以及所述与源语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本;
针对所述目标语言句子包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述目标语言句子的句子向量,以及所述与目标语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本。
14.根据权利要求12所述的基于统计的机器翻译方法,其特征在于,所述以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标,学习获取所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,包括:
根据已构建的各个神经网络语言模型样本,计算第二目标函数的值;
判断所述第二目标函数的值是否大于上一次所述第二目标函数的值;若是,则采用最优化算法,更新所述词向量、所述源语言句子的句子向量和所述目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,并返回执行所述根据已构建的各个神经网络语言模型样本,计算第二目标函数的值的步骤;
其中,所述第二目标函数,是指第三平均值与第四平均值之和,与所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和的差值;所述第三平均值,是指所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率的平均值;所述第四平均值,是指所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率的平均值。
15.根据权利要求14所述的基于统计的机器翻译方法,其特征在于,所述最优化算法采用随机梯度算法;所述采用最优化算法,更新所述词向量、所述源语言句子的句子向量和所述目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,包括:
根据预设的学习速率和所述第二目标函数,计算所述词向量、所述源语言句子的句子向量和所述目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型的连接权重的梯度;
根据所述词向量、所述源语言句子的句子向量和所述目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型的连接权重的梯度,更新所述词向量、所述源语言句子的句子向量和所述目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型。
16.根据权利要求1-15任意一项所述的基于统计的机器翻译方法,其特征在于,所述对翻译概率产生影响的特征还包括:所述待翻译句子到所述候选译文的短语翻译概率、所述候选译文到所述待翻译句子的短语翻译概率、所述待翻译句子到所述候选译文的词翻译概率、所述候选译文到所述待翻译句子的词翻译概率、所述候选译文的句子概率和所述待翻译句子与所述候选译文调序与不调序的分类概率的至少一者。
17.根据权利要求1-15任意一项所述的基于统计的机器翻译方法,其特征在于,所述根据预先生成的翻译规则,对待翻译句子进行解码,生成所述待翻译句子的候选译文,采用如下方式算法实现:CYK解码算法、基于栈的解码算法或移进-归约解码算法。
18.根据权利要求1所述的基于统计的机器翻译方法,其特征在于,所述根据预先生成的翻译规则,对待翻译句子进行解码,生成所述待翻译句子的候选译文,包括:
解析所述待翻译句子,生成所述待翻译句子的各个子字符串;
根据所述预先生成的翻译规则,获取各个所述子字符串的候选译文;
根据所述子字符串在所述待翻译句子中的位置,将相邻子字符串的候选译文进行组合拼接,形成所述待翻译句子的候选译文。
19.根据权利要求18所述的基于统计的机器翻译方法,其特征在于,所述根据所述预先生成的翻译规则,获取各个所述子字符串的候选译文,包括:
针对各个所述翻译规则,判断所述子字符串是否属于所述翻译规则;
若上述判断结果为是,则根据所述翻译规则,生成所述子字符串的候选译文。
20.根据权利要求1所述的基于统计的机器翻译方法,其特征在于,通过线性回归算法,从预先存储的平行预料中学习出所述翻译概率预测模型。
21.一种基于统计的机器翻译装置,其特征在于,包括:
生成候选译文单元,用于根据预先生成的翻译规则,对待翻译句子进行解码,生成所述待翻译句子的候选译文;
计算翻译概率单元,用于根据各个候选译文的对翻译概率产生影响的特征,以及预先生成的翻译概率预测模型,生成所述待翻译句子到各个候选译文的翻译概率;所述对翻译概率产生影响的特征至少包括所述待翻译句子和所述候选译文的语义相似度;
选取单元,用于选取预设数量的所述翻译概率排在高位的候选译文,作为所述待翻译句子的译文。
22.根据权利要求21所述的基于统计的机器翻译装置,其特征在于,还包括:
计算语义相似度单元,用于计算所述待翻译句子和候选译文的语义相似度。
23.根据权利要求22所述的基于统计的机器翻译装置,其特征在于,所述计算语义相似度单元包括:
获取子单元,用于获取所述待翻译句子的句子向量,以及所述候选译文的句子向量;
计算子单元,用于计算所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离,作为所述待翻译句子和候选译文的语义相似度;
其中,所述待翻译句子的句子向量和所述候选译文的句子向量包括句子的语义信息。
24.根据权利要求23所述的基于统计的机器翻译装置,其特征在于,还包括:
生成句子向量单元,用于生成所述待翻译句子的句子向量,以及所述候选译文的句子向量。
25.根据权利要求24所述的基于统计的机器翻译装置,其特征在于,所述生成句子向量单元包括:
构建样本子单元,用于根据预先生成的词与词向量的对应关系、与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,构建与所述待翻译句子和候选译文包括的N元短语分别对应的神经网络语言模型样本;
学习子单元,用于以最大化所述与待翻译句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,以及所述与候选译文包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,同时最小化所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离作为训练目标,学习获取所述待翻译句子的句子向量和所述候选译文的句子向量;
其中,所述源语言是指所述待翻译句子所属的语言;所述目标语言是指所述候选译文所属的语言;所述神经网络语言模型的输入层包括与所述N元短语所在的句子对应的句子向量。
26.根据权利要求25所述的基于统计的机器翻译装置,其特征在于,所述构建样本子单元包括:
解析子单元,用于解析所述待翻译句子和所述候选译文,获取所述待翻译句子和所述候选译文包括的词;
映射子单元,用于根据所述词与词向量的对应关系,获取所述待翻译句子和所述候选译文包括的词对应的词向量;
设置子单元,用于随机设置所述待翻译句子的句子向量和所述候选译文的句子向量;
第一构建子单元,用于针对所述待翻译句子包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述待翻译句子的句子向量,以及所述与源语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本;
第二构建子单元,用于针对所述候选译文包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述候选译文的句子向量,以及所述与目标语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本。
27.根据权利要求25所述的基于统计的机器翻译装置,其特征在于,所述学习子单元包括:
计算子单元,用于根据已构建的各个神经网络语言模型样本,计算第一目标函数的值;
判断子单元,用于判断所述第一目标函数的值是否大于上一次所述第一目标函数的值;若是,则采用最优化算法,更新所述待翻译句子的句子向量和所述候选译文的句子向量,并返回执行所述根据已构建的各个神经网络语言模型样本,计算第一目标函数的值的步骤;
其中,所述第一目标函数,是指第一平均值与第二平均值之和,与所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离的差值;所述第一平均值,是指所述与待翻译句子包括的各个N元短语对应的神经网络语言模型样本的似然概率的平均值;所述第二平均值,是指所述与候选译文包括的各个N元短语对应的神经网络语言模型样本的似然概率的平均值。
28.根据权利要求25所述的基于统计的机器翻译装置,其特征在于,还包括:
训练单元,用于生成所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型。
29.根据权利要求28所述的基于统计的机器翻译装置,其特征在于,所述 训练单元包括:
获取子单元,用于获取平行语料库;
解析子单元,用于解析所述平行语料库包括的各个句子,获取所述平行语料库包括的所有词;
设置子单元,用于为所述平行语料库包括的各个词设置第一预设维度的词向量,形成所述词和词向量的对应关系;以及为所述各个句子随机设置第二预设维度的句子向量;
构建子单元,用于针对所述平行语料库中的各对平行语料,根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型,构建与源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本;
学习子单元,用于以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标,学习获取所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型。
30.根据权利要求29所述的基于统计的机器翻译装置,其特征在于,所述构建子单元包括:
解析子单元,用于解析所述源语言句子和所述目标语言句子,获取所述源语言句子和所述目标语言句子包括的词;
映射子单元,用于根据所述词与词向量的对应关系,获取所述源语言句子和所述目标语言句子包括的词对应的词向量;
第一构建子单元,用于针对所述源语言句子包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述源语言句子的句子向量,以及所述与源语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本;
第二构建子单元,用于针对所述目标语言句子包括的各个N元短语,根据 所述N元短语包括的词对应的词向量和所述目标语言句子的句子向量,以及所述与目标语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本。
31.根据权利要求29所述的基于统计的机器翻译装置,其特征在于,所述学习子单元包括:
计算子单元,用于根据已构建的各个神经网络语言模型样本,计算第二目标函数的值;
判断子单元,用于判断所述第二目标函数的值是否大于上一次所述第二目标函数的值;若是,则采用最优化算法,更新所述词向量、所述源语言句子的句子向量和所述目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,并返回执行所述根据已构建的各个神经网络语言模型样本,计算第二目标函数的值的步骤;
其中,所述第二目标函数,是指第三平均值与第四平均值之和,与所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和的差值;所述第三平均值,是指所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率的平均值;所述第四平均值,是指所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率的平均值。
32.根据权利要求21-31任意一项所述的基于统计的机器翻译装置,其特征在于,所述生成候选译文单元包括:
解析子单元,用于解析所述待翻译句子,生成所述待翻译句子的各个子字符串;
获取子单元,用于根据所述预先生成的翻译规则,获取各个所述子字符串的候选译文;
拼接子单元,用于根据所述子字符串在所述待翻译句子中的位置,将相邻子字符串的候选译文进行组合拼接,形成所述待翻译句子的候选译文。
33.根据权利要求32所述的基于统计的机器翻译装置,其特征在于,所述获取子单元包括:
判断子单元,用于针对各个所述翻译规则,判断所述子字符串是否属于所述翻译规则;
生成子单元,用于若上述判断结果为是,则根据所述翻译规则,生成所述子字符串的候选译文。
34.一种电子设备,其特征在于,包括:
显示器;
处理器;以及
存储器,所述存储器用于存储基于统计的机器翻译装置,所述基于统计的机器翻译装置被所述处理器执行时,包括如下步骤:根据预先生成的翻译规则,对待翻译句子进行解码,生成所述待翻译句子的候选译文;根据各个候选译文的对翻译概率产生影响的特征,以及预先生成的翻译概率预测模型,生成所述待翻译句子到各个候选译文的翻译概率;所述对翻译概率产生影响的特征至少包括所述待翻译句子和所述候选译文的语义相似度;选取预设数量的所述翻译概率排在高位的候选译文,作为所述待翻译句子的译文。
35.一种语义相似度的计算方法,其特征在于,包括:
获取待计算的源语言句子的句子向量,以及待计算的目标语言句子的句子向量;
计算所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量之间的距离,作为所述待计算的源语言句子和待计算的目标语言句子的语义相似度;
其中,所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量包括句子的语义信息。
36.根据权利要求35所述的语义相似度的计算方法,其特征在于,所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量,采用如下步骤生成:
根据预先生成的词与词向量的对应关系、与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,构建与所述待计算的源语言句子和待计算的目标语言句子包括的N元短语分别对应的神经网络语言模型样本;
以最大化所述与待计算的源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,以及所述与待计算的目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,同时最小化所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量之间的距 离作为训练目标,学习获取所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量;
其中,所述神经网络语言模型的输入层包括与所述N元短语所在的句子对应的句子向量。
37.根据权利要求36所述的语义相似度的计算方法,其特征在于,所述根据预先生成的词与词向量的对应关系、与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,构建与所述待计算的源语言句子和待计算的目标语言句子包括的N元短语分别对应的神经网络语言模型样本,包括:
解析所述待计算的源语言句子和所述待计算的目标语言句子,获取所述待计算的源语言句子和所述待计算的目标语言句子包括的词;
根据所述词与词向量的对应关系,获取所述待计算的源语言句子和所述待计算的目标语言句子包括的词对应的词向量;
随机设置所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量;
针对所述待计算的源语言句子包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述待计算的源语言句子的句子向量,以及所述与源语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本;
针对所述待计算的目标语言句子包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述待计算的目标语言句子的句子向量,以及所述与目标语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本。
38.根据权利要求36所述的语义相似度的计算方法,其特征在于,所述以最大化所述与待计算的源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,以及所述与待计算的目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,同时最小化所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量之间的距离作为训练目标,学习获取所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量,包括:
根据已构建的各个神经网络语言模型样本,计算第一目标函数的值;
判断所述第一目标函数的值是否大于上一次所述第一目标函数的值;若是,则采用最优化算法,更新所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量,并返回执行所述根据已构建的各个神经网络语言模型样本,计算第一目标函数的值的步骤;
其中,所述第一目标函数,是指第一平均值与第二平均值之和,与所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量之间的距离的差值;所述第一平均值,是指所述与待计算的源语言句子包括的各个N元短语对应的神经网络语言模型样本的似然概率的平均值;所述第二平均值,是指所述与待计算的目标语言句子包括的各个N元短语对应的神经网络语言模型样本的似然概率的平均值。
39.根据权利要求38所述的语义相似度的计算方法,其特征在于,所述最优化算法采用随机梯度算法;所述采用最优化算法,更新所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量,包括:
根据预设的学习速率和所述第一目标函数,计算所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量的梯度;
根据所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量的梯度,更新所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量。
40.根据权利要求35所述的语义相似度的计算方法,其特征在于,所述向量之间的距离包括余弦夹角距离或欧式距离。
41.根据权利要求36所述的语义相似度的计算方法,其特征在于,所述神经网络语言模型包括前向神经网络算法语言模型或循环神经网络语言模型。
42.根据权利要求36所述的语义相似度的计算方法,其特征在于,所述神经网络语言模型的输入层到隐藏层的各个连接权重均相同;所述神经网络语言模型的输入层到输出层的各个连接权重为0。
43.根据权利要求36所述的语义相似度的计算方法,其特征在于,所述神经网络语言模型的隐藏层的激励函数为线性函数。
44.根据权利要求36所述的语义相似度的计算方法,其特征在于,所述神经网络语言模型的隐藏层的向量值为输入层的各个向量值的加和平均值或组合拼接。
45.根据权利要求36所述的语义相似度的计算方法,其特征在于,所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,采用如下步骤生成:
获取平行语料库;
解析所述平行语料库包括的各个句子,获取所述平行语料库包括的所有词;
为所述平行语料库包括的各个词设置第一预设维度的词向量,形成所述词和词向量的对应关系;以及为所述各个句子随机设置第二预设维度的句子向量;
针对所述平行语料库中的各对平行语料,根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型,构建与所述平行语料中源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本;
以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标,学习获取所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型。
46.根据权利要求45所述的语义相似度的计算方法,其特征在于,所述根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型,构建与所述平行语料中源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本,包括:
解析所述平行语料中源语言句子和目标语言句子,获取所述平行语料中源语言句子和目标语言句子包括的词;
根据所述词与词向量的对应关系,获取所述平行语料中源语言句子和目标语言句子包括的词对应的词向量;
针对所述平行语料中源语言句子包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述平行语料中源语言句子的句子向量,以及所述与源语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模 型样本;
针对所述平行语料中目标语言句子包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述平行语料中目标语言句子的句子向量,以及所述与目标语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本。
47.根据权利要求45所述的语义相似度的计算方法,其特征在于,所述以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标,学习获取所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,包括:
根据已构建的各个神经网络语言模型样本,计算第二目标函数的值;
判断所述第二目标函数的值是否大于上一次所述第二目标函数的值;若是,则采用最优化算法,更新所述词向量、所述平行语料中源语言句子的句子向量和目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,并返回执行所述根据已构建的各个神经网络语言模型样本,计算第二目标函数的值的步骤;
其中,所述第二目标函数,是指第三平均值与第四平均值之和,与所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和的差值;所述第三平均值,是指所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率的平均值;所述第四平均值,是指所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率的平均值。
48.根据权利要求47所述的语义相似度的计算方法,其特征在于,所述最优化算法采用随机梯度算法;所述采用最优化算法,更新所述词向量、所述平行语料中源语言句子的句子向量和目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,包括:
根据预设的学习速率和所述第二目标函数,计算所述词向量、所述平行语料中源语言句子的句子向量和目标语言的句子向量及所述与源语言对应的神经 网络语言模型和与目标语言对应的神经网络语言模型的连接权重的梯度;
根据所述词向量、所述平行语料中源语言句子的句子向量和目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型的连接权重的梯度,更新所述词向量、所述平行语料中源语言句子的句子向量和目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型。
49.一种语义相似度的计算装置,其特征在于,包括:
获取单元,用于获取待计算的源语言句子的句子向量,以及待计算的目标语言句子的句子向量;
计算子单元,用于计算所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量之间的距离,作为所述待计算的源语言句子和待计算的目标语言句子的语义相似度;
其中,所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量包括句子的语义信息。
50.根据权利要求49所述的语义相似度的计算装置,其特征在于,还包括:
生成句子向量单元,用于生成所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量。
51.根据权利要求50所述的语义相似度的计算装置,其特征在于,所述生成句子向量单元包括:
构建样本子单元,用于根据预先生成的词与词向量的对应关系、与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,构建与所述待计算的源语言句子和待计算的目标语言句子包括的N元短语分别对应的神经网络语言模型样本;
学习子单元,用于以最大化所述与待计算的源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,以及所述与待计算的目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,同时最小化所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量之间的距离作为训练目标,学习获取所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量;
其中,所述神经网络语言模型的输入层包括与所述N元短语所在的句子对 应的句子向量。
52.根据权利要求51所述的语义相似度的计算装置,其特征在于,所述构建样本子单元包括:
解析子单元,用于解析所述待计算的源语言句子和所述待计算的目标语言句子,获取所述待计算的源语言句子和所述待计算的目标语言句子包括的词;
映射子单元,用于根据所述词与词向量的对应关系,获取所述待计算的源语言句子和所述待计算的目标语言句子包括的词对应的词向量;
设置子单元,用于随机设置所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量;
第一构建子单元,用于针对所述待计算的源语言句子包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述待计算的源语言句子的句子向量,以及所述与源语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本;
第二构建子单元,用于针对所述待计算的目标语言句子包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述待计算的目标语言句子的句子向量,以及所述与目标语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本。
53.根据权利要求51所述的语义相似度的计算装置,其特征在于,所述学习子单元包括:
计算子单元,用于根据已构建的各个神经网络语言模型样本,计算第一目标函数的值;
判断子单元,用于判断所述第一目标函数的值是否大于上一次所述第一目标函数的值;若是,则采用最优化算法,更新所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量,并返回执行所述根据已构建的各个神经网络语言模型样本,计算第一目标函数的值的步骤;
其中,所述第一目标函数,是指第一平均值与第二平均值之和,与所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量之间的距离的差值;所述第一平均值,是指所述与待计算的源语言句子包括的各个N元短语对应的神经网络语言模型样本的似然概率的平均值;所述第二平均值,是指所述与待计算的目标语言句子包括的各个N元短语对应的神经网络语言模 型样本的似然概率的平均值。
54.根据权利要求51所述的语义相似度的计算装置,其特征在于,还包括:
训练单元,用于生成所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型。
55.根据权利要求54所述的基于统计的机器翻译装置,其特征在于,所述训练单元包括:
获取子单元,用于获取平行语料库;
解析子单元,用于解析所述平行语料库包括的各个句子,获取所述平行语料库包括的所有词;
设置子单元,用于为所述平行语料库包括的各个词设置第一预设维度的词向量,形成所述词和词向量的对应关系;以及为所述各个句子随机设置第二预设维度的句子向量;
构建子单元,用于针对所述平行语料库中的各对平行语料,根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型,构建与所述平行语料中源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本;
学习子单元,用于以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标,学习获取所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型。
56.根据权利要求55所述的语义相似度的计算装置,其特征在于,所述构建子单元包括:
解析子单元,用于解析所述平行语料中源语言句子和目标语言句子,获取所述平行语料中源语言句子和目标语言句子包括的词;
映射子单元,用于根据所述词与词向量的对应关系,获取所述平行语料中源语言句子和目标语言句子包括的词对应的词向量;
第一构建子单元,用于针对所述平行语料中源语言句子包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述平行语料中源语言句子的句子向量,以及所述与源语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本;
第二构建子单元,用于针对所述平行语料中目标语言句子包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述平行语料中目标语言句子的句子向量,以及所述与目标语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本。
57.根据权利要求55所述的语义相似度的计算装置,其特征在于,所述学习子单元包括:
计算子单元,用于根据已构建的各个神经网络语言模型样本,计算第二目标函数的值;
判断子单元,用于判断所述第二目标函数的值是否大于上一次所述第二目标函数的值;若是,则采用最优化算法,更新所述词向量、所述平行语料中源语言句子的句子向量和目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,并返回执行所述根据已构建的各个神经网络语言模型样本,计算第二目标函数的值的步骤;
其中,所述第二目标函数,是指第三平均值与第四平均值之和,与所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和的差值;所述第三平均值,是指所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率的平均值;所述第四平均值,是指所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率的平均值。
58.一种电子设备,其特征在于,包括:
显示器;
处理器;以及
存储器,所述存储器用于存储语义相似度的计算装置,所述语义相似度的计算装置被所述处理器执行时,包括如下步骤:获取待计算的源语言句子的句子向量,以及待计算的目标语言句子的句子向量;计算所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量之间的距离,作为所述 待计算的源语言句子和待计算的目标语言句子的语义相似度;其中,所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量包括句子的语义信息。
59.一种词量化方法,其特征在于,包括:
获取平行语料库;
解析所述平行语料库包括的各个句子,获取所述平行语料库包括的所有词;
为所述平行语料库包括的各个词设置第一预设维度的词向量,形成词和词向量的对应关系;以及为所述各个句子随机设置第二预设维度的句子向量;
针对所述平行语料库中的各对平行语料,根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型,构建与所述平行语料中源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本;
以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标,训练所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,获取所述词与词向量的对应关系;
其中,所述神经网络语言模型的输入层包括与所述N元短语所在的句子对应的句子向量。
60.根据权利要求59所述的词量化方法,其特征在于,所述根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型,构建与所述平行语料中源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本,包括:
解析所述平行语料中源语言句子和目标语言句子,获取所述平行语料中源语言句子和目标语言句子包括的词;
根据所述词与词向量的对应关系,获取所述平行语料中源语言句子和目标语言句子包括的词对应的词向量;
针对所述平行语料中源语言句子包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述平行语料中源语言句子的句子向量,以及所述与源语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本;
针对所述平行语料中目标语言句子包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述平行语料中目标语言句子的句子向量,以及所述与目标语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本。
61.根据权利要求59所述的词量化方法,其特征在于,所述以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标,训练所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,获取所述词与词向量的对应关系,包括:
根据已构建的各个神经网络语言模型样本,计算第二目标函数的值;
判断所述第二目标函数的值是否大于上一次所述第二目标函数的值;若是,则采用最优化算法,更新所述词向量、所述平行语料中源语言句子的句子向量和目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,并返回执行所述根据已构建的各个神经网络语言模型样本,计算第二目标函数的值的步骤;
其中,所述第二目标函数,是指第三平均值与第四平均值之和,与所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和的差值;所述第三平均值,是指所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率的平均值;所述第四平均值,是指所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率的平均值。
62.根据权利要求61所述的词量化方法,其特征在于,所述最优化算法采用随机梯度算法;所述采用最优化算法,更新所述词向量、所述平行语料中源语言句子的句子向量和目标语言的句子向量及所述与源语言对应的神经网络语 言模型和与目标语言对应的神经网络语言模型,包括:
根据预设的学习速率和所述第二目标函数,计算所述词向量、所述平行语料中源语言句子的句子向量和目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型的连接权重的梯度;
根据所述词向量、所述平行语料中源语言句子的句子向量和目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型的连接权重的梯度,更新所述词向量、所述平行语料中源语言句子的句子向量和目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型。
63.根据权利要求59所述的词量化方法,其特征在于,所述句子向量之间的距离包括余弦夹角距离或欧式距离。
64.根据权利要求59所述的词量化方法,其特征在于,所述神经网络语言模型包括前向神经网络算法语言模型或循环神经网络语言模型。
65.根据权利要求59所述的词量化方法,其特征在于,所述神经网络语言模型的输入层到隐藏层的各个连接权重均相同;所述神经网络语言模型的输入层到输出层的各个连接权重为0。
66.根据权利要求59所述的词量化方法,其特征在于,所述神经网络语言模型的隐藏层的激励函数为线性函数。
67.根据权利要求59所述的词量化方法,其特征在于,所述神经网络语言模型的隐藏层的向量值为输入层的各个向量值的加和平均值或组合拼接。
68.一种词量化装置,其特征在于,包括:
获取单元,用于获取平行语料库;
解析单元,用于解析所述平行语料库包括的各个句子,获取所述平行语料库包括的所有词;
设置单元,用于为所述平行语料库包括的各个词设置第一预设维度的词向量,形成词和词向量的对应关系;以及为所述各个句子随机设置第二预设维度的句子向量;
构建单元,用于针对所述平行语料库中的各对平行语料,根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神 经网络语言模型,构建与所述平行语料中源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本;
学习单元,用于以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标,训练所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,获取所述词与词向量的对应关系;
其中,所述神经网络语言模型的输入层包括与所述N元短语所在的句子对应的句子向量。
69.根据权利要求68所述的词量化装置,其特征在于,所述构建单元包括:
解析子单元,用于解析所述平行语料中源语言句子和目标语言句子,获取所述平行语料中源语言句子和目标语言句子包括的词;
映射子单元,用于根据所述词与词向量的对应关系,获取所述平行语料中源语言句子和目标语言句子包括的词对应的词向量;
第一构建子单元,用于针对所述平行语料中源语言句子包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述平行语料中源语言句子的句子向量,以及所述与源语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本;
第二构建子单元,用于针对所述平行语料中目标语言句子包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述平行语料中目标语言句子的句子向量,以及所述与目标语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本。
70.根据权利要求68所述的词量化装置,其特征在于,所述学习单元包括:
计算子单元,用于根据已构建的各个神经网络语言模型样本,计算第二目标函数的值;
判断子单元,用于判断所述第二目标函数的值是否大于上一次所述第二目标函数的值;若是,则采用最优化算法,更新所述词向量、所述平行语料中源语言句子的句子向量和目标语言的句子向量及所述与源语言对应的神经网络语 言模型和与目标语言对应的神经网络语言模型,并返回执行所述根据已构建的各个神经网络语言模型样本,计算第二目标函数的值的步骤;
其中,所述第二目标函数,是指第三平均值与第四平均值之和,与所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和的差值;所述第三平均值,是指所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率的平均值;所述第四平均值,是指所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率的平均值。
71.一种电子设备,其特征在于,包括:
显示器;
处理器;以及
存储器,所述存储器用于存储词量化装置,所述词量化装置被所述处理器执行时,包括如下步骤:获取平行语料库;解析所述平行语料库包括的各个句子,获取所述平行语料库包括的所有词;为所述平行语料库包括的各个词设置第一预设维度的词向量,形成词和词向量的对应关系;以及为所述各个句子随机设置第二预设维度的句子向量;针对所述平行语料库中的各对平行语料,根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型,构建与所述平行语料中源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本;以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标,训练所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,获取所述词与词向量的对应关系;其中,所述神经网络语言模型的输入层包括与所述N元短语所在的句子对应的句子向量。