一种基于视觉特征与语义信息融合的机器翻译方法与流程

文档序号：37178561发布日期：2024-03-01 12:33阅读：22来源：国知局

本发明属于机器学习的翻译领域，尤其涉及一种基于视觉特征与语义信息融合的机器翻译方法。

背景技术：

1、随着经济全球化进程的推进，以及人工智能、大数据、深度学习等技术的快速发展，机器学习技术到了广泛推广和落地应用。机器翻译作为机器学习领域最重要的技术之一，广泛应用于国际交流、文体娱乐和传媒社交等领域，随着各国间文化和经贸往来的频繁，语言服务的需求不断增加，机器翻译在语言服务中的比重日益提升，且各行各业对专业级的翻译需求越来越大。传统机器翻译由于其性能低及成本高等缺点已经无法满足专业需求，因此，迫切需要一种新的机器翻译方法来降低翻译成本、提高翻译效率。

技术实现思路

1、为实现上述目的，本发明提供了如下方案：一种基于视觉特征与语义信息融合的机器翻译方法，包括：

2、采集数据样本并进行特征提取，获得目标数据信息；

3、构建机器翻译模型，将所述目标数据信息输入所述机器翻译模型进行训练，获得目标翻译模型；

4、将待翻译输入所述目标翻译模型进行翻译，获得翻译结果。

5、优选地，采集数据样本的过程包括，

6、收集并标注包含图像、视频和音频的多模态数据，以及与之相关的文本翻译，并为视觉信息和语义信息创建嵌入式表示。

7、优选地，对数据样本进行特征提取的过程包括视觉特征提取和文本特征提取；

8、其中，所述视觉特征提取的过程包括，

9、基于卷积神经网络对图像和视频数据进行特征提取，获得翻译所需的对象信息、场景信息和情感信息；

10、所述文本特征提取的过程包括，

11、对音频数据进行语音识别或声音特征提取，使用自动语音识别系统将音频转换为文本或提取音频特征；

12、将源语言文本和目标语言文本分别转换为嵌入式向量，使用预训练的词嵌入或语言模型捕获文本语义信息。

13、优选地，对所述数据样本进行特征提取之后，获得目标数据信息之前还包括，对视觉特征和文本特征进行特征融合；

14、对视觉特征和文本特征进行特征融合的过程包括，

15、利用注意力机制来衡量图像特征和文本特征之间的相关性，通过计算点积注意力计算图像特征和文本特征之间的点积，获得图像特征和文本特征之间的相似度；然后通过softmax函数将所述相似度归一化，获得图像特征和文本特征之间的注意力权重；

16、基于所述注意力权重对图像特征和文本特征进行加权融合，获得融合特征的多模态嵌入式表示。

17、优选地，构建机器翻译模型的过程包括，

18、基于循环神经网络定制获得多模态翻译模型；

19、所述多模态翻译模型的模型结构包括：卷积层单元、模型函数单元、收缩注意力单元、全局注意力单元；

20、所述卷积层单元由若干个卷积子单元组成；

21、所述模型函数单元包括激活函数、软阈值函数与层归一化函数；

22、所述收缩注意力单元包括一个平均池化层、两个1×1的卷积层、一个归一化层、一个激活函数和一个软阈值函数；

23、所述全局注意力单元包括一个softmax层，一个1×宽×高的卷积层，两个1×1的卷积层和一个激活函数。

24、优选地，将待翻译输入所述目标翻译模型进行翻译，获得翻译结果的过程包括，

25、将待翻译信息输入所述目标翻译模型，基于所述目标翻译模型的文本编码器接收源语言文本，获得文本特征，基于所述目标翻译模型的视觉编码器接收源图像文本，获得图像特征；

26、基于收缩注意力单元，使用注意力机制和融合层融合所述文本特征和图像特征，获得多模态特征表示；

27、将目标语言文本输入到目标语言编码器中，获得目标语言的编码特征；

28、使用解码器将多模态特征和目标语言的编码特征转化为目标语言文本输出。

29、优选地，使用解码器将多模态特征和目标语言的编码特征转化为目标语言文本输出的过程包括，

30、使用交叉熵损失函数计算模型输出与目标语言翻译之间的损失，然后通过反向传播算法调整模型参数，最后通过随机梯度下降优化算法对模型参数进行更新。

31、优选地，获得所述翻译结果之后还包括对翻译结果进行评估；

32、所述评估过程通过使用包括分类准确率、bleu分数、meteor、ter在内的标准翻译质量指标，来衡量多模态翻译模型的性能。

33、与现有技术相比，本发明具有如下优点和技术效果：

34、本发明利用视觉特征与语义信息的融合信息来进行机器翻译，能够帮助模型更好的理解文本和图像之间的关系，达到快速精准翻译的目的。同时还能弥补单一信息翻译及人工同传的不足，提升机器翻译的效率和准确率，降低成本。

技术特征：

1.一种基于视觉特征与语义信息融合的机器翻译方法，其特征在于，包括：

2.根据权利要求1所述的基于视觉特征与语义信息融合的机器翻译方法，其特征在于，采集数据样本的过程包括，

3.根据权利要求1所述的基于视觉特征与语义信息融合的机器翻译方法，其特征在于，对数据样本进行特征提取的过程包括视觉特征提取和文本特征提取；

4.根据权利要求1所述的基于视觉特征与语义信息融合的机器翻译方法，其特征在于，对所述数据样本进行特征提取之后，获得目标数据信息之前还包括，对视觉特征和文本特征进行特征融合；

5.根据权利要求1所述的基于视觉特征与语义信息融合的机器翻译方法，其特征在于，构建机器翻译模型的过程包括，

6.根据权利要求1所述的基于视觉特征与语义信息融合的机器翻译方法，其特征在于，将待翻译输入所述目标翻译模型进行翻译，获得翻译结果的过程包括，

7.根据权利要求6所述的基于视觉特征与语义信息融合的机器翻译方法，其特征在于，使用解码器将多模态特征和目标语言的编码特征转化为目标语言文本输出的过程包括，

8.根据权利要求6所述的基于视觉特征与语义信息融合的机器翻译方法，其特征在于，获得所述翻译结果之后还包括对翻译结果进行评估；

技术总结
本发明公开了一种基于视觉特征与语义信息融合的机器翻译方法，包括，采集数据样本并进行特征提取，获得目标数据信息；构建机器翻译模型，将所述目标数据信息输入所述机器翻译模型进行训练，获得目标翻译模型；将待翻译输入所述目标翻译模型进行翻译，获得翻译结果。本发明利用视觉特征与语义信息的融合信息来进行机器翻译，能够帮助模型更好的理解上下文，达到快速精准翻译的目的。同时还能弥补单一信息翻译及人工同传的不足，提升机器翻译的效率和准确率，降低成本。

技术研发人员：田二林,李祖贺,庾骏,吴勤,梁树军,陈浩然,韩闯,赵帅
受保护的技术使用者：郑州轻大产业技术研究院有限公司
技术研发日：
技术公布日：2024/2/29

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：田二林,李祖贺,庾骏,吴勤,梁树军,陈浩然,韩闯,赵帅
技术所有人：郑州轻大产业技术研究院有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。