音译模型的训练方法、装置、设备以及存储介质与流程

文档序号：31928080发布日期：2022-10-25 23:24阅读：76来源：国知局

1.本公开涉及计算机技术领域，尤其涉及深度学习、自然语言处理等人工智能技术领域，具体涉及一种音译模型的训练方法、装置、设备以及存储介质。

背景技术：

2.人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
3.相关技术中，通常采用基于规则进行匹配的方法，或者对海量的训练数据进行序列标注，以辅助实际应用当中将语种类型a的输入文本转换为语种类型b的输出文本，这种方式下，可能会由于发音歧义而导致翻译不够准确，翻译效率不高，翻译效果不佳。

技术实现要素：

4.本公开提供了一种用于音译模型的训练方法、装置、设备以及存储介质。
5.根据本公开的第一方面，提供了一种音译模型的训练方法，包括：获取第一语种类型的多个待译样本文本；获取与所述多个待译样本文本分别对应的多个标注样本文本，所述第一语种类型和第二语种类型不相同，所述第二语种类型是所述标注样本文本对应的语种类型；确定所述多个待译样本文本和对应的所述多个标注样本文本之间的多个标注发音信息；以及根据所述多个待译样本文本、所述多个标注样本文本，以及所述多个标注发音信息训练初始的音译模型，以得到目标音译模型。
6.根据本公开的第二方面，提供了一种音译方法，包括：获取第一语种类型的待译文本；将所述待译文本输入至如上述的音译模型的训练方法训练得到的目标音译模型之中，以得到所述目标音译模型输出的预测文本，其中，所述第一语种类型和第二语种类型不相同，所述第二语种类型是所述预测文本对应的语种类型。
7.根据本公开的第三方面，提供了一种音译模型的训练装置，包括：第一获取模块，用于获取第一语种类型的多个待译样本文本；第二获取模块，用于获取与所述多个待译样本文本分别对应的多个标注样本文本，所述第一语种类型和第二语种类型不相同，所述第二语种类型是所述标注样本文本对应的语种类型；确定模块，用于确定所述多个待译样本文本和对应的所述多个标注样本文本之间的多个标注发音信息；以及训练模块，用于根据所述多个待译样本文本、所述多个标注样本文本，以及所述多个标注发音信息训练初始的音译模型，以得到目标音译模型。
8.根据本公开的第四方面，提供了一种音译装置，包括：第三获取模块，用于获取第一语种类型的待译文本；第四获取模块，用于将所述待译文本输入至如上述音译模型的训练装置训练得到的目标音译模型之中，以得到所述目标音译模型输出的预测文本，其中，所
述第一语种类型和第二语种类型不相同，所述第二语种类型是所述预测文本对应的语种类型。
9.根据第五方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面所述的音译模型的训练方法，或者执行如第二方面所述的音译方法。
10.根据第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如第一方面所述的音译模型的训练方法，或者执行如第二方面所述的音译方法。
11.根据第七方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如第一方面所述的音译模型的训练方法，或者实现如第二方面所述的音译方法。
12.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
13.附图用于更好地理解本方案，不构成对本公开的限定。其中：
14.图1是根据本公开第一实施例的示意图；
15.图2是根据本公开第二实施例的示意图；
16.图3是根据本公开第三实施例的示意图；
17.图4是根据本公开第四实施例的示意图；
18.图5是本公开实施例中应用效果示意图；
19.图6是本公开实施例中音译方法的流程示意图；
20.图7是根据本公开第五实施例的示意图；
21.图8是根据本公开第六实施例的示意图；
22.图9是根据本公开第七实施例的示意图；
23.图10是用来实现本公开实施例的音译模型的训练方法的电子设备的框图。
具体实施方式
24.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
25.图1是根据本公开第一实施例的示意图。
26.其中，需要说明的是，本实施例的音译模型的训练方法的执行主体为音译模型的训练装置，该装置可以由软件和/或硬件的方式实现，该装置可以配置在电子设备中，电子设备可以包括但不限于终端、服务器端等。
27.本公开实施例涉及深度学习、自然语言处理等人工智能技术领域。
28.其中，人工智能(artificial intelligence)，英文缩写为ai。它是研究、开发用于
模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
29.深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。
30.而自然语言处理，能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
31.本公开实施例中，正是为了解决相关技术中可能会由于发音歧义而导致翻译不够准确，翻译效率不高，翻译效果不佳的技术问题，提供了一种译模型的训练方法，由于该音译模型是参考多个待译样本文本和对应的多个标注样本文本之间的多个标注发音信息来训练得到的，从而能够有效地建模出待译样本文本和标注样本文本之间的发音维度的特征，避免了由于发音歧义对翻译效果的影响，从而提升了翻译准确性和翻译效果。
32.如图1所示，该音译模型的训练方法包括：
33.s101：获取第一语种类型的多个待译样本文本。
34.其中，第一语种类型可以例如为英语、韩语、日语等，待译样本文本，可以是待翻译的样本文本，样本文本比如一段第一语种类型的文字等，而样本文本，可以是用于训练音译模型的文本，对此不做限制。
35.相应的，下述的第二语种类型也可以是英语、韩语、日语等，而第一语种类型和第二语种类型不相同，从而本公开实施训练得到的音译模型，支持将第一语种类型的待译样本文本翻译为第二语种类型的输出文本，该音译模型的输出文本，可以被称为下述的预测文本，对此不做限制。
36.本公开实施例中，以第一语种类型是拉丁语，第二语种类型是印度语进行示例，对此不做限制。
37.则上述的第一语种类型的多个待译样本文本，可以是拉丁语的多个待译样本文本，待译样本文本例如“kripya”，对此不做限制。
38.s102：获取与多个待译样本文本分别对应的多个标注样本文本，第一语种类型和第二语种类型不相同，第二语种类型是标注样本文本对应的语种类型。
39.上述获取第一语种类型的多个待译样本文本之后，可以获取与多个待译样本文本分别对应的多个标注样本文本，其中，用于训练音译模型的标注用的样本文本，可以被称为标注样本文本，标注样本文本可以被用于训练音译模型时作为参考标注，具体可以参见后续实施例。
40.其中，与多个待译样本文本分别对应的多个标注样本文本，可以具体是发音特征与待译样本文本的发音特征相似的第二语种类型的样本文本。
41.举例而言，假设待译样本文本例如“kripya”，则相应的，多个标注样本文本可以例如是其中的的语种类型是印度语，待译样本文本例如“kripya”的发音特征与的发音特征相似。
42.而待译样本文本的发音特征，可以是语音输出“kripya”时，对应的音调、音素、元音、辅音特征，而标注样本文本的发音特征，可以是语音输出标注样本文本时，对应的音调、音素、元音、辅音特征，对此不做限制。
43.也即是说，本公开实施例支持采用具有相似的发音特征的多个待译样本文本，和对应的多个标注样本文本之间的发音特征来辅助训练音译模型。
44.s103：确定多个待译样本文本和对应的多个标注样本文本之间的多个标注发音信息。
45.上述在获取多个待译样本文本，和对应的多个标注样本文本之后，可以解析多个待译样本文本对应的发音特征，和多个标注样本文本对应的发音特征，从而学习两种语种类型的样本文本对应的发音特征之间的相似信息，而后，将该相似信息作为上述的标注发音信息，或者，也可以学习两种语种类型的样本文本对应的发音特征之间的特征相关性，并将特征相关性作为上述的标注发音信息，对此不做限制。
46.其中，待译样本文本可以与每个标注样本文本之间均具有一个对应的标注发音信息，从而与多个待译样本文本对应可以具有多个标注发音信息。
47.s104：根据多个待译样本文本、多个标注样本文本，以及多个标注发音信息训练初始的音译模型，以得到目标音译模型。
48.上述在多个待译样本文本和对应的多个标注样本文本之间的多个标注发音信息之后，可以根据多个待译样本文本、多个标注样本文本，以及多个标注发音信息训练初始的音译模型，以得到目标音译模型，从而实现参考多个待译样本文本和对应的多个标注样本文本之间的多个标注发音信息来训练得到的音译模型(训练得到的音译模型，可以被称为目标音译模型)。
49.上述的初始的音译模型，可以是人工智能模型，可以例如为神经网络模型、机器学习模型，或者也可以是图神经网络模型，当然，也可以采用其它任意可能的能够执行翻译任务的模型，具体例如，隐马尔科夫模型(hidden markov model，hmm)，对此不做限制。
50.也即是说，可以将多个待译样本文本、多个标注样本文本，以及多个标注发音信息输入至初始的音译模型，直至音译模型满足一定的收敛条件，将训练得到的音译模型作为目标音译模型。
51.可选地，一些实施例中，可以将多个待译样本文本输入至初始的音译模型，以得到音译模型输出的多个预测样本文本，并确定多个待译样本文本和对应的多个预测样本文本之间的多个预测发音信息，以及如果多个预测发音信息和多个标注发音信息之间满足设定条件，则音译模型训练完毕，从而实现基于预测发音信息和标注发音信息来确定模型的收敛时机，使得训练得到的目标音译模型能够针对文本的发音特征具有更准确的预测表征能力，有效提升模型的预测准确性。
52.其中，将多个待译样本文本输入至初始的音译模型，以得到音译模型输出的样本文本，可以被称为预测样本文本，该音译模型能够分析待译样本文本对应的发音特征，而后识别解析出与该发音特征相似的第二语种类型的样本文本并作为预测样本文本。
53.上述预测样本文本的发音特征可以被称为预测发音信息，预测发音信息可以是语音输出预测样本文本时，对应的音调、音素、元音、辅音特征，对此不做限制。
54.本公开实施例中还支持预先针对初始的音译模型配置损失函数，采用该损失函数拟合多个预测发音信息和多个标注发音信息之间的损失值，并预先配置损失阈值，如果多个预测发音信息和多个标注发音信息之间的损失值小于该损失阈值，则可以确定多个预测发音信息和多个标注发音信息之间满足设定条件，则音译模型训练完毕，反之，则持续地采
用多个待译样本文本动态训练音译模型，对此不做限制。
55.本实施例中，通过获取第一语种类型的多个待译样本文本，获取与多个待译样本文本分别对应的多个标注样本文本，第一语种类型和第二语种类型不相同，第二语种类型是标注样本文本对应的语种类型，并确定多个待译样本文本和对应的多个标注样本文本之间的多个标注发音信息，以及根据多个待译样本文本、多个标注样本文本，以及多个标注发音信息训练初始的音译模型，以得到目标音译模型，由于该音译模型是参考多个待译样本文本和对应的多个标注样本文本之间的多个标注发音信息来训练得到的，从而能够有效地建模出待译样本文本和标注样本文本之间的发音维度的特征，避免了由于发音歧义对翻译效果的影响，从而提升了翻译准确性和翻译效果。
56.图2是根据本公开第二实施例的示意图。
57.如图2所示，该音译模型的训练方法包括：
58.s201：获取第一语种类型的多个待译样本文本。
59.s202：获取与多个待译样本文本分别对应的多个标注样本文本，第一语种类型和第二语种类型不相同，第二语种类型是标注样本文本对应的语种类型。
60.s201-s202的描述说明可以具体参见上述实施例，在此不再赘述。
61.s203：确定与多个待译样本文本分别对应的多个第一发音特征。
62.s204：确定与多个标注样本文本分别对应的多个第二发音特征。
63.而待译样本文本的发音特征，可以是语音输出“kripya”时，对应的音调、音素、元音、辅音特征，而标注样本文本的发音特征，可以是语音输出标注样本文本时，对应的音调、音素、元音、辅音特征，对此不做限制。
64.则上述待译样本文本的发音特征，可以被称为第一发音特征，标注样本文本的发音特征，可以被称为第二发音特征。
65.s205：确定多个第一发音特征和对应的多个第二发音特征之间的多个第一发音相似信息，并将多个发音相似信息作为多个标注发音信息。
66.上述在确定与多个待译样本文本分别对应的多个第一发音特征，并确定与多个标注样本文本分别对应的多个第二发音特征之后，可以采用相似度拟合函数来确定多个第一发音特征和对应的多个第二发音特征之间的相似性，并将该相似性作为第一发音相似信息，使得第一发音相似信息能够表征多个第一发音特征和对应的多个第二发音特征之间的相似程度，对此不做限制。
67.上述确定与多个待译样本文本分别对应的多个第一发音特征，而后确定与多个标注样本文本分别对应的多个第二发音特征，从而实现学习两种语种类型的样本文本对应的发音特征之间的第一发音相似信息，而后，将该第一发音相似信息作为上述的标注发音信息，由于第一发音相似信息能够表征多个第一发音特征和对应的多个第二发音特征之间的相似程度，实现对发音特征之间的相似程度进行量化处理，从而能够基于发音特征的维度来辅助训练音译模型，提升音译模型针对不同语种类别的样本文本的发音相似程度的表征和解析能力。
68.s206：将多个待译样本文本输入至初始的音译模型，以得到音译模型输出的多个预测样本文本。
69.s205-s206的描述说明可以具体参见上述实施例，在此不再赘述。
70.s207：确定与多个预测样本文本分别对应的多个第三发音特征。
71.其中，将多个待译样本文本输入至初始的音译模型，以得到音译模型输出的样本文本，可以被称为预测样本文本，而预测样本文本的发音特征(预测样本文本的发音特征，可以被称为第三发音特征)，可以是音译模型输出的预测样本文本对应的音调、音素、元音、辅音特征，对此不做限制。
72.s208：确定多个第一发音特征和对应的多个第三发音特征之间的多个第二发音相似信息，并将多个第二发音相似信息作为多个预测发音信息。
73.上述确定与多个预测样本文本分别对应的多个第三发音特征后，可以确定多个第一发音特征和对应的多个第三发音特征之间的多个第二发音相似信息，并将多个第二发音相似信息作为多个预测发音信息。
74.其中，多个第一发音特征和对应的多个第三发音特征之间的多个发音相似信息，可以被称为多个第二发音相似信息。
75.由此，能够实现学习所输入待译样本文本的发音特征，和模型输出的预测样本文本对应的发音特征之间的第二发音相似信息，而后，将该第二发音相似信息作为上述的预测发音信息，该预测发音信息可以被用于及时地确定出模型的收敛时机，由于第二发音相似信息能够表征所输入多个待译样本文本的发音特征和预测样本文本对应的多个第三发音特征之间的相似程度，实现对所输入多个待译样本文本的发音特征和预测样本文本对应的多个第三发音特征之间的相似程度进行量化处理，从而能够基于发音特征的维度来辅助训练音译模型，以及时地确定出模型的收敛时机，不仅仅提升音译模型针对不同语种类别的样本文本的发音相似程度的表征和解析能力，还能够基于解析得到的发音相似程度来确定收敛时机，实现兼顾模型的训练效率和训练效果。
76.s209：如果多个预测发音信息和多个标注发音信息之间满足设定条件，则音译模型训练完毕。
77.s209的描述说明可以具体参见上述实施例，在此不再赘述。
78.本实施例中，由于该音译模型是参考多个待译样本文本和对应的多个标注样本文本之间的多个标注发音信息来训练得到的，从而能够有效地建模出待译样本文本和标注样本文本之间的发音维度的特征，避免了由于发音歧义对翻译效果的影响，从而提升了翻译准确性和翻译效果。由于第一发音相似信息能够表征多个第一发音特征和对应的多个第二发音特征之间的相似程度，实现对发音特征之间的相似程度进行量化处理，从而能够基于发音特征的维度来辅助训练音译模型，提升音译模型针对不同语种类别的样本文本的发音相似程度的表征和解析能力。由于第二发音相似信息能够表征所输入多个待译样本文本的发音特征和预测样本文本对应的多个第三发音特征之间的相似程度，实现对所输入多个待译样本文本的发音特征和预测样本文本对应的多个第三发音特征之间的相似程度进行量化处理，从而能够基于发音特征的维度来辅助训练音译模型，以及时地确定出模型的收敛时机，不仅仅提升音译模型针对不同语种类别的样本文本的发音相似程度的表征和解析能力，还能够基于解析得到的发音相似程度来确定收敛时机，实现兼顾模型的训练效率和训练效果。
79.图3是根据本公开第三实施例的示意图。
80.如图3所示，该音译模型的训练方法包括：
81.s301：对多个待译样本文本分别进行切分处理，以得到与多个待译样本文本分别对应的多个样本子文本。
82.本实施例提供了一种处理训练数据的方法，即在训练初始的音译模型之前，对获得的待译样本文本和标注样本文本之间的发音特征进行对齐处理，以辅助保障音译模型对发音特征的映射准确性。
83.也即是说，可以对多个待译样本文本分别进行切分处理，以得到与多个待译样本文本分别对应的多个样本子文本，比如可以基于一定的切分规则，将各个待译样本文本切分为设定长度的样本子文本，例如，将“kripya”切分为“kri”“pya”，或者，也可以采用其它任意可能的方式来对“kripya”进行切分处理，对此不做限制。
84.可选地，一些实施例中，可以是基于音节维度对多个待译样本文本分别进行切分处理，以得到与多个待译样本文本分别对应的多个样本子文本，样本子文本的发音对应一个发音单元，从而能够有效提升音译模型对发音特征的映射准确性，能够较大幅度地提升模型的预测效果。
85.举例而言，假设多个待译样本文本分别是“thoriyam”、“dhaatu”、“vaayu”，而后，基于音节维度对多个待译样本文本分别进行切分处理，以得到与多个待译样本文本分别对应的多个样本子文本，多个样本子文本可以是“tho”“ri”“yam”“dhaa”“tu”“vaa”“yu”，其中，各个样本子文本的发音对应一个发音单元，而一个发音单元可以是指由辅音和元音组成，从而在减小了训练数据量的基础上，保障发音特征映射的准确性。
86.s302：确定与多个样本子文本分别对应的多个发音子特征，并将多个发音子特征作为多个第一发音特征。
87.上述在对多个待译样本文本分别进行切分处理，以得到与多个待译样本文本分别对应的多个样本子文本，可以确定与多个样本子文本分别对应的多个发音子特征，并将多个发音子特征作为多个第一发音特征，由于是基于切分得到的多个发音子特征来辅助训练音译模型，能够有效减少后期标注的工作量，从而减小所选取的初始的音译模型的规模，便于目标音译模型的部署和实施，扩展目标音译模型的部署安装场景。
88.s303：对多个发音子特征和对应的多个发音特征进行对齐处理。
89.其中，发音特征是第二发音特征或者第三发音特征。
90.也即是说，上述在切分得到多个发音子特征之后，可以将多个发音子特征与对应的多个第二发音特征进行对齐处理，而第二发音特征是标注样本文本对应的发音特征，以便于音译模型快速地、准确地建模出待译样本文本的发音特征和标注样本文本对应的发音特征之间的发音相似信息。
91.另外，上述在切分得到多个发音子特征之后，可以将多个发音子特征与对应的多个第三发音特征进行对齐处理，而第三发音特征是预测样本文本对应的发音特征，从而能够便于音译模型快速地、准确地建模出预测样本文本的发音特征和待译样本文本的发音特征之间的发音相似信息，保障预测样本文本的发音特征和待译样本文本的发音特征之间映射关系表征的准确性和表征效率。
92.而上述对多个发音子特征与对应的多个第二发音特征进行对齐处理，可以是采用预训练的对齐处理模型来进行对齐处理，预训练的对齐处理模型可以例如为隐马尔科夫模型hmm，对此不做限制。
93.上述的对齐处理过程，可以具体是词对齐处理，也即是说，可以对样本子文本和相应的标注样本文本进行词对齐处理，从而使得词对齐处理之后，样本子文本的发音子特征与标注样本文本的第二发音特征具有相应的映射关系，该对齐处理之后得到的映射关系能够被用于辅助音译模型基于发音维度对输入和输出文本进行匹配预测。
94.而针对多个发音子特征与对应的多个第三发音特征进行对齐处理的描述可以以此类推，对此不做限制。
95.s304：在对齐处理之后，确定多个第一发音特征和对应的多个发音特征之间的多个发音相似信息，其中，发音特征是第二发音特征或者第三发音特征，发音相似信息是第一发音相似信息或者第二发音相似信息。
96.也即是说，上述在切分得到多个发音子特征之后，并将将多个发音子特征与对应的多个第二发音特征进行对齐处理之后，并确定多个第一发音特征和对应的多个第二发音特征之间的多个发音相似信息，能够便于音译模型快速地、准确地建模出待译样本文本的发音特征和标注样本文本对应的发音特征之间的发音相似信息，保障待译样本文本的发音特征和标注样本文本对应的发音特征之间映射关系表征的准确性和表征效率。
97.另外，上述在切分得到多个发音子特征之后，并将多个发音子特征与对应的多个第三发音特征进行对齐处理之后，确定多个第一发音特征和对应的多个第三发音特征之间的多个发音相似信息，从而能够便于音译模型快速地、准确地建模出预测样本文本的发音特征和待译样本文本的发音特征之间的发音相似信息，保障预测样本文本的发音特征和待译样本文本的发音特征之间映射关系表征的准确性和表征效率。
98.本实施例中，通过在对多个待译样本文本分别进行切分处理，以得到与多个待译样本文本分别对应的多个样本子文本，可以确定与多个样本子文本分别对应的多个发音子特征，并将多个发音子特征作为多个第一发音特征，由于是基于切分得到的多个发音子特征来辅助训练音译模型，能够有效减少后期标注的工作量，从而减小所选取的初始的音译模型的规模，便于目标音译模型的部署和实施，扩展目标音译模型的部署安装场景。通过基于音节维度对多个待译样本文本分别进行切分处理，以得到与多个待译样本文本分别对应的多个样本子文本，样本子文本的发音对应一个发音单元，从而能够有效提升音译模型对发音特征的映射准确性，能够较大幅度地提升模型的预测效果。还能够便于音译模型快速地、准确地建模出预测样本文本的发音特征(或者标注样本文本的发音特征)和待译样本文本的发音特征之间的发音相似信息，保障预测样本文本的发音特征(或者标注样本文本的发音特征)和待译样本文本的发音特征之间映射关系表征的准确性和表征效率。
99.图4是根据本公开第四实施例的示意图。
100.如图4所示，该音译方法包括：
101.s401：获取第一语种类型的待译文本。
102.其中，当前待对其进行翻译的文本，可以被称为待译文本，该待译文本可以是电子设备基于预设置的输入法，所接收到的用户输入的文本。
103.如图5所示，图5是本公开实施例中应用效果示意图，假设电子设备基于预设置的输入法为拉丁语输入法，则可以接收用户输入的待译文本51，而后调用上述实施例训练得到的目标音译模型确定至少一个的预测文本52，并将至少一个的预测文本52提供至用户。
104.s402：将待译文本输入至如上述的目标音译模型之中，以得到目标音译模型输出
的预测文本，其中，第一语种类型和第二语种类型不相同，第二语种类型是预测文本对应的语种类型。
105.上述在获取第一语种类型的待译文本之后，将待译文本输入至如上述的目标音译模型之中，从而可以基于目标音译模型对待译文本进行音节切分，得到多个待译子文本，并根据每个待译子文本的发音子特征来确定相应的预测文本，对此不做限制。
106.在另外一些实施例中，提供至用户的至少一个的预测文本可以是从多个预测文本之中选取的。
107.举例而言，如图6所示，图6是本公开实施例中音译方法的流程示意图，假设将待译文本切分为多个待译子文本“ha”“rry”“r”“ry”，而后，采用目标音译模型可以得出至少一个预测文本61，还可以确定映射至每个预测文本61对应的概率值，从而可以将概率值的加和较大的路径上的预测文本作为显示至用户的预测文本，对此不做限制。
108.而上述确定映射至每个预测文本61对应的概率值，则可以是结合读音相关的应用程序，结合维特比算法和搜索算法所确定的，对此不做限制。
109.本实施例中，通过获取第一语种类型的待译文本，将待译文本输入至如上述的目标音译模型之中，以得到目标音译模型输出的预测文本，其中，第一语种类型和第二语种类型不相同，第二语种类型是预测文本对应的语种类型，由于是基于上述训练得到的目标音译模型来辅助确定预测文本，而该目标音译模型是参考多个待译样本文本和对应的多个标注样本文本之间的多个标注发音信息训练得到的，从而实现基于待译文本的发音维度的特征来翻译得到相应的预测文本，避免了由于发音歧义对翻译效果的影响，从而提升了翻译准确性和翻译效果。
110.图7是根据本公开第五实施例的示意图。
111.如图7所示，该音译模型的训练装置70，包括：
112.第一获取模块701，用于获取第一语种类型的多个待译样本文本；
113.第二获取模块702，用于获取与多个待译样本文本分别对应的多个标注样本文本，第一语种类型和第二语种类型不相同，第二语种类型是标注样本文本对应的语种类型；
114.确定模块703，用于确定多个待译样本文本和对应的多个标注样本文本之间的多个标注发音信息；以及
115.训练模块704，用于根据多个待译样本文本、多个标注样本文本，以及多个标注发音信息训练初始的音译模型，以得到目标音译模型。
116.在本公开的一些实施例中，如图8所示，图8是根据本公开第六实施例的示意图，该音译模型的训练装置80，包括：第一获取模块801、第二获取模块802、确定模块803、训练模块804，其中，训练模块804，包括：
117.获取子模块8041，用于将多个待译样本文本输入至初始的音译模型，以得到音译模型输出的多个预测样本文本；
118.第一确定子模块8042，用于确定多个待译样本文本和对应的多个预测样本文本之间的多个预测发音信息；
119.训练子模块8043，用于在多个预测发音信息和多个标注发音信息之间满足设定条件时，音译模型训练完毕。
120.在本公开的一些实施例中，如图8所示，其中，确定模块803，包括：
121.第二确定子模块8031，用于确定与多个待译样本文本分别对应的多个第一发音特征；
122.第三确定子模块8032，用于确定与多个标注样本文本分别对应的多个第二发音特征；
123.第四确定子模块8033，用于确定多个第一发音特征和对应的多个第二发音特征之间的多个第一发音相似信息，并将多个发音相似信息作为多个标注发音信息。
124.在本公开的一些实施例中，其中，第一确定子模块8042，具体用于：
125.确定与多个待译样本文本分别对应的多个第一发音特征；
126.确定与多个预测样本文本分别对应的多个第三发音特征；
127.确定多个第一发音特征和对应的多个第三发音特征之间的多个第二发音相似信息，并将多个第二发音相似信息作为多个预测发音信息。
128.在本公开的一些实施例中，其中，第二确定子模块8031，具体用于：
129.对多个待译样本文本分别进行切分处理，以得到与多个待译样本文本分别对应的多个样本子文本；
130.确定与多个样本子文本分别对应的多个发音子特征，并将多个发音子特征作为多个第一发音特征。
131.在本公开的一些实施例中，其中，第二确定子模块8031，具体用于：
132.基于音节维度对多个待译样本文本分别进行切分处理，以得到与多个待译样本文本分别对应的多个样本子文本，样本子文本的发音对应一个发音单元。
133.在本公开的一些实施例中，第二确定子模块8031，具体用于：
134.在确定与多个样本子文本分别对应的多个发音子特征后，对多个发音子特征和对应的多个发音特征进行对齐处理；
135.在对齐处理之后，确定多个第一发音特征和对应的多个发音特征之间的多个发音相似信息；
136.其中，发音特征是第二发音特征或者第三发音特征，发音相似信息是第一发音相似信息或者第二发音相似信息。
137.可以理解的是，本实施例附图8中的音译模型的训练装置80与上述实施例中的音译模型的训练装置70，第一获取模块801与上述实施例中的第一获取模块701，第二获取模块802与上述实施例中的第二获取模块702，确定模块803与上述实施例中的确定模块703，训练模块804与上述实施例中的训练模块704，可以具有相同的功能和结构。
138.需要说明的是，前述对音译模型的训练方法的解释说明也适用于本实施例的音译模型的训练装置，此处不再赘述。
139.本实施例中，通过获取第一语种类型的多个待译样本文本，获取与多个待译样本文本分别对应的多个标注样本文本，第一语种类型和第二语种类型不相同，第二语种类型是标注样本文本对应的语种类型，并确定多个待译样本文本和对应的多个标注样本文本之间的多个标注发音信息，以及根据多个待译样本文本、多个标注样本文本，以及多个标注发音信息训练初始的音译模型，以得到目标音译模型，由于该音译模型是参考多个待译样本文本和对应的多个标注样本文本之间的多个标注发音信息来训练得到的，从而能够有效地建模出待译样本文本和标注样本文本之间的发音维度的特征，避免了由于发音歧义对翻译
效果的影响，从而提升了翻译准确性和翻译效果。
140.图9是根据本公开第七实施例的示意图。
141.如图9所示，该音译装置90，包括：
142.第三获取模块901，用于获取第一语种类型的待译文本。
143.第四获取模块902，用于将待译文本输入至如上述音译模型的训练装置训练得到的目标音译模型之中，以得到目标音译模型输出的预测文本，其中，第一语种类型和第二语种类型不相同，第二语种类型是预测文本对应的语种类型。
144.需要说明的是，前述对音译方法的解释说明也适用于本实施例的音译装置，此处不再赘述。
145.本实施例中，通过获取第一语种类型的待译文本，将待译文本输入至如上述的目标音译模型之中，以得到目标音译模型输出的预测文本，其中，第一语种类型和第二语种类型不相同，第二语种类型是预测文本对应的语种类型，由于是基于上述训练得到的目标音译模型来辅助确定预测文本，而该目标音译模型是参考多个待译样本文本和对应的多个标注样本文本之间的多个标注发音信息训练得到的，从而实现基于待译文本的发音维度的特征来翻译得到相应的预测文本，避免了由于发音歧义对翻译效果的影响，从而提升了翻译准确性和翻译效果。
146.根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
147.图10是用来实现本公开实施例的音译模型的训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
148.如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(rom)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(ram)1003中的计算机程序，来执行各种适当的动作和处理。在ram 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、rom 1002以及ram 1003通过总线1004彼此相连。输入/输出(i/o)接口1005也连接至总线1004。
149.设备1000中的多个部件连接至i/o接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
150.计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如，音译模型的训练方法，或者音译方法。
151.例如，在一些实施例中，音译模型的训练方法，或者音译方法可被实现为计算机软
件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由rom1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到ram1003并由计算单元1001执行时，可以执行上文描述的音译模型的训练方法，或者音译方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行音译模型的训练方法，或者音译方法。
152.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
153.用于实施本公开的音译模型的训练方法，或者音译方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
154.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
155.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
156.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数
字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)、互联网及区块链网络。
157.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与vps服务("virtual private server"，或简称"vps")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。
158.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
159.上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王乔飞乔刚李林高
技术所有人：百度国际科技（深圳）有限公司
我是此专利的发明人

上一篇：一种含温度敏感负荷的夏季负荷预测分层模型
上一篇：一种使用寿命长的空气净化器的制作方法