基于人工智能的视频字幕实时翻译方法、介质和设备与流程

文档序号：18465751发布日期：2019-08-17 02:26阅读：391来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及视频数据处理技术领域，具体而言，本发明涉及一种基于人工智能的视频字幕实时翻译方法、装置、计算机可读存储介质和计算机设备。

背景技术：

随着全球资源共享的蓬勃发展和互联网的快速普及，通过视频播放应用观看视频成为了获取全球资源的重要途径。当观看非母语语言的视频时，人们往往需要借助合适语言的字幕。

目前，市场上被人们广泛使用的视频播放应用通常不支持字幕的多语言的实时翻译，只能支持一、两种通用语言的切换，难以满足不同的用户获取其合适语言的字幕的需求，从而影响用户的应用体验满意度。

技术实现要素：

为至少能解决上述的技术缺陷之一，本发明提供了以下技术方案的基于人工智能的视频字幕实时翻译方法及对应的装置、计算机可读存储介质和计算机设备。

本发明的实施例根据一个方面，提供了一种基于人工智能的视频字幕实时翻译方法，包括如下步骤：

基于文字识别技术对当前视频帧的字幕进行识别，获取字幕的文字内容；

将所述文字内容输入预先训练的翻译模型，得到将所述文字内容翻译成预置目标语言的目标语言字幕；

在所述当前视频帧中显示所述目标语言字幕。

在一个实施例中，所述基于文字识别技术对当前视频帧的字幕进行识别，获取字幕的文字内容之前，还包括：

接收用户发送的将字幕翻译成预置目标语言的请求；

响应所述请求，调起视频播放应用内置的翻译sdk；其中，所述翻译sdk包含预先训练的翻译模型。

在一个实施例中，所述基于文字识别技术对当前视频帧的字幕进行识别，获取字幕的文字内容；将所述文字内容输入预先训练的翻译模型，得到将所述文字内容翻译成预置目标语言的目标语言字幕，包括：

判断是否预存有所述当前视频帧的字幕的文字内容；

若是，将预存的字幕的文字内容输入预先训练的翻译模型，得到将所述文字内容翻译成预置目标语言的目标语言字幕；

若否，基于文字识别技术对当前视频帧的字幕进行识别，获取字幕的文字内容；将所述文字内容输入预先训练的翻译模型，得到将所述文字内容翻译成预置目标语言的目标语言字幕。

在一个实施例中，所述将所述文字内容输入预先训练的翻译模型，得到目标语言字幕，包括：

根据所述文字内容，确定字幕的初始语言；

根据所述初始语言和所述目标语言，获取预先训练的用于将所述初始语言翻译为所述预置目标语言的翻译模型；

将所述文字内容输入所述用于将所述初始语言翻译为所述预置目标语言的翻译模型，得到将所述文字内容翻译成预置目标语言的目标语言字幕。

在一个实施例中，所述将所述文字内容输入预置的翻译模型，得到目标语言字幕，包括：

获取预先训练的多语言翻译模型；

将所述文字内容输入所述多语言翻译模型，得到将所述文字内容翻译成预置目标语言的目标语言字幕。

在一个实施例中，所述在所述当前视频帧中显示所述目标语言字幕，包括：

在所述当前视频帧中覆盖显示或者添加显示所述目标语言字幕。

在一个实施例中，所述在所述当前视频帧中显示所述目标语言字幕之后，还包括：

采集用户对所述目标语言字幕的校正信息；

根据所述校正信息，生成修正样本；

根据所述修正样本，修正所述翻译模型。

此外，本发明的实施例根据另一个方面，提供了一种基于人工智能的视频字幕实时翻译装置，包括：

字幕内容获取模块，用于基于文字识别技术对当前视频帧的字幕进行识别，获取字幕的文字内容；

翻译模块，用于将所述文字内容输入预先训练的翻译模型，得到将所述文字内容翻译成预置目标语言的目标语言字幕；

翻译字幕显示模块，用于在所述当前视频帧中显示所述目标语言字幕。

本发明的实施例根据又一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于人工智能的视频字幕实时翻译方法。

本发明的实施例根据再一个方面，提供了一种计算机设备，所述计算机包括一个或多个处理器；存储器；一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个计算机程序配置用于：执行上述的基于人工智能的视频字幕实时翻译方法。

本发明与现有技术相比，具有以下有益效果：

本发明提供的基于人工智能的视频字幕实时翻译方法、装置、计算机可读存储介质和计算机设备，将人工智能技术应用到视频字幕多种语言实时翻译中，基于文字识别技术和预先训练的翻译模型实现视频流中视频帧的字幕实时翻译及显示，可支持多种语言的实时翻译，满足不同用户获取其合适语言的字幕的需求，显著提高用户的应用体验满意度。

此外，通过在视频播放应用内设置翻译sdk，并调用翻译sdk可快速实现视频字幕多语言实时翻译，满足不同用户获取其合适语言的字幕的需求，显著提高用户的应用体验满意度。

此外，通过采集用户提交的所述目标语言字幕的校正信息并根据采集的校正信息生成修正样本，根据生成的多个修正样本通过机器学习不断修正所述翻译模型，从而不断提高所述翻译模型翻译的精确度。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例提供的基于人工智能的视频字幕实时翻译方法的方法流程图；

图2为本发明实施例提供的基于人工智能的视频字幕实时翻译装置的结构示意图；

图3为本发明实施例提供的计算机设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本发明实施例提供了一种基于人工智能的视频字幕实时翻译方法，如图1所示，该方法包括：

步骤s110：基于文字识别技术对当前视频帧的字幕进行识别，获取字幕的文字内容。

对于本实施例，所述文字识别技术具体为orc(opticalcharacterrecognition)识别算法，orc识别算法可实现将图像信息转换为文字信息。

对于本实施例，视频流由一个个的视频帧组成，视频帧是视频流在某个时间点上的视频画面，而字幕则是与该视频画面对应的文本。

对于本实施例，为避免对视频场景所包含的文字，例如视频画面出现的广告牌文字进行识别提取，可预先限定基于文字识别技术进行识别及文字内容提取的范围，该范围可具体为字幕区域，例如视频画面的最顶端或最底端等。基于orc文字识别技术对当前视频帧预置字幕区域中的字幕进行识别，得到当前视频帧中字幕的文字内容。

步骤s120：将所述文字内容输入预先训练的翻译模型，得到将所述文字内容翻译成预置目标语言的目标语言字幕。

对于本实施例，所述翻译模型用于将字幕的文字内容从一种语言翻译成另一种语言，其中，所述翻译模型基于神经网络，例如卷积神经网络(cnn)或者循环神经网络(rnn)等预先训练而成，具有翻译数据处理效率高效的特点，可实现视频流的字幕实时翻译。

对于本实施例，预先训练有翻译模型，所述翻译模型可以是初始语言和翻译目标语言固定的翻译模型，仅可用于将字幕文字内容从该翻译模型预置的初始语言翻译成预置的翻译目标语言，通过预先训练多个初始语言和翻译目标语言固定的翻译模型可实现支持视频字幕多语言实时翻译；此外，所述翻译模型还可以是多语言翻译模型。

步骤s130：在所述当前视频帧中显示所述目标语言字幕。

对于本实施例，在当前视频帧字幕的文字内容翻译完成之后随即在所述当前视频帧中显示所述目标语言字幕，以实现视频流中视频帧的字幕实时翻译及显示。

本发明实施例提供的基于人工智能的视频字幕实时翻译方法，将人工智能技术应用到视频字幕多种语言实时翻译中，基于文字识别技术和预先训练的翻译模型实现视频流中视频帧的字幕实时翻译及显示，可支持多种语言的实时翻译，满足不同用户获取其合适语言的字幕的需求，显著提高用户的应用体验满意度。

在一个实施例中，所述基于文字识别技术对当前视频帧的字幕进行识别，获取字幕的文字内容之前，还包括：

接收用户发送的将字幕翻译成预置目标语言的请求；

响应所述请求，调起视频播放应用内置的翻译sdk；其中，所述翻译sdk包含预先训练的翻译模型。

对于本实施例，在接收并响应用户发送的将字幕翻译成预置目标语言的请求之后才执行所述基于文字识别技术对当前视频帧的字幕进行识别，获取字幕的文字内容的步骤。用户可在观看视频之前或者观看视频过程中发送将字幕翻译成预置目标语言的请求。例如，用户可通过点击用于切换字幕语言的控件实现字幕翻译请求发送，且通过进一步点击选择所要切换成的字幕语言来确定字幕翻译的预置目标语言。

对于本实施例，视频播放应用中可预先内置有翻译sdk(softwaredevelopmentkit，软件开发工具包)，所述翻译sdk封装有预置的用于实现字幕翻译的翻译模型。当视频播放应用接收到用户发送的字幕翻译请求时，立即响应所述请求，并调其应用内的翻译sdk，基于翻译sdk内封装有的翻译模型实现字幕多语言实时翻译。

在本实施例中，通过在视频播放应用内设置翻译sdk，并调用翻译sdk可快速实现视频字幕多语言实时翻译，满足不同用户获取其合适语言的字幕的需求，显著提高用户的应用体验满意度。

判断是否预存有所述当前视频帧的字幕的文字内容；

若是，将预存的字幕的文字内容输入预先训练的翻译模型，得到将所述文字内容翻译成预置目标语言的目标语言字幕；

对于本实施例，为保证视频流播放流畅，可在预存有当前视频帧的字幕文字内容时，直接对预存的字幕文字内容进行翻译，以进一步提高字幕翻译的效率。

具体地，判断预置数据库中是否预存有所述当前视频帧的字幕的文字内容；若预置数据库中预存有所述当前视频帧的字幕的文字内容，则直接将预存的字幕的文字内容输入预先训练的翻译模型，得到将所述文字内容翻译成预置目标语言的目标语言字幕；若预置数据库中未预存有所述当前视频帧的字幕的文字内容，则执行所述基于文字识别技术对当前视频帧的字幕进行识别，获取字幕的文字内容；将所述文字内容输入预先训练的翻译模型，得到将所述文字内容翻译成预置目标语言的目标语言字幕的步骤。

在一个实施例中，所述将所述文字内容输入预先训练的翻译模型，得到目标语言字幕，包括：

根据所述文字内容，确定字幕的初始语言；

根据所述初始语言和所述目标语言，获取预先训练的用于将所述初始语言翻译为所述预置目标语言的翻译模型；

将所述文字内容输入所述用于将所述初始语言翻译为所述预置目标语言的翻译模型，得到将所述文字内容翻译成预置目标语言的目标语言字幕。

对于本实施例，所述翻译模型可以是预先设定初始语言和翻译目标语言的翻译模型。例如，日韩翻译模型仅可实现将输入翻译模型的日文正确翻译成韩文。

对于本实施例，当所述翻译模型为初始语言和翻译目标语言预先设定的翻译模型时，需根据字幕的文字内容进一步确定字幕对应的初始语言，并根据初始语言和预置目标语言获取对应的翻译模型以实现将文字内容从初始语言翻译为预置目标语言，得到目标语言字幕。

例如，确定获取的字幕的文字内容的初始语言为英文，而所述预置目标语言为中文，则需获取预先训练的英中翻译模型对所述文字内容进行翻译，由英文字幕翻译得到中文字幕。基于预先设定初始语言和翻译目标语言的翻译模型进行翻译，可有效保证翻译的准确率。

在一个实施例中，所述将所述文字内容输入预置的翻译模型，得到目标语言字幕，包括：

获取预先训练的多语言翻译模型；

将所述文字内容输入所述多语言翻译模型，得到将所述文字内容翻译成预置目标语言的目标语言字幕。

对于本实施例，所述翻译模型还可以是多语言翻译模型，所述多语言翻译模型可将可作为模型输入数据的多种语言字幕的文字内容翻译成预置目标语言。

对于本实施例，当所述翻译模型为多语言翻译模型时，可直接获取预先训练的多语言模型，将获取字幕的文字内容和所述预置目标语言输入至所述多语言模型，实现将字幕的文字内容翻译为预置目标语言，得到目标语言字幕。多语言翻译模型可实现多种语言之间的翻译，基于多语言翻译模型进行翻译可无需为各个初始语言和翻译目标语言一一预先训练对应的翻译模型，显著减少翻译模型训练的工作量。

在一个实施例中，所述在所述当前视频帧中显示所述目标语言字幕，包括：

在所述当前视频帧中覆盖显示或者添加显示所述目标语言字幕。

对于本实施例，所述目标语言字幕可替换初始语言的字幕，覆盖显示于所述当前视频帧中。此外，所述目标语言字幕也可以与初始语言的字幕同时显示，即添加显示在所述当前视频帧中原字幕的上方或者下方。用户可在对应的视频帧观看到实时翻译得到的目标语言字幕。

在一个实施例中，所述在所述当前视频帧中显示所述目标语言字幕之后，还包括：

采集用户对所述目标语言字幕的校正信息；

根据所述校正信息，生成修正样本；

根据所述修正样本，修正所述翻译模型。

对于本实施例，用户可对当前视频帧中显示的目标语言字幕进行校正，也可以对翻译字幕数据库中已有的翻译字幕进行校正。对于翻译不妥当的地方，用户可通过点击相应的字幕并提交修改，将校正信息传至视频播放应用的后台，后台采集用户提交对所述目标语言字幕的校正信息，并将采集的校正信息和对应的初始语言的字幕文字内容生成修正样本，根据生成的多个修正样本通过机器学习不断修正所述翻译模型，从而不断提高所述翻译模型翻译的精确度。

此外，本发明实施例提供了一种基于人工智能的视频字幕实时翻译装置，如图2所示，所述装置包括：字幕内容获取模块21、翻译模块22和翻译字幕显示模块23；其中，

所述字幕内容获取模块21，用于基于文字识别技术对当前视频帧的字幕进行识别，获取字幕的文字内容；

所述翻译模块22，用于将所述文字内容输入预先训练的翻译模型，得到将所述文字内容翻译成预置目标语言的目标语言字幕；

所述翻译字幕显示模块23，用于在所述当前视频帧中显示所述目标语言字幕。

在一个实施例中，所述基于文字识别技术对当前视频帧的字幕进行识别，获取字幕的文字内容之前，还包括：

接收用户发送的将字幕翻译成预置目标语言的请求；

响应所述请求，调起视频播放应用内置的翻译sdk；其中，所述翻译sdk包含预先训练的翻译模型。

在一个实施例中，所述字幕内容获取模块21和所述翻译模块22，具体用于：

判断是否预存有所述当前视频帧的字幕的文字内容；

若是，将预存的字幕的文字内容输入预先训练的翻译模型，得到将所述文字内容翻译成预置目标语言的目标语言字幕；

在一个实施例中，所述翻译模块22，具体用于：

根据所述文字内容，确定字幕的初始语言；

根据所述初始语言和所述目标语言，获取预先训练的用于将所述初始语言翻译为所述预置目标语言的翻译模型；

将所述文字内容输入所述用于将所述初始语言翻译为所述预置目标语言的翻译模型，得到将所述文字内容翻译成预置目标语言的目标语言字幕。

在一个实施例中，所述翻译模块22，具体用于：

获取预先训练的多语言翻译模型；

将所述文字内容输入所述多语言翻译模型，得到将所述文字内容翻译成预置目标语言的目标语言字幕。

在一个实施例中，所述翻译字幕显示模块23，具体用于：

在所述当前视频帧中覆盖显示或者添加显示所述目标语言字幕。

在一个实施例中，所述在所述当前视频帧中显示所述目标语言字幕之后，还包括：

采集用户对所述目标语言字幕的校正信息；

根据所述校正信息，生成修正样本；

根据所述修正样本，修正所述翻译模型。

本发明提供的基于人工智能的视频字幕实时翻译装置可实现：将人工智能技术应用到视频字幕多种语言实时翻译中，基于文字识别技术和预先训练的翻译模型实现视频流中视频帧的字幕实时翻译及显示，可支持多种语言的实时翻译，满足不同用户获取其合适语言的字幕的需求，显著提高用户的应用体验满意度。还可实现：通过在视频播放应用内设置翻译sdk，并调用翻译sdk可快速实现视频字幕多语言实时翻译，满足不同用户获取其合适语言的字幕的需求，显著提高用户的应用体验满意度；通过采集用户提交的所述目标语言字幕的校正信息并根据采集的校正信息生成修正样本，根据生成的多个修正样本通过机器学习不断修正所述翻译模型，从而不断提高所述翻译模型翻译的精确度。

本发明实施例提供的基于人工智能的视频字幕实时翻译装置可以实现上述提供的方法实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。

此外，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现以上实施例所述的基于人工智能的视频字幕实时翻译方法。其中，所述计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、cd-rom、和磁光盘)、rom(read-onlymemory，只读存储器)、ram(randomaccessmemory，随即存储器)、eprom(erasableprogrammableread-onlymemory，可擦写可编程只读存储器)、eeprom(electricallyerasableprogrammableread-onlymemory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，存储设备包括由设备(例如，计算机、手机)以能够读的形式存储或传输信息的任何介质，可以是只读存储器，磁盘或光盘等。

本发明提供的计算机可读存储介质，可实现：将人工智能技术应用到视频字幕多种语言实时翻译中，基于文字识别技术和预先训练的翻译模型实现视频流中视频帧的字幕实时翻译及显示，可支持多种语言的实时翻译，满足不同用户获取其合适语言的字幕的需求，显著提高用户的应用体验满意度。还可实现：通过在视频播放应用内设置翻译sdk，并调用翻译sdk可快速实现视频字幕多语言实时翻译，满足不同用户获取其合适语言的字幕的需求，显著提高用户的应用体验满意度；通过采集用户提交的所述目标语言字幕的校正信息并根据采集的校正信息生成修正样本，根据生成的多个修正样本通过机器学习不断修正所述翻译模型，从而不断提高所述翻译模型翻译的精确度。

本发明实施例提供的计算机可读存储介质可以实现上述提供的方法实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。

此外，本发明实施例还提供了一种计算机设备，如图3所示。本实施例所述的计算机设备可以是服务器、个人计算机以及网络设备等设备。所述计算机设备包括处理器302、存储器303、输入单元304以及显示单元305等器件。本领域技术人员可以理解，图3示出的设备结构器件并不构成对所有设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件。存储器303可用于存储计算机程序301以及各功能模块，处理器302运行存储在存储器303的计算机程序301，从而执行设备的各种功能应用以及数据处理。存储器可以是内存储器或外存储器，或者包括内存储器和外存储器两者。内存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦写可编程rom(eeprom)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、zip盘、u盘、磁带等。本发明所公开的存储器包括但不限于这些类型的存储器。本发明所公开的存储器只作为例子而非作为限定。

输入单元304用于接收信号的输入，以及接收用户输入的关键字。输入单元304可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并根据预先设定的程序驱动相应的连接装置；其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元305可用于显示用户输入的信息或提供给用户的信息以及计算机设备的各种菜单。显示单元305可采用液晶显示器、有机发光二极管等形式。处理器302是计算机设备的控制中心，利用各种接口和线路连接整个电脑的各个部分，通过运行或执行存储在存储器302内的软件程序和/或模块，以及调用存储在存储器内的数据，执行各种功能和处理数据。

作为一个实施例，所述计算机设备包括：一个或多个处理器302，存储器303，一个或多个计算机程序301，其中所述一个或多个计算机程序301被存储在存储器303中并被配置为由所述一个或多个处理器302执行，所述一个或多个计算机程序301配置用于执行以上任一实施例所述的基于人工智能的视频字幕实时翻译方法。

本发明提供的计算机设备，可实现：将人工智能技术应用到视频字幕多种语言实时翻译中，基于文字识别技术和预先训练的翻译模型实现视频流中视频帧的字幕实时翻译及显示，可支持多种语言的实时翻译，满足不同用户获取其合适语言的字幕的需求，显著提高用户的应用体验满意度。还可实现：通过在视频播放应用内设置翻译sdk，并调用翻译sdk可快速实现视频字幕多语言实时翻译，满足不同用户获取其合适语言的字幕的需求，显著提高用户的应用体验满意度；通过采集用户提交的所述目标语言字幕的校正信息并根据采集的校正信息生成修正样本，根据生成的多个修正样本通过机器学习不断修正所述翻译模型，从而不断提高所述翻译模型翻译的精确度。

本发明实施例提供的计算机设备可以实现上述提供的方法实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张誉怀
技术所有人：深圳壹账通智能科技有限公司
我是此专利的发明人

上一篇：一种可焊后热处理的无缝埋弧药芯焊丝的制作方法
上一篇：一种用于组合混凝土梁的水泥基型材及其构造方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。