一种视频的语种字幕的生成方法和系统与流程

文档序号：13642541阅读：266来源：国知局

本发明涉及视频处理技术领域，尤其涉及一种视频的语种字幕的生成方法和系统。

背景技术：

随着科学技术的发展和科技的不断进步，网络视频技术也在不断的发展和进步。音乐、电台等音频节目以及电视剧、电影、综艺、网络直播等视频节目成为人们日常生活中，必不可少的休闲方式。同时，随着多元化的推进和国际间的元素流动，国外的电视剧也越来越受欢迎。所以，播放视频时的对不同的语种字幕进行快速准确的切换成了急需解决的问题。

在现有技术中，播放视频时，获取到视频信息后，基于网络连接，在网络上搜寻视频的字幕，然后在播放界面进行显示。现有语种字幕制作技术是通过字幕人员记录字幕文本，人工翻译，使用字幕制作软件，手动添加时间轴，才得到最后的字幕文件。

然而，在发明人实现本发明的过程中，发现至少存在以下问题：

1、语种字幕生成的效率低、耗时长，浪费人力物力；

2、由于通过人工方式进行制作，人为因素不可控，准确率低。

技术实现要素：

为解决上述技术问题，本发明提供了一种视频的语种字幕的生成方法和系统。

根据本发明的一个方面，本发明实施例提供了，一种视频的语种字幕的生成方法，所述方法包括：

接收用户发送的第一语种字幕请求信息；

根据所述第一语种字幕请求信息获取第一语种字幕对应的第一语言代码；

获取所述视频的第二语种字幕数据信息；

根据所述第二语种字幕数据信息获取第二语种字幕对应的第二语言代码；

根据所述第一语言代码和所述第二语言代码确定是否生成所述第一语种字幕。

通过本实施例提供的：根据第一语种字幕请求信息获取第一语言代码，根据第二语种字幕请求信息获取第二语言代码，根据获取到的第一语言代码和第二语言代码，确认是否生成第一语种字幕的技术方案。一方面，避免了现有技术中通过人工生成语种字幕的效率低、耗时长的技术弊端；另一方面，通过快速获取相关信息(第一语言代码和第二语言代码)，并根据相关信息进行判断，实现了高效且迅速判断是否生成语种字幕的技术效果，以此实现提高生成语种字幕整体效率的技术效果。

进一步地，所述根据所述第一语言代码和所述第二语言代码确定是否生成所述第一字幕语种，具体包括：

当所述第一语言代码与所述第二语言代码不相同时，则获取所述视频的视频流数据；

根据所述视频流数据确定所述视频的视频流数据分片；

根据所述视频流数据分片生成所述第一语种字幕。

通过本实施例提供的：如果第一语言代码和第二语言代码不相同，则需要生成第一语种字幕的技术方案，且具体方案为：根据获取到的视频流数据确定视频流数据分片，根据视频流数据分片生成第一语种字幕。进一步实现了快速生成语种字幕整体效率的技术效果。

进一步地，所述根据所述视频流数据分片生成所述第一语种字幕，具体包括：

通过预先设置的多媒体视频处理工具对所述视频流数据分片进行分离，得到音频流分片文件；

根据所述音频流分片文件生成所述第一语种字幕。

本实施例是对根据视频流数据分片生成第一语种字幕的技术方案进行进一步地阐述。通过对视频流数据分片分离后得到音频分片文件，根据音频分片文件生成第一语种字幕。进一步实现了快速生成语种字幕整体效率的技术效果。

进一步地，所述根据所述音频流分片文件生成所述第一语种字幕，具体包括：

对所述音频流分片文件进行语音识别，得到所述第二语种字幕对应的第二语法信息；

将所述第二语法信息转化为所述第一语种字幕对应的第一语法信息；

根据所述第一语法信息生成所述第一语种字幕。

本实施例是对根据音频流分片文件生成所述第一语种字幕的技术方案进行详细的阐述。根据音频流分片文件得到第二语法信息，将第二语法信息转换为第一语法信息，以根据第一语法信息生成第一语种字幕。进一步实现了快速生成语种字幕整体效率的技术效果。

进一步地，所述根据所述第一语法信息生成所述第一语种字幕，具体包括：

根据所述第一语法信息确定第一语种字幕对应的字幕信息；

获取所述音频流分片文件中与所述字幕信息对应的音频数据字段的时间标示信息；

根据所述字幕信息和所述时间标示信息生成所述第一语种字幕。

本实施例是对根据第一语法信息生成所述第一语种字幕的技术方案进行详细的阐述。根据第一语法信息确定字幕信息，根据字幕信息和获取到的时间标示信息生成第一语种字幕。进一步实现了快速生成语种字幕整体效率的技术效果。

根据本发明的另一个方面，本发明提供了与上述方法相对应的一种视频的语种字幕的生成系统，所述系统包括：

第一接收模块：用于接收用户发送的第一语种字幕请求信息；

第一获取模块：用于根据所述第一语种字幕请求信息获取第一语种字幕对应的第一语言代码；

第二接收模块：用于获取所述视频的第二语种字幕数据信息；

第二获取模块：根据所述第二语种字幕数据信息获取第二语种字幕对应的第二语言代码；

确定模块：用于根据所述第一语言代码和所述第二语言代码确定是否生成所述第一语种字幕。

进一步地，所述确定模块具体用于：

当所述第一语言代码与所述第二语言代码不相同时，则获取所述视频的视频流数据；

根据所述视频流数据确定所述视频的视频流数据分片；

根据所述视频流数据分片生成所述第一语种字幕。

进一步地，所述确定模块还具体用于：

通过预先设置的多媒体视频处理工具对所述视频流数据分片进行分离，得到音频流分片文件；

根据所述音频流分片文件生成所述第一语种字幕。

进一步地，所述确定模块还具体用于：

对所述音频流分片文件进行语音识别，得到所述第二语种字幕对应的第二语法信息；

将所述第二语法信息转化为所述第一语种字幕对应的第一语法信息；

根据所述第一语法信息生成所述第一语种字幕。

进一步地，所述确定模块还具体用于：

根据所述第一语法信息确定第一语种字幕对应的字幕信息；

获取所述音频流分片文件中与所述字幕信息对应的音频数据字段的时间标示信息；

根据所述字幕信息和所述时间标示信息生成所述第一语种字幕。

附图说明

图1为本发明实施例提供的一种视频的语种字幕的生成方法的流程示意图；

图2为本发明另一实施例提供的一种视频的语种字幕的生成方法的流程示意图；

图3为本发明另一实施例提供的一种视频的语种字幕的生成方法的流程示意图；

图4为本发明另一实施例提供的一种视频的语种字幕的生成方法的流程示意图；

图5为本发明另一实施例提供的一种视频的语种字幕的生成方法的流程示意图；

图6为本发明实施例提供的一种视频的语种字幕的生成系统的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透切理解本发明。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

本发明提供了一种视频的语种字幕的生成方法和系统。

根据本发明的一个方面，本发明实施例提供了一种视频的语种字幕的生成方法。

请参阅图1，图1为本发明实施例提供的一种视频的语种字幕的生成方法的流程示意图。

如图1所示，该方法包括：

步骤s100：接收用户发送的第一语种字幕请求信息；

步骤s200：根据第一语种字幕请求信息获取第一语种字幕对应的第一语言代码；

步骤s300：获取视频的第二语种字幕数据信息；

步骤s400：根据第二语种字幕数据信息获取第二语种字幕对应的第二语言代码；

步骤s500：根据第一语言代码和第二语言代码确定是否生成第一语种字幕。

在本实施例中，根据用户发送的第一语种字幕请求信息确定第一语言代码，根据第二语种字幕数据信息获取第二语言代码，根据第一语言代码和第二语言代码判断是否生成第一语种字幕。

具体地，通过iso639_language_code将第一语种字幕请求信息转换成第一语言代码。

例如：用户a在看视频时，想看到中文字幕的视频。于是，发送中文字幕请求信息，系统根据该请求信息获取中文字幕对应的中文代码。获取正在播放视频的字幕数据信息，此时的字幕语种为英语，则根据英语字幕数据信息得到英语代码。根据中文代码和英文代码决定是否生成中文字幕。

请参阅图2，图2为本发明另一实施例提供的一种视频的语种字幕的生成方法的流程示意图。

如图2所示，该方法包括：

步骤s100：接收用户发送的第一语种字幕请求信息；

步骤s200：根据第一语种字幕请求信息获取第一语种字幕对应的第一语言代码；

步骤s300：获取视频的第二语种字幕数据信息；

步骤s400：根据第二语种字幕数据信息获取第二语种字幕对应的第二语言代码；

步骤s510：当第一语言代码与第二语言代码不相同时，则获取视频的视频流数据；

步骤s520：根据视频流数据确定视频的视频流数据分片；

步骤s530：根据视频流数据分片生成第一语种字幕。

在本实施例中，在本实施例中，根据用户发送的第一语种字幕请求信息确定第一语言代码，根据第二语种字幕数据信息获取第二语言代码，当第一语言代码和第二语言代码不相同时，则通过获取到的视频流数据确定视频流数据分片，以根据视频流数据分片生成第一语种字幕。

具体地，通过算法分析第二语种字幕数据信息中的字幕描述符的标签值，以得到第二语种字幕数据信息对应的第二语种字幕第二语言代码。

例如：用户a在看视频时，想看到中文字幕的视频。于是，发送中文字幕请求信息，系统根据该请求信息获取中文字幕对应的中文代码。获取正在播放视频的字幕数据信息，此时的字幕语种为英语，则根据英语字幕数据信息得到英语代码。

明显的，中文代码和英文代码并不相同。所以，获取视频的视频流数据b。根据视频流数据b确定该视频的视频流数据分片c，再根据视频流数据分片c生成中文字幕。

更进一步地，本实施例根据获取到的视频流数据确定视频流数据分片，根据视频流数据分片生成第一语种字幕。进一步实现了快速生成语种字幕整体效率的技术效果。

请参阅图3，图3为本发明另一实施例提供的一种视频的语种字幕的生成方法的流程示意图。

如图3所示，该方法包括：

步骤s100：接收用户发送的第一语种字幕请求信息；

步骤s200：根据第一语种字幕请求信息获取第一语种字幕对应的第一语言代码；

步骤s300：获取视频的第二语种字幕数据信息；

步骤s400：根据第二语种字幕数据信息获取第二语种字幕对应的第二语言代码；

步骤s510：当第一语言代码与第二语言代码不相同时，则获取视频的视频流数据；

步骤s520：根据视频流数据确定视频的视频流数据分片；

步骤s531：通过预先设置的多媒体视频处理工具对视频流数据分片进行分离，得到音频流分片文件；

步骤s532：根据音频流分片文件生成第一语种字幕。

明显的，中文代码和英文代码并不相同。所以，获取视频的视频流数据b。根据视频流数据b确定该视频的视频流数据分片c，通过ffmpeg对视频流数据分片c进行分离，以得到音频流数据分片d，再根据视音频流数据分片d生成中文字幕。

更进一步地，通过对视频流数据分片分离后得到音频分片文件，根据音频分片文件生成第一语种字幕。进一步实现了快速生成语种字幕整体效率的技术效果。

请参阅图4，图4为本发明另一实施例提供的一种视频的语种字幕的生成方法的流程示意图。

如图4所示，该方法包括：

步骤s100：接收用户发送的第一语种字幕请求信息；

步骤s200：根据第一语种字幕请求信息获取第一语种字幕对应的第一语言代码；

步骤s300：获取视频的第二语种字幕数据信息；

步骤s400：根据第二语种字幕数据信息获取第二语种字幕对应的第二语言代码；

步骤s510：当第一语言代码与第二语言代码不相同时，则获取视频的视频流数据；

步骤s520：根据视频流数据确定视频的视频流数据分片；

步骤s531：通过预先设置的多媒体视频处理工具对视频流数据分片进行分离，得到音频流分片文件；

步骤s5321：对音频流分片文件进行语音识别，得到第二语种字幕对应的第二语法信息；

步骤s5322：将第二语法信息转化为第一语种字幕对应的第一语法信息；

步骤s5323：根据第一语法信息生成第一语种字幕。

明显的，中文代码和英文代码并不相同。所以，获取视频的视频流数据b。根据视频流数据b确定该视频的视频流数据分片c，通过ffmpeg对视频流数据分片c进行分离，以得到音频流数据分片d。对音频流数据分片d进行语音识别，识别后得到英语语法信息，将英语语法信息转化为中文语法信息，再根据中文语法信息生成中文字幕。

更进一步地，根据音频流分片文件得到第二语法信息，将第二语法信息转换为第一语法信息，以根据第一语法信息生成第一语种字幕。进一步实现了快速生成语种字幕整体效率的技术效果。

请参阅图5，图5为本发明另一实施例提供的一种视频的语种字幕的生成方法的流程示意图。

如图5所示，该方法包括：

步骤s100：接收用户发送的第一语种字幕请求信息；

步骤s200：根据第一语种字幕请求信息获取第一语种字幕对应的第一语言代码；

步骤s300：获取视频的第二语种字幕数据信息；

步骤s400：根据第二语种字幕数据信息获取第二语种字幕对应的第二语言代码；

步骤s510：当第一语言代码与第二语言代码不相同时，则获取视频的视频流数据；

步骤s520：根据视频流数据确定视频的视频流数据分片；

步骤s531：通过预先设置的多媒体视频处理工具对视频流数据分片进行分离，得到音频流分片文件；

步骤s5321：对音频流分片文件进行语音识别，得到第二语种字幕对应的第二语法信息；

步骤s5322：将第二语法信息转化为第一语种字幕对应的第一语法信息；

步骤s53231：根据第一语法信息确定第一语种字幕对应的字幕信息；

步骤s53232：获取音频流分片文件中与字幕信息对应的音频数据字段的时间标示信息；

步骤s53233：根据字幕信息和时间标示信息生成第一语种字幕。

明显的，中文代码和英文代码并不相同。所以，获取视频的视频流数据b。根据视频流数据b确定该视频的视频流数据分片c，通过ffmpeg对视频流数据分片c进行分离，以得到音频流数据分片d。对音频流数据分片d进行语音识别，识别后得到英语语法信息，将英语语法信息转化为中文语法信息。根据中文语法信息确定中文字幕信息，获取音频流分片文件中与字幕信息对应的音频数据字段的时间标示信息，可以理解的是，在一段视频中，时间信息不同，对应的字幕也会不相同。再根据字幕信息和时间标示信息生成中文字幕。

更进一步地，根据第一语法信息生成所述第一语种字幕的技术方案进行详细的阐述。根据第一语法信息确定字幕信息，根据字幕信息和获取到的时间标示信息生成第一语种字幕。进一步实现了快速生成语种字幕整体效率的技术效果。

根据本发明的另一个方面，本发明提供了与上述方法相对应的一种视频的语种字幕的生成系统。

请参阅图6，图6为本发明实施例提供的一种视频的语种字幕的生成系统的结构示意图。

如图6所示，该系统包括：

第一接收模块：用于接收用户发送的第一语种字幕请求信息；

第一获取模块：用于根据第一语种字幕请求信息获取第一语种字幕对应的第一语言代码；

第二接收模块：用于获取视频的第二语种字幕数据信息；

第二获取模块：根据第二语种字幕数据信息获取第二语种字幕对应的第二语言代码；

确定模块：用于根据第一语言代码和第二语言代码确定是否生成第一语种字幕。

进一步地，确定模块具体用于：

当第一语言代码与第二语言代码不相同时，则获取视频的视频流数据；

根据视频流数据确定视频的视频流数据分片；

根据视频流数据分片生成第一语种字幕。

进一步地，确定模块还具体用于：

通过预先设置的多媒体视频处理工具对视频流数据分片进行分离，得到音频流分片文件；

根据音频流分片文件生成第一语种字幕。

进一步地，确定模块还具体用于：

对音频流分片文件进行语音识别，得到第二语种字幕对应的第二语法信息；

将第二语法信息转化为第一语种字幕对应的第一语法信息；

根据第一语法信息生成第一语种字幕。

进一步地，确定模块还具体用于：

根据第一语法信息确定第一语种字幕对应的字幕信息；

获取音频流分片文件中与字幕信息对应的音频数据字段的时间标示信息；

根据字幕信息和时间标示信息生成第一语种字幕。

本发明通过接收用户发送的第一语种字幕请求信息；根据第一语种字幕请求信息获取第一语种字幕对应的第一语言代码；获取视频的第二语种字幕数据信息；根据第二语种字幕数据信息获取第二语种字幕对应的第二语言代码；根据第一语言代码和第二语言代码确定是否生成第一语种字幕的技术方案，避免了现有技术中通过人工生成语种字幕的效率低、耗时长的技术弊端；的技术问题，实现了高效且迅速判断是否生成语种字幕的技术效果，以此实现提高生成语种字幕整体效率的技术效果。

读者应理解，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈朱尧;邬育靖;周强
技术所有人：成都视达科信息技术有限公司
我是此专利的发明人

上一篇：一种直播内容健康度的监测评估方法及装置与流程
上一篇：动态嵌入视频的播放方法、存储介质及移动终端与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。