一种字幕输出方法及装置的制造方法

文档序号：9870887阅读：199来源：国知局

一种字幕输出方法及装置的制造方法
【技术领域】
[0001]本发明涉及多媒体技术领域，尤其涉及一种字幕输出方法及装置。
【背景技术】
[0002]随着互联网的迅速发展，多媒体在人类社会中产生的影响和作用越来越明显，且越来越重要，然而，在某些时候，用户接触到的媒体文件并没有提供字幕，例如手机中的录像、外国影片的宣传视频、学习资料等，由于这些媒体文件没有字幕，导致用户仅通过音频和/或视频无法获取更多的信息。

【发明内容】

[0003]本发明实施例提供一种字幕输出方法及装置，以给没有字幕的媒体文件提供字幕，给用户提供更多的信息。
[0004]—方面，提供了一种字幕输出方法，所述方法包括:
[0005]获取媒体文件中的音频数据；
[0006]识别所述音频数据为文字；
[0007]当接收到播放所述媒体文件的指令时，播放所述媒体文件，并且将所述识别出的文字作为所述媒体文件的字幕与所述音频数据同步输出。
[0008]优选地，所述方法还包括:
[0009]当接收到播放所述媒体文件的指令时，监测所述媒体文件中是否包含字幕数据，若否，则延迟设定时间播放所述媒体文件，执行所述识别所述音频数据为文字的步骤；
[0010]当到达所述设定时间时，执行播放所述媒体文件，并且将所述识别出的文字作为所述媒体文件的字幕与所述音频数据同步输出的步骤。
[0011 ]优选地，所述识别所述音频数据为文字，包括:
[0012]识别所述音频数据为第一语言文字；
[0013]所述方法还包括:
[0014]将所述第一语言文字翻译为第二语言文字。
[0015]优选地，所述识别所述音频数据为文字，包括:
[0016]消除所述音频数据中的噪声；
[0017]将消除噪声后的所述音频数据划分为至少一段音频数据；
[0018]提取每段音频数据中的特征矢量；
[0019]在语音数据库中查找与所述每段音频数据中的特征矢量对应的文字，所述语音数据库包括多个音频数据的特征矢量与文字的对应关系；
[0020]将所述查找到的文字生成字幕显示文件。
[0021]优选地，所述将所述识别出的文字作为所述媒体文件的字幕与所述音频信号同步显示，包括:
[0022]将所述字幕显示文件导入所述媒体文件；
[0023]在播放所述媒体文件时，将所述字幕显示文件中的字幕与所述音频信号同步显不O
[0024]另一方面，提供了一种字幕输出装置，所述装置包括:
[0025]获取模块，用于获取媒体文件中的音频数据；
[0026]识别模块，用于识别所述音频数据为文字；
[0027]播放模块，用于当接收到播放所述媒体文件的指令时，播放所述媒体文件，并且将所述识别出的文字作为所述媒体文件的字幕与所述音频数据同步输出。
[0028]优选地，所述装置还包括:
[0029]监测模块，用于当接收到播放所述媒体文件的指令时，监测所述媒体文件中是否包含字幕数据；
[0030]延迟模块，用于若所述监测模块的结果为否，则延迟设定时间播放所述媒体文件；
[0031]所述播放模块具体用于当到达所述设定时间时，播放所述媒体文件，并且将所述识别出的文字作为所述媒体文件的字幕与所述音频数据同步输出。
[0032]优选地，所述识别模块具体用于识别所述音频数据为第一语言文字；
[0033]所述装置还包括:
[0034]翻译模块，用于将所述第一语言文字翻译为第二语言文字。
[0035]优选地，所述识别模块包括:
[0036]消除单元，用于消除所述音频数据中的噪声；
[0037]划分单元，用于将消除噪声后的所述音频数据划分为至少一段音频数据；
[0038]提取单元，用于提取每段音频数据中的特征矢量；
[0039]查找单元，用于在语音数据库中查找与所述每段音频数据中的特征矢量对应的文字，所述语音数据库包括多个音频数据的特征矢量与文字的对应关系；
[0040]生成单元，用于将所述查找到的文字生成字幕显示文件。
[0041 ]优选地，所述播放模块包括:
[0042]导入单元，用于将所述字幕显示文件导入所述媒体文件；
[0043]显示单元，用于在播放所述媒体文件时，将所述字幕显示文件中的字幕与所述音频信号同步显示。
[0044]实施本发明实施例提供的一种字幕输出方法及装置，具有如下有益效果:
[0045]通过获取媒体文件中的音频数据，识别该音频数据为文字，当接收到播放该媒体文件的指令时，播放该媒体文件，并且将识别出的文字作为该媒体文件的字幕与音频数据同步输出，以给没有字幕的媒体文件提供字幕，给用户提供更多的信息。
【附图说明】
[0046]为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0047]图1为本发明实施例提供的一种字幕输出方法的流程示意图；
[0048]图2为本发明实施例提供的另一种字幕输出方法的流程示意图；
[0049]图3为本发明实施例提供的又一种字幕输出方法的流程示意图；
[0050]图4为本发明实施例提供的一种字幕输出装置的结构示意图；
[0051]图5为本发明实施例提供的另一种字幕输出装置的结构示意图；
[0052]图6为本发明实施例提供的又一种字幕输出装置的结构示意图。
【具体实施方式】
[0053]下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0054]图1为本发明实施例提供的一种字幕输出方法的流程示意图，该方法包括以下步骤:
[0055]SlOl，获取媒体文件中的音频数据。
[0056]当要播放媒体文件时，可以预先从网络或本地存储装置获取该媒体文件。媒体文件一般包括视频数据和音频数据。本实施例中，音频数据没有对应的字幕，如果直接播放该媒体文件，用户只能观看视频和听取声音，而不能同时阅读字幕，这给用户造成一定的理解困难或不能给用户提供更多的信息。
[0057]S102，识别所述音频数据为文字。
[0058]在播放媒体文件前，将该媒体文件中的音频数据自动识别为文字，即将声音识别为文字。
[0059]S103，当接收到播放所述媒体文件的指令时，播放所述媒体文件，并且将所述识别出的文字作为所述媒体文件的字幕与所述音频数据同步输出。
[0060]播放媒体文件的同时，将识别出的文字作为媒体文件的字幕与音频数据同步输出，给没有字幕的媒体文件提供了字幕，从而可以给用户提供更多的信息。进行同步显示，即在播放音频数据时，显示对应的字幕，字幕的显示时间上与对应的音频数据播放同步，可采用现有的时间同步技术实现。
[0061]根据本发明实施例提供的一种字幕输出方法，通过获取媒体文件中的音频数据，识别该音频数据为文字，当接收到播放该媒体文件的指令时，播放该媒体文件，并且将识别出的文字作为该媒体文件的字幕与音频数据同步输出，以给没有字幕的媒体文件提供字幕，给用户提供更多的信息。
[0062]图2为本发明实施例提供的另一种字幕输出方法的流程示意图，该方法包括以下步骤:
[0063]S201，当接收到播放媒体文件的指令时，监测所述媒体文件中是否包含字幕数据；若是，则进行到步骤S202，否则，转至步骤S203。
[0064]S202，播放所述媒体文件。
[0065]S203，延迟设定时间播放所述媒体文件。
[0066]对于媒体文件中是否包含字幕数据，在播放媒体文件之前，需要进行监测，对于已经存在字幕数据的媒体文件则可以直接播放该媒体文件，对于没有字幕数据的媒体文件则需要延迟设定时间播放该媒体文件，以在该设定时间内获得媒体文件的字幕。
[0067]S204，获取所述媒体文件中的音频数据。
[0068]从网络或本地存储装置获取该媒体文件。媒体文件一般包括视频数据和音频数据。
[0069]S205，消除所述音频数据中的噪声。
[0070]消除原始音频数据中的噪声，使处理后的数据更能反映语音的本质特征。
[007

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：廖伟健;
技术所有人：魅族科技（中国）有限公司;
我是此专利的发明人

上一篇：多媒体文件制作方法
上一篇：请求信息的处理方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。