一种视频剪辑方法及装置与流程

文档序号：15152357发布日期：2018-08-10 21:16阅读：184来源：国知局

本发明涉及视频处理技术，更具体地，涉及视频剪辑方法及装置。

背景技术：

在传统的视频剪辑流程中，对于对话场景的镜头剪辑，需要多次重复观看多个机位拍摄的对话场景，基本熟悉对话内容之后，再针对内容进行合理剪辑。这个工艺环节耗时严重，剪辑人员需要消耗大量的时间和精力来完成。

现有的最接近的方案，是在传统的剪辑流程中，后期剪辑师需要向拍摄方索取对话场景台词脚本，然后按照脚本去观看素材，辅助完成剪辑。但是，很多情况下，对话是随机完成的，事先并没有台词脚本。或者，后期剪辑师无法获得台词脚本。抑或，即便获得台词脚本，该台词脚本也是设计阶段的文本，和实际的拍摄素材的对应依旧很困难。再加上实拍时，人物的对话与台词脚本未必精确对应。这就导致后期剪辑师在处理对话剪辑时，基本没有参考内容。

技术实现要素：

有鉴于此，本申请提供一种视频剪辑方法及装置，用于解决后期剪辑师在处理对话剪辑时，基本没有参考内容的问题。

根据本发明的第一方面，提供一种视频剪辑方法，包括：

获取第一音频文件和第二音频文件；

识别所述第一音频文件和所述第二音频文件，并生成第一文本和第二文本，所述第一文本包括第一时间标记，所述第二文本包括第二时间标记；

根据所述第一文本和所述第二文本生成第三文本，所述第三文本包括第三时间标记，

剪切所述第一音频文件和所述第二音频文件，以生成第三音频文件，

其中，所述第一文本包括多个第一文本段，所述第一时间标记包括对应于所述多个第一文本段的多个时间信息，所述第二文本包括多个第二文本段，所述第二时间标记包括对应于所述多个第二文本段的多个时间信息，所述第三文本包括多个第三文本段，所述第三时间标记包括对应于所述多个第三文本段的多个时间信息，所述多个第三文本段由所述多个第一文本段和所述多个第二文本段中的一个或多个构成，所述第三时间标记根据所述多个第三文本段和所述多个第一文本段、所述多个第二文本段在内容上的对应关系生成。

优选地，所述第一音频文件根据a机位拍摄视频获得，所述第二音频文件根据b机位拍摄视频获得。

优选地，还包括：以所述第三音频文件替换所述第一音频文件或第二音频文件，以得到新的视频，其中，所述第一音频文件或所述第二音频文件为视频的音频文件。

优选地，所述剪切所述第一音频文件和所述第二音频文件，以生成第三音频文件包括：

根据所述对应关系从所述第一音频文件和/或所述第二音频文件中切割出多个音频片段；以及

将所述多个音频片段组合成所述第三音频文件。

优选地，还包括：格式转换模块，在所述识别所述第一音频文件和所述第二音频文件的步骤之前，将所述第一音频文件和所述第二音频文件从一种音频格式转换成另一种音频格式。

优选地，所述第一时间标记、所述第二时间标记和所述第三时间标记至少包括下述列表中的一种信息：

开始时间和结束时间，表示相应的文本段的开始和结束时间；

持续时间，表示相应的文本段的时间长度。

根据本发明的第二方面，提供一种视频剪辑装置，包括：

音频获取模块，用于获取第一音频文件和第二音频文件；

语音识别模块，用于识别所述第一音频文件和所述第二音频文件，并生成第一文本和第二文本，所述第一文本包括第一时间标记，所述第二文本包括第二时间标记；

文本剪辑模块，用于生成第三文本，所述第三文本包括第三时间标记；

音频剪切模块，用于根据所述第三文本剪切所述第一音频文件和所述第二音频文件，并生成第三音频文件，

优选地，所述音频获取模块根据a机位拍摄视频获得所述第一音频文件，根据b机位拍摄视频获得所述第二音频文件。

优选地，还包括：音频替换模块，用于以所述第三音频文件替换所述第一音频文件或第二音频文件，以得到新的视频，其中，所述第一音频文件或所述第二音频文件为视频的音频文件。

优选地，所述音频剪切模块包括：

剪切单元，用于根据所述对应关系和所述第三标记从所述第一音频文件和/或所述第二音频文件中切割出多个音频片段；

合成单元，用于将所述多个音频片段组合成所述第三音频文件。

本发明提供的实施例将对音频剪辑转换为对文本的剪辑，由于剪辑师阅读文字内容的速度，要远远快于翻看视频的速度。所以，剪辑师可以基于本发明，直接对识别文本进行剪辑，进而将对文本的剪辑操作映射为对音频或视频的剪辑操作后，剪辑效率得到了大幅提高。

附图说明

通过参照以下附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例的视频剪辑方法的示意流程图；

图2a-2b是根据本发明实施例基于a和b机位视频生成新视频的示例；

图3是本发明实施例的视频剪辑装置的示意性结构图。

具体实施方式

以下将参照附图更详细地描述本发明。在各个附图中，相同的元件采用类似的附图标记来表示。为了清楚起见，附图中的各个部分没有按比例绘制。此外，可能未示出某些公知的部分。

术语解释：

语音识别：指利用计算机软件，对输入的音频文件中的人声进行识别，转换为文字内容。

视频制作：指使用专用的视频制作软件，把使用摄影器材拍摄得到的视频素材进行剪辑、加工、调色、配音、添加字幕和特效等处理，得到最终成片的过程。

文件格式：指视频或音频数据按照一定的压缩格式进行压缩后，再按照特定的文件格式存储为文件。常用的视频文件格式包括：avi,mp4,wmv,rmvb,mov,flv,mxf,vob,mpeg等，常用的音频文件格式包括wav,mp3,wma,ac3等。

剪辑：指使用专用的视频编辑软件，对拍摄的视频素材进行片段截取、位置排列、播放速度调整、片段衔接效果调整等处理，生成一个初级样片的过程。

图1是本发明实施例的视频剪辑方法的示意流程图。具体包括以下步骤。

在步骤s100中，获取第一音频文件和第二音频文件。

在步骤中，从音频素材和/或视频素材中获得第一音频文件和第二音频文件。当从视频素材获取相应的音频文件时，需要对视频素材进行解码，以分离出音频流，并将分离出的音频流转换为特定格式的音频文件，例如wav,mp3,wma,ac3格式的音频文件。

在步骤s200中，识别第一音频文件和第二音频文件，并生成第一文本和第二文本。

在本步骤中，对第一音频文件和第二音频文件进行语音识别，根据识别结果生成第一文本和第二文本，第一文本包括第一时间标记，第二文本包括第二时间标记，第一时间标记和第二时间标记用于表示相应文本内容在相应的音频文件中的时间信息，例如，开始时间和结束时间，或持续时间等信息。第一文本包括多个第一文本段，第一时间标记包括对应于多个第一文本段的多个时间信息，第二文本包括多个第二文本段，第二时间标记包括对应于多个第二文本段的多个时间信息。

在步骤s300中，生成第三文本。

在本步骤中，根据第一文本和第二文本生成第三文本。第三文本包括多个第三文本段以及第三时间标记，第三时间标记表示相应文本在第三文本中的时间信息。根据第一时间标记、第一时间标记以及第一文本和第二文本生成第三文本。例如，从第一文本中获得一个第一文本段，从第二文本中获得一个第二文本段，将该第一文本段和该第二文本段组成一个第三文本段，并且根据该第一文本段的时间信息和该第二文本段的时间信息计算该第三文本段的时间信息。

在步骤s400中，剪切第一音频文件和第二音频文件，并生成第三音频文件。

在本步骤中，根据第三文本剪切第一音频文件和第二音频文件，生成第三音频文件。第三文本包含了和第一文本、第二文本在内容上的对应关系，进而将内容上的对应关系映射到时间上，根据时间对应关系从第一音频文件和/或第二音频文件中剪切多个音频片段，以组成第三音频文件。

根据本发明实施例，剪辑师可以通过根据两个音频文件的文本内容，生成新的文本内容，并将该新的文本内容映射到音频文件上，实现通过文本达到剪辑音频文件的目的，从而提高了剪辑效率。

第一音频文件和/或第二音频文件均可以从拍摄后的视频素材中获得，此时，第一时间标记和第二时间标记表示相应音频在视频素材的时间点。当采用第三音频文件替换第一或第二音频文件时，相当于生成了新的视频素材。此时，应该保证第三时间标记和第一音频文件或第二音频文件中的时间标记是一致的，这样新视频素材才不会出现音频混乱的问题。

图2a-2b是根据本发明实施例基于a和b机位视频生成新视频的示例。

参考图2，根据上述实施例，首先获取a机位视频中的音频文件201和b机位视频中的音频文件202，进行语音识别得到a机位文本203和b机位文本204。从图上可知，a机位文本203由a机位对话内容1、a机位对话内容2和a机位对话内容3构成，并且a机位文本203中包含了a机位对话内容1、a机位对话内容2和a机位对话内容3在a机位视频的开始时间和结束时间；b机位文本204由b机位对话内容1、b机位对话内容2和b机位对话内容3构成，并且b机位文本204中包含了b机位对话内容1、b机位对话内容2和b机位对话内容3在b机位视频的开始时间和结束时间。将b机位对话内容1、a机位对话内容2的一部分、b机位对话内容2的一部分和b机位对话内容3合成c文本205。从图上可知，c文本205中还包含了各个文本段的开始时间和结束时间。最终，根据c文本剪切第一音频文件和第二音频文件，生成新音频文件206。具体地，根据“b机位对话内容1”和“b机位对话内容3”各自的时间信息从b机位视频的音频文件中剪切出对应的音频片段，根据“a机位对话内容2的一部分”和“b机位对话内容2的一部分”的各自内容估算对应的音频片段的开始时间和结束时间，并据此剪切获得对应的音频片段。

在进一步的实施例中，将新音频文件替换b机位视频中的音频信息，进而得到一个和b机位视频画面相同，而声音不同的视频。应该指出的是，由于最终制作的视频采用的是b机位视频画面，所以，在c文本205中的时间信息应和b机位视频中的音频信息的时间信息保持一致。

应该指出的是，在上例中，根据a机位对话内容2的一部分获得a机位视频的音频信息的一个音频片段，根据b机位对话内容2的一部分获得b机位视频的音频信息的一个音频片段，并将这两个音频片段合成，但这种方式不能完全保证合成后的音频片段和对应的文本内容一致。由此，为了保证效果，最终的新视频可能还需要剪辑师进行调整。另外，上例中的时间信息采用开始时间和结束时间表示，也可以采用开始时间和持续时间表示时间信息。

图3是本发明实施例的视频剪辑装置的示意性结构图。

参考图3，该视频剪辑装置包括音频获取模块301、语音识别模块302、文本剪辑模块303和音频剪切模块304。

401是实际拍摄的视频素材，包含音频信息。

405是实际拍摄时的对话录音，纯音频素材，在一些情况下，可以省略。

音频获取模块301从401和/或405中分离出音频流并转换成默认格式的音频文件。在可选的实施例中，在音频获取模块301还可以将默认格式的音频文件转换为另一种格式的音频文件，以方便后续的语音识别处理。

音识别模块302进行语音识别，识别出第一音频文件和第二音频文件的文本内容，并生成第一文本和第二文本，第一文本包括第一时间标记，第二文本包括第二时间标记。目前语音识别技术已经成熟，例如第三方提供的语音识别sdk通过网络或本地方式进行调用，返回的结果由文本+文本的起始和结束时间等信息构成。

403表示语音识别模块302输出的带有起时间标记的文本内容。

文本剪辑模块303根据第一文本和第二文本生成第三文本，第三文本包含和第一文本、第二文本在内容上的对应关系以及根据该对应关系生成的第三时间标记。文本剪辑模块303可提供gui界面，剪辑师在gui界面上进行文本剪辑。

音频剪切模块304用于根据第三文本剪切第一音频文件和第二音频文件，并生成第三音频文件。根据第三文本各个文本段落的时间信息，映射到音频信息上，可以得到音频文件404。

进一步地，音频获取模块301根据a机位拍摄视频获得第一音频文件，根据b机位拍摄视频获得第二音频文件。

进一步地，该视频剪辑装置还包括：音频替换模块，用于以第三音频文件替换第一音频文件或第二音频文件，以得到新的视频。例如本例中，可以根据音频文件404得到一个和视频素材401画面相同，声音不同的新的视频。可以得到的音频文件404和/或新的视音频导入到第三方编辑工具中继续进行后续步骤的剪辑工作。

进一步地，音频剪切模块304包括：剪切单元和合成单元。

剪切单元用于根据对应关系和第三标记从第一音频文件和/或第二音频文件中切割出多个音频片段。合成单元用于将多个音频片段组合成第三音频文件。

本发明提供的实施例将对音频剪辑转换为对文本的剪辑，由于剪辑师阅读文字内容的速度，要远远快于翻看视频的速度。所以，当剪辑师基于本发明，直接对识别文本进行剪辑，进而将对文本的剪辑操作映射为对音频或视频的剪辑操作后，剪辑效率得到了大幅提高。

本发明尤其适用于基于对话内容的视频剪辑。对话内容经过语音识别后，转换的文本文件中的每个人的讲话都对应一个时间标记。剪辑对话内容，并根据剪辑结果映射到每个人的讲话的音频文件上，合成这些对话的音频文件得到新的音频文件，该音频文件应用于最终的视频，从而完成视频的剪辑。当多机位的拍摄影片时，利用该实施例能够加快拍摄进度。

本发明实施例虽然以较佳实施例公开如上，但其并不是用来限定权利要求，任何本领域技术人员在不脱离本发明的精神和范围内，都可以做出可能的变动和修改，因此本发明的保护范围应当以本实用新型权利要求所界定的范围为准。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李景颉
技术所有人：北京秀眼科技有限公司
我是此专利的发明人

上一篇：二芳基乙烯基环胺衍生物及其制备方法与流程
上一篇：一种安全长寿命网络连接器的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。