视频配音方法和装置的制造方法

文档序号：10691434阅读：842来源：国知局

视频配音方法和装置的制造方法
【专利摘要】本发明提供了一种视频配音方法，包括：客户端检测到用户的加入会话操作，响应所述加入会话操作，打开会话界面，在所述会话界面进行视频文件的播放，在播放所述视频文件时，所述客户端获取自身采集的和/或所述会话中其他客户端采集后发送的配音音频数据，所述配音音频数据为根据所属客户端采集的添加了时间戳的音频数据，按照所述时间戳，将所述音频数据和所述视频文件合成配音视频文件。此外，还提供了一种与该方法匹配的视频配音装置。上述视频配音方法和装置能够实现一个视频配音场景下多路音频数据的获得，提高多方进行视频配音的效率。
【专利说明】
视频配音方法和装置
技术领域
[0001]本发明涉及互联网应用技术领域，特别涉及一种视频配音方法和装置。
【背景技术】
[0002]随着互联网技术的高速发展以及人们生活质量的提高，人们在生活中的娱乐活动越来越丰富，对电视、电影等视频片段进行配音正逐步走向人们的生活。
[0003]目前，对视频进行配音时，通过在终端进行视频的播放，然后对视频进行配音，得到配音后的视频文件。
[0004]然而，当有多个用户对同一个视频进行合作配音时，上述视频配音方法要求多个用户同时对着同一个终端进行配音，而在配音时用户的声音可能有大小、远近的差别，从而导致配音的效果较差；并且配音时如果有一个用户表现不佳，可能就要重新配音，过程繁琐，也受场地、人数的限制。

【发明内容】

[0005]基于此，有必要提供一种视频配音方法，所述方法能够实现一个视频配音场景下多路音频数据的获得，提高多方进行视频配音的效率。
[0006]另外，还有必要提供一种视频配音装置，所述装置能够实现一个视频配音场景下多路音频数据的获得，提高多方进行视频配音的效率。
[0007]为解决上述技术问题，将采用如下技术方案:
第一方面，提供了一种视频配音方法，包括:
客户端检测到用户的加入会话操作，响应所述加入会话操作，打开会话界面；
在所述会话界面进行视频的播放；
在播放所述视频文件时，获取所述客户端自身采集的和/或所述会话中其他客户端采集后发送的配音音频数据，所述配音音频数据为根据所属客户端采集的添加了时间戳的音频数据，所述时间戳为采集所述配音音频数据时对应所述视频文件播放的时间点；
按照所述时间戳，将所述配音音频数据和所述视频文件合成配音视频文件。
[0008]结合第一方面，在第一种可能的实现方式中，所述客户端为所述视频文件播放的操控端，所述在所述会话界面进行视频文件的播放的步骤包括:
通过在所述会话界面触发进行视频文件的播放，在自身的会话界面中播放所述视频文件，并将所述视频文件发送至所述会话中的其它客户端。
[0009]结合第一方面，在第二种可能的实现方式中，所述客户端为所述视频文件播放的受控端，所述在所述会话界面进行视频文件的播放的步骤包括:
接收所述会话中其它客户端发送的视频文件；
在自身的会话界面进行所述视频文件的播放。
[0010]结合第一方面，在第三种可能的实现方式中，所述按照所述时间戳，将所述配音音频数据和所述视频文件合成配音视频文件的步骤包括: 将所述视频文件解析为背景音频数据与视频数据；
按照所述时间戳，将所述配音音频数据与所述背景音频数据进行混音，得到混音音频数据；
将所述混音音频数据与所述视频数据进行编码并生成配音视频文件。
[0011]结合第一方面，在第四种可能的实现方式中，所述将所述配音音频数据与所述背景音频数据进行混音的步骤之前，所述方法还包括:
对所述配音音频数据和/或所述背景音频数据进行处理。
[0012 ]第二方面，提供了一种视频配音装置，该装置包括:
会话发起模块，用于检测到用户的加入会话操作，响应所述加入会话操作，打开会话界面；
视频播放模块，用于在所述会话界面进行视频文件的播放；
配音音频数据获取模块，用于获取所述客户端自身采集的和/或所述会话中其他客户端采集后发送的配音音频数据，所述配音音频数据为根据所属客户端采集的添加了时间戳的音频数据，所述时间戳为采集所述配音音频数据时对应所述视频文件播放的时间点；合成模块，用于按照所述时间戳，将所述配音音频数据和所述视频文件合成配音视频文件。
[0013]结合第二方面，在第一种可能的实现方式中，所述视频播放模块运行于操控所述视频文件播放的客户端，所述视频播放模块包括:
视频播放单元，用于通过在所述会话界面触发进行视频文件的播放，在自身的会话界面中播放所述视频文件；
视频文件发送单元，将所述视频文件发送至所述会话中的其它客户端。
[0014]结合第二方面，在第二种可能的实现方式中，所述视频播放模块运行于受控所述视频文件播放的客户端，所述视频播放模块包括:
视频文件接收单元，用于接收所述会话中其它客户端发送的视频文件；
视频播放单元，用于在自身的会话界面进行所述视频文件的播放。
[0015]结合第二方面，在第三种可能的实现方式中，所述合成模块包括:
解析单元，用于将所述视频文件解析为背景音频数据与视频数据；
混音单元，用于按照所述时间戳，将所述配音音频数据与所述背景音频数据进行混音，得到混音音频数据；
编码生成单元，用于将所述混音音频数据与所述视频数据进行编码并生成配音视频文件。
[0016]结合第二方面，在第四种可能的实现方式中，所述装置还包括:
音频处理模块，用于对所述配音音频数据和/或视频文件的背景音频数据进行处理。
[0017]在对视频进行配音时，通过加入会话的操作指令，用户加入会话并进入会话界面，在会话界面客户端进行视频文件的播放，在播放视频文件时，获取客户端自身采集的和/或在会话中其他客户端采集后发送的配音音频数据，配音音频数据为根据所属客户端采集的添加了时间戳的音频数据，时间戳为采集配音音频数据时对应视频文件播放的时间点，按照所述时间戳，将配音音频数据和视频文件合成配音视频文件，使多个客户端之间建立会话连接后，能够获取不同客户端的多路音频数据，避免了多个用户同时对着同一个客户端进行配音时出现配音的音效效果较差的问题，并且能过对其中音效效果不理想的一路或多路音频数据进行单独配音，提高了对视频进行配音的效率。
【附图说明】
[0018]图1是一个实施例中视频配音方法的流程图；
图2是一个实施例中针对图1中客户端为视频文件播放的操控端时在会话界面进行视频文件的播放步骤的方法流程图；
图3是另一个实施例中针对图1中客户端为视频文件播放的受控端时在会话界面进行视频文件的播放步骤的方法流程图；
图4是一个实施例中针对图1中按照时间戳，将配音音频数据和视频文件合成配音视频文件步骤的方法流程图；
图5是一个实施例中视频配音装置的结构示意图；
图6是一个实施例中针对图5中视频播放模块运行于操控视频文件播放的客户端时视频播放模块的结构示意图；
图7是一个实施例中针对图5中视频播放模块运行于受控视频文件播放的客户端时视频播放模块的结构示意图；
图8是另一个实施例中针对图5中合成模块的结构示意图。
【具体实施方式】
[0019]体现本发明特征与优点的典型实施方式将在以下的说明中详细叙述。应理解的是本发明能够在不同的实施方式上具有各种的变化，其皆不脱离本发明的范围，且其中的说明及图示在本质上是当作说明之用，而非用以限制本发明。
[0020]基于此，为提高视频配音效率，特提出一种视频配音方法，该视频配音方法由计算机程序实现，与之相对应的，所构建的视频配音装置则被存储于带有屏幕的终端设备中，以在该终端设备中运行，进而提高多方进行视频配音的效率。
[0021]在一个实施例中，具体的，该视频配音方法如图1所示，包括:
步骤SI 10，客户端检测到用户的加入会话操作，响应加入会话操作，打开会话界面。
[0022]客户端是运行于终端设备中的视频配音软件。通过操作指令触发，客户端通过用户建立会话连接，通过会话连接使得用户所在的客户端以会话界面的形式显示于终端设备的显示屏中，方便用户进行控制。
[0023]客户端之间可以是基于互联网通过服务器建立会话连接，也可以通过局域网建立会话连接，还可以是以其他的方式建立会话连接，在此不做限定。
[0024]触发会话连接的操作指令可以是通过会话界面中按钮被触发而生成的，也可以是通过其他的方式进行触发。
[0025]例如，用户a开通一个房间，邀请用户b和用户c进入房间，在用户b和用户c同意后，用户a、b和c分别所在的客户端A、B和C之间建立会话连接关系。
[0026]步骤S120，在会话界面进行视频文件的播放。
[0027]可以理解的，所进行的会话中，参与的客户端除了包括本客户端之外，还包括了其它客户端。其中，对于加入会话的多个客户端而言，一客户端作为视频播放的操控端，其它客户端则作为视频播放的受控端。
[0028]由此将使加入会话的所有客户端均在一客户端的操控下进行相同视频的播放。[0029 ]例如，客户端A、B和C之间建立会话连接，客户端A在其会话界面中进行视频S的播放，则客户端A作为视频S播放的操控端，而客户端B和C作为视频S播放的受控端，客户端B和C在他们各自的会话界面中也同样进行视频S的播放。
[0030]步骤S130，在播放视频文件时，客户端获取自身采集的和/或会话中其他客户端采集后发送的配音音频数据，配音音频数据为根据所属客户端采集的添加了时间戳的音频数据，时间戳为采集配音音频数据时对应视频文件播放的时间点。
[0031]配音音频数据是为视频进行配音的音频数据。所指的配音音频数据包括来自于本客户端自身采集的配音音频数据和会话中其它客户端采集的配音音频数据。因此，对于本客户端，随着自身所进行的视频文件播放，将接收到自身采集得到的配音音频数据，也将接收到其它客户端采集得到并传输的配音音频数据。
[0032]时间戳是对播放的视频文件配音时，对应该视频文件播放的时间点。对于一段配音音频数据而言，刚开始采集时对应视频播放的一个时间点;采集结束后，对应视频文件播放的另一个时间点。因此，对一段配音音频数据而言，一个时间戳对应着视频文件播放的两个时间点。
[0033]在客户端自身采集配音音频数据的同时，对视频文件播放的时间戳进行标记，并将标记的时间戳添加入采集的配音音频数据中。
[0034]步骤S140，按照时间戳，将配音音频数据和视频文件合成配音视频文件。
[0035]每个标记后的时间戳都有对应的音频数据，也有对应的视频文件，这样，获取到的音频数据通过标记的时间戳与视频文件相对应。按照时间戳，将音频数据和视频文件进行合成，生成配音视频文件。
[0036]由此，多个客户端建立会话连接，在会话连接中客户端进行视频文件的播放，并获取用于为视频配音的音频数据，从而即便音频数据的提供者不在同一现场时，也能实现一个视频配音场景下多路音频数据的获得，大大提高了多方进行视频配音的效率。
[0037]进一步的，在一个实施例中，多个客户端建立会话连接时，会话中的任一客户端均可进行视频文件的播放，而其他客户端通过该会话连接，也将在各自的会话界面中进行视频文件的播放。
[0038]例如，客户端A、B、C建立会话连接，客户端A进行视频文件的播放时，客户端B和C的会话界面中均进行该视频文件的播放。
[0039]由此，会话连接中的任一客户端均可进行视频文件的播放，提高了对视频进行配音的灵活性。
[0040]在一个实施例中，如图2所示，建立会话连接的多个客户端中，其中一个客户端作为视频文件播放的操控端，进行视频文件的播放，步骤SI 20包括:
步骤S121，通过在会话界面触发进行视频文件的播放，在自身的会话界面中播放视频文件。
[0041]步骤S122，将视频文件发送至会话中的其它客户端。
[0042]作为视频文件播放的操控端的客户端进行视频文件的播放时，将该视频文件发送给会话中的其他客户端，以供其他客户端在各自的显示界面中进行该视频的播放。
[0043]在一个实施例中，如图3所示，客户端作为视频文件播放的受控端，进行视频文件的播放，步骤S120包括:
步骤S124，接收会话中其它客户端传送的视频文件。
[0044]视频文件是视频文件播放的操控端传送过来的。
[0045]步骤S125，在自身的会话界面进行视频文件的播放。
[0046]视频文件播放的受控端接收操控端传送过来的视频文件，并在自身的会话界面中进行该视频文件的播放。
[0047]进一步的，在一个实施例中，步骤S130之前，如上所述的方法还包括如下步骤:
步骤S310，当客户端被触发视频配音操作时，进行音频数据的采集。
[0048]视频配音操作是客户端进行音频数据采集的触发动作，可以是点击会话界面中预置的按钮进行触发，也可以是通过接收语音信号进行触发，还可以是其他的触发方式。
[0049]视频配音操作被触发后，客户端开始采集为视频配音的音频数据。
[0050]由此，通过触发视频配音操作，进而进行音频数据的采集，从而在视频文件播放的任何时间点均可开始配音，提高了对视频进行配音的灵活性，提高了视频配音的效率。
[0051 ] 在一个实施例中，如图4所示，步骤S140包括如下步骤:
步骤S141，将视频文件解析为背景音频数据与视频数据。
[0052]播放的视频文件中包含有背景音频数据与视频数据，将视频文件解析为背景音频数据与不含音频数据的纯视频数据，使音频数据和不含音频数据的纯视频数据进行音频合成，从而提尚配首的效果。
[0053]解析后，背景音频数据中携带有与视频数据中的时间点对应的时间戳。
[0054]步骤S142，按照时间戳，将配音音频数据与背景音频数据进行混音，得到混音音频数据。
[0055]混音是将不同的音频数据进行整合处理成一种音频数据。
[0056]由于配音音频数据采集时添加了对应视频文件播放的时间戳，而背景音频数据中携带有与视频数据中的时间点对应的时间戳，根据时间戳，将背景音频数据和配音音频数据进行混音，得到混音后的混音音频数据。
[0057]混音时，可以根据不同的提取比例对配音音频数据与背景音频数据进行混音，从而可以调节配音音频数据在混音音频数据中的比重。
[0058]步骤S143，将混音音频数据与视频数据进行编码并生成配音视频文件。
[0059]混音音频数据中包含有背景音频数据的时间戳和配音音频数据的时间戳，根据这些时间戳，将混音音频数据与视频数据进行编码处理，生成经过配音后的配音视频文件。
[0060]由此，通过将配音音频数据和背景音频数据混音处理后与不含音频数据的视频数据合成，避免了视频文件中因含有背景音频数据而影响合成的效果，并且在混音时能够对配音音频数据与背景音频数据的比重进行灵活调节，从而更快地达到较好的混音效果，提尚配首的效率。
[0061]在一个实施例中，步骤S140之前，如上所述的方法还包括:
步骤S410，对配音音频数据和/或视频文件的背景音频数据进行处理。
[0062]背景音频数据是存在与视频文件中原有的音频数据，视频文件可以存在背景音乐，还可以存在其他的背景音频数据。
[0063]在获取的配音音频数据和视频文件整合之前，预先对获取的配音音频数据和视频文件分别进行数据处理，从而使生成的配音视频文件的音效效果更好。
[0064]具体的，对获取的配音音频数据的音量进行增大、减小或音效处理，对视频文件中的背景音频音量增大、减小或音效处理，还可以是其他的处理方式。
[0065]需要说明的是，在对客户端获取的配音音频数据和视频文件分别进行数据整合之前，当配音音频数据中的其中一路或多路配音音频数据的音效效果不理想时，通知该配音音频数据对应的客户端重新对视频进行配音，采集配音音频数据。
[0066]由此，在进行配音音频数据和视频文件整合之前，对视频文件中的背景音频数据和采集到的配音音频数据预先进行音频处理，并且通知不满足要求的配音音频数据对应的客户端单独进行配音，从而使配音后视频文件的音效效果更好，提高了视频配音的效率和灵活性。
[0067]在一个实施例中，还相应地提供了一种视频配音装置，如图4所示，该装置包括会话发起模块110、视频播放模块120、配音音频数据获取模块130和合成模块140，其中:
会话发起模块110，用于检测到用户的加入会话操作，响应所述加入会话操作，打开会话界面；
视频文件播放模块120，用于在所述会话界面进行视频文件的播放；
配音音频数据获取模块130，用于所述客户端获取自身采集的和/或所述会话中其他客户端采集后发送的配音音频数据，所述配音音频数据为根据所属客户端采集的添加了时间戳的音频数据，所述时间戳为采集所述配音音频数据时对应所述视频文件播放的时间点；合成模块140，用于按照所述时间戳，将所述配音音频数据和所述视频文件合成配音视频文件。
[0068]进一步的，在一个实施例中，视频文件播放模块120运行于操控视频文件播放的客户端，视频播放模块120包括视频播放单元121和视频文件发送单元122，其中:
视频播放单元121，用于通过在所述会话界面触发进行视频文件的播放，在自身的会话界面中播放所述视频文件；
视频文件发送单元122，用于将所述视频文件发送至所述会话中的其它客户端。
[0069]在一个实施例中，如图6所示，视频文件播放模块120运行于受控视频文件播放的客户端，视频播放模块120包括视频文件接收单元124和视频文件播放单元125，其中:
视频文件接收单元124，用于接收所述会话中其它客户端发送的视频文件；
视频文件播放单元125，用于在自身的会话界面进行所述视频文件的播放。
[0070]在一个实施例中，如图7所示，合成模块140还包括解析单元141、混音单元142和编码生成单元143，其中:
解析单元141，用于将所述视频文件解析为背景音频数据与视频数据；
混音单元142，用于按照所述时间戳，将所述配音音频数据与所述背景音频数据进行混音，得到混音音频数据
编码生成单元143，用于将所述混音音频数据与所述视频数据进行编码并生成配音视频文件。
[0071 ]在一个实施例中，该装置还包括音频处理模块，其中:
音频处理模块，用于对所述配音音频数据和/或所述视频文件的背景音频数据进行处理。
[0072]本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
[0073]虽然已参照几个典型实施方式描述了本发明，但应当理解，所用的术语是说明和示例性、而非限制性的术语。由于本发明能够以多种形式具体实施而不脱离发明的精神或实质，所以应当理解，上述实施方式不限于任何前述的细节，而应在随附权利要求所限定的精神和范围内广泛地解释，因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。
【主权项】
1.一种视频配音方法，其特征在于，所述方法包括: 客户端检测到用户的加入会话操作，响应所述加入会话操作，打开会话界面；在所述会话界面进行视频文件的播放；在播放所述视频文件时，所述客户端获取自身采集的和/或所述会话中其他客户端采集后发送的配音音频数据，所述配音音频数据为根据所属客户端采集的添加了时间戳的音频数据，所述时间戳为采集所述配音音频数据时对应所述视频文件播放的时间点；按照所述时间戳，将所述配音音频数据和所述视频文件合成配音视频文件。2.根据权利要求1所述的方法，其特征在于，所述客户端为所述视频文件播放的操控端，所述在所述会话界面进行视频文件的播放的步骤包括: 通过在所述会话界面触发进行视频文件的播放，在自身的会话界面中播放所述视频文件，并将所述视频文件发送至所述会话中的其它客户端。3.根据权利要求1所述的方法，其特征在于，所述客户端为所述视频文件播放的受控端，所述在所述会话界面进行视频文件的播放的步骤包括: 接收所述会话中其它客户端发送的视频文件；在自身的会话界面进行所述视频文件的播放。4.根据权利要求1所述的方法，其特征在于，所述按照所述时间戳，将所述配音音频数据和所述视频文件合成配音视频文件的步骤包括: 将所述视频文件解析为背景音频数据与视频数据；按照所述时间戳，将所述配音音频数据与所述背景音频数据进行混音，得到混音音频数据；将所述混音音频数据与所述视频数据进行编码并生成配音视频文件。5.根据权利要求1所述的方法，其特征在于，所述将所述配音音频数据与所述视频文件合成配音视频文件的步骤之前，所述方法还包括: 对所述配音音频数据和/或所述视频文件的背景音频数据进行处理。6.一种视频配音装置，其特征在于，所述装置包括: 会话发起模块，用于检测到用户的加入会话操作，响应所述加入会话操作，打开会话界面；视频播放模块，用于在所述会话界面进行视频文件的播放；配音音频数据获取模块，用于所述客户端获取自身采集的和/或所述会话中其他客户端采集后发送的配音音频数据，所述配音音频数据为根据所属客户端采集的添加了时间戳的音频数据，所述时间戳为采集所述配音音频数据时对应所述视频文件播放的时间点；合成模块，用于按照所述时间戳，将所述配音音频数据和所述视频文件合成配音视频文件。7.根据权利要求6所述的装置，其特征在于，所述视频播放模块运行于操控所述视频文件播放的客户端，所述视频播放模块包括: 视频播放单元，用于通过在所述会话界面触发进行视频文件的播放，在自身的会话界面中播放所述视频文件；视频文件发送单元，用于将所述视频文件发送至所述会话中的其它客户端。8.根据权利要求6所述的装置，其特征在于，所述视频播放模块运行于受控所述视频文件播放的客户端，所述视频播放模块包括: 视频文件接收单元，用于接收所述会话中其它客户端发送的视频文件；视频播放单元，用于在自身的会话界面进行所述视频文件的播放。9.根据权利要求6所述的装置，其特征在于，所述合成模块包括: 解析单元，用于将所述视频文件解析为背景音频数据与视频数据；混音单元，用于按照所述时间戳，将所述配音音频数据与所述背景音频数据进行混音，得到混音音频数据；编码生成单元，用于将所述混音音频数据与所述视频数据进行编码并生成配音视频文件。10.根据权利要求6所述的装置，其特征在于，所述装置还包括: 音频处理模块，用于对所述配音音频数据和/或所述视频文件的背景音频数据进行处理。
【文档编号】H04N5/262GK106060424SQ201610412060
【公开日】2016年10月26日
【申请日】2016年6月14日
【发明人】徐文波
【申请人】徐文波

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐文波;
技术所有人：徐文波;
我是此专利的发明人

上一篇：一种基于fpga的串行视频信号时钟恢复系统及方法
上一篇：虚化照片生成方法、装置和移动终端的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。