一种向视频文件中添加音频文件的方法和装置的制造方法

文档序号：10474295阅读：447来源：国知局

一种向视频文件中添加音频文件的方法和装置的制造方法
【专利摘要】本发明公开了一种向视频文件中添加音频文件的方法和装置，包括：接收由终端发送的音频文件；所述音频文件包括用户在播放第一视频文件的过程中同步输入的语音数据和所述语音数据的输入起始时刻在所述第一视频文件中对应时间点的时间戳；调取所述第一视频文件，根据所述时间戳将所述语音数据添加至所述第一视频文件对应时间点的音轨中，得到第二视频文件并保存。通过将用户在观看视频文件时同步录制的语音数据添加至原视频文件，生成包含用户个性化语音的新的视频文件，简化视频制作过程，给用户带来更加丰富的使用体验。
【专利说明】
一种向视频文件中添加音频文件的方法和装置
技术领域
[0001]本发明涉及多媒体播放控制领域，特别是指一种向视频文件中添加音频文件的方法和装置。
【背景技术】
[0002]人们在观看在线影视作品时，常常希望能够将自己的评论记录下来;现在也出现了越来越多的“视频影评”:用户通过剪切视频文件的精彩片段，并配上录制的语音评论，“二次创作”得到包含用户语音影评的视频文件。只是这种制作方式并不容易，需要用户掌握基本的视频和音频处理知识，大大限制了普通用户的创作热情。
[0003]因此，希望提出一种便于用户向已有的视频文件内添加自己录制的音频文件的方法，在用户观看视频文件的过程中，可以同步录制语音评论，并将语音评论与视频文件整合为新的视频文件，简化视频制作过程，给用户带来更加丰富的使用体验。

【发明内容】

[0004]有鉴于此，本发明的目的在于提出一种向视频文件中添加音频文件的方法和装置。
[0005]基于上述目的本发明提供的一种向视频文件中添加音频文件的方法，实施例包括:
[0006]接收由终端发送的音频文件;所述音频文件包括用户在播放第一视频文件的过程中同步输入的语音数据和所述语音数据的输入起始时刻在所述第一视频文件中对应时间点的时间戳；
[0007]调取所述第一视频文件，根据所述时间戳将所述语音数据添加至所述第一视频文件对应时间点的音轨中，得到第二视频文件并保存。
[0008]可选的，所述根据所述时间戳将所述语音数据添加至所述第一视频文件对应时间点的音轨中，得到第二视频文件并保存，包括:
[0009]解析所述第一视频文件，提取视频源和第一音轨；
[0010]解析所述音频文件，提取语音数据和时间戳；
[0011]将所述语音数据按照所述时间戳对应的时间点插入所述第一音轨，得到第二音轨；
[0012]将所述视频源和所述第二音轨合成为第二视频文件。
[0013]可选的，所述解析所述音频文件，提取语音数据和时间戳后，包括:
[0014]根据所述音频文件的时间戳和语音数据的长度，查找所述语音数据在所述第一音轨中对应的声音片段；
[0015]根据所述声音片段的声音情况，对所述语音数据进行调整。
[0016]可选的，根据所述声音片段的声音情况，对所述语音数据进行调整，包括:
[0017]计算所述声音片段的平均音量和所述语音数据的平均音量；
[0018]判断所述声音片段的平均音量和所述语音数据的平均音量的差值是否大于预设的调整阈值;若大于或等于预设的调整阈值，对所述语音数据的音量进行调整，直至所述差值小于或等于所述调整阈值。
[0019]可选的，将所述语音数据按照所述时间戳对应的时间点插入所述第一音轨，得到第二音轨，包括:
[0020]使用所述语音数据替换所述声音片段。
[0021]可选的，所述使用所述语音数据替换所述声音片段，包括:
[0022]根据所述时间戳和语音数据的长度，获取所述声音片段的开始时间和结束时间；
[0023]根据所述开始时间和所述结束时间对所述第一音轨进行裁剪，导出裁剪后所述开始时间处对应的开始接口和所述结束时间处对应的结束接口；
[0024]将所述语音数据的始端拼接至所述开始接口，将所述语音数据的末端拼接至所述结束接口。
[0025]可选的，所述视频文件预设重要情节时间段;所述解析所述语音文件，提取语音数据和时间戳后，包括:
[0026]根据所述音频文件的时间戳和语音数据的长度，判断所述语音数据是否处于所述重要情节时间段内；若处于所述重要情节时间段内，更改所述音频文件的时间戳，使所述语音数据处于所述重要情节时间段外。
[0027]可选的，所述根据所述音频文件的时间戳和语音数据的长度，判断所述语音数据是否处于所述重要情节时间段内，包括:
[0028]获取所述语音数据的起始时间As和终止时间Ae;
[0029]获取所述重要情节时间段的起始时间Bs和终止时间Be;
[0030]判断是否满足:As处于区间(Bs，Be)，或Ae处于区间(Bs，Be)，或As小于Bs且Ae大于Be ；若是，判定所述语音数据处于所述重要情节时间段内；
[0031]所述更改所述音频文件的时间戳，使所述语音数据处于所述重要情节时间段外，包括:
[0032]判断(Ae+As )/2的结果与(Be+Bs )/2的结果的大小关系；
[0033]若(Ae+As)/2的结果小于(Be+Bs)/2的结果，将所述时间戳前移Ae-Bs;
[0034]若(Ae+As)/2的结果大于或等于(Be+Bs)/2的结果，将所述时间戳后移Be-As。
[0035]可选的，所述音频文件还包括制作者的用户名，和由所述制作者添加的第二视频名称;所述根据所述时间戳将所述语音数据添加至所述第一视频文件对应时间点的音轨中，得到第二视频文件后，包括:
[0036]在所述第一视频文件的播放链接页面添加所述第二视频文件的简介和播放链接；所述简介包括所述制作者的用户名和第二视频名称。
[0037]基于上述目的本发明提供一种向视频文件中添加音频文件的装置，实施例包括:
[0038]接收单元，用于接收由终端发送的音频文件;所述音频文件包括用户在播放第一视频文件的过程中同步输入的语音数据和所述语音数据的输入起始时刻在所述第一视频文件中对应时间点的时间戳;处理单元，用于调取所述第一视频文件，根据所述时间戳将所述语音数据添加至所述第一视频文件对应时间点的音轨中，得到第二视频文件。
[0039]可选的，所述处理单元包括:
[0040]解析模块，用于解析所述第一视频文件，提取视频源和第一音轨;解析所述音频文件，提取语音数据和时间戳；
[0041]所述处理单元还用于将所述语音数据按照所述时间戳对应的时间点插入所述第一音轨，得到第二音轨;将所述视频源和所述第二音轨合成为第二视频文件。
[0042]可选的，所述处理单元包括:
[0043]声音处理模块，用于根据所述音频文件的时间戳和语音数据的长度，查找所述语音数据在所述第一音轨中对应的声音片段;根据所述声音片段的声音情况，对所述语音数据进行调整。
[0044]可选的，所述声音处理模块用于计算所述声音片段的平均音量和所述语音数据的平均音量;判断所述声音片段的平均音量和所述语音数据的平均音量的差值是否大于预设的调整阈值;若大于预设的调整阈值，对所述语音数据的音量进行调整，直至所述差值小于或等于所述调整阈值。
[0045]可选的，所述处理单元包括:
[0046]替换模块，用于使用所述语音数据替换所述声音片段。15.根据权利要求14所述的装置，其特征在于，所述替换模块用于根据所述音频文件的时间戳和语音数据的长度，获取所述声音片段的开始时间和结束时间;根据所述开始时间和所述结束时间对所述第一音轨进行裁剪，导出裁剪后所述开始时间处对应的开始接口和所述结束时间处对应的结束接口；将所述语音数据的始端拼接至所述开始接口，将所述语音数据的末端拼接至所述结束接口。
[0047]可选的，所述视频文件预设重要情节时间段;所述处理单元包括:
[0048]重要情节处理模块，用于根据所述音频文件的时间戳和语音数据的长度，判断所述语音数据是否处于所述重要情节时间段内；若处于所述重要情节时间段内，更改所述音频文件的时间戳，使所述语音数据处于所述重要情节时间段外。
[0049]可选的，所述重要情节处理模块还用于获取所述语音数据的起始时间As和终止时间Ae;获取所述重要情节时间段的起始时间Bs和终止时间Be;判断是否满足:AS处于区间(Bs，Be)，或Ae处于区间(Bs，Be)，或As小于Bs且Ae大于Be ;若是，判定所述语音数据处于所述重要情节时间段内；
[0050]所述重要情节处理模块还用于判断(Ae+As)/2的结果与(Be+Bs)/2的结果的大小关系;若(Ae+As ) /2的结果小于(Be+Bs ) /2的结果，将所述时间戳前移Ae-Bs ；若(Ae+As )/2的结果大于或等于(Be+Bs)/2的结果，将所述时间戳后移Be-As。
[0051]可选的，所述音频文件还包括制作者的用户名，和由所述制作者添加的第二视频名称;装置还包括:
[0052]发布单元，用于在所述第一视频文件的播放链接页面添加所述第二视频文件的简介和播放链接;所述简介包括所述制作者的用户名和第二视频名称。
[0053]在所述第一视频文件的播放链接页面添加所述第二视频文件的简介和播放链接；所述简介包括所述制作者的用户名和第二视频名称。
[0054]从上面所述可以看出，本发明提供的一种向视频文件中添加音频文件的方法和装置，通过将用户在观看视频文件时同步录制的语音数据添加至原视频文件，生成包含用户个性化语音的新的视频文件。用户只需要在适当的时间点录制语音，即可由服务器自动完成语音和视频文件的合并工作，大大降低了视频编辑的难度，实现了一种向视频文件添加音频文件的简便方法。
【附图说明】
[0055]图1为本发明提供的一种向视频文件中添加音频文件的方法的实施例的流程图；
[0056]图2为本发明提供的一种向视频文件中添加音频文件的方法的可选实施例的流程图；
[0057]图3为本发明提供的一种向视频文件中添加音频文件的方法的可选实施例的流程图；
[0058]图4为本发明提供的一种向视频文件中添加音频文件的方法的可选实施例的流程图；
[0059]图5为本发明提供的一种向视频文件中添加音频文件的方法的可选实施例的流程图；
[0060]图6为本发明提供的一种向视频文件中添加音频文件的装置的实施例的框图。
【具体实施方式】
[0061]为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。
[0062]图1为本发明提供的一种向视频文件中添加音频文件的方法的实施例的流程图。如图所示，本发明提供的一种向视频文件中添加音频文件的方法的实施例，可以应用在手机、平板电脑、电视等终端，包括:
[0063]S10，接收由终端侧发送的音频文件;所述音频文件包括用户在播放第一视频文件的过程中同步输入的语音数据和所述语音数据的输入起始时刻在所述第一视频文件中对应时间点的时间戳。
[0064]上述“同步输入”是指，用户在播放视频文件时，即时录制输入语音数据，例如，用户观看电影时在某一搞笑情节后，希望发表一些评论，则可以触发录制进程(具体触发方法可根据需要另行确定，例如设置专用触发案件，或在视频播放页面输入特定手势等;录制进程与现有的音频数据录制过程相似，不再赘述)，录制一段包含语音评论的语音数据。
[0065]所述接收过程可以在单一音频文件制作完成后，在用户继续播放视频文件的过程中执行，也可以在视频文件播放完毕后将用户播放该视频文件的过程中录制的全部音频文件统一上传至服务器接收;前者具备较好地实时性，并且可以利用多余的带宽资源，不会影响用户播放其他视频文件，后者则是针对网络带宽不足以满足视频下行传输和语音上行传输的用户设计，在播放完一个视频文件后，需要等待用户播放该视频文件的过程中录制的全部音频文件上传完毕后，才可以获得足够的网络带宽播放下一视频文件。上述两种具体的实施方式可以根据用户实际的网络带宽和所播放视频文件的清晰度(码率等)综合使用。
[0066]Sll，调取所述第一视频文件，根据所述时间戳将所述语音数据添加至所述第一视频文件对应时间点的音轨中，得到第二视频文件。
[0067]所述第一视频文件保存在网络服务器本地，具体的调取过程可按照现有的文件管理方法实施。上述添加时间戳的方法是指，将语音数据的起始点拼接至时间戳在视频文件的播放进度中指示的位置;对于视频文件与所述语音数据发生重合的部分音轨，可以予以保留，也可以删除，即使用语音数据替换原有的音轨片段。可选的实施例将在后文进一步说明。
[0068]需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一” “第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。
[0069]本实施例中的方法在用户观看视频文件的过程中，可以实时录制语音，插入视频文件中，与视频文件原本的音轨合并或替换视频文件的原有音轨，从而完成用户对视频文件声音的快捷编辑，实现“二次创作”。在这一过程中，用户向服务器发送的仅为录制的音频文件，由网络服务器完成视频文件和音频文件的合成，解放了用户的网络资源。
[0070]图2为本发明提供的一种向视频文件中添加音频文件的方法的可选实施例的流程图。如图所示，在可选的实施例中，Sll，调取所述第一视频文件，根据所述时间戳将所述语音数据添加至所述第一视频文件对应时间点的音轨中，得到第二视频文件，包括:
[0071 ] S20，解析所述第一视频文件，提取视频源和第一音轨。
[0072]S21，解析所述音频文件，提取语音数据和时间戳。需要说明的是，步骤S20、S21并无执行的先后顺序。
[0073]S22，将所述语音数据按照所述时间戳对应的时间点插入所述第一音轨，得到第二音轨。
[0074]需要说明的是，本实施例中的“插入”仅表示将语音数据加入第一音轨，至于第一音轨原本与音频文件所对应的位置的内容，可以选择保留，也可以事先移除。若选择保留，则通常需要进一步对语音数据或时间戳进行调整，以适应原有的语音片段;若选择移除，则通常也需要对语音数据进行适当调整，使其与原音轨前后的声音匹配。这两种选择在下文中均有可选的实时例予以说明。
[0075]S23，将所述视频源和所述第二音轨合成为第二视频文件。
[0076]本实施例给出了将语音数据添加至第一视频文件对应时间点的音轨中的一种实现方式。本实施例针对的是可以解析为视频源和音轨的视频文件类型;对于无法解析的视频文件类型，采用类似的处理手段将声音数据加以叠加即可，但移除原有语音片段的方法则不再可行。
[0077]在可选的实施例中，S21，解析所述语音文件，提取语音数据和时间戳后，包括:
[0078]S30，根据所述音频文件的时间戳和语音数据的长度，查找所述语音数据在所述第一音轨中对应的声音片段。
[0079]S31，根据所述声音片段的声音情况，对所述语音数据进行调整。
[0080]图3为本发明提供的一种向视频文件中添加音频文件的方法的可选实施例的流程图。如图所示，在可选的实施方式中，S31，根据所述声音片段的声音情况，对所述语音数据进行调整，包括:
[0081]S40，计算所述声音片段的平均音量和所述语音数据的平均音量。
[0082]S41，判断所述声音片段的平均音量和所述语音数据的平均音量的差值是否大于预设的调整阈值;若大于预设的调整阈值，对所述语音数据的音量进行调整，直至所述差值小于或等于所述调整阈值。所述调整阈值可以是预设的定值，例如取5dB_15dB之间的值，取值过小会导致语音数据的音量调整幅度过大，有可能无法正确反映作者希望表达的情感；取值过大则起不到有效的调整效果。所述调整阈值还可以用根据声音片段的平均音量作为标准确定，例如取平均音量响度的3%-10%之间的值作为调整阈值，可以针对不同音量的声音片段采用不同大小的调整阈值，起到更好的调整效果。
[0083]上述步骤S40、S41提供了对语音数据音量大小调整的一种实施方式，即根据语音数据对应的声音片段的声音大小，调整语音数据的音量大小，使语音数据的音量与声音片段的音量大小相近，从而使二者均可以被清晰地听到。
[0084]在可选的实施例中，S31，根据所述声音片段的声音情况，对所述语音数据进行调整后，将所述语音数据按照所述时间戳对应的时间点插入所述第一音轨，得到第二音轨包括:
[0085]S50，使用所述语音数据替换所述声音片段。
[0086]图4为本发明提供的一种向视频文件中添加音频文件的方法的可选实施例的流程图。如图所示，在可选的实施方式中，S50，所述使用所述语音数据替换所述声音片段，包括:
[0087]S60，根据所述音频文件的时间戳和语音数据的长度，获取所述声音片段的开始时间和结束时间。
[0088]S61，根据所述开始时间和所述结束时间对所述第一音轨进行裁剪，导出裁剪后开始时间对应的开始接口和结束时间对应的结束接口。
[0089]S62，将所述语音数据的始端拼接至所述开始接口，将所述语音数据的末端拼接至所述结束接口，得到第二音轨。
[0090]步骤S60-S62，并非采用简单的覆盖，而是采用裁剪和拼接的方式将语音数据加入音轨中并替换原有声音片段;这一方式的优点在于，无须担心原有声音片段对于现有语音数据的干扰。
[0091]在可选的实施方式中，还可以对开始接口和结束接口处的音轨、语音数据进行渐变处理，包括:
[0092]获取所述语音数据的长度，判断所述长度是否大于长度阈值;若大于长度阈值，则使用预设的长度值作为第一长度;若小于或等于长度阈值，则使用所述语音数据的长度乘以预设的系数，得到第一长度。
[0093]在对所述音轨进行裁剪时，在所述开始接口和所述结束接口处分别保留第一长度的音轨;对所述开始接口处保留的音轨、所述语音数据末端处第一长度的音轨进行渐弱处理;对所述结束接口处保留的音轨、所述语音数据始端处第一长度的音轨进行渐强处理。
[0094]这里的长度阈值采用相对通常视频长度来说较小的值，例如5s-15s;预设的长度值采用与长度阈值匹配的值，例如5s-10s;当语音数据长度较长时，采用固定长度的时间作为渐变时间；当语音数据长度较短时，则采用语音数据长度乘以某一比例值后的长度，作为渐变时间，以免出现仅采用固定长度的时间作为渐变时间后用户在收看时，某些较短的语音数据全程处于渐变状态，影响收视效果。
[0095]经过本实施例方法的处理后，在插入语音数据的开始处，视频声音逐渐减弱的同时语音数据的声音逐渐增强，在插入语音数据的终止处，视频声音逐渐增强的同时语音数据的声音逐渐减弱，不至过于突兀，可以使整个视频文件的音轨更加平滑，提升观赏性。
[0096]图5为本发明提供的一种向视频文件中添加音频文件的方法的可选实施例的流程图。如图所示，在可选的实施方式中，所述视频文件预设重要情节时间段;S21，解析所述语音文件，提取语音数据和时间戳后，包括:
[0097]S70，根据所述音频文件的时间戳和语音数据的长度，判断所述语音数据是否处于所述重要情节时间段内；若处于所述重要情节时间段内，执行步骤S71。
[0098]S71，更改所述音频文件的时间戳，使所述语音数据处于所述重要情节时间段外。
[0099]在可选的实施方式中，S70，根据所述音频文件的时间戳和语音数据的长度，判断所述语音数据是否处于所述重要情节时间段内，包括:
[0100]S80，获取所述语音数据的起始时间As和终止时间Ae。
[0101 ] S81，获取所述重要情节时间段的起始时间Bs和终止时间Be。
[0102]S82，判断是否满足:AS处于区间(Bs，Be)，或Ae处于区间(Bs，Be)，或As小于Bs且Ae大于Be3;若是，判定所述语音数据处于所述重要情节时间段内。即只要判定语音数据的与任一重要情节时间段发生部分重合，则判定所述语音数据处于所述重要情节时间段内。
[0103]S71，更改所述音频文件的时间戳，使所述语音数据处于所述重要情节时间段外，包括:
[0104]S83，判断(Ae+As)/2的结果与(Be+Bs)/2的结果的大小关系;若(Ae+As)/2的结果小于(Be+Bs)/2的结果，执行步骤S84;若(Ae+As)/2的结果大于或等于(Be+Bs)/2的结果，执行步骤 S85。
[0105]S84，将所述时间戳前移Ae-Bs。
[0106]S85，将所述时间戳后移Be-As。
[0107]步骤S83-S85，通过判定发生重合的语音数据与重要情节时间段的前后关系，将语音数据对应的时间戳向语音数据更加靠近的一侧移动，直至语音数据不再与重要情节时间段重合。
[0108]上述重要情节时间段是指视频文件中剧情较为精彩的一些片段，在这些片段中，用户希望能够单纯地观看视频，而不希望听到其他声音，因此声音文件应当避免在这些片段内同时播放。所述重要情节时间段的确定方式，可以通过分许视频文件的音轨中音量特殊的区间进行确定(例如以一定宽度的窗作为判断区域，将这一窗沿音轨移动，该窗用于计算窗口内音轨的平均音量；当所述平均音量大于或等于预设的阈值，则标记为一个重要情节时间段的开始点，直到平均音量小于预设的阈值后，则标记为该重要情节时间段的终止点。)，也可以由人工预先设定。
[0109]本实施例可以避免用户操作不当导致语音覆盖了重要的视频情节，自动对录制的语音数据的时间戳进行微调，从而使语音数据不再覆盖重要情节。当然，有时用户为了达到一定视频效果，可能有意将语音与重要情节相重合，因此在可选的实施方式中，在终端可以预先设定是否开启自动调节功能；同样，上述对于音量的调节方法的实施例中，也可以由用户预先设定是否由服务器端执行后期调整。
[0110]在可选的实施例中，所述音频文件还包括该音频文件制作者的用户名，及由制作者添加的第二视频名称;S22，将所述语音数据按照所述时间戳对应的时间点插入所述第一音轨，得到第二音轨后，包括:
[0111]S90，在所述第一视频文件的播放链接页面添加所述第二视频文件的简介和播放链接;所述简介包括所述制作者的用户名和第二视频名称。
[0112]本实施例将经用户编辑，添加个性化语音评论的视频文件的播放链接张贴在原视频文件的播放链接页面上，其他用户在观看时，可以选择观看经编辑过的视频文件。可选的，还可以根据播放量，对全部第二视频文件按照播放量由高到低的顺序进行排序，方便其他用户选择观看。
[0113]图6为本发明提供的一种向视频文件中添加音频文件的装置的实施例的框图。如图所示，本发明还提供一种向视频文件中添加音频文件的装置，实施例包括:
[0114]接收单元100，用于接收由终端发送的音频文件;所述音频文件包括用户在播放第一视频文件的过程中同步输入的语音数据和所述语音数据的输入起始时刻在所述第一视频文件中对应时间点的时间戳。
[0115]处理单元101，用于调取所述第一视频文件，根据所述时间戳将所述语音数据添加至所述第一视频文件对应时间点的音轨中，得到第二视频文件。
[0116]本实施例中的装置通过接收单元100获取用户观看视频文件的过程中实时录制的语音，并通过处理单元101插入视频文件中，与视频文件原本的音轨合并或替换视频文件的原有音轨，从而完成用户对视频文件声音的快捷编辑，实现“二次创作”。在这一过程中，用户向服务器发送的仅为录制的音频文件，由网络服务器完成视频文件和音频文件的合成，解放了用户的网络资源。
[0117]在可选的实施例中，所述处理单元101包括:
[0118]解析模块〗10，用于解析所述第一视频文件，提取视频源和第一音轨;解析所述音频文件，提取语音数据和时间戳。
[0119]所述处理单元101还用于将所述语音数据按照所述时间戳对应的时间点插入所述第一音轨，得到第二音轨;将所述视频源和所述第二音轨合成为第二视频文件。
[0120]在可选的实施例中，所述处理单元101包括:
[0121]声音处理模块120，用于根据所述音频文件的时间戳和语音数据的长度，查找所述语音数据在所述第一音轨中对应的声音片段;根据所述声音片段的声音情况，对所述语音数据进行调整。
[0122]在可选的实施例中，所述声音处理模块120用于计算所述声音片段的平均音量和所述语音数据的平均音量;判断所述声音片段的平均音量和所述语音数据的平均音量的差值是否大于预设的调整阈值;若大于预设的调整阈值，对所述语音数据的音量进行调整，直至所述差值小于或等于所述调整阈值。
[0123]在可选的实时例中，所述处理单元101包括:
[0124]替换模块130，用于使用所述语音数据替换所述声音片段。
[0125]在可选的实施例中，所述替换模块130用于根据所述音频文件的时间戳和语音数据的长度，获取所述声音片段的开始时间和结束时间；根据所述开始时间和所述结束时间对所述第一音轨进行裁剪，导出裁剪后开始时间对应的开始接口和结束时间对应的结束接口；将所述语音数据的始端拼接至所述开始接口，将所述语音数据的末端拼接至所述结束接口。
[0126]在可选的实施例中，所述视频文件预设重要情节时间段;所述处理单元101包括:
[0127]重要情节处理模块140，用于根据所述音频文件的时间戳和语音数据的长度，判断所述语音数据是否处于所述重要情节时间段内；若处于所述重要情节时间段内，更改所述音频文件的时间戳，使所述语音数据处于所述重要情节时间段外。
[0128]在可选的实施例中，所述重要情节处理模块140用于获取所述语音数据的起始时间As和终止时间Ae;获取所述重要情节时间段的起始时间Bs和终止时间Be;判断是否满足:As处于区间(Bs，Be)，或Ae处于区间(Bs，Be)，或As小于Bs且Ae大于Be;若是，判定所述语音数据处于所述重要情节时间段内；
[0129]所述重要情节处理模块140还用于判断(Ae+As)/2的结果与(Be+Bs)/2的结果的大小关系;若(Ae+As) /2的结果小于(Be+Bs ) /2的结果，将所述时间戳前移Ae-Bs ;若(Ae+As )/2的结果大于或等于(Be+Bs)/2的结果，将所述时间戳后移Be-As。
[0130]在可选的实施例中，所述音频文件还包括该音频文件制作者的用户名，及由制作者添加的第二视频名称;装置还包括:
[0131]发布单元150，用于在所述第一视频文件的播放链接页面添加所述第二视频文件的简介和播放链接;所述简介包括所述制作者的用户名和第二视频名称。
[0132]从上面所述可以看出，本发明提供的一种向视频文件中添加音频文件的方法和装置，通过将用户在观看视频文件时同步录制的语音数据添加至原视频文件，生成包含用户个性化语音的新的视频文件。用户只需要在适当的时间点录制语音，即可由服务器自动完成语音和视频文件的合并工作，大大降低了视频编辑的难度，实现了一种向视频文件添加音频文件的简便方法。
[0133]所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。
[0134]另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。
[0135]尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。
[0136]本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。
【主权项】
1.一种向视频文件中添加音频文件的方法，其特征在于，包括: 接收由终端发送的音频文件;所述音频文件包括用户在播放第一视频文件的过程中同步输入的语音数据和所述语音数据的输入起始时刻在所述第一视频文件中对应时间点的时间戳；调取所述第一视频文件，根据所述时间戳将所述语音数据添加至所述第一视频文件对应时间点的音轨中，得到第二视频文件并保存。2.根据权利要求1所述的方法，其特征在于，所述根据所述时间戳将所述语音数据添加至所述第一视频文件对应时间点的音轨中，得到第二视频文件并保存，包括: 解析所述第一视频文件，提取视频源和第一音轨；解析所述音频文件，提取语音数据和时间戳；将所述语音数据按照所述时间戳对应的时间点插入所述第一音轨，得到第二音轨；将所述视频源和所述第二音轨合成为第二视频文件。3.根据权利要求2所述的方法，其特征在于，所述解析所述音频文件，提取语音数据和时间戳后，包括: 根据所述音频文件的时间戳和语音数据的长度，查找所述语音数据在所述第一音轨中对应的声音片段；根据所述声音片段的声音情况，对所述语音数据进行调整。4.根据权利要求3所述的方法，其特征在于，根据所述声音片段的声音情况，对所述语音数据进行调整，包括: 计算所述声音片段的平均音量和所述语音数据的平均音量；判断所述声音片段的平均音量和所述语音数据的平均音量的差值是否大于预设的调整阈值;若大于或等于预设的调整阈值，对所述语音数据的音量进行调整，直至所述差值小于或等于所述调整阈值。5.根据权利要求3所述的方法，其特征在于，将所述语音数据按照所述时间戳对应的时间点插入所述第一音轨，得到第二音轨，包括: 使用所述语音数据替换所述声音片段。6.根据权利要求5所述的方法，其特征在于，所述使用所述语音数据替换所述声音片段，包括: 根据所述时间戳和语音数据的长度，获取所述声音片段的开始时间和结束时间；根据所述开始时间和所述结束时间对所述第一音轨进行裁剪，导出裁剪后所述开始时间处对应的开始接口和所述结束时间处对应的结束接口；将所述语音数据的始端拼接至所述开始接口，将所述语音数据的末端拼接至所述结束接口。7.根据权利要求2所述的方法，其特征在于，所述视频文件预设重要情节时间段;所述解析所述语音文件，提取语音数据和时间戳后，包括: 根据所述音频文件的时间戳和语音数据的长度，判断所述语音数据是否处于所述重要情节时间段内；若处于所述重要情节时间段内，更改所述音频文件的时间戳，使所述语音数据处于所述重要情节时间段外。8.根据权利要求7所述的方法，其特征在于，所述根据所述音频文件的时间戳和语音数据的长度，判断所述语音数据是否处于所述重要情节时间段内，包括: 获取所述语音数据的起始时间AjP终止时间Ae3 ；获取所述重要情节时间段的起始时间Bs和终止时间Be ; 判断是否满足:As处于区间(Bs，Be)，或Ae处于区间(Bs，Be)，或As小于Bs且Ae大于Be ；若是，判定所述语音数据处于所述重要情节时间段内；所述更改所述音频文件的时间戳，使所述语音数据处于所述重要情节时间段外，包括: 判断(Ae+As)/2的结果与(Be+Bs)/2的结果的大小关系；若(Ae+As ) /2的结果小于(Be+Bs ) /2的结果，将所述时间戳前移Ae-Bs ; 若(Ae+As)/2的结果大于或等于(Be+Bs)/2的结果，将所述时间戳后移Bd9.根据权利要求1所述的方法，其特征在于，所述音频文件还包括制作者的用户名，和由所述制作者添加的第二视频名称;所述根据所述时间戳将所述语音数据添加至所述第一视频文件对应时间点的音轨中，得到第二视频文件后，包括: 在所述第一视频文件的播放链接页面添加所述第二视频文件的简介和播放链接;所述简介包括所述制作者的用户名和第二视频名称。10.—种向视频文件中添加音频文件的装置，其特征在于，包括: 接收单元，用于接收由终端发送的音频文件;所述音频文件包括用户在播放第一视频文件的过程中同步输入的语音数据和所述语音数据的输入起始时刻在所述第一视频文件中对应时间点的时间戳;处理单元，用于调取所述第一视频文件，根据所述时间戳将所述语音数据添加至所述第一视频文件对应时间点的音轨中，得到第二视频文件。11.根据权利要求10所述的装置，其特征在于，所述处理单元包括: 解析模块，用于解析所述第一视频文件，提取视频源和第一音轨;解析所述音频文件，提取语音数据和时间戳；所述处理单元还用于将所述语音数据按照所述时间戳对应的时间点插入所述第一音轨，得到第二音轨;将所述视频源和所述第二音轨合成为第二视频文件。12.根据权利要求11所述的装置，其特征在于，所述处理单元包括: 声音处理模块，用于根据所述音频文件的时间戳和语音数据的长度，查找所述语音数据在所述第一音轨中对应的声音片段;根据所述声音片段的声音情况，对所述语音数据进行调整。13.根据权利要求12所述的装置，其特征在于，所述声音处理模块用于计算所述声音片段的平均音量和所述语音数据的平均音量;判断所述声音片段的平均音量和所述语音数据的平均音量的差值是否大于预设的调整阈值;若大于预设的调整阈值，对所述语音数据的音量进行调整，直至所述差值小于或等于所述调整阈值。14.根据权利要求12所述的装置，其特征在于，所述处理单元包括: 替换模块，用于使用所述语音数据替换所述声音片段。15.根据权利要求14所述的装置，其特征在于，所述替换模块用于根据所述音频文件的时间戳和语音数据的长度，获取所述声音片段的开始时间和结束时间；根据所述开始时间和所述结束时间对所述第一音轨进行裁剪，导出裁剪后所述开始时间处对应的开始接口和所述结束时间处对应的结束接口；将所述语音数据的始端拼接至所述开始接口，将所述语音数据的末端拼接至所述结束接口。16.根据权利要求11所述的装置，其特征在于，所述视频文件预设重要情节时间段;所述处理单元包括: 重要情节处理模块，用于根据所述音频文件的时间戳和语音数据的长度，判断所述语音数据是否处于所述重要情节时间段内；若处于所述重要情节时间段内，更改所述音频文件的时间戳，使所述语音数据处于所述重要情节时间段外。17.根据权利要求16所述的装置，其特征在于，所述重要情节处理模块还用于获取所述语音数据的起始时间As和终止时间Ae ；获取所述重要情节时间段的起始时间Bs和终止时间Be ；判断是否满足:As处于区间(Bs，Be)，或Ae处于区间(Bs，Be)，或As小于Bs且Ae大于Be ；若是，判定所述语音数据处于所述重要情节时间段内；所述重要情节处理模块还用于判断(Ae+As)/2的结果与(Be+Bs)/2的结果的大小关系;若(Ae+As)/2的结果小于(Be+Bs)/2的结果，将所述时间戳前移^8;若(1+1)/2的结果大于或等于(Be+Bs)/2的结果，将所述时间戳后移Be-As。18.根据权利要求10所述的装置，其特征在于，所述音频文件还包括制作者的用户名，和由所述制作者添加的第二视频名称;装置还包括: 发布单元，用于在所述第一视频文件的播放链接页面添加所述第二视频文件的简介和播放链接;所述简介包括所述制作者的用户名和第二视频名称。在所述第一视频文件的播放链接页面添加所述第二视频文件的简介和播放链接;所述简介包括所述制作者的用户名和第二视频名称。
【文档编号】H04N21/233GK105828220SQ201610169721
【公开日】2016年8月3日
【申请日】2016年3月23日
【发明人】王若韬
【申请人】乐视网信息技术（北京）股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王若韬;
技术所有人：乐视网信息技术（北京）股份有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。