视频剪辑方法及装置与流程

文档序号:33713749发布日期:2023-04-01 02:35阅读:122来源:国知局
视频剪辑方法及装置与流程

1.本技术涉及计算机技术领域,特别涉及视频剪辑方法。本技术同时涉及视频剪辑装置,一种计算设备,以及一种计算机可读存储介质。


背景技术:

2.随着自媒体行业的不断发展,服务自媒体创作者的移动端创作工具也在日益发展。创作者在创作时,可以使用移动端的视频剪辑工具,对拍摄好的视频素材进行剪辑。目前,大多数视频剪辑工具,主要是对视频帧的操作,包括对视频帧进行拖拽、排序、切换素材、加字幕等操作,进而实现对音视频的剪辑过程。但是,对于场景素材较少、音频素材较多的视频,对视频素材一帧一帧的操作,可能会导致视频图像和音频中的文本无法快速地进行匹配,使得创作者的视频剪辑工作变得较为复杂,影响了创作者的使用体验。


技术实现要素:

3.有鉴于此,本技术实施例提供了视频剪辑方法。本技术同时涉及视频剪辑装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的视频剪辑过程复杂,影响用户使用体验的技术问题。
4.根据本技术实施例的第一方面,提供了一种视频剪辑方法,应用于客户端,包括:
5.获取待剪辑视频,提取所述待剪辑视频中的音频数据和视频数据;
6.对所述音频数据进行语音识别,获得所述音频数据对应的初始音频文本;
7.响应于针对所述初始音频文本的交互指令,对所述初始音频文本进行处理,获得目标音频文本;
8.基于所述目标音频文本对所述视频数据进行剪辑,生成所述待剪辑视频对应的目标视频。
9.根据本技术实施例的第二方面,提供了一种视频剪辑装置,应用于客户端,包括:
10.数据获取模块,被配置为获取待剪辑视频,提取所述待剪辑视频中的音频数据和视频数据;
11.文本识别模块,被配置为对所述音频数据进行语音识别,获得所述音频数据对应的初始音频文本;
12.文本处理模块,被配置为响应于针对所述初始音频文本的交互指令,对所述初始音频文本进行处理,获得目标音频文本;
13.视频剪辑模块,被配置为基于所述目标音频文本对所述视频数据进行剪辑,生成所述待剪辑视频对应的目标视频。
14.根据本技术实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述视频剪辑方法的步骤。
15.根据本技术实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算
机指令,该计算机指令被处理器执行时实现所述视频剪辑方法的步骤。
16.本技术提供的视频剪辑方法,应用于客户端,获取待剪辑视频,提取所述待剪辑视频中的音频数据和视频数据;对所述音频数据进行语音识别,获得所述音频数据对应的初始音频文本;响应于针对所述初始音频文本的交互指令,对所述初始音频文本进行处理,获得目标音频文本;基于所述目标音频文本对所述视频数据进行剪辑,生成所述待剪辑视频对应的目标视频。
17.本技术一实施例,通过对待剪辑视频中的音频数据进行语音识别,获得初始音频文本,再响应于用户的交互指令,实现对初始音频文本的处理,获得了目标音频文本,进而根据该目标音频文本对待剪辑视频中的视频数据进行剪辑,生成目标视频;该种方式,通过对音频文本的编辑等操作,来实现对视频的粗剪工作,不仅可以降低了对视频剪辑的操作难度,还大大地提高了视频剪辑的效率,提升用户体验。
附图说明
18.图1是本技术一实施例提供的一种视频剪辑方法的应用场景示意图;
19.图2是本技术一实施例提供的一种视频剪辑方法的流程图;
20.图3是本技术一实施例提供的一种视频剪辑方法的智能识别示意图;
21.图4是本技术一实施例提供的一种视频剪辑方法的素材排序示意图;
22.图5是本技术一实施例提供的一种应用于口播快剪的视频剪辑方法的处理流程图;
23.图6是本技术一实施例提供的一种视频剪辑方法的处理流程图;
24.图7是本技术一实施例提供的一种视频剪辑装置的结构示意图;
25.图8是本技术一实施例提供的一种计算设备的结构框图。
具体实施方式
26.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本技术内涵的情况下做类似推广,因此本技术不受下面公开的具体实施的限制。
27.在本技术一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术一个或多个实施例。在本技术一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本技术一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
28.应当理解,尽管在本技术一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
29.首先,对本技术一个或多个实施例涉及的名词术语进行解释。
30.视频剪辑:是使用软件对视频源进行非线性编辑,加入的图片、背景音乐、特效、场
景等素材与视频进行重混合,对视频源进行切割、合并,通过二次编码,生成具有不同表现力的新视频。
31.粗剪:摄影术语,常应用于电影制作。指在剪辑过程中,将镜头和段落依大概的先后顺序加以接合的影片初样。
32.asr:指自动语音识别技术(automatic speech recognition),是一种将人的语音转换为文本的技术。
33.气口:指视频的语音部分录制时,句间换气所在的位置。在视频剪辑时,常精剪气口长度,使视频节奏更加紧凑。
34.随着自媒体行业的不断发展,服务自媒体创作者的移动端创作工具也日益发展。创作者在创作时,可以使用移动端的视频剪辑工具,方便快捷地对拍摄好的视频素材进行剪辑。为了提高视频剪辑的效率,创作者大部分会采用粗剪的形式,对视频进行处理,而对于口播类视频,往往粗剪就可以实现完整的剪辑工作,视频效果也还不错,因为口播类视频大多数只是一个人物面对一个摄像头说话的视频,比如自我介绍、访谈等形式,对于视频场景的转换或者是背景等不会较为复杂,因此,该类视频,可以在移动端通过视频剪辑工具,对视频进行粗剪,就可完成视频的剪辑工作。
35.基于此,本技术实施例中,为了提高对口播类视频剪辑的效率,可以通过对口播类视频的音频进行asr语音识别,使用者可通过编辑文字区域和智能识别功能来实现便捷的粗剪工作,比如,删除文字区的某个单字,其对应的音视频区域随之被删除;识别口播类视频中的音频中的气口和语气词,并进行一键删除,进而,可以方便快捷地对口播类视频进行剪辑;当然,本技术实施例中不仅可以对口播类视频进行剪辑,还可对各种包含人声的其他类型的视频进行粗剪工作,以提高视频剪辑的效率。
36.在本技术中,提供了视频剪辑方法,本技术同时涉及视频剪辑装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
37.图1示出了根据本技术一实施例提供的一种视频剪辑方法的应用场景示意图。
38.图1中的(a)部分为视频剪辑工具的首页示意图,在使用者开始进行视频剪辑时,在首页可看到通过选择“粗剪入口”来开始对视频的粗剪工作,另外,首页中左上角还包括“开始创作”的控件,在使用者触发该控件时,即可从本地素材中选择相应的视频素材;首页中的右上角可展示使用者的虚拟形象,可在素材库中进行选择;与“粗剪入口”并列的位置,还有“文字视频”、“游戏大片”选项,分别是展现不同的使用功能;首页的下半部分为草稿箱的目录展示,可分别展示草稿1、草稿2和草稿3。
39.图1中的(b)部分为使用者通过点击“粗剪入口”而跳转到的粗剪界面,该粗剪界面中的上半部分为视频展示区域可展示视频素材,可通过播放键、暂停键对该视频的播放过程进行控制;视频展示区域的下方有模式选择的控件,通过使用者的选择可实现视频快剪和口播快剪两种模式切换;在选择口播快剪后,该页面的下半部分可展示视频中音频所转换的文字内容,即初始音频文本,比如片段1.abc#def#ghi、片段2.[无声4.0s]、片段3.aabc;此外,该页面中的“智能识别”控件可以对实现对初始音频文本中的气口、重复字、语气词等文本进行删除。
[0040]
实际应用中,使用者在页面(b)中,通过对视频中的音频转换后的初始音频文本的处理,包括但不限定于编辑、删除、拖拽等交互操作,比如,将片段1中的“#”删除,因为语音
识别出来的“#”可表示气口,将该部分对应的视频片段进行剪切后,可使得视频中的文本输出比较紧凑,不会显得视频内容拖沓;进一步地,通过使用者对初始音频文本的处理,进而,实现了对视频内容的剪辑过程。
[0041]
本技术实施例中,通过为使用者提供对初始音频文本进行操作的区域,对初始音频文本进行处理,从而实现对视频内容的便捷剪辑,该过程不仅能够避免了使用者对视频一帧帧操作的复杂度,还能快速地实现对音频和视频的同步剪辑操作,为使用者提供了便捷的视频剪辑过程。
[0042]
图2示出了根据本技术一实施例提供的一种视频剪辑方法的流程图,具体包括以下步骤:
[0043]
需要说明的是,本技术实施例提供的视频剪辑方法可应用于客户端中所运行的应用程序,该应用程序可以为视频剪辑工具的软件,本技术对此不做具体限定。
[0044]
步骤202:获取待剪辑视频,提取所述待剪辑视频中的音频数据和视频数据。
[0045]
其中,待剪辑视频可以理解为需要视频剪辑工具进行剪辑处理的初始视频,该视频中具有视频画面、音频内容等;对待剪辑视频的视频类型本实施例中不做具体限定,但是,对于口播类视频的剪辑过程会更加便捷,剪辑效率较好。
[0046]
实际应用中,客户端会获取到待剪辑视频,并从待剪辑视频中提取出对应的音频数据和视频数据,其中,音频数据内容是和视频数据内容相对应的;使用者对待剪辑视频的剪辑操作,就是对音频数据和视频数据的剪辑过程。
[0047]
进一步地,在该客户端中所运行的应用程序中,可通过使用者对视频剪辑的指令,触发应用程序加载视频剪辑页面,进而进行视频剪辑的工作;具体的,所述获取待剪辑视频,提取所述待剪辑视频中的音频数据和视频数据,包括:
[0048]
响应于针对视频处理页面的视频剪辑指令,加载视频剪辑页面;
[0049]
接收针对所述视频剪辑页面触发的素材获取指令,获取至少一个待剪辑视频;
[0050]
基于音频分离技术对每个待剪辑视频进行提取处理,获得所述每个待剪辑视频对应的音频数据和视频数据。
[0051]
其中,视频剪辑页面可以为对待剪辑视频进行剪辑操作的页面,包括视频内容的播放区域,对音频数据对应的文本内容进行剪辑的操作区域等。
[0052]
实际应用中,使用者在客户端中的应用程序展示的视频处理页面,触发视频剪辑指令,客户端响应于该视频剪辑指令,加载视频剪辑页面;使用者在该视频剪辑页面中触发素材获取指令,可展示多个视频素材,用户通过自行选择,使得客户端获得至少一个待剪辑视频;进一步地,客户端为了实现对该待剪辑视频进行剪辑处理,先通过音频分离技术对每个待剪辑视频进行提取处理,以获得每个待剪辑视频对应的音频数据和视频数据。需要说明的是,本实施例中提及的音频分离技术可以参考现有的音频分离的处理技术,本实施例中对此不做具体限定和解释。
[0053]
通过对每个待剪辑视频进行音频分离处理,提取对应的音频数据和视频数据,便于后续对待剪辑视频进行快速地剪辑工作。
[0054]
步骤204:对所述音频数据进行语音识别,获得所述音频数据对应的初始音频文本。
[0055]
其中,音频数据可以理解为待剪辑视频中的所有的音频数据,包括人物的语音、气
口、背景声音等。
[0056]
实际应用中,客户端可将提取出的音频数据进行语音识别,获得音频数据对应的初始音频文本,其中,初始音频文本中包括将人物的语音转换后的文字文本、将气口进行语音转换后的气口文本,可用特殊字符表示、将背景声音转换后的文字或特殊字符文本等;本实施例中初始音频文本将不做任何具体限定,但其可包括音频数据中任何类型的音频转换成文本的表示,可为文字文本,也可为字符文本等等。
[0057]
进一步地,客户端在提取到音频数据之后,可在本地完成对音频数据的文本转换,也可将音频数据上传至服务器,由服务器来完成对音频数据的文本识别过程,客户端仅接收转换后的文本结果即可;具体的,所述对所述音频数据进行语音识别,获得所述音频数据对应的初始音频文本,包括:
[0058]
基于预设语音识别规则,对所述音频数据进行语音识别,获得所述音频数据对应的初始音频文本,其中,所述初始音频文本包括文本内容和所述文本内容对应的初始文本时间戳;或者
[0059]
将所述音频数据发送至服务器,接收所述服务器返回的所述音频数据对应的初始音频文本,其中,所述初始音频文本包括文本内容和所述文本内容对应的初始文本时间戳。
[0060]
其中,预设语音识别规则可以理解为能够将语音转换文本的技术,包括但不限定于asr语音识别技术、语音识别模型等,这里的语音包括但不限定于人的说话声音、气口声音、背景声音、无声声音等音频,本实施例中对此不做具体限定。
[0061]
实际应用中,客户端可利用预设语音识别规则,对音频数据进行语音识别,并获得音频数据对应的初始音频文本,其中,初始音频文本包括文本内容和文本内容对应的初始文本时间戳;另外,客户端还可将音频数据发送至服务器,利用服务器来对音频数据进行识别,获得初始音频文本,进而,接收服务器返回的音频数据对应的初始音频文本,其中,该初始音频文本中同样也包含文本内容和文本内容对应的初始文本时间戳,初始文本时间戳可理解为每个文本内容在音频数据中所出现的时间戳。
[0062]
步骤206:响应于针对所述初始音频文本的交互指令,对所述初始音频文本进行处理,获得目标音频文本。
[0063]
进一步地,在客户端接收到音频数据的初始音频文本之后,就可在客户端的文本操作区域,对初始音频文本进行处理,以获得目标音频文本;其中,目标音频文本可以理解为由使用者进行操作处理后的文本内容,操作处理包括但不限定于对文本的删除、对气口字符的删除、对文字的排序等操作。
[0064]
更进一步地,所述响应于针对所述初始音频文本的交互指令,对所述初始音频文本进行处理,获得目标音频文本,包括:
[0065]
响应于针对所述初始音频文本的交互指令,确定所述初始音频文本中的待处理文本;
[0066]
基于所述待处理文本对所述初始音频文本进行处理,获得目标音频文本。
[0067]
其中,交互指令可以理解为使用者对文本内容进行操作的指令,比如对文本的点击、编辑、删除、排序等交互指令。
[0068]
实际应用中,客户端接收到使用者针对初始音频文本的交互指令之后,可确定出初始音频文本中需要处理的待处理文本,其中,待处理文本可以理解为使用者进行交互操
作对应的文本,比如使用者进行删除交互时,对应需要被删除的文本可以理解为待处理文本;使用者进行文本排序交互时,顺序需要改变的文本内容可以理解为待处理文本等;进一步地,客户端可根据待处理文本对初始音频文本进行处理,即可获得目标音频文本。
[0069]
需要说明的是,由于初始音频文本包括多种文本类型,比如文字文本、字符文本等,那么,客户端在对初始音频文本进行处理时,会采取不同的处理策略,完成对初始音频文本的处理,获得目标音频文本;在一些实施例中,所述待处理文本包括待处理文字文本;
[0070]
相应地,所述基于所述待处理文本对所述初始音频文本进行处理,获得目标音频文本,包括:
[0071]
解析所述交互指令,确定所述待处理文字文本的文字交互操作;
[0072]
基于所述文字交互操作,对所述待处理文字文本进行处理,获得目标音频文本。
[0073]
其中,文字交互操作可以理解为对初始音频文本中的待处理文字文本进行交互处理的操作,包括但不限定于上述提及到的文字删除、文字编辑、文字排序等交互操作。
[0074]
实际应用中,使用者对于初始音频文本的处理,包括对初始音频文本中的待处理文字文本的处理;使用者针对待处理文字文本进行交互,触发交互指令,客户端接收到交互指令之后,通过对交互指令进行解析,确定待处理文字文本的文字交互操作,并根据文字交互操作,对待处理文字文本进行处理,获得目标音频文本。
[0075]
进一步地,下述实施例中针对文字交互操作的各种情况,说明客户端对待处理文字文本进行处理的过程;具体的,所述基于所述文字交互操作,对所述待处理文字文本进行处理,获得目标音频文本,包括:
[0076]
在确定所述文字交互操作为文字删除操作的情况下,删除所述待处理文字文本,获得目标音频文本;
[0077]
在确定所述文字交互操作为文字重排操作的情况下,确定所述待处理文字文本的文本顺序,基于所述文本顺序对所述待处理文字文本进行排序,获得目标音频文本。
[0078]
实际应用中,客户端在确定使用者对待处理文字文本进行文字删除操作的情况下,将在初始音频文本中删除待处理文字文本,以获得目标音频文本;作为示例,在初始音频文本为“aabc”的情况下,使用者的文字删除操作为对“第二个a”的删除操作,那么则第二个a则为待处理文字文本,客户端则在“aabc”中删除第二个a,则获得目标音频文本为“abc”。
[0079]
进一步地,客户端在确定使用者对待处理文字文本进行文字重排操作的情况下,所涉及到的文字文本均可作为待处理文字文本,在使用者对待处理文字文本的重排操作后,确定待处理文字文本的文本顺序,并根据确定好的文本顺序对待处理文字文本进行排序,获得目标音频文本;作为示例,初始音频文本为“吃饭了么大家”,使用者将“大家”放在“吃饭了么”的前面,所以需要对文字的顺序进行重排,客户端将“吃饭了么”和“大家”作为待处理文字文本,并按照使用者确定的文本顺序,对这两个待处理文字文本进行重排,获得目标音频文本为“大家吃饭了么”;需要说明的是,对待处理文字文本进行重排之后,相应地,也需要将对应的视频数据先进行分割,再对分割后的视频数据按照排序后的待处理文字文本进行排序。
[0080]
通过使用者在文本操作区域对初始音频文本中的文字文本的处理操作,客户端可对待处理文字文本进行处理,获得目标音频文本,便于后续根据目标音频文本便捷地对视
频数据进行剪辑处理。
[0081]
本技术提供的另一实施例中,对于初始音频文本中的字符文本也可进行处理,进而实现对视频数据的剪辑工作;具体的,所述待处理文本包括待处理字符文本;
[0082]
相应地,所述基于所述待处理文本对所述初始音频文本进行处理,获得目标音频文本,包括:
[0083]
解析所述交互指令,确定所述待处理字符文本的字符交互操作;
[0084]
基于所述字符交互操作,对所述待处理字符文本进行处理,获得目标音频文本。
[0085]
其中,待处理字符文本可以理解为在语音识别技术中,对某些声音进行文本转换后,获得的字符文本,比如,人物表达的语言文字中的间隔区间,会出现气口的声音,因此文本转换技术将该气口转换为“#”的字符文本;人物在视频中可能会有几秒钟无声音的状态,这时,文本转换技术将无声音的状态转换为“[无声音4.0s]”的字符文本;视频中的背景声音进行文本转换后,可以用“*****”的字符文本表示;需要说明的是,什么样的字符代表什么样的音频声音是可以预先设定的,本实施例对此不做任何限定。
[0086]
实际应用中,客户端在接收到使用者针对待处理字符文本的交互指令之后,通过解析该交互指令,确定待处理文字文本的字符交互操作,并根据字符交互操作,对待处理字符文本进行处理,获得目标音频文本,其中,字符交互操作可以理解为对字符文本进行删除、编辑等操作。
[0087]
进一步地,本实施例中对上述举例的字符删除、编辑操作,触发的对待处理字符文本的处理过程进行介绍;具体的,所述基于所述字符交互操作,对所述待处理字符文本进行处理,获得目标音频文本,包括:
[0088]
在确定所述字符交互操作为字符删除操作的情况下,删除所述待处理字符文本,获得目标音频文本;
[0089]
在确定所述字符交互操作为字符编辑操作的情况下,获取编辑文本,并基于所述编辑文本,确定目标音频文本。
[0090]
实际应用中,客户端在确定字符交互操作为字符删除操作的情况下,通过使用者对字符文本的删除操作过程,客户端删除待处理字符文本,并将剩余的文本内容作为目标音频文本;作为示例,初始音频文本为“abc#def”的情况下,可确定待处理字符文本为“#”,在确定使用者将该待处理字符文本进行删除操作之后,可删除“#”,获得的目标音频文本为“abcdef”,比如初始音频文本为“我是#一名学#生”,通过删除该初始音频文本中的“#”字符,进而获得目标音频文本为“我是一名学生”。
[0091]
进一步地,客户端在确定字符交互操作为字符编辑操作的情况下,客户端可获取到使用者在编辑区域的剪辑文本,并根据编辑文本确定目标音频文本;作为示例,初始音频文本为“[无声音4.0s]”的情况下,使用者可在文字编辑区域,对“[无声音4.0s]”进行文字编辑,比如,使用者编辑“大家好”,那么客户端即可获取到编辑文本为“大家好”,并将编辑文本作为此段无声音的替代文本,最终,确定目标音频文本加入了新编辑的“大家好”的内容。
[0092]
通过对待处理字符文本的处理,能够实现快速地待剪辑的文本内容的剪辑工作,不仅便于使用者使用,还可便捷地满足使用者的创作需求。
[0093]
另外,需要说明的是,在使用者点击文字区域时,可出现操作菜单,文字加粗加大
字号,句子置顶,光标出现在句子末尾,并且上下滑动则自动收起句子操作菜单,当点击的段落文字处于整个时间线较后位置时,唤出操作菜单时可不遵循句子置顶规则。其中,操作菜单可提供播放、单字删除、单字恢复、整句删除、分割的功能,播放:点击句内的播放按钮,从指针位置开始播放。包括的功能有:1、播放完句子后暂停;2、光标位于句子末尾时,句子从头开始播放;3、播放时操作选项置灰不可点击。单字删除:从光标位置,点击单字删除,将删除光标前的单个字段;删除后缩略图有300ms的遮罩表示该区域被删除,随后消失,视频时长相应减少。单字恢复:当光标位于已删除字段后方时,单字删除按钮变为单字恢复,点击后将恢复光标前的单个字段,上方缩略图视频时长相应增加。整句删除:点击整句删除,该句「文字+字符」将全部被删除。分割:光标前后的文字及其对应的音视频素材,将在点击分割后,分成两段素材,上方缩略图区域联动,光标位于段首或段尾时,分割tab置灰(注意段首和段尾不等于句首和句尾)。
[0094]
在操作菜单无人声的部分时,所提供的功能:1、播放:无人声片段,点开后显示视频轨。点击句内的播放按钮,从指针位置开始播放。2、播放完句子后暂停。3、光标位于句子末尾时,句子从头开始播放。4、指针:固定在中间位置不动。5、缩放:视频轨道可缩放,逻辑同主剪辑的轨道。6、移动:左右移动画面时,与上方画面联动,但不进行播放。7、分割:光标前后的视频素材,将在点击分割后,分成两段素材,上方缩略图区域联动。8、光标位于段首或段尾时,分割tab置灰。9、备注:点击文字区域,跳出备注弹窗,修改文字后确认,将替换原有文字。
[0095]
此外,本技术实施例中还提供了对文本的智能识别与处理的过程,更加快速地完成对初始音频文本的处理,获得目标音频文本;具体的,所述响应于针对所述初始音频文本的交互指令,对所述初始音频文本进行处理,获得目标音频文本,包括:
[0096]
响应于针对所述初始音频文本的识别指令,识别所述初始音频文本中的待删除文本,其中,所述待删除文本包括语气词文字和/或静音字符;
[0097]
响应于针对所述待删除文本的删除指令,删除所述待删除文本,获得目标音频文本。
[0098]
实际应用中,在对初始音频文本的处理界面中,还可以设置一个智能识别的控件,在使用者需要对初始音频文本进行智能识别之后,可通过点击该智能识别的控件,自动识别出初始音频文本中的待删除文本,其中,待删除文本包括语气词文字文本和/或静音字符文本。客户端在对待删除文本进行识别后,可展示出删除哪类待删除文本的选项控件,使用者可通过选择不同的选项控件,以明确将在初始音频文本中删除哪类待删除文本;进而,客户端可响应于使用者针对待删除文本的删除指令,删除掉待删除文本,进而获得目标音频文本。
[0099]
本技术实施例中提供了智能识别删除文本的功能,可以更加快速地帮助使用者确定待删除文本,并通过一键删除操作进行删除处理,避免了使用者一个一个删除,浪费较多的时间,提升了处理效率。
[0100]
下述作为示例,以示意一键删除待删除文本的过程;参见图3,图3是本技术一实施例提供的一种视频剪辑方法的智能识别示意图;
[0101]
图3中为对初始音频文本的处理页面示意图,在页面的中间部分有“智能识别”的控件,通过点击该控件,将弹出选择待删除文本类型的选项的悬浮框,使用者通过选择对应
的待删除文本的类型,比如语气词、气口等,就可以进行智能对所有的初始音频文本中的语气词、气口进行删除操作,另外,还会配置一个“一键删除”的控件,便于使用者对所有需要删除的待删除文本进行一键删除操作,在点击一键删除之后,还可出现确认删除的弹窗,点击删除后将删除所有已选中选项;需要说明的是,本实施例仅为对待删除文本进行一键删除的示例,实际应用中,可根据不同的开发需求,对删除操作在开发页面中进行设计,本实施例对此不做具体限定。
[0102]
另外,本实施例中提供的删除功能,还可通过长按缩略图中的素材卡片,在页面的右下角出现删除区域,将素材卡片拖动到此区域后,删除区域变为红色,松开素材卡片后删除该片段。长按文字段落,右下角也会出现删除区域,将文字拖动到此区域后,删除区域变为红色,松开后删除该片段。
[0103]
步骤208:基于所述目标音频文本对所述视频数据进行剪辑,生成所述待剪辑视频对应的目标视频。
[0104]
实际应用中,客户端在获得音频数据对应的目标音频文本后,即可根据目标音频文本对视频数据进行剪辑操作,以生成待剪辑视频对应的目标视频;需要说明的是,剪辑操作包括但不限于裁剪视频帧、拼接视频帧等操作,本实施例对此不做任何限定。
[0105]
进一步地,所述基于所述目标音频文本对所述视频数据进行剪辑,生成所述待剪辑视频对应的目标视频,包括:
[0106]
在所述初始文本时间戳中,确定所述目标音频文本对应的目标文本时间戳;
[0107]
基于所述目标文本时间戳,对所述视频数据进行剪辑,生成所述待剪辑视频对应的目标视频。
[0108]
实际应用中,客户端在初始文本时间戳中,确定出目标音频文本对应的目标文本时间戳,并根据目标文本时间戳,对视频数据进行剪辑操作,生成待剪辑视频对应的目标视频。需要说明的是,目标音频文本为剪辑后的视频所需要展现的文本内容,其对应的视频数据是和目标音频文本相对应,因此,在获取到目标音频文本对应的视频数据之后,即可获得最后的目标视频。
[0109]
更进一步地,所述基于所述目标文本时间戳,对所述视频数据进行剪辑,生成所述待剪辑视频对应的目标视频,包括:
[0110]
在所述视频数据中,选取所述目标文本时间戳对应的待剪辑视频数据,其中,所述待剪辑视频数据中包括视频数据对应的音频数据;
[0111]
基于所述待剪辑视频数据以及所述目标音频文本,生成所述待剪辑视频对应的目标视频。
[0112]
实际应用中,客户端在确定了目标音频文本对应的目标文本时间戳之后,可在视频数据中,选取该目标文本时间戳对应的待剪辑视频数据,进而,对待剪辑视频数据进行剪辑操作,其中,待剪辑视频数据中包括视频数据对应的音频数据,进而,根据待剪辑视频数据以及目标音频文本,生成待剪辑视频对应的目标视频。
[0113]
通过选取目标文本时间戳对应的待剪辑视频数据,进而,对该待剪辑视频数据进行剪切、拼接等剪辑操作,以快速地生成剪辑后的目标视频。
[0114]
另外,本技术实施例中还提供了使用者对多个待剪辑视频的素材进行排序的功能,通过在应用程序的粗剪界面触发展示素材排序区域,完成对素材的排序工作;具体的,
所述基于所述待剪辑视频数据以及所述目标音频文本,生成所述待剪辑视频对应的目标视频,包括:
[0115]
响应于素材排序指令,展示素材排序区域;
[0116]
在所述素材排序区域中,根据素材排序指令中的排序操作对所述待剪辑视频数据以及所述目标音频文本进行排序处理,生成所述待剪辑视频对应的目标视频。
[0117]
客户端响应于使用者触发的素材排序指令,在使用者的当前展示界面展示素材排序区域,使用者在素材排序区域,对多个视频素材按照自己的需求进行排序处理,其中,视频素材中包括带有音频数据的视频数据,以及目标音频文本等内容,进而,客户端根据使用者对视频素材的排列顺序,完成对所有视频素材的排序,以生成待剪辑视频对应的目标视频。
[0118]
参见图4,图4是本技术一实施例提供的一种视频剪辑方法的素材排序示意图。
[0119]
图4的上半部分为视频展示区域,下半部分为素材排序区域,其中,素材排序区域包括多个视频素材,在图4中用数字的卡片进行示意表示,一共包括六个视频素材,同时,页面中间还包括控件对号和错号,用于使用者确定是否按下述顺序排序;按照页面中的提示,使用者可通过长按下述视频素材的卡片后给予震动反馈,可进行素材移动,来完成素材排序的工作。
[0120]
另外,点击素材卡片,卡片可出现高亮框,视频区域会进行对应的播放,再次点击为重新播放,进入页面前的高亮框定位取决于进入排序弹窗前光标所在素材。
[0121]
综上,本技术实施例提供的视频剪辑方法,通过对口播类视频的音频进行asr语音识别,使用者可通过编辑文字区域和智能识别功能来实现便捷的粗剪,不仅可以降低了对视频剪辑的操作难度,还大大地提高了视频剪辑的效率,提升用户体验。
[0122]
参见图5,图5是本技术一实施例提供的一种应用于口播快剪的视频剪辑方法的处理流程图;
[0123]
步骤502:使用者进入视频快剪页面。
[0124]
步骤504:使用者选择是否进入口播快剪页面,若是,则执行步骤508,若否,则执行步骤506。
[0125]
步骤506:使用者选择留在视频快剪页面。
[0126]
步骤508:使用者选择口播快剪,客户端进行口播快剪加载页面。
[0127]
步骤510:客户端将获取到待剪辑的视频数据后,将视频数据中的音频数据上传至服务端。
[0128]
步骤512:服务端请求算法asr服务,对音频数据进行语音识别。
[0129]
步骤514:服务端获得asr识别结果,即音频文本。
[0130]
步骤516:将该音频文本发送至客户端的口播快剪页面进行展示。
[0131]
步骤518:使用者选择是否在口播快剪页面中触发智能识别,若是,则执行步骤520,若否,则执行步骤516。
[0132]
步骤520:使用者在触发智能识别之后,服务器可查询数据库中的语气词&气口,比对音频文本中是否包含语气词&气口。
[0133]
步骤522:客户端对当前是否包含语气词&气口的结果进行智能识别结果展示,并基于智能识别展示结果对音频文本进行处理,进而,对视频数据进行剪辑,完成粗剪工作。
[0134]
需要说明的是,对于音频数据的语音识别部分,可以发送至服务端进行语音识别,也可在客户端本地中进行语音识别,文字转换,该过程本实施例中不做具体限定。
[0135]
参见图6,图6是本技术一实施例提供的一种视频剪辑方法的处理流程图;
[0136]
需要说明的是,本实施例提供的视频剪辑方法应用于客户端的应用程序中,使用者在应用程序中快速地完成视频的剪辑工作,其中,应用程序可以为视频剪辑工具的软件。
[0137]
步骤602:使用者在目标应用程序中点击主编辑器控件。
[0138]
步骤604:进入相册页,供使用者在相册页中选择待编辑的视频素材。
[0139]
步骤606:使用者选择是否需要对视频素材进行批量粗剪,若是,则执行步骤608,若否,则执行步骤674。
[0140]
步骤608:进入视频快剪页面。
[0141]
步骤610:使用者判断是否需要进行口播快剪页面,若是,执行步骤616,若否,则执行步骤618。
[0142]
步骤612:使用者也可在应用程序的首页中点击粗剪入口。
[0143]
步骤614:进入相册页,供使用者在相册页中选择待编辑的视频素材。
[0144]
步骤616:进入口播快剪页面。
[0145]
步骤618:留在视频快剪页面,使用者可选择是否添加素材,若是,则执行步骤620,若否,则执行步骤622。
[0146]
步骤620:使用者进行添加素材,可根据创作需求自由选择。
[0147]
步骤622:使用者可选择是否备注素材,若是,则执行步骤624,若否,则执行步骤626。
[0148]
步骤624:使用者备注素材,比如备注素材类型、素材时间等属性信息。
[0149]
步骤626:使用者选择是否对素材进行分割,若是,则执行步骤628,若否,则执行步骤630。
[0150]
步骤628:使用者对选择的素材进分割处理。
[0151]
步骤630:使用者选择是否需要进行裁剪片段,若是,则执行步骤632,若否,则执行步骤634。
[0152]
步骤632:使用者进行片段裁剪/素材删除。
[0153]
步骤634:使用者选择是否进行素材排序,若是,则执行步骤636,若否,则执行步骤638。
[0154]
步骤636:使用者对素材进行排序。
[0155]
步骤638:使用者判断是否完成粗剪工作,若是,则执行步骤674,若否,则执行步骤610。
[0156]
步骤640:使用者判断是否进行视频快剪,若是,则执行步骤608,若否,则执行步骤642。
[0157]
步骤642:使用者选择是否添加素材,若是,则执行步骤644,若否,则执行步骤646。
[0158]
步骤644:使用者进行添加素材。
[0159]
步骤646:使用者选择是否备注无声素材,若是,则执行步骤648,若否,则执行步骤650。
[0160]
步骤648:使用者备注视频素材为无声素材。
[0161]
步骤650:使用者选择是否对素材进行裁切,若是,则执行步骤652,若否,则执行步骤654。
[0162]
步骤652:使用者可对素材中的音频文本进行单字删除/整句删除/段落删除。
[0163]
步骤654:使用者选择是否需要进行智能识别,若是,则执行步骤656和步骤658,若否,则执行步骤668。
[0164]
步骤656:使用者判断是否选择删除语气词,若是,则执行步骤654,若否,则执行步骤660。
[0165]
步骤658:使用者判断是否选择删除气口,若是,则执行步骤654,若否,则执行步骤660。
[0166]
步骤660:使用者选择是否取消选中识别结果,若是,则执行步骤662,若否,则执行步骤664。
[0167]
步骤662:使用者取消选中识别结果。
[0168]
步骤664:使用者选择是否一键删除,若是,则执行步骤666,若否,则执行步骤668。
[0169]
步骤666:使用者将选择的内容一键删除。
[0170]
步骤668:使用者选择是否对文本进行排序,若是,则执行步骤670,若否,则执行步骤672。
[0171]
步骤670:使用者长按素材进行排序。
[0172]
步骤672:使用者判断是否完成粗剪,若是,则执行步骤674,若否,则执行步骤640。
[0173]
步骤674:使用者进入主编辑器页面,完成视频剪辑工作。
[0174]
综上,本技术实施例提供的视频剪辑方法,通过在应用程序中对视频剪辑过程的选择,对视频剪辑可通过裁剪、排序等完成粗剪,而对口播类视频的音频进行asr语音识别,使用者可通过编辑文字区域和智能识别功能来实现便捷的粗剪,不仅可以降低了对视频剪辑的操作难度,还大大地提高了视频剪辑的效率,提升用户体验。
[0175]
与上述方法实施例相对应,本技术还提供了视频剪辑装置实施例,图7示出了本技术一实施例提供的一种视频剪辑装置的结构示意图。如图7所示,该装置包括:
[0176]
数据获取模块702,被配置为获取待剪辑视频,提取所述待剪辑视频中的音频数据和视频数据;
[0177]
文本识别模块704,被配置为对所述音频数据进行语音识别,获得所述音频数据对应的初始音频文本;
[0178]
文本处理模块706,被配置为响应于针对所述初始音频文本的交互指令,对所述初始音频文本进行处理,获得目标音频文本;
[0179]
视频剪辑模块708,被配置为基于所述目标音频文本对所述视频数据进行剪辑,生成所述待剪辑视频对应的目标视频。
[0180]
可选地,所述文本处理模块706,进一步被配置为:
[0181]
响应于针对所述初始音频文本的交互指令,确定所述初始音频文本中的待处理文本;
[0182]
基于所述待处理文本对所述初始音频文本进行处理,获得目标音频文本。
[0183]
可选地,所述待处理文本包括待处理文字文本;
[0184]
可选地,所述文本处理模块706,进一步被配置为:
[0185]
解析所述交互指令,确定所述待处理文字文本的文字交互操作;
[0186]
基于所述文字交互操作,对所述待处理文字文本进行处理,获得目标音频文本。
[0187]
可选地,所述文本处理模块706,进一步被配置为:
[0188]
在确定所述文字交互操作为文字删除操作的情况下,删除所述待处理文字文本,获得目标音频文本;
[0189]
在确定所述文字交互操作为文字重排操作的情况下,确定所述待处理文字文本的文本顺序,基于所述文本顺序对所述待处理文字文本进行排序,获得目标音频文本。
[0190]
可选地,所述待处理文本包括待处理字符文本;
[0191]
相应地,所述基于所述待处理文本对所述初始音频文本进行处理,获得目标音频文本,包括:
[0192]
解析所述交互指令,确定所述待处理字符文本的字符交互操作;
[0193]
基于所述字符交互操作,对所述待处理字符文本进行处理,获得目标音频文本。
[0194]
可选地,所述文本处理模块706,进一步被配置为:
[0195]
在确定所述字符交互操作为字符删除操作的情况下,删除所述待处理字符文本,获得目标音频文本;
[0196]
在确定所述字符交互操作为字符编辑操作的情况下,获取编辑文本,并基于所述编辑文本,确定目标音频文本。
[0197]
可选地,所述文本处理模块706,进一步被配置为:
[0198]
响应于针对所述初始音频文本的识别指令,识别所述初始音频文本中的待删除文本,其中,所述待删除文本包括语气词文字和/或静音字符;
[0199]
响应于针对所述待删除文本的删除指令,删除所述待删除文本,获得目标音频文本。
[0200]
可选地,所述文本识别模块704,进一步被配置为:
[0201]
基于预设语音识别规则,对所述音频数据进行语音识别,获得所述音频数据对应的初始音频文本,其中,所述初始音频文本包括文本内容和所述文本内容对应的初始文本时间戳;或者
[0202]
将所述音频数据发送至服务器,接收所述服务器返回的所述音频数据对应的初始音频文本,其中,所述初始音频文本包括文本内容和所述文本内容对应的初始文本时间戳。
[0203]
可选地,所述视频剪辑模块708,进一步被配置为:
[0204]
在所述初始文本时间戳中,确定所述目标音频文本对应的目标文本时间戳;
[0205]
基于所述目标文本时间戳,对所述视频数据进行剪辑,生成所述待剪辑视频对应的目标视频。
[0206]
可选地,所述视频剪辑模块708,进一步被配置为:
[0207]
在所述视频数据中,选取所述目标文本时间戳对应的待剪辑视频数据,其中,所述待剪辑视频数据中包括视频数据对应的音频数据;
[0208]
基于所述待剪辑视频数据以及所述目标音频文本,生成所述待剪辑视频对应的目标视频。
[0209]
可选地,所述视频剪辑模块708,进一步被配置为:
[0210]
响应于素材排序指令,展示素材排序区域;
[0211]
在所述素材排序区域中,根据素材排序指令中的排序操作对所述待剪辑视频数据以及所述目标音频文本进行排序处理,生成所述待剪辑视频对应的目标视频。
[0212]
可选地,所述数据获取模块702,进一步被配置为:
[0213]
响应于针对视频处理页面的视频剪辑指令,加载视频剪辑页面;
[0214]
接收针对所述视频剪辑页面触发的素材获取指令,获取至少一个待剪辑视频;
[0215]
基于音频分离技术对每个待剪辑视频进行提取处理,获得所述每个待剪辑视频对应的音频数据和视频数据。
[0216]
本技术实施例提供的视频剪辑装置,通过对待剪辑视频中的音频数据进行语音识别,获得初始音频文本,再响应于用户的交互指令,实现对初始音频文本的处理,获得了目标音频文本,进而根据该目标音频文本对待剪辑视频中的视频数据进行剪辑,生成目标视频;该种方式,通过对音频文本的编辑等操作,来实现对视频的粗剪工作,不仅可以降低了对视频剪辑的操作难度,还大大地提高了视频剪辑的效率,提升用户体验。
[0217]
上述为本实施例的一种视频剪辑装置的示意性方案。需要说明的是,该视频剪辑装置的技术方案与上述的视频剪辑方法的技术方案属于同一构思,视频剪辑装置的技术方案未详细描述的细节内容,均可以参见上述视频剪辑方法的技术方案的描述。
[0218]
图8示出了根据本技术一实施例提供的一种计算设备800的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接,数据库850用于保存数据。
[0219]
计算设备800还包括接入设备840,接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(pstn,public switched telephone network)、局域网(lan,localareanetwork)、广域网(wan,wideareanetwork)、个域网(pan,personalareanetwork)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic,network interface controller))中的一个或多个,诸如ieee802.11无线局域网(wlan,wireless localareanetwork)无线接口、全球微波互联接入(wi-max,worldwide interoperability for microwave access)接口、以太网接口、通用串行总线(usb,universal serial bus)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc,near field communication)接口,等等。
[0220]
在本技术的一个实施例中,计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图8所示的计算设备结构框图仅仅是出于示例的目的,而不是对本技术范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
[0221]
计算设备800可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(pc,personal computer)的静止计算设备。计算设备800还可以是移动式或静止式的服务器。
[0222]
其中,处理器820执行所述计算机指令时实现所述的视频剪辑方法的步骤。
[0223]
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的视频剪辑方法的技术方案属于同一构思,计算设备的技术方案未详细描述
的细节内容,均可以参见上述视频剪辑方法的技术方案的描述。
[0224]
本技术一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现如前所述视频剪辑方法的步骤。
[0225]
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的视频剪辑方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述视频剪辑方法的技术方案的描述。
[0226]
上述对本技术特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0227]
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,randomaccess memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
[0228]
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本技术所必须的。
[0229]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
[0230]
以上公开的本技术优选实施例只是用于帮助阐述本技术。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本技术的内容,可作很多的修改和变化。本技术选取并具体描述这些实施例,是为了更好地解释本技术的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本技术。本技术仅受权利要求书及其全部范围和等效物的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1