一种视频处理方法及装置的制造方法

文档序号:10539160阅读:345来源:国知局
一种视频处理方法及装置的制造方法
【专利摘要】本发明实施例提供一种视频处理方法及装置,用以在拍摄的视频中增加字幕,解决现有技术中视频拍摄同质化的缺陷。所述视频处理方法包括检测到开始录制语音触发事件时开始播放已拍摄完成的视频并进行语音信息录制;在检测到结束录制语音触发事件时,停止播放所述视频和录制语音信息;对录制的语音信息进行识别得到字幕信息;根据录制的语音信息的时间信息将所述字幕信息插入到所述视频中。
【专利说明】
一种视频处理方法及装置
技术领域
[0001]本发明实施例涉及视频拍摄技术领域,尤其涉及一种视频处理方法及装置。
【背景技术】
[0002]随着智能移动终端技术的发展,使用移动终端进行短视频拍摄成为当下热门应用之一。目前,利用移动终端进行视频拍摄的拍摄方式单一,即用户利用视频拍摄应用程序提供的模板、滤镜等辅助工具进行视频拍摄。视频拍摄完成后,用户可以将其发布到网站供其他用户观看或者下载,也可以在移动终端本地存储,用户无法对拍摄完成的视频按照自己的意愿进行处理,使用用户拍摄的视频趋于同质化。
[0003]实际应用中,用户可能存在如下需求:在拍摄完成的视频中添加字幕,而现有的视频拍摄方法无法实现该功能,因此,如何在拍摄的视频中增加字幕成为利用移动终端进行视频拍摄技术领域亟待解决的技术问题之一。

【发明内容】

[0004]本发明实施例提供一种视频处理方法及装置,用以在拍摄的视频中增加字幕,解决现有技术中视频拍摄同质化的缺陷。
[0005]本发明实施例提供一种视频处理方法,包括:
[0006]检测到开始录制语音触发事件时开始播放已拍摄完成的视频并进行语音信息录制;
[0007]在检测到结束录制语音触发事件时,停止播放所述视频和录制语音信息;
[0008]对录制的语音信息进行识别得到字幕信息;
[0009]根据录制的语音信息的时间信息将所述字幕信息插入到所述视频中。
[0010]本发明实施例提供一种视频处理装置,包括:
[0011]控制单元,用于在检测到开始录制语音触发事件时开始播放已拍摄完成的视频并进行语音信息录制;以及在检测到结束录制语音触发事件时,停止播放所述视频和录制语音信息;
[0012]语音识别单元,用于对录制的语音信息进行识别得到字幕信息;
[0013]字幕信息插入单元,用于根据录制的语音信息的时间信息将所述字幕信息插入到所述视频中。
[0014]本发明实施例提供一种视频处理设备,包括处理器和存储器,处理器可以用于读取存储器中的程序,执行下列过程:检测到开始录制语音触发事件时开始播放已拍摄完成的视频并进行语音信息录制;在检测到结束录制语音触发事件时,停止播放所述视频和录制语音信息;对录制的语音信息进行识别得到字幕信息;根据录制的语音信息的时间信息将所述字幕信息插入到所述视频中。
[0015]本发明实施例提供的视频处理方法及装置,在视频拍摄完成后,通过将用户录制的语音识别为字幕并插入至拍摄完成的视频中,用户可以为拍摄的视频添加字幕,使得拍摄的视频更具个性,提高了用户体验。
【附图说明】
[0016]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1a为本发明实施例中视频拍摄完成后用户需要对以完成视频进行处理时的显示界面示意图;
[0018]图1b为本发明实施例中语音录制页面的界面示意图;
[0019]图1c为本发明实施例中为提供字幕开启/关闭开关的界面示意图;
[0020]图1d为本发明实施例中添加了字幕的视频播放效果示意图;
[0021]图2为本发明实施例中视频处理方法流程图;
[0022]图3为本发明实施例中视频拍摄装置结构示意图。
【具体实施方式】
[0023]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0024]实施例一
[0025]为了提高用户体验,本发明实施例中,用户在拍摄完成视频之后,可以为拍摄的视频添加字幕。如图1a所示,为本发明实施例中,视频拍摄完成后用户需要对以完成视频进行处理时的显示界面示意图,用户需要为拍摄完成的视频添加字幕时,可以点击添加旁白按键触发视频处理应用程序启动。视频处理应用程序启动后,进入语音录制页面,如图1b所示,为语音录制页面的界面示意图。用户可以通过点击开始录制按键开始录制语音,触发语音录制流程,用户点击开始录制按键的同时,开始播放已完成的视频,用户根据播放的视频录制语音信息。当用户需要结束语音录制流程时,点击结束录制按键,同时停止播放视频。
[0026]基于此,如图2所示,为本发明实施例提供的视频处理方法实施例流程图,可以包括以下步骤:
[0027]S21、检测到开始录制语音触发事件时开始播放已拍摄完成的视频并进行语音信息录制。
[0028]在检测到用户点击开始录制按键时确定检测到开始录制语音触发事件,此时开始播放已完成视频,并进入语音录制流程。
[0029]S22、在检测到结束录制语音触发事件时,停止播放所述视频和录制语音信息。
[0030]在检测到用户点击结束录制按键时确定检测到结束录制语音触发事件,此时停止播放已完成视频,结束语音录制流程。
[0031]S23、对录制的语音信息进行识别得到字幕信息。
[0032]S24、根据录制的语音信息的时间信息将得到的字幕信息插入到视频中。
[0033]需要说明的是,具体实施时,还可以在录制语音信息的同时对录制的语音信息进行识别,并插入到视频中进行显示,即步骤S23、步骤S24可以与步骤S21同时执行。
[0034]在步骤S23中,可以有以下两种实施方式:
[0035]第一种实施方式、在网络侧进行识别
[0036]具体的,在检测到结束录制语音触发事件时,向网络侧服务器发送语音识别请求,其中携带有录制的语音信息,由网络侧服务器利用语音识别技术将接收到的语音信息识别为字幕信息后返回。
[0037]第二种实施方式、在终端设备本地进行识别
[0038]这种实施方式下,需要开发人在预先在视频处理应用程序中预先写入翻译库,在安装视频处理应用程序时存储至终端设备本地,以识别用户录制的语音。受制于终端设备的存储空间,预先写入的翻译库中包含的语言可能并不完整,例如,可以仅仅写入大部分用户常用的语言,例如中文,英文,对于一些不常见的语言可以不写入,以节省终端设备的存储空间。
[0039]另外,与网络侧识别方式相比,在终端设备本地识别响应速度相对较快,用户在录制结束后立即可以识别出对应的字幕信息。
[0040]在网络侧进行识别的实施方式中,由于网络侧服务器可利用的翻译资源较多,因此,可以将用户录制的语音信息识别为不同语言的字幕信息,且其识别结果更加准确。但是,其受网络环境影响较大,如果网络环境较好,终端设备得到字幕信息的延迟较小,如果网络环境较差,终端设备得到字幕信息的延迟较大。
[0041]为了使得视频播放与语音信息识别得到的字幕信息融合效果更好,具体实施时,在进行字幕识别过程中可以控制视频播放与语音录制同步进行。下面通过实施例二进行说明。
[0042]实施例二
[0043]在检测到开始录制语音触发事件时开始播放视频,并获取视频的开始播放时间点;在检测到结束录制语音触发事件时停止播放视频,并获取视频的结束播放时间点。基于此在向视频中插入字幕信息时,可以将字幕信息插入到获取的开始播放时间点与结束播放时间点之间的视频中。
[0044]例如,在检测到开始录制语音触发事件时开始播放视频,并获取到视频的开始播放时间点为第5s,在检测到结束录制语音触发事件时停止播放视频,并获取到视频的结束播放时间点为第15s,则将识别出的字幕信息插入到视频的第5s-第15s之间。
[0045]针对网络侧识别的识别结果延迟问题,本发明实施例中,在检测到结束录制语音触发事件后,如果获得字幕信息延迟大于预设阈值,例如,字幕信息延迟2s才获得,则在向视频中插入字幕信息时,需要增加延迟的时间。例如,用户录制5s的语音信息,在2s后获得了识别出的字幕信息,这种情况下,假设获取的开始播放时间点为第5s,结束播放时间点为第10s,在向视频中插入字幕信息时,需要增加2s的延迟,即将字幕信息插入到第5s-第12s之间的视频中。如果获得字幕信息延迟不大于预设阈值,则可以忽略不计,即仍然按照获取的开始播放时间点和结束播放时间点进行插入即可,即将识别出的字幕信息插入到第5s-第1s之间的视频中。
[0046]基于实施二中视频播放与语音录制同步的实施例,实施例三中用户可以分多次完成语音信息的录制,并分别进行识别得到字幕,根据语音录制时间插入到对应的视频内容中。基于此,本发明实施例提供了实施例三。
[0047]实施例三
[0048]针对一段拍摄完成的视频,用户可以分多次录制语音信息后插入到该视频中。例如,用户拍摄了一段20s的视频,可以分四次录制语音信息。每一段语音信息与其中的一段视频对应。具体实施时,录制完成一段语音信息并获得其对应的字幕信息后,根据录制时间点将其插入对应播放时间点的视频中。例如,假设录制第一段语音信息的录制时间点为第0s-第5s,其对应的播放时间点为第Os-第5s,则获得了识别出的字幕后,将其插入到第Os-第5s的视频中。假设录制第二段语音信息的录制时间点为第5s-第12s,其对应的播放时间点为第5s-第12s,则获得了识别出的字幕后,将其插入到第5s-第12s的视频中,以此类推。
[0049]如果录制过程中,网络环境较差,例如,假设录制第一段语音信息的录制时间点为第Os-第5s,其对应的播放时间点为第Os-第5s,在录制结束后2s获得了识别出的字幕信息,则将获得的字幕信息插入到第Os-第7s视频中,且第二段语音信息的开始录制时间从第7s开始,假设录制第二段语音信息的录制时间点为第7s-第15s,其对应的播放时间点为第7s-第15s,则获得了识别出的字幕后,将其插入到第7s-第15s的视频中。在处理过程中,始终需要保持录制时间点和播放时间点一致。
[0050]用户在录制完成全部的语音信息或者在录制语音信息的过程中,如果用户分多次录制完成一段视频的语音信息,即录制的语音信息由至少一个按照录制时间排列的子语音信息组成。用户可以删除录制不满意的语音信息并重新录制,具体实施时,可以按照实施例四实施子视频删除以及重新录制的过程。
[0051]实施例四
[0052]本实施例中,在检测到删除任一子语音信息触发事件时,删除对应的子语音信息。相应的,用户在删除已录制完成的子语音信息时,如果再次检测到开始录制语音触发事件时,可以提示用户是否重新录制被删除的子语音信息,根据用户的选择确定是否重新录制被删除的子语音信息。在确定重新录制被删除的子语音信息时,从被删除子语音信息的开始录制时间点开始播放视频并重新进行语音信息录制;并对重新录制的语音信息进行识别得到字幕信息并根据重新录制语音信息的时间信息将识别得到的字幕信息插入该视频中。
[0053]较佳的,在重新录制被删除的子语音信息时,本发明实施例提供以下两种重新录制被删除的子语音信息的实施方式:
[0054]第一种实施方式,仅重新录制被删除的子语音信息。
[0055]这种实施方式下,在检测到重新录制被删除的子语音信息的开始录制语音触发事件时,从被删除子语音信息的开始录制时间点开始播放视频并重新进行语音信息录制,直至到达该被删除子语音信息的结束录制时间点时停止录制语音信息并停止播放视频。
[0056]例如,用户为一段20s的视频录制了 4个子语音信息,假设用户删除的子语音信息的录制时间点为第5s-第12s,则其对应的视频播放时间点为第5s-第12s,用户在删除了该子语音信息后,从播放时间点第5s开始播放视频,同时进行语音录制,在播放时间点到达第12s时,停止结束语音录制并停止播放视频。
[0057]第二种实施方式,对录制时间点在用户选择删除的子语音信息之后的全部子语音信息进行重新录制。
[0058]这种实施方式下,在检测到重新录制被删除的子语音信息的开始录制语音触发事件时,从被删除子语音信息的开始录制时间点开始播放所述视频并重新进行语音信息录制,直至到达录制时间最晚的子语音信息的结束录制时间点时停止录制语音信息并停止播放所述视频。
[0059]例如,用户为一段20s的视频录制了 4个子语音信息,假设用户删除的子语音信息的录制时间点为第5s-第12s,则其对应的视频播放时间点为第5s-第12s,用户在删除了该子语音信息后,从播放时间点第5s开始播放视频,同时进行语音录制,在播放时间点到达第20s时,停止结束语音录制并停止播放视频。当然,在录制过程中,用户也可以分多次录制第5s-第20s对应的语音信息。例如,用户第一次录制第5s-第8s,第二次录制第8s_第15s,第二次录制第15s_第20s。每次录制语首过程中,视频播放时间点与语首录制时间点保持一致即可。
[0060]具体实施时,为了进一步提高语音识别为字幕的准确性,用户也可以分段录制视频,最后为每一段视频录制语音信息。例如,用户份4次拍摄20s的视频,假设每次拍摄5s、6s、5s、4s的视频片段,之后,用户再分别针对每一段视频利用上述方法为其添加字幕即可。
[0061]具体实施时,还可以提供字幕开启/关闭开关,根据检测到的开启/关闭触发事件开启/关闭字幕。如图1c所示,为提供字幕开启/关闭开关的界面示意图,图1c中右下角为字幕开启/关闭的开关,具体的,当开关为图1c所示状态时,字幕可以为开启状态,当开关被触发向左滑动时,可将字幕关闭。如图1d所示,为添加了字幕的视频播放效果示意图。
[0062]本发明实施例提供的视频处理方法中,用户可以为自己拍摄的视频添加字幕,使得拍摄出的视频更加具有个性,提高了用户体验。
[0063]与本申请实施例一?实施例四基于同一发明构思,实施例五提供了一种视频拍摄处理装置,由于本装置解决问题的原理与上述的视频拍摄处理方法相似,因此上述装置的实施可以参见方法的实施,重复之处不再赘述。
[0064]实施例五
[0065]如图3所示,为本发明中视频拍摄处理装置实施例结构示意图,可以包括:
[0066]控制单元31,用于在检测到开始录制语音触发事件时开始播放已拍摄完成的视频并进行语音信息录制;以及在检测到结束录制语音触发事件时,停止播放所述视频和录制语音信息;
[0067]语音识别单元32,用于对录制的语音信息进行识别得到字幕信息;
[0068]字幕信息插入单元33,用于根据录制的语音信息的时间信息将所述字幕信息插入到所述视频中。
[0069]具体实施时,语音识别单元32,可以用于向网络侧发送语音识别请求,其中所述语音识别请求携带有录制的语音信息;接收所述网络侧根据所述语音信息识别出的字幕信息;或者将录制的语音信息在本地识别为字幕信息。
[0070]本发明实施例提供的视频处理装置,还可以包括获取单元,其中:
[0071]获取单元,用于在检测到开始录制语音触发事件时,获取所述视频的开始播放时间点;以及在检测到结束录制语音触发事件时,获取所述视频的结束播放时间点;字幕信息插入单元33,用于将所述字幕信息插入到所述开始播放时间点和结束播放时间点之间的视频中。
[0072]具体实施时,录制的语音信息由至少一个按照录制时间排列的子语音信息组成。
[0073]基于此,本发明实施例提供的视频处理装置还可以包括:
[0074]删除单元,用于在检测到删除任一子语音信息触发事件时,删除对应的子语音信息。
[0075]控制单元31,还可以用于在删除单元删除对应的子语音信息之后,在检测到重新录制被删除的子语音信息的开始录制语音触发事件时,从被删除子语音信息的开始录制时间点开始播放所述视频并重新进行语音信息录制;
[0076]语音识别单元32,还可以用于对重新录制的语音信息进行识别得到字幕信息;
[0077]字幕信息插入单元33,还可以用于根据重新录制的语音信息的时间信息将识别得到的字幕信息插入所述视频中。
[0078]其中,控制单元31,具体用于在检测到重新录制被删除的子语音信息的开始录制语音触发事件时,从被删除子语音信息的开始录制时间点开始播放所述视频并重新进行语音信息录制,直至到达所述被删除子语音信息的结束录制时间点时停止录制语音信息并停止播放所述视频;或者在检测到重新录制被删除的子语音信息的开始录制语音触发事件时,从被删除子语音信息的开始录制时间点开始播放所述视频并重新进行语音信息录制,直至到达录制时间最晚的子语音信息的结束录制时间点时停止录制语音信息并停止播放所述视频。
[0079]为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本发明时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。具体实施时,上述设备识别装置可以设置于终端设备中。
[0080]本发明实施例中可以通过硬件处理器(hardware processor)来实现图3所示的相关功能单元。具体实施时,处理器可以用于读取存储器中的程序,执行下列过程以实现图3所示的相关功能单元:检测到开始录制语音触发事件时开始播放已拍摄完成的视频并进行语音信息录制;在检测到结束录制语音触发事件时,停止播放所述视频和录制语音信息;对录制的语音信息进行识别得到字幕信息;根据录制的语音信息的时间信息将所述字幕信息插入到所述视频中。
[0081]以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0082]通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如R0M/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0083]最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制?’尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
【主权项】
1.一种视频处理方法,其特征在于,包括: 检测到开始录制语音触发事件时开始播放已拍摄完成的视频并进行语音信息录制; 在检测到结束录制语音触发事件时,停止播放所述视频和录制语音信息; 对录制的语音信息进行识别得到字幕信息; 根据录制的语音信息的时间信息将所述字幕信息插入到所述视频中。2.根据权利要求1所述的方法,其特征在于,对录制的语音信息进行识别得到的字幕信息,具体包括: 向网络侧发送语音识别请求,其中所述语音识别请求携带有录制的语音信息;接收所述网络侧根据所述语音信息识别出的字幕信息;或者将录制的语音信息在本地识别为字幕信息。3.根据权利要求1所述的方法,其特征在于,还包括: 在检测到开始录制语音触发事件时,获取所述视频的开始播放时间点; 在检测到结束录制语音触发事件时,获取所述视频的结束播放时间点;以及 根据录制的语音信息的时间信息将所述字幕信息插入到所述视频中,具体包括: 将所述字幕信息插入到所述开始播放时间点和结束播放时间点之间的视频中。4.根据权利要求1所述的方法,其特征在于,录制的语音信息由至少一个按照录制时间排列的子语音信息组成。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:在检测到删除任一子语音信息触发事件时,删除对应的子语音信息。6.根据权利要求5所述的方法,其特征在于,所述删除对应的子语音信息之后包括: 在检测到重新录制被删除的子语音信息的开始录制语音触发事件时,从被删除子语音信息的开始录制时间点开始播放所述视频并重新进行语音信息录制; 对重新录制的语音信息进行识别得到字幕信息并根据重新录制语音信息的时间信息将识别得到的字幕信息插入所述视频中。7.根据权利要求6所述的方法,其特征在于,从被删除子语音信息的开始录制时间点开始播放所述视频并重新进行语音信息录制,具体包括: 在检测到重新录制被删除的子语音信息的开始录制语音触发事件时,从被删除子语音信息的开始录制时间点开始播放所述视频并重新进行语音信息录制,直至到达所述被删除子语音信息的结束录制时间点时停止录制语音信息并停止播放所述视频;或者 在检测到重新录制被删除的子语音信息的开始录制语音触发事件时,从被删除子语音信息的开始录制时间点开始播放所述视频并重新进行语音信息录制,直至到达录制时间最晚的子语音信息的结束录制时间点时停止录制语音信息并停止播放所述视频。8.一种视频处理装置,其特征在于,包括: 控制单元,用于在检测到开始录制语音触发事件时开始播放已拍摄完成的视频并进行语音信息录制;以及在检测到结束录制语音触发事件时,停止播放所述视频和录制语音信息; 语音识别单元,用于对录制的语音信息进行识别得到字幕信息; 字幕信息插入单元,用于根据录制的语音信息的时间信息将所述字幕信息插入到所述视频中。9.根据权利要求8所述的装置,其特征在于, 所述语音识别单元,具体用于向网络侧发送语音识别请求,其中所述语音识别请求携带有录制的语音信息;接收所述网络侧根据所述语音信息识别出的字幕信息;或者将录制的语音信息在本地识别为字幕信息。10.根据权利要求8所述的装置,其特征在于,还包括获取单元,其中: 所述获取单元,用于在检测到开始录制语音触发事件时,获取所述视频的开始播放时间点;以及在检测到结束录制语音触发事件时,获取所述视频的结束播放时间点; 所述字幕信息插入单元,用于将所述字幕信息插入到所述开始播放时间点和结束播放时间点之间的视频中。11.根据权利要求8所述的装置,其特征在于,录制的语音信息由至少一个按照录制时间排列的子语音信息组成。12.根据权利要求11所述的装置,其特征在于,还包括: 删除单元,用于在检测到删除任一子语音信息触发事件时,删除对应的子语音信息。13.根据权利要求12所述的装置,其特征在于, 所述控制单元,还用于在所述删除单元删除对应的子语音信息之后,在检测到重新录制被删除的子语音信息的开始录制语音触发事件时,从被删除子语音信息的开始录制时间点开始播放所述视频并重新进行语音信息录制; 所述语音识别单元,还用于对重新录制的语音信息进行识别得到字幕信息; 所述字幕信息插入单元,还用于根据重新录制的语音信息的时间信息将识别得到的字幕信息插入所述视频中。14.根据权利要求13所述的装置,其特征在于, 所述控制单元,具体用于在检测到重新录制被删除的子语音信息的开始录制语音触发事件时,从被删除子语音信息的开始录制时间点开始播放所述视频并重新进行语音信息录制,直至到达所述被删除子语音信息的结束录制时间点时停止录制语音信息并停止播放所述视频;或者在检测到重新录制被删除的子语音信息的开始录制语音触发事件时,从被删除子语音信息的开始录制时间点开始播放所述视频并重新进行语音信息录制,直至到达录制时间最晚的子语音信息的结束录制时间点时停止录制语音信息并停止播放所述视频。
【文档编号】H04N21/44GK105898169SQ201510511387
【公开日】2016年8月24日
【申请日】2015年8月19日
【发明人】李瑞科, 姜乐
【申请人】乐视网信息技术(北京)股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1