用于移动终端的字幕生成方法、装置、设备以及存储介质与流程

文档序号:24648056发布日期:2021-04-13 16:08阅读:106来源:国知局
用于移动终端的字幕生成方法、装置、设备以及存储介质与流程

1.本公开涉及计算机技术领域,具体涉及语音识别、自然语言处理等人工智能技术领域,尤其涉及用于移动终端的字幕生成方法、装置、设备以及存储介质。


背景技术:

2.随着移动互联网的进一步发展,在当今内容为王的大趋势下,搭建和提供更多高质量的内容显得尤为重要。而作为内容生产的大户,用户内容生态也如雨后春笋一般不断涌现,其中视频承载内容体系要优于图文、音频等。但专业的视频剪辑、音频处理等存在着学习成本高,个人用户入门困难,花费时间长等问题,这些问题会反向抑制用户创作者的热情和想法。尤其在移动互联网时代,大部分的用户操作设备仅仅是一部手机,不具备更多专业设备进行后期处理。


技术实现要素:

3.本公开提供了用于移动终端的字幕生成方法、装置、设备以及存储介质。
4.根据本公开的第一方面,提供了一种用于移动终端的字幕生成方法,包括:获取基于音频数据采集设备采集的输入语音;采用语音识别模型,将输入语音转换为输入文字;获取配置于输入视频的时间轴;将输入文字添加至用户选择的输入视频的时间轴片段。
5.根据本公开的第二方面,提供了一种用于移动终端的字幕生成装置,包括:第一获取模块,被配置为获取基于音频数据采集设备采集的输入语音;转换模块,被配置为采用语音识别模型,将输入语音转换为输入文字;第二获取模块,被配置为获取配置于输入视频的时间轴;添加模块,被配置为将输入文字添加至用户选择的输入视频的时间轴片段。
6.根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面中任一实现方式描述的方法。
7.根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面中任一实现方式描述的方法。
8.根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行如第一方面中任一实现方式描述的方法。
9.本公开提供的用于移动终端的字幕生成方法、装置、设备以及存储介质,首先获取基于音频数据采集设备采集的输入语音;之后采用语音识别模型,将输入语音转换为输入文字;而后获取配置于输入视频的时间轴;最后将输入文字添加至用户选择的输入视频的时间轴片段,从而提供了一种在移动终端为视频添加字幕的方法,相较于在个人计算机端使用专业软件工具为视频添加字幕,节省了学习成本,简化了字幕添加流程。
10.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
11.通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。附图用于更好地理解本方案,不构成对本申请的限定。其中:
12.图1是本申请可以用于其中的示例性系统架构图;
13.图2是根据本申请的用于移动终端的字幕生成方法的一个实施例的流程示意图;
14.图3是根据本申请的用于移动终端的字幕生成方法的另一个实施例的流程示意图;
15.图4是根据本申请的用于移动终端的字幕生成方法的一个实施例的应用场景示意图;
16.图5是本申请的用于移动终端的字幕生成装置的一个实施例的结构示意图;
17.图6是用来实现本申请实施例的用于移动终端的字幕生成方法的电子设备的框图。
具体实施方式
18.下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
19.需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
20.图1示出了可以应用本申请的用于移动终端的字幕生成方法或用于移动终端的字幕生成装置的实施例的示例性系统架构100。
21.如图1所示,系统架构100可以包括移动终端101、网络102、服务器103。网络102用以在移动终端101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
22.移动终端101可以通过网络102与服务器103交互。移动终端101包括但不限于智能手机、平板电脑等移动终端。服务器103可以提供各种服务,例如服务器103可以对从移动终端101获取到用户输入语音等数据进行在线语音识别等处理,生成处理结果(例如将用户输入语音转换为输入文字)。
23.需要说明的是,服务器103可以是硬件,也可以是软件。当服务器103为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器103为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
24.需要说明的是,本申请实施例所提供的用于移动终端的字幕生成方法一般由移动终端101执行,相应地,用于移动终端的字幕生成装置一般设置于移动终端101中。
25.应该理解,图1中的移动终端、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的移动终端、网络和服务器。
26.继续参考图2,示出了根据本申请的用于移动终端的字幕生成方法的一个实施例的流程200。该方法包括以下步骤:
27.步骤s201,获取基于音频数据采集设备采集的输入语音。
28.在本实施例中,用于移动终端的字幕生成方法的执行主体(例如图1所示的移动终端101)可以获取基于音频数据采集设备采集的输入语音。
29.其中,音频数据采集设备可以安装于移动终端101中。其中,输入语音可以是利用音频处理软件捕获、截取的声音,例如剥离视频中的语音,或从音频中截取一段声音。其中,剥离视频中的语音可以是对视频进行图像

声音数据分离处理,从而分别提取到连续图像数据和连续声音数据。
30.可选地,输入语音还可以是利用麦克风录制的用户语音。其中,麦克风设备可以集成于移动终端101中,响应于开启麦克风设备,上述执行主体可以采用麦克风设备采集用户语音。此时用户可以语音输入想要成为字幕的内容,相较于简单的手动输入要添加的字幕,不但提升了输入速度,还简化了操作流程,从而提升了用户内容的时效性。
31.步骤s202,采用语音识别模型,将输入语音转换为输入文字。
32.在本实施例中,上述执行主体可以采用语音识别模型,将输入语音转换为输入文字。
33.其中,语音识别模型可以是离线语音识别模型,也可以是在线语音识别模型。语音识别模型主要分为三个部分:发音词典、声学模型和语言模型,其中发音词典是人工构造出来的,而声学模型和语言模型可通过深度学习的方法进行训练得到。
34.其中,可以采用自动语音识别(automatic speech recognition,asr)技术将输入语音转换为文字。asr技术是一种自动将语言转换为文字的技术,其流程包括输入

编码

解码

输出,编码即将声音转换为数字信号,并对其中的特征进行提取;解码即将得到的特征向量变换成文字的过程。
35.步骤s203,获取配置于输入视频的时间轴。
36.在本实施例中,上述执行主体可以获取配置于输入视频的时间轴。
37.其中,视频的时间轴可以用于按照时间的先后顺序对视频帧进行串联,得到该视频。可以理解,拍摄获得视频的同时,即可以确定出视频的时间轴。实践中,时间轴上的最小单元可以为1秒,即时间轴上相邻两个时间点的间隔为1秒。作为示例,时间轴的起点可以为00:00(0分0秒);第一个时间点可以为00:01(0分01秒);第二个时间点可以为00:02(0分02秒);第三个时间点可以为00:03(0分03秒)
……

38.步骤s204,将输入文字添加至用户选择的输入视频的时间轴片段。
39.在本实施例中,上述执行主体可以将输入文字添加至用户选择的输入视频的时间轴片段。
40.其中,输入视频可以是用户使用移动终端101拍摄的视频,也可以是移动终端101通过无线传输获取到的视频数据。可选地,用户使用移动终端101拍摄完视频后,可以对拍摄视频进行加工,并将加工好的视频作为输入视频。示例性地,可以对拍摄视频进行剪辑、滤镜等操作。
41.其中,用户可以选择输入视频的一个片段,并将输入文字拖动到该片段,上述执行主体可以完成将输入文字添加到该片段的操作。
42.其中,由于输入视频的时间轴上的每个片段具有开始时间和结束时间,相应的,每个片段对应的输入文字具有开始显示时间和结束显示时间,具体的,每个片段的开始时间
作为输入文字的开始显示时间,同时,每个片段的结束时间作为输入文字的结束显示时间。
43.本申请上述实施例提供的用于移动终端的字幕生成方法,提供了一种在移动终端为视频添加字幕的方法,相较于在个人计算机端使用专业软件工具为视频添加字幕,节省了学习成本,简化了字幕添加流程。
44.在本实施例的一些可选的实现方式中,输入语音包括用户基于预设的操作方式对输入语音的至少一个时间节点所做的断点标识,以及上述步骤s202还包括:基于断点标识,对输入语音进行截取以获取多条输入文字。
45.其中,预设的操作方式是指在上述执行主体中设置的对输入语音进行断点操作的行为方式,例如点击等。其中,用户采用该预设的操作方式,可以对输入语音的任意时间节点进行断点操作。示例性地,响应于开启麦克风设备后,通过麦克风设备对用户的语音进行录制,用户通过点击等操作对音频录制进行断点操作,此时音频录制并没有停止。可以理解的是,音频录制的断点就是对用户输入语音的某个时间点打标签。
46.其中,上述执行主体可以根据输入语音的断点标识,对输入语音进行截取,将输入语音分成多段语音。其中,断点标识可以包括开始标识和结束标识,开始标识对应于某段输入语音的开始时间,结束标识对应于某段输入语音的结束时间。
47.在本实施例中的,通过断点操作,可以将输入语音分成多段语音,进而可以识别生成多段字幕文本。
48.在本实施例的一些可选的实现方式中,上述方法还包括:基于用户选择的预设的美术效果,对输入文字进行装饰。
49.其中,预设的美术效果包括但不限于静态效果和/或动态效果。其中,作用于输入文字的静态效果例如字体、颜色等。作用于输入文字的动态效果包括但不限于渐变、浮动、闪烁等。
50.其中,用户可以选择任意一种美术效果作用于输入文字,完成对输入文字的装饰。通过对输入文字施加美术效果,可以丰富字幕的形式,提升用户内容的吸引力。
51.进一步参考图3,其示出了用于移动终端的字幕生成方法的另一个实施例的流程图,该方法包括如下步骤:
52.步骤s301,获取基于音频数据采集设备采集的输入语音。
53.步骤s301与步骤s201基本相同,因此不再赘述。
54.步骤s302,采用语音识别模型,将输入语音转换为输入文字。
55.步骤s302与步骤s202基本相同,因此不再赘述。
56.步骤s303,获取配置于输入视频的时间轴。
57.步骤s303与步骤s203基本相同,因此不再赘述。
58.步骤s304,将输入文字添加至用户选择的输入视频的时间轴片段。
59.步骤s304与步骤s204基本相同,因此不再赘述。
60.步骤s305,将输入文字与输入视频进行合并处理,生成附带文字的视频数据。
61.其中,可以采用视频字幕压制技术,将输入文字和输入视频制成最终的产物。其中,视频字幕压制技术是通过对视频编码、解码的形式完成的,其属于现有技术,在此不再赘述。
62.在本实施例的一些可选的实现方式中,音频数据采集设备为移动终端麦克风设
备。例如,音频数据采集设备为手机麦克风设备。本实施例相较于相对于简单的文字字幕手动输入,提升了字幕输入速度,相较于在个人计算机端使用专业软件工具,节省了学习成本,简化操作流程。
63.为了便于理解,图4示出了根据本申请的用于移动终端的字幕生成方法的一个实施例的应用场景示意图。
64.如图4所示,用户首先对于内容生产进行了视频录制的操作,在录制视频、滤镜美化、简单编辑裁剪后,生产出完整视频。
65.然后用户开启语音字幕功能,此时开启手机麦克风功能,进行声音采集。此时用户语音输入想要为视频添加的字幕内容。语音输入结束后,点击完成。此时获得一条完整的音频文件。用户可以对该音频重复播放,如果不满意可以删除重新录制。音频录制时,提供用户进行断点操作。在一句结束时,可人为点击添加断点,在当前时间节点进行标记。与此同时,音频录制并没有结束,用户可以继续录音。
66.之后在语音录入结束后,对该条完整音频进行解析,通过语音转文字能力,生成对应的字幕文本。生成字幕文本时结合录制时的断点,进行自动截取,产出多条字幕文本。
67.最后针对视频时间轴,用户选择一块视频片段,拖动一条字幕文本,选择添加的位置,以及对字幕颜色、特效等进行微调。如此往复,将所有字幕添加完毕,再进行视频、字幕压制成最终产物。
68.进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种用于移动终端的字幕生成的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以用于各种电子设备中。
69.如图5所示,本实施例的用于移动终端的字幕生成装置500可以包括:第一获取模块501、转换模块502、第二获取模块503、添加模块504。其中,第一获取模块501,被配置为获取基于音频数据采集设备采集的输入语音;转换模块502,被配置为采用语音识别模型,将输入语音转换为输入文字;第二获取模块503,被配置为获取配置于输入视频的时间轴;添加模块504,被配置为将输入文字添加至用户选择的输入视频的时间轴片段。
70.在本实施例中,用于移动终端的字幕生成装置500中:第一获取模块501、转换模块502、第二获取模块503、添加模块504的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤s201

s204的相关说明,在此不再赘述。
71.在本实施例的一些可选的实现方式中,输入语音包括用户基于预设的操作方式对输入语音的至少一个时间节点所做的断点标识,以及转换模块502进一步被配置成:基于断点标识,对输入语音进行截取以获取多条输入文字。
72.在本实施例的一些可选的实现方式中,装置还包括:装饰模块,被配置为基于用户选择的预设的美术效果,对输入文字进行装饰。
73.在本实施例的一些可选的实现方式中,装置还包括:合并模块,被配置为将输入文字与输入视频进行合并处理,生成附带文字的视频数据。
74.在本实施例的一些可选的实现方式中,音频数据采集设备为移动终端麦克风设备。
75.如图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数
字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
76.如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(rom)602中的计算机程序或者从存储单元606加载到随机访问存储器(ram)603中的计算机程序,来执行各种适当的动作和处理。在ram 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、rom 602以及ram 603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
77.设备600中的多个部件连接至i/o接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元606,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
78.计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如用于移动终端的字幕生成方法。例如,在一些实施例中,用于移动终端的字幕生成方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元606。在一些实施例中,计算机程序的部分或者全部可以经由rom 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到ram603并由计算单元601执行时,可以执行上文描述的用于移动终端的字幕生成方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行用于移动终端的字幕生成方法。
79.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
80.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
81.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可
读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd

rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
82.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
83.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
84.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端

服务器关系的计算机程序来产生客户端和服务器的关系。
85.根据本申请的技术方案,首先获取基于音频数据采集设备采集的输入语音;之后采用语音识别模型,将输入语音转换为输入文字;而后获取配置于输入视频的时间轴;最后将输入文字添加至用户选择的输入视频的时间轴片段,从而提供了一种在移动终端为视频添加字幕的方法,相较于在个人计算机端使用专业软件工具为视频添加字幕,节省了学习成本,简化了字幕添加流程。
86.人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
87.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
88.上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1