视频录制方法、装置及计算机可读存储介质与流程

文档序号：14249946阅读：182来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及多媒体技术领域，特别涉及一种视频录制方法、装置及计算机可读存储介质。

背景技术：

随着人们对娱乐休闲方式的需求不断增加，音视频等多媒体数据的产品越来越丰富，提供录制歌曲演唱视频服务的音乐软件即为其中的一种。为了提供更优化的服务，歌曲演唱视频的录制方式也在不断变化和改进。

相关技术中，在录制歌曲演唱视频时，会提供歌曲选择入口，当选择歌曲后，在播放所选歌曲的同时，显示歌词并采集视频画面。之后，将采集的视频画面与播放的歌曲及显示的歌词一起进行合成，得到合成后的视频。

目前，录制完成的歌曲演唱视频的内容不够丰富，具有一定的局限性，比较单一。

技术实现要素：

本发明实施例提供了一种视频录制方法、装置及计算机可读存储介质，可以解决相关技术中存在的技术问题，具体技术方案如下：

提供了一种视频录制方法，所述方法应用于移动终端，所述移动终端包含至少一个摄像头，用于采集视频画面，所述方法包括：

确定被选的歌词特效，根据所述歌词特效与特效处理信息的对应关系列表获取所述歌词特效对应的特效处理信息；

在视频录制过程中，播放被选歌曲，并利用所述摄像头采集视频画面；

对所述视频画面进行人脸识别，得到人脸识别结果；

基于所述人脸识别结果，对当前播放的歌词按照所述特效处理信息进行处理，显示处理后的特效歌词。

在一种实现方式中，所述方法还包括：

将包含所述特效歌词的视频画面与播放的歌曲进行合成，生成合成后的视频。

在一种实现方式中，所述基于所述人脸识别结果，对当前播放的歌词按照所述特效处理信息进行处理，包括：

确定当前播放的歌词在屏幕显示的位置坐标，基于所述人脸识别结果确定人脸嘴部在屏幕的位置坐标；

根据所述当前播放的歌词在屏幕显示的位置坐标和所述人脸嘴部在屏幕的位置坐标计算运动轨迹；

基于所述运动轨迹，对当前播放的歌词按照所述特效处理信息进行处理。

在一种实现方式中，所述显示处理后的特效歌词，包括：

将图标按照所述运动轨迹进行滑落显示，并根据所述当前播放的歌词在屏幕显示的位置坐标显示所述当前播放的歌词。

在一种实现方式中，所述图标为文字图标或其他图标。

在一种实现方式中，所述显示处理后的特效歌词，包括：

确定人脸位置坐标，根据所述人脸位置坐标与屏幕边框的距离显示歌词。

在一种实现方式中，所述根据所述人脸位置坐标与屏幕边框的距离显示歌词，包括：

当所述人脸位置坐标与所述屏幕边框的距离小于阈值时，对所述处理后的特效歌词进行单句显示；

当所述人脸位置坐标与所述屏幕边框的距离大于阈值时，对所述处理后的特效歌词进行多句显示。

在一种实现方式中，所述方法还包括：

获取当前歌曲的播放时间戳；

根据所述播放时间戳定位当前播放的歌词；

根据所述播放时间戳计算所述当前播放的歌词对应的播放进度；

基于所述当前播放的歌词对应的播放进度，对所述当前播放的歌词按照所述特效处理信息进行处理。

在一种实现方式中，所述方法还包括：

根据所述歌词特效加载相应的资源文件、着色器及字库；

基于所述资源文件、着色器及字库，对所述当前播放的歌词按照所述特效处理信息进行处理。

在一种实现方式中，所述歌词特效包括歌词静态特效、歌词排版特效、歌词动态特效中的至少一种；

其中，所述歌词静态特效包括歌词字体、字色、字重、字号、描边、阴影、文字透视中的至少一种特效；

所述歌词排版特效包括歌词的出现位置和排版方式中的至少一种特效；

所述歌词动态特效包括歌词的出现动画特效。

还提供了一种视频录制装置，所述装置应用于移动终端，所述移动终端包含至少一个摄像头，用于采集视频画面，所述装置包括：

确定模块，用于确定被选的歌词特效；

获取模块，用于根据所述歌词特效与特效处理信息的对应关系列表获取所述歌词特效对应的特效处理信息；

录制模块，用于在视频录制过程中，播放被选歌曲，并利用所述摄像头采集视频画面；

识别模块，用于对所述视频画面进行人脸识别，得到人脸识别结果；

处理模块，用于基于所述人脸识别结果，对当前播放的歌词按照所述特效处理信息进行处理；

显示模块，用于显示处理后的特效歌词。

在一种实现方式中，所述装置还包括：

合成模块，用于将包含所述特效歌词的视频画面与播放的歌曲进行合成，生成合成后的视频。

在一种实现方式中，所述处理模块，用于确定当前播放的歌词在屏幕显示的位置坐标，基于所述人脸识别结果确定人脸嘴部在屏幕的位置坐标；根据所述当前播放的歌词在屏幕显示的位置坐标和所述人脸嘴部在屏幕的位置坐标计算运动轨迹；基于所述运动轨迹，对当前播放的歌词按照所述特效处理信息进行处理。

在一种实现方式中，所述显示模块，用于将图标按照所述运动轨迹进行滑落显示，并根据所述当前播放的歌词在屏幕显示的位置坐标显示所述当前播放的歌词。

在一种实现方式中，所述图标为文字图标或其他图标。

在一种实现方式中，所述显示模块，用于确定人脸位置坐标，根据所述人脸位置坐标与屏幕边框的距离显示歌词。

在一种实现方式中，所述显示模块，用于当所述人脸位置坐标与所述屏幕边框的距离小于阈值时，对所述处理后的特效歌词进行单句显示；当所述人脸位置坐标与所述屏幕边框的距离大于阈值时，对所述处理后的特效歌词进行多句显示。

在一种实现方式中，所述装置还包括：

计算模块，用于获取当前歌曲的播放时间戳；根据所述播放时间戳定位当前播放的歌词；根据所述播放时间戳计算所述当前播放的歌词对应的播放进度；

所述处理模块，还用于基于所述当前播放的歌词对应的播放进度，对所述当前播放的歌词按照所述特效处理信息进行处理。

在一种实现方式中，所述装置还包括：

加载模块，用于根据所述歌词特效加载相应的资源文件、着色器及字库；

所述处理模块，用于基于所述资源文件、着色器及字库，对所述当前播放的歌词按照所述特效处理信息进行处理。

在一种实现方式中，所述歌词特效包括歌词静态特效、歌词排版特效、歌词动态特效中的至少一种；

其中，所述歌词静态特效包括歌词字体、字色、字重、字号、描边、阴影、文字透视中的至少一种特效；

所述歌词排版特效包括歌词的出现位置和排版方式中的至少一种特效；

所述歌词动态特效包括歌词的出现动画特效。

还提供了一种计算机设备，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的视频录制方法。

还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述的视频录制方法。

本发明实施例提供的技术方案可以包括以下有益效果：

在视频录制过程中，通过选择歌词特效，获取歌词特效对应的特效处理信息，之后对采集的视频画面进行人脸识别，基于人脸识别结果显示根据特效处理信息进行处理后的特效歌词，从而能够使得视频画面与特效歌词关联起来，丰富了录制的视频内容，优化了视频录制的效果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本发明实施例示出的视频录制系统的架构示意图；

图2是本发明实施例示出的视频录制方法流程图；

图3是本发明实施例示出的视频录制界面示意图；

图4是本发明实施例示出的配置文件的内容示意图；

图5是本发明实施例示出的视频录制界面示意图；

图6是本发明实施例示出的视频录制界面示意图；

图7是本发明实施例示出的歌词特效的叠加使用表；

图8是本发明实施例示出的视频录制界面示意图；

图9是本发明实施例示出的视频录制界面示意图；

图10是本发明实施例示出的视频录制界面示意图；

图11是本发明实施例示出的视频录制方法流程图；

图12是本发明实施例示出的视频播放界面示意图；

图13是本发明实施例示出的视频录制方法流程图；

图14是本发明实施例示出的视频录制装置的结构示意图；

图15是本发明实施例示出的视频录制装置的结构示意图；

图16是本发明实施例示出的视频录制装置的结构示意图；

图17是本发明实施例示出的视频录制装置的结构示意图；

图18是本发明实施例示出的一种终端的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

随着人们对娱乐休闲方式的需求不断增加，音视频等多媒体数据的产品越来越丰富。本发明实施例提供了一种视频录制方法，通过该方法将视频画面与特效歌词关联起来，使得录制的视频内容更为丰富，优化了视频录制的效果。

具体实施时，该方法可以在终端侧实现，也可以由终端与服务器相互配合实现。例如，终端从服务器获取特效配置文件等，之后在本地实现视频录制。

以终端和服务器相互配合实现本发明实施例提供的视频录制方法为例，请参考图1，其示出了本发明实施例提供的视频录制方法所涉及的实施环境的示意图。如图1所示，该实施环境可以包括终端110和服务器120。

终端110包含至少一个摄像头，用于采集视频画面，是指诸如手机、平板电脑、台式电脑或者电子阅读器之类的可以连接网络的终端。终端110还可以通过有线或者无线网络与服务器120连接。实际实现时，终端110中可以安装有客户端，该客户端可以为视频录制客户端。可选地，客户端可以为终端110中默认安装的客户端，也可以为终端110中自定义安装的客户端。

服务器120可以是一台服务器，也可以是由若干台服务器组成的服务器集群，还可以是一个云计算服务中心。实际实现时，该服务器120是指为终端110中安装的客户端提供后台服务的服务器。

为了便于理解，接下来，以终端执行视频录制方法为例，对本发明实施例提供的视频录制方法进行解释说明。如图2所示，该方法包括：

在步骤201中，确定被选的歌词特效；

为了能够使歌词的显示更为丰富，本发明实施例在录制视频之前，提供可选的歌词特效，从而确定被选的歌词特效。在提供可选的歌词特效时，本发明实施例提供的方法采用在视频录制界面中显示歌词特效选择入口的方式。具体实现时，当检测到歌词特效选择入口的选中操作时，展示特效选择面板，特效选择面板上显示有一至多个特效选项，不同特效选项对应不同的歌词特效；获取特效选择面板上的选择操作，将选择操作所选中的特效选项对应的歌词特效作为被选的歌词特效。

为了便于理解，以图3所示的显示界面为例，其中，图3左侧的显示界面为视频录制界面，该视频录制界面除了包括录制功能触控键，还包括歌词特效选择入口。当检测到该歌词特效选择入口的选中操作后，触发展示特效选择面板，如图3中间的显示界面所示。该特效选择面板中包括多个特效选项，每个特效选项对应一个歌词特效。当任一特效选项被选中后，该特效选项对应的歌词特效即为确定的被选择的歌词特效。以图3所示为例，“特效一”对应的歌词特效即为被选择的歌词特效。

为了进一步确认所选的歌词特效，本发明实施例提供的方法还包括：对选择操作所选中的特效选项对应的歌词特效进行预览显示。仍以图3所示的显示界面为例，当“特效一”对应的歌词特效被选中后，可对“特效一”所对应的歌词特效进行预览显示，如图3右侧的显示界面所示。

当确定所选的歌词特效及歌曲后，可以点击视频录制界面的空白处，以触发收起特效选择面板。

此外，除了确定被选的歌词特效，本发明实施例提供的方法还提供歌曲选择功能，以选择录制视频时播放的歌曲。具体实现时，可在视频录制界面显示歌曲选择入口，如图3中左侧所示的显示界面中，左下角的图标即指示歌曲选择入口。当检测到歌曲选择入口的触发操作后，可以提供歌曲选择列表，以提供歌曲选择，并将根据歌曲选择操作确定被选歌曲。为了后续能够对所选歌曲进行播放，本发明实施例提供的方法还包括获取歌曲文件的过程。该歌曲文件可以存储在终端本地，则可以直接从本地获取。当然，歌曲文件还可以存储在服务器上，则终端从服务器下载。

需要说明的是，关于确定被选的歌词特效以及确定被选歌曲的先后顺序，本发明实施例不做具体限定。

在步骤202中，根据歌词特效与特效处理信息的对应关系列表获取歌词特效对应的特效处理信息；

当确定被选的歌词特效之后，为了在视频录制过程中实现特效效果，本发明实施例提供的方法在录制视频前，需要根据歌词特效获取对应的特效处理信息。获取方式包括但不限于根据歌词特效与特效处理信息的对应关系列表来实现。其中，特效处理信息可以记录在特效配置文件中，即该特效配置文件中记录有歌词特效对应的特效处理信息。不同歌词特效可以对应不同的配置文件，且歌词特效与特效配置文件之间建立对应关系列表。因而当确定被选的歌词特效之后，可以根据对应关系列表查找歌词特效对应的特效配置文件。

在实际应用中，可预先存储各个歌词特效的特效配置文件，既可以在终端本地存储，也可以在服务器中存储。如果在本地存储有各个歌词特效的特效配置文件，则可根据所选的歌词特效从本地获取对应的特效配置文件；如果在服务器中存储各个歌词特效的特效配置文件，则可以向服务器请求所选的歌词特效对应的特效配置文件。

获取到特效配置文件后，为了实现后续的特效处理，需要对获取到的特效配置文件进行解析，具体解析方式，可以采用任意的文件解析方式，本发明实施例对此不做具体限定。例如，以图4所示的特效配置文件解析为例，该解析可以分为文字渲染解析、文字配置解析、文字排版解析、歌词出现及消失方式解析、特效方式解析等等。

其中，文字渲染包括字背景png序列、字前景png序列、行背景png序列、行前景png序列、全屏png序列、透光png序列和多彩字等。png字背景png序列和字前景png序列分别都包括png序列偏移和png张数；行背景png序列除了包括png序列偏移和png张数，还包括行背景延展；行前景png序列除了包括png序列偏移和png张数，还包括行前景延展；全屏png序列包括背景png序列和前景png序列；透光png序列包括全屏模式透光png张数及1:1屏模式透光png张数；多彩字包括颜色数组和数组个数。

文字配置包括第一层文字配置、第二层文字配置、第三层文字配置、填充颜色配置、填充png序列、字体大小、工作模式以及字体名等。第一层文字配置包括第一层文字颜色、第一层描边颜色及第一层描边宽度等。第二层文字配置包括第二层文字颜色、第二层描边颜色、第二层描边宽度及第二层文字偏移等。第三层文字配置包括第三层文字颜色、第三层描边颜色、第三层描边宽度及第三层文字偏移等。填充颜色包括多种填充颜色，如填充颜色1、填充颜色2、填充颜色3等等，还包括填充颜色个数。填充png序列包括填充png序列1png张数、填充png序列2png张数等，还包括填充png序列个数。

文字排版包括排版方式、对齐方式、自动折行/列字个数、文字间距、旋转角度、出现位置等。排版方式包括行和列两种排版方式。对齐方式包括行对齐方式和列对齐方式。间距包括列间距、行间距及字间距。旋转角度包括行旋转角度、列旋转角度，还可以包括字旋转角度。出现位置包括1:1屏幕位置及全屏位置。

特效配置包括人脸识别特效配置及歌词特效配置；人脸识别特效配置包括png序列特效、人脸识别下的歌词特效及出现位置等。png序列特效包括旋转、缩放及png张数等。人脸识别下的歌词特效包括旋转、缩放及填充等。出现位置包括左耳、右耳、嘴巴、鼻子、左眼、右眼、额头和下巴等几个关键点的相对偏移。在不考虑人脸识别特效的情况下，歌词特效包括押韵染色、分词特效、歌词持续时间特效、最后一个字染色特效、歌词分词染色特效及最后一行染色特效等。其中，押韵染色又分为颜色染色、png序列染色、押韵出图；押韵出图包括押韵一次png染色、押韵二次png染色，押韵n次png染色，以及png序列总数和偏移位置，n可以根据实际情况设置。偏移位置包括固定位置偏移及相对歌词位置偏移。分词特效包括分词数组、行为png数组、分词染色和分词缩放；分词染色包括歌词染色值和歌词染色png序列。歌词持续时间特效包括歌词特效时间阈值、歌词染色值、歌词染色png序列和播放范围。最后一个字染色、歌词分词染色和最后一行染色均包括颜色染色、png序列染色等。

歌词出现及消失方式包括随机抛物线、顺序飞入、顺序飞出、渐现效果、渐隐效果和粒子消失。随机抛物线包括抛物线参数范围、持续时间等。顺序飞入和顺序飞出均包括持续时间、逐字及逐行。渐现效果、渐隐效果和粒子消失均包括持续时间。

以上各种配置信息涵盖的内容较多，实际应用中，可以根据实际情况设置不同的配置信息，并存储在不同歌词特效对应的特效配置文件中，通过解析不同的特效配置文件，得到特效处理信息。

在步骤203中，在视频录制过程中，播放被选歌曲，并利用摄像头采集视频画面；

当经过上述各个步骤的准备工作之后，即可进行视频录制过程，例如，检测到视频录制界面上的视频录制触控键被触发，则开始进行视频录制，并在视频录制过程中，播放被选歌曲，并利用摄像头采集视频画面。此时，被选歌曲的歌词伴随采集到的视频画面一同随音乐进行展示。

播放被选歌曲之前，可以先获取歌曲的音频数据，之后通过终端的播放器对该音频数据进行播放。采集视频画面时，可以开启终端的摄像头，通过摄像头进行视频画面的采集。此外，采集到的视频画面还被显示在视频录制界面中。

在步骤204中，对视频画面进行人脸识别，得到人脸识别结果；

其中，人脸识别的方式可以采用现有已经十分成熟的人脸识别技术，本发明实施例对此不做具体限定。人脸识别结果可以包括人脸的位置信息及人脸中各个关键点的位置信息，如人脸的位置坐标及人脸中各个关键点的位置坐标。

例如，根据人脸识别技术获取人脸90个特征点，将这90个特征点分为左耳、右耳、嘴巴、鼻子、左眼、右眼、额头、下巴这几个关键点，得到各个关键点的位置坐标。

在步骤205中，基于人脸识别结果，对当前播放的歌词按照特效处理信息进行处理，显示处理后的特效歌词。

基于人脸识别结果，对当前播放的歌词按照特效处理信息进行处理，可以是将特效处理建立在人脸识别结果基础上，将歌词或者png序列放到这些关键点上做动画效果，如针对人脸的位置或表情变化等进行歌词特效。

以歌词的展示位置依据人脸识别位置的变化而移动展示，呈现出跟随用户头部移动的效果为例，歌词效果可以是带投影、背景的各种样式，通过人脸识别技术，获取用户五官轮廓的具体坐标定位，歌词的展示位置依据用户五官轮廓进行x轴y轴的偏移而实时相应变化，如图5所示。

在一种实现方式中，基于人脸识别结果，对当前播放的歌词按照特效处理信息进行处理，包括：确定当前播放的歌词在屏幕显示位置的坐标，基于人脸识别结果确定人脸嘴部在屏幕的位置坐标；根据歌词在屏幕显示的位置坐标和人脸嘴部在屏幕的位置坐标计算运动轨迹；基于运动轨迹，对当前播放的歌词按照特效处理信息进行处理。该种方式下，歌词可以从用户嘴部位置开始沿轨迹滑动至视频画面下方，呈现出从用户的嘴部吐出歌词的效果。

针对上述处理方式，在一种实现方式中，显示处理后的特效歌词，包括：将图标按照运动轨迹进行滑落显示，并根据歌词在屏幕显示的位置坐标显示歌词。其中，图标为文字图标或其他图标。文字图标可以是歌词本身，也可以是其他文字。其他图标可以为文字之外的其他类型的图标，例如，英文字母图标、特殊符号图标、水滴形状的图标等等。

例如，通过人脸识别技术，识别用户面部嘴巴的坐标定位，并且实时判断用户的嘴巴是否张开。当用户嘴巴张开时，歌词从嘴部位置开始，沿着预先设定好的轨迹或随机路线的轨迹向下滑动，直至视频画面下方，如图6所示。

此外，在一种实现方式中，显示处理后的特效歌词，包括：确定人脸位置坐标，根据人脸位置坐标与屏幕边框的距离显示歌词。例如，根据人脸位置坐标与屏幕边框的距离显示歌词时，当人脸位置坐标与屏幕边框的距离小于阈值时，对处理后的特效歌词进行单句显示；当人脸位置坐标与屏幕边框的距离大于阈值时，对处理后的特效歌词进行多句显示。其中，阈值可以根据经验值设置或者提供设置选项由用户设置，本发明实施例对阈值的大小不做具体限定。

针对该步骤，除上述对歌词进行处理的方式外，在一种实现方式中，本发明实施例提供的方法还包括：获取当前歌曲的播放时间戳；根据播放时间戳定位当前播放的歌词；根据播放时间戳计算当前播放的歌词对应的播放进度；基于当前播放的歌词对应的播放进度，对当前播放的歌词按照特效处理信息进行处理，得到处理后的特效歌词。

其中，歌曲的播放时间戳可以作为音频时间戳数据记录在歌曲文件中，且每个歌词均有对应的播放时间戳。当播放歌曲之后就可以开始计时，根据计时时间获取当前歌曲的播放时间戳。之后，根据该播放时间戳可以定位当前播放的歌词。此外，由于每个歌词都有对应的播放持续时长，而歌词特效与歌词的播放持续时长相关，因此，在获取到当前歌曲的播放时间戳之后，根据播放时间戳计算当前播放的歌词对应的播放进度。计算得到当前播放的歌词对应的播放进度之后，即可获知接下来歌词特效的时长，从而根据当前播放的歌词对应的播放进度对当前播放的歌词按照特效处理信息进行处理，得到处理后的特效歌词。也就是说，对当前播放的歌词按照特效处理信息进行处理的时间及时长可以由歌词的播放进度决定。

例如，如果一个歌词的播放持续时长为1s，该歌词的播放时间戳为第2秒，而当前播放时间戳为第2.6秒，则该歌词对应的播放进度为1秒钟播放了0.6秒，剩余时长0.4秒，则后续可以在接下来的0.4秒钟时间内对当前播放的歌词按照特效处理信息进行处理。

在对当前播放的歌词按照特效处理信息进行处理时，不同的歌词特效对应不同的特效处理信息，不同的特效处理信息对应不同的特效效果，除了上述图3所示的显示界面中预览显示的一种歌词特效外，本发明实施例提供的歌词特效包括但不限于歌词静态特效、歌词排版特效、歌词动态特效中的至少一种；

其中，歌词静态特效包括歌词字体、字色、字号、描边、阴影、文字透视中的至少一种特效；每种特效可以单独实施，也可以叠加使用，以使得歌词的样式更加丰富。例如，可以同时包括字体、字色和字号的特效。

歌词排版特效包括歌词的出现位置和排版方式中的至少一种特效；出现位置可根据效果进行设置，例如是否固定区域出现，还是从不同位置出现。此外，还可以包括出现方式，如采用飞入飞出、渐隐、渐显、随机抛物线等方式出现。排版方式可以分为行排布局和列排布局，可配置行、列间距和字间距，也可配置旋转角度实现倾斜歌词等。例如，文字斜排、横排或者竖排，是否分行、是否对齐等等。

歌词动态特效包括歌词的出现动画特效，该动画特效可以是前景背景png动画序列，也可以为透光png动画序列等。例如，歌词整句出入、逐字出入、缩放、淡入淡出、位移变化、按轨迹出现、蒙版出现等。

除上述特效外，还可以包括其他一些特殊的效果，例如整行歌词按照光斑、分词、押韵、魔法色等方式进行显示。

其中，对于押韵特效，可以获取每句歌词末尾字的拼音，得到声母和韵母，筛选出韵母相同的连续句末字，并记录押韵次数。在展示时，对押韵次数大于等于预设次数(例如1)的句末字实现染色或者缩放等效果，同时根据押韵次数播放不同的押韵png动画。预设次数可以根据经验或用户设置等方式确定。

对于分词特效，包括但不限于两种方式：第一种方式：根据不同的分词库和分词库对应的行为png可以实现当歌词中出现某个分词的时候，展示与之对应的行为png动画。第二种方式：不使用行为png动画直接渲染特殊颜色。

对于歌词持续时间特效，从歌词文件(或歌曲文件)中获取每个歌词的持续时间，之后根据预设阀值来判断歌词是否需要做特效。例如，针对持续时间大于预设阈值的歌词进行特效处理。其中，预设阈值可以根据经验或用户设置等方式确定。

对于最后一个字染色的特效，可以将每句歌词的最后一个歌词用不同的颜色染色。

对于歌词分词染色的特效，可以通过配置的分词库，进行拼音匹配或者全字匹配，实现分词染色。

对于最后一行染色的特效，可以对自动分行的最后一行进行染色。

需要说明的是，上述几种歌词特效仅为示意性，实际实现时，还可以包括其他歌词特效，或者将不同歌词特效进行叠加，以使歌词的整体效果更佳丰富，美观，进一步提升视频录制的效果。如图7中(1)和(2)所示的特效叠加列表，各种特效的组合方式可以多种多样，预先可以根据不同特效组合不同的歌词特效，并将其制作成歌词特效模板，以在视频录制过程中供用户选择。

为了便于理解，接下来以如下几种歌词特效为例进行说明。

歌词特效一：根据歌词的词性呈现不同的动画效果，使得歌词有更丰富的展现。

例如，以图8所示的显示界面为例，图示的动词“拍拍手”作为动词，呈现出了特殊的拍手的视觉表现，动画效果做了一个鼓掌的示意，让歌词更生动。当然，此处仅为示意，重点在于依据不同歌词的词性对歌词的效果做区分，除此之外，还包括字体、字色、字号等不同的表现形式。

歌词特效二：针对歌词的押韵，呈现不同的歌词特效。

例如，当歌词出现押韵时，针对押韵的词语，呈现不同的歌词特效，包括但不限于字体、字色和字号等变化，如图9所示。

歌词特效三：针对歌词的持续时长，呈现不同的歌词特效。

例如，根据歌词的持续时长，将歌词不断放大，形成拉长音的视觉效果，如图10所示。

在一种实现方式中，为了能够呈现各种歌词特效，本发明实施例提供的方法还包括：根据歌词特效加载相应的资源文件、着色器及字库；则对当前播放的歌词按照特效处理信息进行处理，包括：基于资源文件、着色器及字库，对当前播放的歌词按照特效处理信息进行处理。

其中，不同歌词特效具有不同的资源文件，资源文件中可以记录有该歌词特效所需的资源信息，如实现歌词特效所需的贴图、动画数据等等。着色器用于对歌词进行渲染，而字库中包括各种字体、字号等数据。当确定所选的歌词特效之后，即可加载相应的资源文件、着色器及字库，从而在根据当前播放的歌词对应的播放进度对当前播放的歌词按照特效处理信息进行处理时，可以根据加载的资源文件、着色器及字库实现歌词特效。

在一种实现方式中，参见图11，本发明实施例提供的方法还包括：

在步骤206中，将显示有特效歌词的视频画面与播放的歌曲进行合成，得到合成后的视频。

当歌曲播放完成或检测到停止录制信号后，将显示有特效歌词的视频画面与播放的歌曲进行合成，得到合成后的视频。其中，停止录制信号可通过按键触发。例如，在视频录制界面中，除了显示视频录制按键，还显示有停止录制按键，当检测到该停止录制按键的选中操作后，则获取到停止录制信号，从而触发将显示有特效歌词的视频画面与播放的歌曲进行合成，得到合成后的视频。

此外，本发明实施例提供的方法在将显示有特效歌词的视频画面与播放的歌曲进行合成，得到合成后的视频之后，还包括对合成的视频进行展示的过程。如图12所示的视频播放界面示意图，展示的合成后的视频不仅包括视频画面，该视频画面中还包括具有特效的歌词，使得该视频具有更强表现力，从而可以提高用户录制视频的兴趣，进而扩展了视频录制的应用范围。

在一种实现方式中，在展示合成后的视频的同时，在视频展示界面中还提供重录选项及保存选项，以对合成后的视频进行后续处理。当检测到重录选项的选中操作后，重新执行视频录制过程。当检测到保存选项的选中操作后，将合成后的视频进行存储。对于存储后的视频，本发明实施例提供的方法还提供发布功能，以将录制好的视频通过客户端发布到网络中。作为一种可选方式，本发明实施例提供的方法还提供视频分享功能，将录制好的视频通过第三方应用分享给其他用户。

基于上述内容，本发明实施例提供的方法可以图13所示的方法流程为例进行说明。如图13所示，在视频录制之前，获取所选歌曲及该歌曲的歌词信息，提供预览方式的情况下，还需要获取默认的预览歌词。此外，还需要获取该歌曲的音频时间戳及视频帧数据等。在此基础上，该方法包括如下步骤：

步骤1，确定被选的歌词特效，根据用户所选歌词特效，获取歌词特效对应的特效配置文件，下载相应的资源文件、shader(着色器)以及字库。

步骤2，解析特效配置文件，获取渲染方式，如渲染模板。

步骤3，加载字库、导入相应的shader，并加载资源文件等。

步骤4，如果有押韵特效，则逐字逐词解析歌词信息，提取歌词的词义，区分动词名词等词性，提取押韵关系。

步骤5，根据歌词文本信息，逐字创建文字纹理，将文字形成独立的纹理，便于渲染到视频帧中。

步骤6，计算出歌词在视频画面底部(屏幕底部)展示的位置坐标。

步骤7，逐帧处理需要应用特效的视频帧(即视频画面)，当视频帧到达时，获取当前歌曲播放的时间戳，定位当前的句子及字，并且根据时间计算出当前字的进度。根据渲染方式及配置文件获取必要的参数信息，比如渲染颜色值、歌词展示坐标等，传入shader。

其中，当前歌曲播放的时间戳可以根据音频时间戳数据信息得到，也可以在未检测到音频时间戳数据信息的情况下，根据视频帧数据构造得到。

步骤8，在上述步骤基础上，确定是否需要进行人脸识别；如果不需要，则直接执行步骤9；如果需要进行人脸识别，则获取人脸位置坐标，根据人脸坐标和歌词坐标以及特效配置文件确定轨迹；根据轨迹计算当前进度下，歌词的位置。

例如，若是需要增加人脸识别的相关动作特效，则需要确定轨迹算法。举个例子：若是需要增加吐歌词等动画特效，则需要计算歌词运行轨迹。定义歌词变化轨迹为f(c,p,r,mp,dp)的一条随机抛物线，其中c为原始输入图像，p为当前字的进度，r为随机因子，mp为嘴巴的位置坐标，dp为歌词最终的展示位置坐标。根据歌词当前的进度p，计算出歌词此时应该展示的位置坐标，当作参数传入shader。

步骤9，根据不同的歌词特效渲染歌词。

按照上述步骤循环遍历各个视频帧画面，直至歌曲播放完毕，或者视频录制过程停止。

本发明实施例提供的方法，在视频录制过程中，通过选择歌词特效，获取歌词特效对应的特效处理信息，之后对采集的视频画面进行人脸识别，基于人脸识别结果显示根据特效处理信息进行处理后的特效歌词，从而能够使得视频画面与特效歌词关联起来，丰富了录制的视频内容，优化了视频录制的效果。

基于相同构思，本发明实施例提供了一种视频录制装置，该装置可应用于终端中，该终端包含至少一个摄像头，用于采集视频画面。参见图14，本发明实施例提供的视频录制装置包括：

确定模块141，用于确定被选的歌词特效；

获取模块142，用于根据歌词特效与特效处理信息的对应关系列表获取歌词特效对应的特效处理信息；

录制模块143，用于在视频录制过程中，播放被选歌曲，并利用摄像头采集视频画面；

识别模块144，用于对视频画面进行人脸识别，得到人脸识别结果；

处理模块145，用于基于人脸识别结果，对当前播放的歌词按照特效处理信息进行处理；

显示模块146，用于显示处理后的特效歌词。

在一种实现方式中，参见图15，该装置还包括：

合成模块147，用于将包含特效歌词的视频画面与播放的歌曲进行合成，生成合成后的视频。

在一种实现方式中，处理模块145，用于确定当前播放的歌词在屏幕显示的位置坐标，基于人脸识别结果确定人脸嘴部在屏幕的位置坐标；根据当前播放的歌词在屏幕显示的位置坐标和人脸嘴部在屏幕的位置坐标计算运动轨迹；基于运动轨迹，对当前播放的歌词按照特效处理信息进行处理。

在一种实现方式中，显示模块146，用于将图标按照运动轨迹进行滑落显示，并根据歌词在屏幕显示的位置坐标显示歌词。

在一种实现方式中，图标为文字图标或其他图标。

在一种实现方式中，显示模块146，用于确定人脸位置坐标，根据人脸位置坐标与屏幕边框的距离显示歌词。

在一种实现方式中，显示模块146，用于当人脸位置坐标与屏幕边框的距离小于阈值时，对处理后的特效歌词进行单句显示；当人脸位置坐标与屏幕边框的距离大于阈值时，对处理后的特效进行多句显示。

在一种实现方式中，参见图16，该装置还包括：

计算模块148，用于获取当前歌曲的播放时间戳；根据播放时间戳定位当前播放的歌词；根据播放时间戳计算当前播放的歌词对应的播放进度；

处理模块145，还用于基于当前播放的歌词对应的播放进度，对当前播放的歌词按照特效处理信息进行处理。

在一种实现方式中，参见图17，该装置还包括：

加载模块149，用于根据歌词特效加载相应的资源文件、着色器及字库；

处理模块145，用于基于资源文件、着色器及字库，对当前播放的歌词按照特效处理信息进行处理。

在一种实现方式中，歌词特效包括歌词静态特效、歌词排版特效、歌词动态特效中的至少一种；

其中，歌词静态特效包括歌词字体、字色、字重、字号、描边、阴影、文字透视中的至少一种特效；

歌词排版特效包括歌词的出现位置和排版方式中的至少一种特效；

歌词动态特效包括歌词的出现动画特效。

本发明实施例提供的装置，在视频录制过程中，通过选择歌词特效，获取歌词特效对应的特效处理信息，之后对采集的视频画面进行人脸识别，基于人脸识别结果显示根据特效处理信息进行处理后的特效歌词，从而能够使得视频画面与特效歌词关联起来，丰富了录制的视频内容，优化了视频录制的效果。

需要说明的是：上述实施例提供的视频录制装置在录制视频时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频录制装置与视频录制方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图18示出了本发明实施例提供的终端1800的结构框图。该终端1800可以是智能手机、平板电脑、mp3播放器(movingpictureexpertsgroupaudiolayeriii，动态影像专家压缩标准音频层面3)、mp4(movingpictureexpertsgroupaudiolayeriv，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1800包括有：处理器1801和存储器1802。

处理器1801可以包括一个或多个处理核心，比如4核心处理器、18核心处理器等。处理器1801可以采用dsp(digitalsignalprocessing，数字信号处理)、fpga(field－programmablegatearray，现场可编程门阵列)、pla(programmablelogicarray，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称cpu(centralprocessingunit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1801可以在集成有gpu(graphicsprocessingunit，图像处理器)，gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1801还可以包括ai(artificialintelligence，人工智能)处理器，该ai处理器用于处理有关机器学习的计算操作。

存储器1802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1801所执行以实现本申请中方法实施例提供的视频录制方法。

在一些实施例中，终端1800还可选包括有：外围设备接口1803和至少一个外围设备。处理器1801、存储器1802和外围设备接口1803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1803相连。具体地，外围设备包括：射频电路1804、触摸显示屏1805、摄像头1806、音频电路1807、定位组件18018和电源1809中的至少一种。

外围设备接口1803可被用于将i/o(input/output，输入/输出)相关的至少一个外围设备连接到处理器1801和存储器1802。在一些实施例中，处理器1801、存储器1802和外围设备接口1803被集成在同一芯片或电路板上；在一些其他实施例中，处理器1801、存储器1802和外围设备接口1803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1804用于接收和发射rf(radiofrequency，射频)信号，也称电磁信号。射频电路1804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1804包括：天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wirelessfidelity，无线保真)网络。在一些实施例中，射频电路1804还可以包括nfc(nearfieldcommunication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1805用于显示ui(userinterface，用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1805是触摸显示屏时，显示屏1805还具有采集在显示屏1805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1801进行处理。此时，显示屏1805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1805可以为一个，设置终端1800的前面板；在另一些实施例中，显示屏1805可以为至少两个，分别设置在终端1800的不同表面或呈折叠设计；在再一些实施例中，显示屏1805可以是柔性显示屏，设置在终端1800的弯曲表面上或折叠面上。甚至，显示屏1805还可以设置成非矩形的不规则图形，也即异形屏。显示屏1805可以采用lcd(liquidcrystaldisplay，液晶显示屏)、oled(organiclight-emittingdiode,有机发光二极管)等材质制备。

摄像头组件1806用于采集图像或视频。可选地，摄像头组件1806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtualreality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1801进行处理，或者输入至射频电路1804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1801或射频电路1804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1807还可以包括耳机插孔。

定位组件1808用于定位终端1800的当前地理位置，以实现导航或lbs(locationbasedservice，基于位置的服务)。定位组件1808可以是基于美国的gps(globalpositioningsystem，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1809用于为终端1800中的各个组件进行供电。电源1809可以是交流电、直流电、一次性电池或可充电电池。当电源1809包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1800还包括有一个或多个传感器1810。该一个或多个传感器1810包括但不限于：加速度传感器1811、陀螺仪传感器1812、压力传感器1813、指纹传感器1814、光学传感器1815以及接近传感器1816。

加速度传感器1811可以检测以终端1800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1811可以用于检测重力加速度在三个坐标轴上的分量。处理器1801可以根据加速度传感器1811采集的重力加速度信号，控制触摸显示屏1805以横向视图或纵向视图进行用户界面的显示。加速度传感器1811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1812可以检测终端1800的机体方向及转动角度，陀螺仪传感器1812可以与加速度传感器1811协同采集用户对终端1800的3d动作。处理器1801根据陀螺仪传感器1812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1813可以设置在终端1800的侧边框和/或触摸显示屏1805的下层。当压力传感器1813设置在终端1800的侧边框时，可以检测用户对终端1800的握持信号，由处理器1801根据压力传感器1813采集的握持信号进行左右手识别或快捷操作。当压力传感器1813设置在触摸显示屏1805的下层时，由处理器1801根据用户对触摸显示屏1805的压力操作，实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1814用于采集用户的指纹，由处理器1801根据指纹传感器1814采集到的指纹识别用户的身份，或者，由指纹传感器1814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1814可以被设置终端1800的正面、背面或侧面。当终端1800上设置有物理按键或厂商logo时，指纹传感器1814可以与物理按键或厂商logo集成在一起。

光学传感器1815用于采集环境光强度。在一个实施例中，处理器1801可以根据光学传感器1815采集的环境光强度，控制触摸显示屏1805的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1805的显示亮度；当环境光强度较低时，调低触摸显示屏1805的显示亮度。在另一个实施例中，处理器1801还可以根据光学传感器1815采集的环境光强度，动态调整摄像头组件1806的拍摄参数。

接近传感器1816，也称距离传感器，通常设置在终端1800的前面板。接近传感器1816用于采集用户与终端1800的正面之间的距离。在一个实施例中，当接近传感器1816检测到用户与终端1800的正面之间的距离逐渐变小时，由处理器1801控制触摸显示屏1805从亮屏状态切换为息屏状态；当接近传感器1816检测到用户与终端1800的正面之间的距离逐渐变大时，由处理器1801控制触摸显示屏1805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图18中示出的结构并不构成对终端1800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括至少一条指令、至少一段程序、代码集或指令集的存储器，上述至少一条指令、至少一段程序、代码集或指令集可由处理器执行以完成本发明实施例的全部或者部分步骤。例如，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘培;林若曦;徐良;俞骁;牟伟成
技术所有人：腾讯音乐娱乐科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。