一种音视频同步的方法和终端与流程

文档序号：16589866发布日期：2019-01-14 19:00阅读：299来源：国知局

本发明涉及移动终端技术领域，尤其涉及一种音视频同步的方法和终端。

背景技术：

随着移动终端和网络技术的飞速发展，移动终端为了适应用户的多种需求，开发出越来越多的功能。在日常生活和工作中，用户常常使用移动终端进行视频通话。但是，在视频通话过程中，如果需要播放音乐，就会出现对方听不到用户播放的音乐的问题。例如，视频通话时用户要为对方演示舞蹈，只能使用其他设备播放伴奏音乐，否则对方只能看到用户演示的舞蹈，而听不到用户播放的伴奏音乐，用户使用体验很差。

技术实现要素：

本发明实施例提供一种音视频同步的方法和终端，以解决现有技术中在视频通话过程中，如果需要播放音乐，就会出现对方听不到用户播放的音乐的问题。

为了解决上述技术问题，本发明实施例提供了一种音视频同步的方法，应用于终端，所述方法包括：

在视频通话过程中采集用户的视频图像；

当检测到所述终端播放音乐时，获取所述终端播放的第一音频和环境中的第二音频；

根据所述第一音频、所述第二音频和所述视频图像，生成音视频同步的目标音视频；

将所述目标音视频发送到视频通话的目标对象

本发明实施例还提供了一种音视频同步的终端，所述终端包括：

视频图像采集模块，用于在视频通话过程中采集用户的视频图像；

音频获取模块，用于当检测到所述终端播放音乐时，获取所述终端播放的第一音频和环境中的第二音频；

目标音视频生成模块，用于根据所述第一音频、所述第二音频和所述视频图像，生成音视频同步的目标音视频；

目标音视频发送模块，用于将所述目标音视频发送到视频通话的目标对象。

本发明实施例还提供了一种终端，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述的音视频同步的方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上述的音视频同步的方法的步骤。

本发明实施例中，终端在视频通话过程中采集用户的视频图像；当检测到终端播放音乐时，获取终端播放的第一音频和环境中的第二音频；根据第一音频、第二音频和视频图像，生成音视频同步的目标音视频，并将目标音视频发送到视频通话的目标对象。通过本发明实施例，终端可以在视频通话过程中，将播放的音乐、用户语音、视频图像生成音视频同步的目标音视频，并将目标音视频发送到视频通话的目标对象，使视频通话的目标对象在观看视频的同时可以听到终端播放的音乐，即采用一个终端实现音乐和视频同步的效果，提升了用户的使用体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一的一种音视频同步的方法的步骤流程图；

图2是本发明实施例二的一种音视频同步的方法的步骤流程图；

图3是本发明实施例三的一种音视频同步的终端的结构框图之一；

图4是本发明实施例三的一种音视频同步的终端的结构框图之二；

图5是本发明实施例四的一种移动终端的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

参照图1，示出了本发明实施例提供的一种音视频同步的方法的步骤流程图。应用于终端，所述方法包括：

步骤101，在视频通话过程中采集用户的视频图像。

本实施例中，在视频通话过程中，终端可以通过摄像头采集用户的视频图像。例如，在视频通话过程中，用户为视频通话的目标对象演示舞蹈，采集用户跳舞的视频图像。

步骤102，当检测到所述终端播放音乐时，获取所述终端播放的第一音频和环境中的第二音频。

本实施例中，终端可以根据用户指令播放音乐。例如，开启音乐播放应用程序，在音乐播放应用程序中选取音乐并进行播放。当终端播放音乐时，为了使视频通话的目标对象也可以听到音乐，实现音视频同步，获取终端播放的第一音频，以及环境中的第二音频。例如，从音乐播放应用程序获取音乐的第一音频，通过麦克风获取包括用户语音、环境声音的第二音频。

步骤103，根据所述第一音频、所述第二音频和所述视频图像，生成音视频同步的目标音视频。

本实施例中，获取到第一音频、第二音频后，将第一音频、第二音频和视频图像合成音视频同步的目标音视频。例如，将音乐a、用户讲解舞蹈动作的语音b，以及用户演示舞蹈的视频图像合成音视频同步的目标音视频。本发明实施例对目标音视频的生成方式不作详细限定，可以根据实际情况进行设置。

步骤104，将所述目标音视频发送到视频通话的目标对象。

本实施例中，将目标音视频发送到视频通话的目标对象，使视频通话的目标对象在观看舞蹈的同时，可以听到终端播放的音乐，无需终端的用户使用其他设备播放伴奏音乐，提升了用户的使用体验。

综上所述，在本发明实施例中，终端在视频通话过程中采集用户的视频图像；当检测到终端播放音乐时，获取终端播放的第一音频和环境中的第二音频；根据第一音频、第二音频和视频图像，生成音视频同步的目标音视频，并将目标音视频发送到视频通话的目标对象。通过本发明实施例，终端可以在视频通话过程中，将播放的音乐、用户语音、视频图像生成音视频同步的目标音视频，并将目标音视频发送到视频通话的目标对象，使视频通话的目标对象在观看视频的同时可以听到终端播放的音乐，即采用一个终端实现音乐和视频同步的效果，提升了用户的使用体验。

实施例二

参照图2，示出了本发明实施例提供的一种音视频同步发送的方法的步骤流程图。应用于终端，所述方法包括：

步骤201，在视频通话过程中采集用户的视频图像。

步骤202，当检测到所述终端播放音乐时，接收音视频同步指令。

本实施例中，在终端播放音乐时，也可以根据实际情况选取是否要将音乐与视频图像同步。例如，如果接收到音视频同步指令，则进行音视频同步的处理。如果未接收到音视频同步指令，则不进行音视频同步的处理。

接收音视频同步指令可以包括多种方式：

方式一，判断所述视频图像中是否存在用户图像；当存在所述用户图像时，检测用户手部的位置；根据所述用户手部的位置变化确定所述用户手势；当所述用户手势与所述终端中预置的同步手势匹配时，确定接收到所述音视频同步指令。

具体地，判断视频图像中是否存在用户图像，如果不存在用户图像，则不检测用户手部的位置，不进行音视频同步的处理；如果存在用户图像，则检测用户手部的位置。可选地，通过终端具有的超声波装置检测用户手部的位置。例如，采用终端的受话器发出第一超声波信号，采用麦克风接收返回的第二超声波信号，根据第一超声波信号和第二超声波信号检测用户手部的位置。

检测到用户手部的位置后确定用户手势，例如，确定用户手势为用户手部与终端之间的距离缩短，用户手部与终端之间的距离变远；也可以确定用户手势为用户手部相对终端升高，用户手部相对终端降低；还可以确定用户手势为用户手部相对终端向左侧移动，用户手部相对终端向右侧移动等等。

从终端中查找与用户手势匹配的同步手势，如果查找到与用户手势匹配的同步手势，则确定接收到音视频同步指令，进行获取第一音频、第二音频的步骤；如果未查找到与用户手势匹配的同步手势，则确定未接收到音视频同步指令，不进行获取第一音频、第二音频的步骤。可选地，所述同步手势包括所述用户手部与所述终端之间的距离缩小，所述用户手部相对所述终端升高，所述用户手部相对所述终端向左侧移动中的至少一种。本发明实施例对同步手势不作详细限定，可以根据实际情况进行设置。

在终端播放音乐、视频图像中存在用户图像且用户手势与同步手势匹配时才确定接收到音视频同步指令，可以避免将接收到的其他指令错判为音视频同步指令而进行音视频同步处理的问题。

方式二，在视频通话界面中显示同步开关；接收开启所述同步开关的触控指令。

具体地，还可以是在视频通话界面中显示同步开关。如果接收到开启同步开关的触控指令，则进行音视频同步的处理；如果接收到关闭同步开关的触控指令，则不再进行音视频同步的处理。用户可以根据需求随时开启或关闭同步开关，方便用户使用，提升了用户的使用体验。

步骤203，获取所述终端播放的第一音频和环境中的第二音频。

步骤204，根据所述第一音频、所述第二音频和所述视频图像，生成音视频同步的目标音视频。

本实施例中，生成音视频同步的目标音视频具体可以包括如下步骤：

子步骤一，根据所述第一音频对所述第二音频进行降噪处理。

具体地，在采用麦克风获取环境中的第二音频时，除了会获取到用户语音之外，可能还会获取到终端播放的音乐。对于目标音视频来说，从麦克风获取到的终端播放的音乐属于噪声，因此可以根据第一音频对第二音频进行降噪处理，即从第二音频中将从麦克风获取到的终端播放的音乐去除。

子步骤二，将降噪处理后的第二音频与所述第一音频合成第三音频。

例如，在获取第一音频、第二音频时设置时间标签，将降噪处理后保留用户语音的第二音频，与第一音频的音乐根据时间标签合成第三音频。其中，第三音频也设置时间标签。

子步骤三，将所述第三音频与所述视频图像按照时间对应，生成所述目标音视频。

例如，第三音频和视频图像均设置时间标签，根据时间标签将第三音频和视频图像对应，生成音视频同步的目标音视频。按照时间对应可以避免音乐与视频图像不同步的问题，还可以采用其他方式使音乐与视频同步，本发明实施例对此不作详细限定，可以根据实际情况进行设置。

步骤205，将所述目标音视频发送到视频通话的目标对象。

实施例三

参照图3，示出了本发明实施例提供的一种音视频同步的终端的结构框图。所述终端包括视频图像采集模块301、音频获取模块302、目标音视频生成模块303、目标音视频发送模块304：

视频图像采集模块301，用于在视频通话过程中采集用户的视频图像；

音频获取模块302，用于当检测到所述终端播放音乐时，获取所述终端播放的第一音频和环境中的第二音频；

目标音视频生成模块303，用于根据所述第一音频、所述第二音频和所述视频图像，生成音视频同步的目标音视频；

目标音视频发送模块304，用于将所述目标音视频发送到视频通话的目标对象。

在图3的基础上，可选地，在所述音频获取模块302之前，所述终端还包括同步指令接收模块305，见图4：

同步指令接收模块305，用于接收音视频同步指令。

在图4的基础上，可选地，所述音视频同步指令接收模块305包括：

判断子模块，用于判断所述视频图像中是否存在用户图像；

检测子模块，用于当存在所述用户图像时，检测用户手部的位置；

用户手势确定子模块，用于根据所述用户手部的位置变化确定所述用户手势；

第一指令接收子模块，用于当所述用户手势与所述终端中预置的同步手势匹配时，确定接收到所述音视频同步指令。

在图4的基础上，可选地，所述音视频同步指令接收模块305包括：

显示子模块，用于在视频通话界面中显示同步开关；

第二指令接收子模块，用于接收开启所述同步开关的触控指令。

在图3的基础上，可选地，所述目标音视频生成模块303包括：

降噪处理子模块，用于根据所述第一音频对所述第二音频进行降噪处理；

音频生成子模块，用于将降噪处理后的第二音频与所述第一音频合成第三音频；

目标音视频生成子模块，用于将所述第三音频与所述视频图像按照时间对应，生成所述音视频同步的目标音视频。

本发明实施例提供的音视频同步的终端能够实现图1和图2的方法实施例中实现的各个过程，为避免重复，这里不再赘述。通过本发明实施例，终端可以在视频通话过程中，将播放的音乐、用户语音、视频图像生成音视频同步的目标音视频，并将目标音视频发送到视频通话的目标对象，使视频通话的目标对象在观看视频的同时可以听到终端播放的音乐，即采用一个终端实现音乐和视频同步的效果，提升了用户的使用体验。

实施例四

图5为实现本发明各个实施例的一种移动终端的硬件结构示意图。

该移动终端400包括但不限于：射频单元401、网络模块402、音频输出单元403、输入单元404、传感器405、显示单元406、用户输入单元407、接口单元408、存储器409、处理器410、以及电源411等部件。本领域技术人员可以理解，图5中示出的移动终端结构并不构成对移动终端的限定，移动终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，移动终端包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，输入单元404，用于在视频通话过程中采集用户的视频图像。

处理器410，用于当检测到所述终端播放音乐时，获取所述终端播放的第一音频和环境中的第二音频；根据所述第一音频、所述第二音频和所述视频图像，生成音视频同步的目标音视频；将所述目标音视频发送到视频通话的目标对象。

通过本发明实施例，终端可以在视频通话过程中，将播放的音乐、用户语音、视频图像生成音视频同步的目标音视频，并将目标音视频发送到视频通话的目标对象，使视频通话的目标对象在观看视频的同时可以听到终端播放的音乐，即采用一个终端实现音乐和视频同步的效果，提升了用户的使用体验。

应理解的是，本发明实施例中，射频单元401可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器410处理；另外，将上行的数据发送给基站。通常，射频单元401包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元401还可以通过无线通信系统与网络和其他设备通信。

移动终端通过网络模块402为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元403可以将射频单元401或网络模块402接收的或者在存储器409中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元403还可以提供与移动终端400执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元403包括扬声器、蜂鸣器以及受话器等。

输入单元404用于接收音频或视频信号。输入单元404可以包括图形处理器(graphicsprocessingunit，gpu)4041和麦克风4042，图形处理器4041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元406上。经图形处理器4041处理后的图像帧可以存储在存储器409(或其它存储介质)中或者经由射频单元401或网络模块402进行发送。麦克风4042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元401发送到移动通信基站的格式输出。

移动终端400还包括至少一种传感器405，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板4061的亮度，接近传感器可在移动终端400移动到耳边时，关闭显示面板4061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器405还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元406用于显示由用户输入的信息或提供给用户的信息。显示单元406可包括显示面板4061，可以采用液晶显示器(liquidcrystaldisplay，lcd)、有机发光二极管(organiclight-emittingdiode,oled)等形式来配置显示面板4061。

用户输入单元407可用于接收输入的数字或字符信息，以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元407包括触控面板4071以及其他输入设备4072。触控面板4071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板4071上或在触控面板4071附近的操作)。触控面板4071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器410，接收处理器410发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板4071。除了触控面板4071，用户输入单元407还可以包括其他输入设备4072。具体地，其他输入设备4072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板4071可覆盖在显示面板4061上，当触控面板4071检测到在其上或附近的触摸操作后，传送给处理器410以确定触摸事件的类型，随后处理器410根据触摸事件的类型在显示面板4061上提供相应的视觉输出。虽然在图5中，触控面板4071与显示面板4061是作为两个独立的部件来实现移动终端的输入和输出功能，但是在某些实施例中，可以将触控面板4071与显示面板4061集成而实现移动终端的输入和输出功能，具体此处不做限定。

接口单元408为外部装置与移动终端400连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(i/o)端口、视频i/o端口、耳机端口等等。接口单元408可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端400内的一个或多个元件或者可以用于在移动终端400和外部装置之间传输数据。

存储器409可用于存储软件程序以及各种数据。存储器409可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器409可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器410是移动终端的控制中心，利用各种接口和线路连接整个移动终端的各个部分，通过运行或执行存储在存储器409内的软件程序和/或模块，以及调用存储在存储器409内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。处理器410可包括一个或多个处理单元；优选的，处理器410可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器410中。

移动终端400还可以包括给各个部件供电的电源411(比如电池)，优选的，电源411可以通过电源管理系统与处理器410逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，移动终端400包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种终端，包括处理器410，存储器409，存储在存储器409上并可在所述处理器410上运行的计算机程序，该计算机程序被处理器410执行时实现上述音视频同步的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述音视频同步的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(read-onlymemory，简称rom)、随机存取存储器(randomaccessmemory，简称ram)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：史建兴
技术所有人：维沃移动通信有限公司
我是此专利的发明人

上一篇：一种元宝螺丝的冷镦加工方法与流程
上一篇：一种工业化制作无麸质面条的方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。