视频直播的方法、计算机可读存储介质和终端设备与流程

文档序号:14881424发布日期:2018-07-07 09:48阅读:130来源:国知局

本发明涉及信息处理技术,尤其是一种视频直播的方法、计算机可读存储介质和终端设备。



背景技术:

在传统的直播中,由于手机摄像头的清晰度不够,很多主播都会选择使用第三方的设备及软件来进行直播,并将直播音视频流直接推送给观众;但这种直播方式的表现形式较为单一,很大程度上已经限制了直播的娱乐性,让很多直播节目的表演变得很无趣。



技术实现要素:

本发明提供一种视频直播的方法,可以丰富直播的表演形式,增加直播的趣味。

本发明提供的一种视频直播的方法,包括:

获取本主播端携带时间戳的直播音视频流,获取外部携带时间戳的音视频流;

根据所述时间戳,把本主播端的直播音视频流与外部的音视频流合成,得到直播音视频流;其中,把本主播端的直播音视频流与外部的音视频流合成,包括:把本主播端的音频流与外部的视频流合成,或把本主播端的视频流与外部的音频流合成;

向直播平台发送所述合成的直播音视频流。

优选地,所述把本主播端的音频流与外部视频流合成,或把本主播端的视频流与外部音频流合成,包括:

把本主播端的音频流时间戳与外部的视频流时间戳对齐,将所述音频流与所述视频流合成,或把本主播端的视频流时间戳与外部的音频流时间戳对齐,将所述视频流与所述音频流合成。

优选地,所述把本主播端的音频流与外部视频流合成,或把本主播端的视频流与外部音频流合成,包括:

将所述外部视频流的时间戳增加预设时长得到新时间戳,把所述本主播端的音频流时间戳与所述外部视频流的新时间戳对齐,将所述外部视频流与本主播端的音频流合成;或将所述外部音频流的时间戳增加预设时长得到新时间戳,把所述本主播端的视频流时间戳与所述外部音频流的新时间戳对齐,将所述本主播端的视频流与所述外部音频流合成。

优选地,所述获取外部携带时间戳的音视频流之后,还包括:

在本主播端播放所述外部携带时间戳的音视频流,识别出所述音视频流中语音对应的文字,在本主播端显示所述文字。

优选地,所述获取外部携带时间戳的音视频流,包括:

接收另一直播的直播音视频流,从所述直播音视频流中分解出携带时间戳的音频流和/或视频流;或

接收从另一直播的直播音视频流中分解出携带时间戳的音频流和/或视频流。

优选地,所述获取外部携带时间戳的音视频流之后,还包括:

在本主播端播放所述另一直播的直播音视频流,识别出所述另一直播的直播音视频流中语音对应的文字,在本主播端显示所述文字。

优选地,所述获取外部携带时间戳的音视频流,包括:

识别本主播端的直播音视频流中声音的音频特征,得到本主播端正在演唱的歌曲;获取正在演唱同一歌曲的另一直播的直播音视频流,从所述直播音视频流中分解出携带时间戳的音频流。

优选地,所述获取外部携带时间戳的音视频流,还包括:

识别本主播端的主播的声音特点;

所述获取正在演唱同一歌曲的另一直播的直播音视频流,包括:

获取正在演唱同一歌曲、且主播声音特点相匹配的另一直播的直播音视频流。

优选地,所述获取正在演唱同一歌曲的另一直播的直播音视频流,包括:

获取正在演唱同一歌曲的若干个直播的直播音视频流,根据本主播端的主播的选择指令,选择其中一个直播的直播音视频流。

优选地,所述获取外部携带时间戳的音视频流,包括:

识别本主播端的直播音视频流中的图像特征;获取图像特征相匹配的另一直播的直播音视频流,从所述直播音视频流中分解出携带时间戳的音频流。

优选地,所述获取外部携带时间戳的音视频流,还包括:

识别本主播端的主播的声音特点;

所述获取图像特征相匹配的另一直播的直播音视频流,包括:

获取图像特征相匹配、且主播声音特点相匹配的另一直播的直播音视频流。

本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现前述任一项所述视频直播的方法的步骤。

本发明还提出一种终端设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述处理器执行所述计算机程序时,实现前述任意一项所述视频直播的方法的步骤。

本发明的有益效果如下:

1、本发明通过获得与本主播端不同的另一外部音视频流,并根据时间戳将本主播端的直播音视频流与外部的音视频流合成,可实现在本主播端插入其它音视频流信息的目的,以合成新的直播音视频流,从而使主播形式变得更加多样有趣;例如,可本主播端的表演视频中插入其它主播或视频流的声音,或配合其它主播或音视频流的图像或声音玩出更多直播花样。

2、观众观看直播节目的音视频信息与直播设备录制的音视频信息之间一般存在较短的时间差,利用该时间差,主播可选择插入有趣的音频流或视频流,或根据读取其它主播的音频流或视频流,做出对应的配合口型或声音,以使直播节目更有趣。

本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为本发明所述视频直播的方法第一实施例的流程示意图;

图2为本发明所述视频直播的方法第二实施例的流程示意图;

图3为本发明所述终端设备的实施例示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”到另一元件时,它可以直接连接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”可以包括无线连接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。

如图1所示,本发明提出一种视频直播的方法第一实施例,其包括如下步骤:

步骤s10:获取本主播端携带时间戳的直播音视频流,获取外部携带时间戳的音视频流;

步骤s20:根据所述时间戳,把本主播端的直播音视频流与外部的音视频流合成,得到直播音视频流;其中,把本主播端的直播音视频流与外部的音视频流合成,包括:把本主播端的音频流与外部的视频流合成,或把本主播端的视频流与外部的音频流合成;

步骤s30:向直播平台发送所述合成的直播音视频流。

其中,每个步骤具体如下:

步骤s10:获取本主播端携带时间戳的直播音视频流,获取外部携带时间戳的音视频流。

在该步骤中,所述直播音视频流可以为本主播端的一个或多个直播设备录制的音视频流或本主播端的播放器播放的音视频流;所述音视频流中的视频和音频可为分开的流文件,亦可为合并的流文件。基于所述一个或多个直播设备预设的通讯协议,即可获得所述直播设备录制的直播音视频流文件信息。直播设备录制音视频信息时,一般带有录制时间的记录,可根据该录制时间,将所述直播音视频流中的视频和/或音频打上时间戳,以作为后续与其它音频或视频合并的时间标记。所述时间戳可以为所述直播音视频流第一帧的时间戳,亦可为所述直播音视频流中每一帧的时间戳,或为所述直播音视频流中最后一帧的时间戳。

所述外部携带时间戳的音视频流可以为其它主播的带有时间戳的音视频流,也可以为其它应用播放的音视频流,亦可以为预存于本主播端的离线音视频流。

所述获取外部携带时间戳的音视频流的步骤,可位于所述获取本主播端携带时间戳的直播音视频流的步骤之前,即在获得本主播端的直播音视频流之前,先获得外部携带时间戳的音视频流,并将该音视频流预先存储于本主播端;当本主播端开启直播后,需要制作合并的直播音视频流特效时,再将预先存储的音视频流插入本主播端的直播音视频流中,或插入从本主播端的直播音视频流中分解出的带有时间戳的视频流中。所述获取外部携带时间戳的音视频流的步骤亦可位于所述获取本主播端携带时间戳的直播音视频流的步骤之后、步骤s20之前,即:在获取本主播端的直播音视频流之后,主动或被动地获得另一携带时间戳的音视频流并存储,以便本主播端调用。所述外部音视频流的时间戳可为所述音视频流第一帧的音视频数据的时间戳,亦可为所述音视频流中每一帧音视频数据的时间戳,或为所述音视频流最后一帧音视频数据的时间戳。

步骤s20:根据所述时间戳,把本主播端的直播音视频流与外部的音视频流合成,得到直播音视频流;其中,把本主播端的直播音视频流与外部的音视频流合成,包括:把本主播端的音频流与外部的视频流合成,或把本主播端的视频流与外部的音频流合成。

合并时,可根据时间戳,将所述本主播端的直播音视频流的采集时间和所述外部的音视频流的采集时间同步于同一时间轴上。所述时间轴以时间先后顺序有序地记载所述本主播端的直播音视频流和外部的音视频流中数据的采集时间,并将所述音视频流调整至预设的时间起点,使之与时间轴对应。同步时,还可将所述本主播端直播音视频流数据第一帧的时间戳与所述外部的音视频流第一帧的时间戳对齐或以预设时间错开,以使所述本主播端的直播音视频流和外部的音视频流从同一时间开始或以预设时间错开开始;亦可将所述本主播端的直播音视频流和外部的音视频流每一帧的时间戳对齐或以预设时间错开,或将所述本主播端的直播音视频流和外部的音视频流最后一帧的时间戳对齐或以预设时间错开,以使本主播端的直播音视频流和所述外部的音视频流同时结束或延时结束。

所述音视频流可以包括视频流和/或音频流;当本主播端的直播音视频流或外部的音视频流为合成的流文件时,可从合成的流文件中分解出携带时间戳的视频流和/或音频流,再将本主播端的视频流和/或音频流与外部的视频流和/或音频流进行组合合并,以将本主播端的音频流与外部的视频流合成,或把本主播端的视频流与外部的音频流合成。

步骤s30:向直播平台发送所述合成的直播音视频流。

当本主播端的视频流与外部的音频流合成后,向直播平台发送合成的直播视音频流,以供观众观看带有合成特效的直播音视频流。

与现有的直播音视频流相比,本发明中合成的直播音视频流可将本主播端的直播音视频画面或声音与外部其它的音视频画面或声音进行组合,以形成新的直播风格或直播形式。例如:在本主播端的直播音视频流中插入与本主播端画风对比鲜明的其它主播音频流,以达到错位组合的娱乐效果;或,在本主播端直播比赛时,插入其它主播解说的音频流,以增加解说的专业性和多样性。本发明合成的直播音视频流还可实现多个主播之间的互动,增加主播表演的多样性和娱乐性,以增加主播的直播节目对观众的吸引力,提高观众观看直播节目的趣味性,增加用户粘性。

基于所述第一实施例,本发明还提出另一实施例:所述把本主播端的音频流与外部视频流合成,或把本主播端的视频流与外部音频流合成,包括:

把本主播端的音频流时间戳与外部的视频流时间戳对齐,将所述音频流与所述视频流合成,或把本主播端的视频流时间戳与外部的音频流时间戳对齐,将所述视频流与所述音频流合成。

本实施例中的视频流与音频流的时间戳保持同步,不存在延时,以使观众获得即时的、未经本主播端加工的直播音视频流。

基于第一实施例,本发明还提出另一实施例:所述把本主播端的音频流与外部视频流合成,或把本主播端的视频流与外部音频流合成,包括:

将所述外部视频流的时间戳增加预设时长得到新时间戳,把所述本主播端的音频流时间戳与所述外部视频流的新时间戳对齐,将所述外部视频流与本主播端的音频流合成;或将所述外部音频流的时间戳增加预设时长得到新时间戳,把所述本主播端的视频流时间戳与所述外部音频流的新时间戳对齐,将所述本主播端的视频流与所述外部音频流合成。

在本实施例中,本直播端获取到外部视频流或外部音频流后,使其滞后所述预设时长再与本主播端的直播音视频流合并。在所述预设时长中,本主播端的主播可提前看到外部视频流的画面,或听到外部音频流声音,以便根据所述画面或声音确定下一步的直播内容,或作出相应的准备动作。例如:所述预设时长为3秒,本主播端收到外部另一直播的音频流后,可该音频流将延时3秒后,与本主播端的直播音视频流合成;本主播端可在3秒内进行准备,以作出与所述音频流对应的口型、表情或肢体动作。本实施例可使本主播端的主播对直播节目的把控性更强,避免在直播中插入不适合的音频或视频画面,或出现节奏把控失误。

基于上一实施例,本发明提出另一实施例:所述获取外部携带时间戳的音视频流之后,还包括:

在本主播端播放所述外部携带时间戳的音视频流,识别出所述音视频流中语音对应的文字,在本主播端显示所述文字。

在直播过程中,外放的音频容易对直播造成干扰。本主播端的主播在不佩戴耳机的情况下,若通过外放设备直接播放所述外部的音视频流,可能对直播造成干扰,尤其是在提前听到另一主播的音频内容,以便根据该音频内容确定下一步的直播内容、或作出相应的动作时,外放的外部音频将完全破坏直播节目的完整性和娱乐性。为避免这种情况,本实施例将所述外部的音视频流识别为对应的文字,以在本主播端的界面上显示,主播可直接看到音视频的内容,并便做出相应准备或反应,而无需外放音频流数据;而且,本实施例方案也避免了观看直播的观众提前看到或听到外部音视频流的内容,提高了直播节目的质量。

根据直播设备采集音视频数据的协议,其保存的原始音频数据与原始视频数据可能是分开的,亦可能是合于一体的。当外部的音视频流为另一直播的音视频流时,获得的音视频流可能是原始的音视频流,亦可能是从原始的音视频数据中分解出来的音频流或视频流;另一主播的终端或中转服务器可向本主播端推送带有时间戳的音频流或直播视频流,亦可推送不带时间戳的音频流或直播视频流。根据所述时间戳的来源不同,本发明还提出又一实施例:所述获取外部携带时间戳的音视频流,包括:

接收另一直播的直播音视频流,从所述直播音视频流中分解出携带时间戳的音频流和/或视频流;或

接收从另一直播的直播音视频流中分解出携带时间戳的音频流和/或视频流。

本实施例包括两种方案,在前一方案中,推送至本主播端的直播音视频流可不带时间戳,而由本主播端从所述直播音视频流中分解出携带时间戳的音频流和/或视频流;在后一方案中,推送至本主播端的音频流和/或视频流已带有时间戳,无需再由本主播端进行数据处理;故,本实施例可兼容带有时间戳的音频流和/或视频流与不带时间戳的音视频流数据,增加了本发明的适用范围。

在第一实施例中,为方便本主播端的主播快速获知所述另一直播的音频流内容,本发明进一步提出又一方案:所述获取外部携带时间戳的音视频流之后,还包括:

在本主播端播放所述另一直播的直播音视频流,识别出所述另一直播的直播音视频流中语音对应的文字,在本主播端显示所述文字。

即在本主播端播放所述另一直播的直播音视频流的同时,亦在本主播端显示识别出的所述直播音视频流对应的文字,以使主播可通过两种途径得知插入的另一直播的直播音视频流的内容,可提高主播获知另一直播信息的速度,同时还可提高本主播端的主播获知信息的准确度。

基于第一实施例,本发明还提出第二实施例:所述获取外部携带时间戳的音视频流,包括:

识别本主播端的直播音视频流中声音的音频特征,得到本主播端正在演唱的歌曲;获取正在演唱同一歌曲的另一直播的直播音视频流,从所述直播音视频流中分解出携带时间戳的音频流。

如图2的步骤s11所示,在获取本主播端携带时间戳的直播音视频流之后,若本主播端的主播正在表演唱歌,则可通过本实施例插入其它主播的歌声。本实施例先识别出本主播端演唱的歌曲,并获取正在演唱同一歌曲的另一直播的直播音视频流,然后将另一直播的直播音视频流分解为带有时间戳的音频流;最后与本主播端的视频流合成为新的直播音视频流。在本实施例中的主播可配合所述音频流对口型,亦可采取配舞或和声等形式进行直播表演。本实施例为唱歌类直播节目提供了一种新的玩法,增加了唱歌类直播节目的趣味性;当然,本实施例亦可应用于其它类型的直播节目,而并不限于唱歌类直播节目。

基于第二实施例,本发明提出又一实施例:所述获取外部携带时间戳的音视频流,还包括:

识别本主播端的主播的声音特点;

所述获取正在演唱同一歌曲的另一直播的直播音视频流,包括:

获取正在演唱同一歌曲、且主播声音特点相匹配的另一直播的直播音视频流。

本实施例可根据主播演唱的歌曲和声音特点,为主播查找与之匹配的另一直播的直播音视频流,并将从其中分解出的音频流合成到本主播端,以达到以假乱真的表演效果。本实施例可为本主播端的主播提供新的娱乐方式,例如猜演唱者、替唱、多主播联唱等多种娱乐形式。

基于第二实施例,本发明还提出一种实施例:所述获取正在演唱同一歌曲的另一直播的直播音视频流,包括:

获取正在演唱同一歌曲的若干个直播的直播音视频流,根据本主播端的主播的选择指令,选择其中一个直播的直播音视频流。

在前一实施例中,可根据主播声音特点,由本主播端自动匹配另一直播的直播音视频流;在本实施例中,本主播端先获取多个演唱同一歌曲的直播音视频流,以供主播选择。主播选择其中一个直播的直播音视频流后,可将该直播的直播音视频流分解为携带时间戳的音频流,并将所述音频流与从本主播端分解出的携带时间戳的视频流合成,以发送至所述直播平台,供观众观看。本实施例可由主播选择需要的直播音视频流,以控制合成主播想要的直播音视频流,从而加强主播对表演效果可控性,提高主播的用户体验。

在向直播平台发送所述合成的直播音视频流时,用户亦可随时停止该发送,并将直播的音频流切换为本主播端的音频流;或继续切换至其它主播的直播音视频流。本实施例为本主播端的主播提供了多种选择,以使主播可在其它多个直播的音频流中选择需要的音频流,以达到更加多样化的直播表演效果。

基于第一实施例,当直播节目为游戏解说、比赛解说类节目时,本发明还提出另一实施方案:所述获取外部携带时间戳的音视频流,包括:

识别本主播端的直播音视频流中的图像特征;获取图像特征相匹配的另一直播的直播音视频流,从所述直播音视频流中分解出携带时间戳的音频流。

在第二实施例中,可通过识别本主播端的直播音视频流中声音的音频特征,得到本主播端正在演唱的歌曲;在本实施例中,所述本主播端的直播音视频流可以为本主播端播放器中播放的节目,例如播放的篮球比赛或电子竞技比赛。本实施例通过识别播放器中播放的节目,可为本主播端的比赛节目匹配同一场赛事的其它直播音频流,或相同比赛项目的另一场赛事的直播音频流,从而为同一场赛事增加多个的主播解说的可能,或为同一场赛事增加类似比赛的对比效果,进而增加直播中的信息量和吸引力。当然,本实施例亦可应用于电影观看等其它类型的直播节目,而并不限于所述的比赛类节目。

基于上一实施例,所述获取外部携带时间戳的音视频流,还可包括:

识别本主播端的主播的声音特点;

所述获取图像特征相匹配的另一直播的直播音视频流,包括:

获取图像特征相匹配、且主播声音特点相匹配的另一直播的直播音视频流。

在本方案中,为本主播端匹配另一直播的直播音视频流时,不仅参考其中的图像特征,以找到相同的直播内容,还根据主播的声音特点进行匹配,以使本主播端的主播匹配到与其风格一致的另一主播,从而使合成的直播音视频流的风格与合成之前的直播音视频流的风格一致,保持观众的沉浸感,不至于影响观众的用户体验。

在本发明中,触发合成直播音视频流的指令可以为预设的触发动作、预设的触发语音或预设的点击指令等。所述获得另一主播携带时间戳的音视频流优选为同一局域网内的其它主播端的音视频流,以保证所述音视频流的获取速度,避免网络延时造成的合并失败。在合成直播音视频流时,还可在本主播端的视频流中增加环境道具、服装道具等视觉特效,以烘托或增加直播节目的氛围。

本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现前述任一项所述视频直播的方法的步骤。

本发明还提出一种终端设备,如图3所示,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述处理器执行所述计算机程序时,实现前述任意一项所述视频直播的方法的步骤。

如图3所示为本发明所述终端设备的部分结构框图,为了便于说明,仅示出了与本发明实施例相关的部分。所述终端设备可以为包括手机、平板电脑、笔记本电脑、台式电脑等可观看直播节目的终端设备。下面以台式电脑为例说明本发明终端设备的工作方式。

参考图3,台式电脑包括处理器、存储器、输入单元、显示单元等部件。本领域技术人员可以理解,图3中示出的台式电脑结构并不构成对所有台式电脑的限定,可以包括比图示更多或更少的部件,或者组合某些部件。存储器可用于存储计算机程序以及各功能模块,处理器通过运行存储在存储器的计算机程序,从而执行台式电脑的各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如收看直播节目的功能)等;存储数据区可存储根据台式电脑的使用所创建的数据(比如直播数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其它易失性固态存储器件。

输入单元可用于接收用户输入的触发指令,以及产生与台式电脑的用户设置以及功能控制有关的信号输入。具体地,输入单元可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程序驱动相应的连接装置;其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元可用于显示用户输入的信息或提供给用户的信息以及台式电脑的各种菜单。显示单元可采用液晶显示器、有机发光二极管等形式。处理器是台式电脑的控制中心,利用各种接口和线路连接整个电脑的各个部分,通过运行或执行存储在存储器内的软件程序和/或模块,以及调用存储在存储器内的数据,执行各种功能和处理数据。

本发明如果以软件功能的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1