基于视频数据库建立直播场景库的方法、装置及系统与流程

文档序号：33165782发布日期：2023-02-04 01:31阅读：39来源：国知局

1.本发明涉及计算机技术领域，尤其涉及一种基于视频数据库建立直播场景库的方法、装置及系统。

背景技术：

2.随着4g和5g互联网技术日益发展，网络直播为人们的生活提供越来越多的娱乐内容，同时越来越来的人进入直播行业，为网络直播提供内容。与此同时，点播视频也非常成熟，能为观众提供丰富而有趣的内容。因此，主播往往也会制作有趣的点播视频内容，从而达到吸引流量的目的。
3.目前，网络直播的内容按照规模主要可分为两类：一类是团体直播，其经过场景和人员配置的活动实况，诸如赛事、live表演和访谈等；另一类是个体直播，其在较为简单的场景，如较为固定的室内场景或未经布置的室外场景，提供游戏、才艺表演、聊天等直播内容。前者依赖于充足的成本投入能提供视听效果优越的直播内容，而后者所能提供的内容题材受成本所限。换言之，个体直播者难以基于简单的直播设备和环境，继续提供富有趣味性的直播内容。同时，平台也难吸引更多的从业者提供直播内容。

技术实现要素：

4.有鉴于此，为解决现有技术中主播不能以较低成本在多样的场景下进行直播的问题，本发明提供了一种基于视频数据库建立直播场景库的方法、装置及系统。
5.在第一方面，为解决上述技术问题，本发明采用以下技术方案：一种基于视频数据库建立直播场景库的方法，其中，该方法包括：获取点播视频并按照第一预设架构建立视频数据库，并从该视频数据库中获取至少一个视频数据；从该视频数据中提取出图像集，并将图像集中划分出人物画面元素和场景画面元素，按场景画面的相似度确定出图像集所包含的场景单元集，场景单元集由图像集中经虚化人物画面元素处理后的图像组成；从该视频数据中提取出场景单元集所对应的音频集，并从音频集至少识别出人声音轨，将人声音轨处理为视频文本；建立直播场景库，并按照第二预设架构保存有该视频数据中经处理后的场景单元集和视频文本。
6.上述方法的可选方案中，将直播场景库中所有场景单元集按预设类别规则进行分类，所述直播场景库设置直播剧本单元，所述直播剧本单元包括一个视频文本，至少两个同一类别的场景单元集。
7.上述方法的可选方案中，更新所述视频数据库，同步地更新所述直播场景库中的所述直播剧本单元；统计直播场景库的各直播剧本单元的调用次数，当调用次数达到预设阈值禁用对应的直播剧本单元。
8.上述方法的可选方案中，所述视频数据库还包括每个视频对应的热度数据，所述的当调用次数达到预设阈值禁用对应的直播剧本单元包括：按照热度数据设置所述预设阈值，原始所对应的视频数据热度越高，其对应直播剧本单元的预设阈值越高。
9.上述方法的可选方案中，从人物画面元素划分出的物品画面元素，所述建立直播场景库还按照预设架构保存有该视频数据中经处理后的物品画面元素。
10.上述方法的可选方案中，所述从音频集识别场景音轨，所述直播剧本单元还包括各场景单元集所对应的场景音轨。
11.上述方法的可选方案中，所述的场景单元集由图像集中经虚化人物画面元素处理后的图像组成包括：将图像集中至少图像帧识别中识别出人物画面元素，根据人物画面元素识别出各图像帧位于人物画面元素区域的遮挡元素，所述场景单元集包括以不同层级存储于直播场景库中的场景画面元素和遮挡元素。
12.上述方法的可选方案中，由所述直播场景库所提供场景单元集数据被合成到真人主播画面的直播视频流，所述直播视频流包含由真人主播按视频文本所再生成的主播音轨。
13.在第二方面，为解决上述技术问题，本发明采用以下技术方案：一种运行上述的基于视频数据库建立直播场景库的方法的装置，其中，包括：图像解析模块，用于获取视频数据库中获取一视频数据，从该视频数据中提去图像集，将图像集中划分出人物画面元素和场景画面元素，按场景画面的相似度确定出图像集所包含的场景单元集，场景单元集由图像集中经虚化人物画面元素处理后的图像组成；音频解析模块，用于从该视频数据中提取出场景单元集所对应的音频集，并将音频集至少划分出人声音轨，将人声音轨处理为视频文本；存储模块，用于按照第一预设架构存储视频数据库，并按照第二预设架构存储直播场景库；其中，所述直播场景库至少包括上述场景单元集和视频文本。
14.在第三方面，为解决上述技术问题，本发明采用以下技术方案：一种系统，包括处理平台，其中，所述处理平台配置有上述的装置，所述处理平台还用于将直播场景库中的音频文本提供给直播终端，从直播终端获取主播的直播视频图像，利用所述场景单元集拟合出直播视频流，并将直播视频流发送至用户终端。
15.与现有技术相比，本发明有益效果如下：本发明通过从视频数据库中视频数据分别提取出场景单元集和视频文本，并虚化视频数据中人物画面和人声，从而建立直播场景库，使得主播在直播过程中能够依照场景单元集作为演出或演唱的背景，同时参考视频文本，再现视频数据，作为直播的内容，为独立主播提供多变的直播场景和有趣的直播内容，同时新晋的主播能够简单并快速地尝试直播，同时由于点播的视频数据内容的吸引力已经过视频用户的考验，由于直播场景库是从视频数据库中生成，能使直播用户也感受直播内容带来的题材丰富的娱乐。
16.为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。
附图说明
17.图1展示本发明实施例的一种基于视频数据库建立直播场景库的方法所提供系统架构示意图。
18.图2展示本发明实施例的一种基于视频数据库建立直播场景库的方法的流程示意图。
19.图3展示本发明实施例的一种基于视频数据库建立直播场景库的方法的直播场景
库建立过程示意图。
20.图4展示本发明实施例的应用上述方法的装置的结构示意图。
21.图5展示本发明实施例的一种系统的结构及流程的示意图。
22.附图标记：10、处理平台；20、直播终端；30、用户终端；11、图像解析模块；12、音频解析模块；13、存储模块；40、视频数据库；50、直播场景库。
具体实施方式
23.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。
24.因此，以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围，而是仅仅表示本技术的选定实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
25.如图1所示，本技术所提供的一种基于视频数据库建立直播场景库50的方法所应用的系统架构。该系统架构至少包括处理平台10。其中，处理平台10配置在服务器中，并用于通过网络从直播终端20获取直播视频图像，并将该直播视频图像处理为直播视频流，再通过网络将直播视频流提供给用户终端30。同时，处理平台10还建立有视频数据库40和直播场景库50。其中，直播场景库50是由视屏数据库中的视频数据401经过本技术所述方法处理后转化生成而来的。
26.如图2所示，本技术实施例的一种基于视频数据库建立直播场景库50的方法，该方法用于将视频数据401转换生成为直播场景素材。该方法包括步骤：步骤s101、从视频数据库40中获取至少一个视频数据401；步骤s102、从该视频数据401中提取图像集402，由图像集402生成场景单元集403；其中，场景单元集403由图像集402的场景画面元素411经虚化人物画面元素412处理后所组成，场景单元集403的帧数由图像集402中的场景画面的相似度所确定步骤s103、从该视频数据401中提取出场景单元集403所对应的音频集404，从音频集404至少识别出人声音轨421，将人声音轨421处理为视频文本423步骤s104、将处理后的场景单元集403和视频文本423作为一直播剧本单元501。
27.本实施例步骤s101详细来说，视频数据库40是由点播视频数据401为主所构成的视频库。一个视频数据401是指包含了图像流和声音流，并具有较为完整内容的数据。作为示例的，该视频数据401可以是演讲、演唱、文艺表演、影视、剧情短视频等作为内容或内容片断的数据。该视频数据401主要以人物动作内容和人物语音内容为主要内容表现形式的。有视频数据库40所生成的直播场景库50也可承继这些内容的优点。
28.本实施例步骤s102详细来说，视频数据401将进一步提取出图像流，按照直播剧本单元501的长度范围从图像流提取的内容较为完整的图像集402。将图像集402中的图像识别处理，划分出人物画面元素412和场景画面元素411。可以理解，为了娱乐效果的提升，还可以划分出部分的物品画面元素413。场景画面元素411相似的图像组成一场景单元集403，并且这些图像经过人物画面元素412的虚化处理，保留下场景画面元素411。这些被保留场
景画面元素411的图像集402合，作为场景单元集403。一图像集402可生成若干场景单元集403。
29.本实施例步骤s103详细来说，视频数据401将进一步提取出音频流。其中，音频流被提出人声音轨421，经过文本识别处理为视频文本423。可以理解，对音频流消除人声音轨421可保留场景音轨422。生成的场景音轨422与场景单元集403一一对应，以方便数据的取用。
30.本实施例步骤s104详细来说，将从一视频数据401中提出的场景单元集403、场景音轨422和视频文本423存储为一直播剧本单元501,多个直播剧本单元501构成直播场景库50。当直播剧本单元501被处理平台10调用。视频文本423可用于提示本直播场景的语音内容，各场景单元集403可用于提示所需作出的动作，各场景音轨422可用于还原视频数据401的声音效果。
31.参考图3，本实施例的基于视频数据库建立直播场景库50的方法所生成直播场景库50的过程。一演唱为内容的视频数据401中，提取出某一首歌曲为内容的图像集402和音频集404。图像集402中每个图像被识别处理出场景画面元素411、物品画面元素413和物品画面元素413。相似场景的经人物画面元素412虚化的图像组成为场景单元集403。音频集404被识别出人声音轨421，包括歌曲部分和说话部分，这些人声音轨421被识别为视频文本423。通过经过消除人声音轨421的音频集404作为场景音轨422。所有的场景单元集403、场景音轨422和视频文本423被存储到一直播剧本单元501当中。众多的直播剧本单元501构建出所述的直播场景库50。
32.本实施例具体还有，在直播场景库50中的所有的场景单元可按照预设规则进行分类，例如按背景的亮度、背景场所、拍摄景别和时长等。当场景单元集403的类别相同，其中一直播剧本单元501中的场景单元集403，可有另一直播剧本单元501中的场景单元集403所替换。换言之，这两个场景单元集403来源于不同的视频数据401，但经分类后被划分为同一类。替换的方式，可以使从新构件每个直播剧本单元501的组合映射，一直播剧本单元501的同一时段上，可从至少两个底层的场景单元集403中选取其一。直播剧本单元501经过场景的重新组合，在直播的调用时，可更直播提供丰富的场景。
33.值得说明的是，直播场景库50可以进行更新和删减的操作。其中，随着视频数据库40的更新，直播场景库50也将随之更新直播场景库50。另外，直播场景库50也可以对部分的场景单元集403进行增加或删除，也可以整体的删减直播剧本单元501。
34.本实施例具体还有，视频数据库40中保存有视频数据401，以及每个视频数据401对应的热度数据。当该视频数据401被生成一个或多个直播剧本单元501，在直播场景库50中也相应地保存有这些直播剧本单元501的热度数据。当中直播场景库50中调用直播剧本单元501，将进行调用次数的统计，且当调用次数达到预设的阈值式，该直播剧本单元501将被禁用或删减。在一个较优的方案中，当直播剧本单元501的热度较高，其调用次数的阈值也被设置的越高。由于直播剧本单元501可被禁用，可确保直播环境中具有多样的直播内容，避免内容的驱动。
35.本实施例具体还有，在直播场景库50中，每个直播剧本单元501还可以配置专属的虚拟模型，这些虚拟模型可匹配于物品画面元素413。在直播进行时，响应于直播终端20或用户终端30的操作，虚拟模型可替换于物品画面元素413，即被拟合到直播视频流当中。由
于场景单元集403被分类，同一类的物品画面元素413被存储，并可在不同直播剧本单元501之间被调用。由此，当直播剧本单元501被调用，直播过程的互动性将得到提升。
36.本实施例具体还有，在图像集402的过程中，将图像集402中至少图像帧识别中识别出人物画面元素412，根据人物画面元素412识别出各图像帧位于人物画面元素412区域的遮挡元素414，场景单元集403包括以不同层级存储于直播场景库50中的场景画面元素411和遮挡元素414。在直播剧本单元501与直播视频图像拟合时，遮挡元素414将在顶层地设置于直播视频图像之上，使得拟合出的直播视频流更为贴合于原始视频数据401的效果。
37.如图4所示，本技术实施例的一种运行上述的基于视频数据库建立直播场景库50的方法的装置。该装置包括图像解析模块11、音频解析模块12和存储模块13。其中，图像解析模块11用于获取视频数据库40中获取一视频数据401，从该视频数据401中提去图像集402，将图像集402中划分出人物画面元素412和场景画面元素411，按场景画面的相似度确定出图像集402所包含的场景单元集403，场景单元集403由图像集402中经虚化人物画面元素412处理后的图像组成，音频解析模块12用于从该视频数据401中提取出场景单元集403所对应的音频集404，并将音频集404至少划分出人声音轨421，将人声音轨421处理为视频文本423，存储模块13用于按照第一预设架构存储视频数据库40，并按照第二预设架构存储直播场景库50。
38.如图5所示，一种系统，具有处理平台10、直播终端20和用户终端30，该系统还运行有程序步骤：步骤s105、从直播场景库50中提供音频文本和直播剧本单元501；步骤s106、主播按照音频文本和直播剧本单元501提供直播视频图像；步骤s107、将直播视频图像和场景单元集403相拟合，将直播音轨和场景音轨422拟合，生成直播视频流。
39.本实施例详细来说，主播在直播过程中可从处理平台10的直播场景库50中调用直播剧本单元501，处理平台10将按次序为直播终端20提供场景单元集403和视频文本423。其中，场景单元集403中的人物画面被虚化，主播可参考视频文本423提供直播视频图像。处理平台10将直播剧本单元501和直播视频图像相拟合，并将直播视频流提供给用户终端30。主播可简单地还原视频数据401中诸如影视剧段落、演唱会场景等的现场，观众也可以身临其境地感受大制作的直播表演。
40.由此可见，本技术实施例为独立主播提供多变的直播场景和有趣的直播内容，同时新晋的主播能够简单并快速地尝试直播，同时由于点播的视频数据401内容的吸引力已经过视频用户的考验，由于直播场景库50是从视频数据库40中生成，能使直播用户也感受直播内容带来的题材丰富的娱乐。本技术的上述各实施例，可借助一种计算机可读存储介质而存在。该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中的特效展示方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-onlymemory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
41.本技术的上述各实施例，可形成一种计算机程序产品，该计算机程序产品承载有程序代码，程序代码包括的指令可用于执行上述方法实施例中的特效展示方法的步骤。
42.其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(software development kit，sdk)等等。
43.在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
44.在本技术所提供的实施例，仅为本技术的具体实施方式，用以说明本技术的技术方案，而非对其限制，本技术的保护范围并不局限于此，尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本技术实施例技术方案的精神和范围，都应涵盖在本技术的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡高生李韩庞文刚邹西山林金怡余武吴伟华
技术所有人：联通沃音乐文化有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。