一种IBC系统的基于画面分析的自动场记方法和装置与流程

文档序号：24619443发布日期：2021-04-09 20:23阅读：200来源：国知局

本发明涉及电视技术领域，特别是涉及一种ibc系统的基于画面分析的自动场记方法和装置。

背景技术：

ibc系统中，场记的主要任务是记录视音频信号的现场信息，通过相对时间、绝对时间或位置时码来记录画面的位置，即将现场拍摄的每个镜头的详细情况，如镜头切换、拍摄方法、人物动作、字幕、转场场次等各方面的画面信息和细节数据详细、精确地记录下来，并与收录素材一一对应，以便为后期剪辑提供准确的检索数据和资料。

本申请的发明人发现，在目前的赛事实践中，场记系统皆通过人工操作实现，即通过人工方式实时记录体育比赛中各个镜头的位置，并与收录素材进行对应，需要操作人员熟悉各种比赛项目的比赛规则，并经过长时间培训及实地操作，从而需要耗费大量的人力资源。

技术实现要素：

为了解决上述问题，本发明提供了一种ibc系统的基于画面分析的自动场记方法和装置，以解决人工场记需要耗费大量人力资源的问题。

有鉴于此，本发明公开了一种ibc系统的基于画面分析的自动场记方法，所述自动场记方法包括步骤：

响应预设的场记启动事件，基于预先训练的识别模型对赛事记录的视音频素材进行识别处理，得到目标人物和关键词在所述视音频素材中的时间位置；

遍历以所述时间位置为核心的预设时长的视音频素材片段，基于所述目标人物和所述关键词对所述视音频素材片段进行智能对比，得到包括所述目标人物和所述关键词的有效视频画面；

驱动所述ibc系统的场记模块基于所述关键词对所述有效视频画面进行场记处理。

可选的，所述场记启动时间为用户的场记启动请求的输入事件或所述视音频素材的实时预览事件。

可选的，所述识别模型为基于图像识别和辅助识别的综合识别模型，其中：

所述图像识别包括人脸识别、动作识别和/或物体识别；

所述辅助识别包括语音识别和/或字幕识别。

可选的，所述关键词包括场记事件关键词、镜头层面的描述关键词和事件场景的描述关键词。

可选的，还包括步骤：

利用所述关键词和经过标注的视音频素材进行模型训练，得到所述识别模型。

还提供了一种ibc系统的基于画面分析的自动场记装置，所述自动场记装置包括：

素材识别模块，被配置为响应预设的场记启动事件，基于预先训练的识别模型对赛事记录的视音频素材进行识别处理，得到目标人物和关键词在所述视音频素材中的时间位置；

对比处理模块，被配置为遍历以所述时间位置为核心的预设时长的视音频素材片段，基于所述目标人物和所述关键词对所述视音频素材片段进行智能对比，得到包括所述目标人物和所述关键词的有效视频画面；

场记执行模块，被配置为驱动所述ibc系统的场记模块基于所述关键词对所述有效视频画面进行场记处理。

可选的，所述场记启动时间为用户的场记启动请求的输入事件或所述视音频素材的实时预览事件。

可选的，所述识别模型为基于图像识别和辅助识别的综合识别模型，其中：

所述图像识别包括人脸识别、动作识别和/或物体识别；

所述辅助识别包括语音识别和/或字幕识别。

可选的，所述关键词包括场记事件关键词、镜头层面的描述关键词和事件场景的描述关键词。

可选的，还包括步骤：

利用所述关键词和经过标注的视音频素材进行模型训练，得到所述识别模型。

从上述技术方案可以看出，本发明提供了一种ibc系统的基于画面分析的自动场记方法和装置，具体为根据场记启动事件对赛事记录的视音频素材进行识别处理，得到目标人物和关键词在视音频素材中的时间位置；遍历以时间位置为核心的预设时长的视音频素材片段，基于目标人物和关键词对视音频素材片段进行智能对比，得到包括目标人物和动作关键词的有效视频画面；驱动ibc系统的场记系统基于关键词对有效视频画面进行场记处理。上述过程中无需手动操作即可实现场记处理，从而解决了人工场记需要耗费大量人力资源的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的一种ibc系统的基于画面识别的自动场记方法的流程图；

图2为本申请中例句的场记时间关键词的示意图；

图3为本申请中的一种作业界面的示意图；

图4为本申请实施例的另一种ibc系统的基于画面识别的自动场记方法的流程图；

图5为本申请实施例的一种ibc系统的基于画面识别的自动场记装置的框图；

图6为本申请实施例的另一种ibc系统的基于画面识别的自动场记装置的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1为本申请实施例的一种ibc系统的基于画面识别的自动场记方法的流程图。

本实施例提供的自动场记方法应用于ibc系统，该ibc系统提供了ibcloud媒体资料共享系统，ibcloud媒体资料共享系统包含收录模块、场记模块和内容检索模块。

收录模块用于收录场记人物对应的赛事的视音频信号，具体以收录任务为单元采用“边收边编”的方式将赛事信号收录形成视音频素材和素材元数据信息文件；场记模块用于创建场记任务，并选择场记任务进行场记作业；内容检索模块用于检索赛事人物素材、场记事件画面及素材片段；

参照图1所示，该自动场记方法具体包括如下步骤：

s1、根据场记启动事件对视音频素材进行识别。

这里的场记启动事件可以为用户在输入相应的场记启动请求时的输入事件，也可以是在相应视音频素材在ibc的终端上实时预览是产生的实时预览事件。在上述场记启动事件的基础上，根据预先训练的识别模型对赛事记录的视音频素材进行识别处理，从中识别得到目标人物和关键词在该视音频素材中的时间位置。目标人物可以为目标运动员或目标运动队等。

这里的关键词包括体育赛事的比赛规则、规范、礼仪，统一定义场记事件关键词，还可以包括全景、俯拍、慢镜头等镜头层面的描述关键词，还可以包括颁奖仪式、升旗、金牌等事件场景的描述关键词。这些预先枚举自定义的关键词，是可预估的后续用户检索查询访问率比较高的镜头画面，是有效或有意义的受关注画面内容，场记需要在这些镜头画面做关键帧的标注，并根据关键帧提取有效画面片段供用户预览或使用。

以冰球项目为例，例举的场记时间关键词如图2所示。除了自定义场记事件关键词群，还会预录入收录赛事人物里的参赛运动员、教练员名称信息，便于明确标注场记镜头。以冰球项目为例，一场冰球赛事场记人物的作业界面如图3所示。

本方案中的识别模型为基于图像识别和辅助识别的综合识别模型，该图像识别手段包括人脸识别、动作识别和物体识别，也可以采用其中的部分手段；该辅助识别手段包括语音识别或字幕识别，或者采用两个兼顾。

s2、基于目标人物和关键词确定有效视频画面。

在从视音频素材中得到目标人物和关键词在其中的时间位置后，截取将该时间位置包含在内的预设时长的视音频素材片段，如向该时间位置前后各延10s的总长为20秒的视音频素材片段。再基于上述目标人物和关键词对该片段进行智能对比，得到该片段中包括目标人物和关键词的有效视频画面。

s3、驱动场记系统对有效视频画面进行场记处理。

在得到有效视频画面的基础上，驱动该ibc系统场记系统对该有效视频画面进行场记，即利用相应标记对该有效视频画面的有效帧进行标记处理，从而实现对视音频素材的自动场记。

另外，一个完整的场记事件标记记录，包含收录素材信息、相对时间和位置时码、场记事件关键词(可有多个)、运动员信息(可有多个)等。

从上述技术方案可以看出，本实施例提供了一种ibc系统的基于画面分析的自动场记方法，具体为根据场记启动事件对赛事记录的视音频素材进行识别处理，得到目标人物和关键词在视音频素材中的时间位置；遍历以时间位置为核心的预设时长的视音频素材片段，基于目标人物和关键词对视音频素材片段进行智能对比，得到包括目标人物和动作关键词的有效视频画面；驱动ibc系统的场记系统基于关键词对有效视频画面进行场记处理。上述过程中无需手动操作即可实现场记处理，从而解决了人工场记需要耗费大量人力资源的问题。

另外，在本实施例的一个具体实施方式中，还包括如下步骤，如图4所示。

s01、利用关键词和视音频素材进行模型训练。

通过训练得到上述识别模型，这里的关键词与前面所述的关键词相同，这里就不再赘述，这里的训练过程是基于经过人工标注的视音频素材实现的，所谓人工标注的视音频素材即通过人工方式进行场记处理后的视音频素材。

且经过自动场记处理后的视音频素材可以作为扩展样本对上述识别模型进行进一步训练，从而得到更为精准的识别模型。

实施例二

图5为本申请实施例的一种ibc系统的基于画面识别的自动场记装置的框图。

参照图5所示，该自动场记装置具体包括素材识别模块10、对比处理模块20和场记执行模块30。

素材识别模块用于根据场记启动事件对视音频素材进行识别。

对比处理模块用于基于目标人物和关键词确定有效视频画面。

场记执行模块用于驱动场记系统对有效视频画面进行场记处理。

另外，一个完整的场记事件标记记录，包含收录素材信息、相对时间和位置时码、场记事件关键词(可有多个)、运动员信息(可有多个)等。

从上述技术方案可以看出，本实施例提供了一种ibc系统的基于画面分析的自动场记装置，具体用于根据场记启动事件对赛事记录的视音频素材进行识别处理，得到目标人物和关键词在视音频素材中的时间位置；遍历以时间位置为核心的预设时长的视音频素材片段，基于目标人物和关键词对视音频素材片段进行智能对比，得到包括目标人物和动作关键词的有效视频画面；驱动ibc系统的场记系统基于关键词对有效视频画面进行场记处理。上述过程中无需手动操作即可实现场记处理，从而解决了人工场记需要耗费大量人力资源的问题。

另外，在本实施例的一个具体实施方式中，该装置还包括模型训练模块40，如图6所示。

模型训练模块用于利用关键词和视音频素材进行模型训练。

且经过自动场记处理后的视音频素材可以作为扩展样本对上述识别模型进行进一步训练，从而得到更为精准的识别模型。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的技术方案进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨永晟;吕辉;吕向峰;薛小勇;王弋珵
技术所有人：新奥特(北京)视频技术有限公司
我是此专利的发明人

上一篇：一种经摇青协同有氧发酵提高红茶品质制备方法与流程
上一篇：一种酰胺类化合物及其应用的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。