一种视频片头片尾识别方法、装置、设备及可读存储介质与流程

文档序号：31476337发布日期：2022-09-10 00:33阅读：70来源：国知局

[0001][0002]
本发明属于视频识别技术领域，尤其是涉及一种视频片头片尾识别方法、装置、设备及可读存储介质。

背景技术：

[0003]
现有视频播放软件会为用户提供跳过视频片头片尾的选项，用以提升用户的体验感，并节省观看时间。然而，目前的视频片头片尾识别方法一般采取人工标注方法或者采用视频指纹技术。
[0004]
其中，人工标注方法，通过人工编辑片头片尾时间点，需要耗费大量的人力观看视频，进行标注，识别效率低而且成本高。视频指纹技术，仅在设定的检测时间区域进行视频指纹检测，然后根据检测结果确定片头片尾时间点，依赖视频指纹，视频指纹的检测结果大大影响识别准确率。

技术实现要素：

[0005]
本发明实施例的目的在于提供一种视频片头片尾识别方法、装置、设备及可读存储介质，从而解决现有技术中视频片头片尾识别效率低以及准确率低的问题。
[0006]
为了实现上述目的，本发明的实施例提供了一种视频片头片尾识别方法，包括：
[0007]
根据目标视频的识别信息，获取所述目标视频发生场景切换的第一时间范围；其中，所述识别信息包括声音、图像以及文字识别信息中的至少一项；
[0008]
对所述第一时间范围中第一时刻之前的第一时长内的多帧第一图像与所述第一时刻之后的第一时长内的多帧第二图像进行匹配，获取第一匹配结果；
[0009]
对所述第一时间范围中第一时刻之前的第一时长内的第一声音数据与所述第一时刻之后的第一时长内的第二声音数据进行匹配，获取第二匹配结果；
[0010]
根据所述第一匹配结果和所述第二匹配结果，获取所述目标视频的片头结束时刻或片尾开始时刻。
[0011]
可选地，所述的视频片头片尾识别方法，所述根据目标视频的识别信息，获取所述目标视频发生场景切换的第一时间范围，包括：
[0012]
将所述目标视频前第二时长内的第三声音数据划分为多个子声音数据，或者，将所述目标视频后第二时长内的第三声音数据划分为多个子声音数据；
[0013]
按照预设间隔帧数，获取所述目标视频前第二时长内的视频片段中的多帧图像，或者，获取所述目标视频后第二时长内的视频片段中的多帧图像；
[0014]
基于以下至少一项，获取所述目标视频发生场景切换的第一时间范围：
[0015]
所述多个子声音数据的声音识别信息之间的场景匹配度；
[0016]
所述多帧图像的图像识别信息之间的场景匹配度；
[0017]
所述多帧图像的文字识别信息之间的场景匹配度。
[0018]
可选地，所述的视频片头片尾识别方法，所述对所述第一时间范围中第一时刻之前的第一时长内的多帧第一图像与所述第一时刻之后的第一时长内的多帧第二图像进行匹配，获取第一匹配结果，包括：
[0019]
对于所述多帧第一图像，进行目标分割，并获取分割后的第一目标的定位信息和图像特征信息；
[0020]
根据所述多帧第一图像中所述第一目标的定位信息和图像特征信息，建立所述第一目标的运动轨迹模型；
[0021]
根据所述运动轨迹模型，获取所述第一目标在所述多帧第二图像中的预测位置；
[0022]
将所述多帧第二图像中所述第一目标的所在位置与所述预测位置进行匹配，获取所述第一匹配结果。
[0023]
可选地，所述的视频片头片尾识别方法，在所述对于所述多帧第一图像，进行目标分割之后，所述方法还包括：
[0024]
采用预设形状特征信息，在所述多帧第一图像中，获取颜色与背景相差小于预设阈值的目标。
[0025]
可选地，所述的视频片头片尾识别方法，所述对所述第一时间范围中第一时刻之前的第一时长内的第一声音数据与所述第一时刻之后的第一时长内的第二声音数据进行匹配，获取第二匹配结果，包括：
[0026]
通过识别所述第一声音数据和所述第二声音数据中的声学信息和语义信息，获取所述第一声音数据对应的第一场景，以及所述第二声音数据对应的第二场景；
[0027]
对所述第一场景与所述第二场景进行匹配，获取所述第二匹配结果。
[0028]
可选地，所述的视频片头片尾识别方法，所述根据所述第一匹配结果和所述第二匹配结果，获取所述目标视频的片头结束时刻或片尾开始时刻，包括：
[0029]
获取所述第一匹配结果小于第一匹配阈值的至少一帧第二图像所对应的第二时间范围；
[0030]
获取所述第二匹配结果小于第二匹配阈值的至少一个第二声音数据所对应的第三时间范围；
[0031]
基于所述第二时间范围和所述第三时间范围，获取所述片头结束时刻或所述片尾开始时刻。
[0032]
可选地，所述的视频片头片尾识别方法，所述基于所述第二时间范围和所述第三时间范围，获取所述片头结束时刻或所述片尾开始时刻，包括：
[0033]
根据所述第二时间范围和所述第三时间范围的重合时刻，获取所述片头结束时刻或所述片尾结束时刻。
[0034]
为了实现上述目的，本发明的实施例还提供一种视频片头片尾识别装置，包括：
[0035]
第一获取模块，用于根据目标视频的识别信息，获取所述目标视频发生场景切换的第一时间范围；其中，所述识别信息包括声音、图像以及文字识别信息中的至少一项；
[0036]
第二获取模块，用于对所述第一时间范围中第一时刻之前的第一时长内的多帧第一图像与所述第一时刻之后的第一时长内的多帧第二图像进行匹配，获取第一匹配结果；
[0037]
第三获取模块，用于对所述第一时间范围中第一时刻之前的第一时长内的第一声音数据与所述第一时刻之后的第一时长内的第二声音数据进行匹配，获取第二匹配结果；
[0038]
第四获取模块，用于根据所述第一匹配结果和所述第二匹配结果，获取所述目标视频的片头结束时刻或片尾开始时刻。
[0039]
为了实现上述目的，本发明的实施例还提供一种视频片头片尾识别设备，包括收发器、处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令；所述处理器执行所述程序或指令时实现如上任一项所述的视频片头片尾识别方法中的步骤。
[0040]
为了实现上述目的，本发明的实施例还提供一种可读存储介质，用于存储计算机程序，所述计算机程序被处理器执行时实现如上所述的视频片头片尾识别方法中的步骤。
[0041]
本发明的上述技术方案至少具有如下有益效果：
[0042]
本发明实施例的上述方案中，根据目标视频的识别信息，获取所述目标视频发生场景切换的第一时间范围，并对所述第一时间范围中第一时刻之前的第一时长内的多帧第一图像与所述第一时刻之后的第一时长内的多帧第二图像进行匹配，获取第一匹配结果，以及对所述第一时间范围中第一时刻之前的第一时长内的第一声音数据与所述第一时刻之后的第一时长内的第二声音数据进行匹配，获取第二匹配结果，从而根据所述第一匹配结果和所述第二匹配结果，获取所述目标视频的片头结束时刻或片尾开始时刻，即通过图像识别技术和声音识别技术，分析识别片头结束时刻或片尾开始时刻，具有识别效率高和识别准确率高的优势。
附图说明
[0043]
图1为本发明实施例提供的视频片头片尾识别方法的流程图；
[0044]
图2为本发明实施例提供的视频片头片尾识别方法的应用示意图；
[0045]
图3为本发明实施例提供的视频片头片尾识别装置的结构图；
[0046]
图4为本发明实施例提供的视频片头片尾识别设备的结构图。
具体实施方式
[0047]
应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
[0048]
在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。
[0049]
另外，本文中术语“系统”和“网络”在本文中常可互换使用。
[0050]
在本技术所提供的实施例中，应理解，“与a相应的b”表示b与a相关联，根据a可以确定b。但还应理解，根据a确定b并不意味着仅仅根据a 确定b，还可以根据a和/或其它信息确定b。
[0051]
参见图1，图1是本发明实施例提供的一种视频片头片尾识别方法的流程图，如图1所示，包括以下步骤：
[0052]
步骤101，根据目标视频的识别信息，获取所述目标视频发生场景切换的第一时间范围；其中，所述识别信息包括声音、图像以及文字识别信息中的至少一项；
[0053]
该步骤中，可以根据输入的声音识别信息、图像识别信息以及文字识别信息，形成特征值，然后将特征值输入有监督的深度学习模型确定目标视频的场景，输出目标视频发生场景切换的第一时间范围。其中，声音识别信息可以包括音乐、人物对话以及旁白等；图像识别信息可以包括人物、地点以及环境等。通过该深度学习模型可以自动识别目标视频发生场景切换的第一时间范围，提高识别效率。该深度学习模型预先经过训练的模型。
[0054]
需要说明的是，通过该步骤可以获取目标视频发生场景切换的两个第一时间范围，分别对应片头和片尾，当然地，片头的第一时间范围在片尾的第一时间范围之前。
[0055]
步骤102，对所述第一时间范围中第一时刻之前的第一时长内的多帧第一图像与所述第一时刻之后的第一时长内的多帧第二图像进行匹配，获取第一匹配结果；
[0056]
该步骤中，根据步骤101获取的第一时间范围，对第一时间范围进行图像处理，获取该第一时间范围中第一时刻前后帧图像的匹配结果，从而获取前后图像不匹配的帧图像对应的时刻。
[0057]
步骤103，对所述第一时间范围中第一时刻之前的第一时长内的第一声音数据与所述第一时刻之后的第一时长内的第二声音数据进行匹配，获取第二匹配结果；
[0058]
该步骤中，根据步骤101获取的第一时间范围，对第一时间范围进行声音处理，获取该第一时间范围中第一时刻前后声音数据的匹配结果，从而获取前后声音不匹配的声音数据对应的时刻。
[0059]
步骤104，根据所述第一匹配结果和所述第二匹配结果，获取所述目标视频的片头结束时刻或片尾开始时刻。
[0060]
需要说明的是，本发明实施例可以基于第一匹配结果和第二匹配结果，获取多帧第一图像和多帧第二图像进行图像处理得到的场景识别结果，以及获取第一声音数据和第二声音数据进行声音处理得到的场景识别结果，然后将图像处理和声音处理的场景识别结果分别输入比对模型中，从而输出片头结束时刻或片尾开始时刻。
[0061]
本发明实施例，根据目标视频的识别信息，获取所述目标视频发生场景切换的第一时间范围，并对所述第一时间范围中第一时刻之前的第一时长内的多帧第一图像与所述第一时刻之后的第一时长内的多帧第二图像进行匹配，获取第一匹配结果，以及对所述第一时间范围中第一时刻之前的第一时长内的第一声音数据与所述第一时刻之后的第一时长内的第二声音数据进行匹配，获取第二匹配结果，从而根据所述第一匹配结果和所述第二匹配结果，获取所述目标视频的片头结束时刻或片尾开始时刻，即通过图像识别技术和声音识别技术，分析识别片头结束时刻或片尾开始时刻，具有识别效率高和识别准确率高的优势。
[0062]
本发明一可选实施例中，步骤101包括：
[0063]
将所述目标视频前第二时长内的第三声音数据划分为多个子声音数据，或者，将所述目标视频后第二时长内的第三声音数据划分为多个子声音数据；
[0064]
按照预设间隔帧数，获取所述目标视频前第二时长内的视频片段中的多帧图像，或者，获取所述目标视频后第二时长内的视频片段中的多帧图像；
[0065]
基于以下至少一项，获取所述目标视频发生场景切换的第一时间范围：
[0066]
所述多个子声音数据的声音识别信息之间的场景匹配度；
[0067]
所述多帧图像的图像识别信息之间的场景匹配度；
[0068]
所述多帧图像的文字识别信息之间的场景匹配度。
[0069]
其中，第二时长是一般根据视频的片头或片尾的时长确定的。目标视频前第二时长内的第三声音数据和目标视频前第二时长内的视频片段均是用于识别目标视频的片头的第一时间范围；目标视频后第二时长内的第三声音数据和目标视频后第二时长内的视频片段均用于识别目标视频的片尾的第一时间范围。
[0070]
将多个子声音数据或者多帧图像划分为多个对比组，每组包括两个子声音数据或者两帧图像，然后将每个对比组输入深度学习模型中，输出场景匹配度。
[0071]
基于声音识别信息、图像识别信息以及文字识别信息中的至少一项的场景匹配度，将场景匹配度小于预设匹配阈值的至少两个子声音数据或至少两帧图像的所对应的时间范围确定为第一时间范围。
[0072]
需要说明的是，文字识别信息是基于对帧图像的文字识别得到的。
[0073]
也就是说，此步骤101可以理解为通过视频指纹技术获取第一时间范围。
[0074]
本发明一可选实施例中，步骤102包括：
[0075]
对于所述多帧第一图像，进行目标分割，并获取分割后的第一目标的定位信息和图像特征信息；
[0076]
根据所述多帧第一图像中所述第一目标的定位信息和图像特征信息，建立所述第一目标的运动轨迹模型；
[0077]
根据所述运动轨迹模型，获取所述第一目标在所述多帧第二图像中的预测位置；
[0078]
将所述多帧第二图像中所述第一目标的所在位置与所述预测位置进行匹配，获取所述第一匹配结果。
[0079]
需要说明的是，图像分割是提取图像中的部分像素表达已知的目标，这里，由于是识别视频的片头或片尾，所以将多帧第一图像中的每帧图像的片头或片尾可能出现的目标，即第一目标对应的部分像素分割出来。
[0080]
然后，在目标分割后的第一图像上对第一目标进行位置检测，确定第一目标在第一图像中位置以及第一目标的大小，即确定该第一目标的定位信息和图像特征信息，从而建立第一目标的运动轨迹模型。
[0081]
进一步，依据该运动轨迹模型，对多帧第二图像中的第一目标的位置进行预测，并识别出的多帧第二图像中的第一目标的位置，将识别出的位置与预测的位置进行匹配，得到一个匹配值，即得到第一匹配结果。
[0082]
本发明一可选实施例中，在所述对于所述多帧第一图像，进行目标分割之后，上述方法还包括：
[0083]
采用预设形状特征信息，在所述多帧第一图像中，获取颜色与背景相差小于预设阈值的目标。
[0084]
需要说明的是，由于目标分割出的目标可能不是感兴趣的片头或片尾中的目标，即不是第一目标，或者由于目标颜色与背景颜色相差小于预设阈值，从而导致分割出的目标不准确，所以需要采用预设形状特征信息，在目标分割后的多帧第一图像中，进一步获取颜色与背景相差小于预设阈值的目标，完善图像的目标分割结果，从而在多个分割出的目标中选择第一目标。
[0085]
本发明一可选实施例中，步骤103包括：
[0086]
通过识别所述第一声音数据和所述第二声音数据中的声学信息和语义信息，获取所述第一声音数据对应的第一场景，以及所述第二声音数据对应的第二场景；
[0087]
对所述第一场景与所述第二场景进行匹配，获取所述第二匹配结果。
[0088]
需要说明的是，通过识别声音数据中声学信息和语义信息，将人声以及伴奏并将其转化成文字分析语境，从而获取声音数据对应的场景。
[0089]
将第一声音数据对应的第一场景与第二声音数据对应的第二场景进行匹配，得到一个匹配值，即得到第二匹配结果。
[0090]
本发明一可选实施例中，步骤104包括：
[0091]
获取所述第一匹配结果小于第一匹配阈值的至少一帧第二图像所对应的第二时间范围；
[0092]
获取所述第二匹配结果小于第二匹配阈值的至少一个第二声音数据所对应的第三时间范围；
[0093]
基于所述第二时间范围和所述第三时间范围，获取所述片头结束时刻或所述片尾开始时刻。
[0094]
其中，第一匹配阈值和第二匹配阈值是根据经验值或实测值确定的。
[0095]
分析比对第二时间范围与第三时间范围的重合时刻，从而获取片头结束时刻或片尾开始时刻。而且片头开始时刻为目标视频的开始时刻，片尾结束时刻为目标视频的结束时刻，从而确定片头时间范围和片尾时间范围。
[0096]
需要说明的是，本发明实施例还可以基于第一匹配结果和第二匹配结果，获取多帧第一图像和多帧第二图像进行图像处理得到的场景识别结果，以及获取第一声音数据和第二声音数据进行声音处理得到的场景识别结果，然后将图像处理和声音处理的场景识别结果分别输入比对模型中，从而输出片头结束时刻或片尾开始时刻。
[0097]
图2是本发明实施例提供的视频片头片尾识别方法的应用示意图。下面，结合图2具体说明视频片头片尾识别方法的应用流程。
[0098]
步骤201，输入目标视频。
[0099]
步骤202，采用视频指纹技术进行视频检索，确定片头或片尾的时间范围，即第一时间范围。
[0100]
步骤203，提取目标视频的第一时间范围中的多帧第一图像和多帧第二图像。
[0101]
步骤204，提取目标视频的第一时间范围中的第一声音数据和第二声音数据。
[0102]
步骤205，目标分割，将每帧第一图像和每帧第二图像中的目标分割出来。
[0103]
步骤206，目标检测，对第一图像和第二图像中的目标分别进行位置和大小检测，确定第一图像和第二图像中的目标的定位信息和图像特征信息。
[0104]
步骤207，目标识别，基于图像特征信息，对第二图像中的目标进行定性识别，并将第一图像中的目标与第二图像中的目标进行对应。
[0105]
步骤208，目标跟踪，基于第一图像中的第一目标的定位信息，构建运动轨迹模型，并依据该模型，预测第一目标在第二图像中的位置，并与识别出的第一目标在第二图像中的位置进行场景匹配。
[0106]
步骤209，获取第一匹配结果。
[0107]
步骤210，对第一声音数据和第二声音数据分别进行声学信息识别。
[0108]
步骤211，对第一声音数据和第二声音数据分别进行语义信息识别。
[0109]
步骤212，基于识别出的场景，获取第二匹配结果。
[0110]
步骤213，将第一匹配结果和第二匹配结果输入比对模型中进行训练。
[0111]
步骤214，输出片头结束时刻或片尾结束时刻。
[0112]
综上，本发明实施例的视频片头片尾识别方法，结合图像识别技术和声音识别技术，提升了视频片头片尾识别的效率和准确性，同时节省了大量人力标注工作，降低成本。
[0113]
如图3所示，本发明实施例还提供一种视频片头片尾识别装置，包括：
[0114]
第一获取模块301，用于根据目标视频的识别信息，获取所述目标视频发生场景切换的第一时间范围；其中，所述识别信息包括声音、图像以及文字识别信息中的至少一项；
[0115]
第二获取模块301，用于对所述第一时间范围中第一时刻之前的第一时长内的多帧第一图像与所述第一时刻之后的第一时长内的多帧第二图像进行匹配，获取第一匹配结果；
[0116]
第三获取模块303，用于对所述第一时间范围中第一时刻之前的第一时长内的第一声音数据与所述第一时刻之后的第一时长内的第二声音数据进行匹配，获取第二匹配结果；
[0117]
第四获取模块304，用于根据所述第一匹配结果和所述第二匹配结果，获取所述目标视频的片头结束时刻或片尾开始时刻。
[0118]
本发明实施例，根据目标视频的识别信息，获取所述目标视频发生场景切换的第一时间范围，并对所述第一时间范围中第一时刻之前的第一时长内的多帧第一图像与所述第一时刻之后的第一时长内的多帧第二图像进行匹配，获取第一匹配结果，以及对所述第一时间范围中第一时刻之前的第一时长内的第一声音数据与所述第一时刻之后的第一时长内的第二声音数据进行匹配，获取第二匹配结果，从而根据所述第一匹配结果和所述第二匹配结果，获取所述目标视频的片头结束时刻或片尾开始时刻，即通过图像识别和声音识别技术，分析识别片头结束时刻或片尾开始时刻，具有识别效率高和识别准确率高的优势。
[0119]
可选地，所述的视频片头片尾识别装置，所述第一获取模块301具体用于：
[0120]
将所述目标视频前第二时长内的第三声音数据划分为多个子声音数据，或者，将所述目标视频后第二时长内的第三声音数据划分为多个子声音数据；
[0121]
按照预设间隔帧数，获取所述目标视频前第二时长内的视频片段中的多帧图像，或者，获取所述目标视频后第二时长内的视频片段中的多帧图像；
[0122]
基于以下至少一项，获取所述目标视频发生场景切换的第一时间范围：
[0123]
所述多个子声音数据的声音识别信息之间的场景匹配度；
[0124]
所述多帧图像的图像识别信息之间的场景匹配度；
[0125]
所述多帧图像的文字识别信息之间的场景匹配度。
[0126]
可选地，所述的视频片头片尾识别装置，所述第二获取模块302具体用于：
[0127]
对于所述多帧第一图像，进行目标分割，并获取分割后的第一目标的定位信息和图像特征信息；
[0128]
根据所述多帧第一图像中所述第一目标的定位信息和图像特征信息，建立所述第一目标的运动轨迹模型；
[0129]
根据所述运动轨迹模型，获取所述第一目标在所述多帧第二图像中的预测位置；
[0130]
将所述多帧第二图像中所述第一目标的所在位置与所述预测位置进行匹配，获取所述第一匹配结果。
[0131]
可选地，所述的视频片头片尾识别装置，所述装置还包括：
[0132]
第五获取模块，用于采用预设形状特征信息，在所述多帧第一图像中，获取颜色与背景相差小于预设阈值的目标。
[0133]
可选地，所述的视频片头片尾识别装置，所述第三获取模块303具体用于：
[0134]
通过识别所述第一声音数据和所述第二声音数据中的声学信息和语义信息，获取所述第一声音数据对应的第一场景，以及所述第二声音数据对应的第二场景；
[0135]
对所述第一场景与所述第二场景进行匹配，获取所述第二匹配结果。
[0136]
可选地，所述的视频片头片尾识别装置，所述第四获取模块304包括：
[0137]
第一获取单元，用于获取所述第一匹配结果小于第一匹配阈值的至少一帧第二图像所对应的第二时间范围；
[0138]
第二获取单元，用于获取所述第二匹配结果小于第二匹配阈值的至少一个第二声音数据所对应的第三时间范围；
[0139]
第三获取单元，用于基于所述第二时间范围和所述第三时间范围，获取所述片头结束时刻或所述片尾开始时刻。
[0140]
可选地，所述的视频片头片尾识别装置，所述第三获取单元具体用于：
[0141]
根据所述第二时间范围和所述第三时间范围的重合时刻，获取所述片头结束时刻或所述片尾结束时刻。
[0142]
需要说明的是，本发明实施例提供的上述装置，能够实现上述视频片头片尾识别方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
[0143]
本发明实施例还提供一种视频片头片尾识别设备，如图4所示，包括：处理器401；以及通过总线接口与所述处理器401相连接的存储器402，所述存储器402用于存储所述处理器401在执行操作时所使用的程序和数据，处理器 401调用并执行所述存储器402中所存储的程序和数据。
[0144]
处理器401用于读取存储器402中的程序，执行下列过程：
[0145]
根据目标视频的识别信息，获取所述目标视频发生场景切换的第一时间范围；其中，所述识别信息包括声音、图像以及文字识别信息中的至少一项；
[0146]
对所述第一时间范围中第一时刻之前的第一时长内的多帧第一图像与所述第一时刻之后的第一时长内的多帧第二图像进行匹配，获取第一匹配结果；
[0147]
对所述第一时间范围中第一时刻之前的第一时长内的第一声音数据与所述第一时刻之后的第一时长内的第二声音数据进行匹配，获取第二匹配结果；
[0148]
根据所述第一匹配结果和所述第二匹配结果，获取所述目标视频的片头结束时刻或片尾开始时刻。
[0149]
收发机403与总线接口连接，用于在处理器401的控制下接收和发送数据。
[0150]
其中，在图4中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器401代表的一个或多个处理器和存储器402代表的存储器的各种电路链接在一起。总线架构还
可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机403可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元。针对不同的用户设备，用户接口404还可以是能够外接内接需要设备的接口，连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。
[0151]
处理器401负责管理总线架构和通常的处理，存储器402可以存储处理器401在执行操作时所使用的数据。
[0152]
可选地，处理器401还用于读取所述计算机程序，执行如下步骤：
[0153]
将所述目标视频前第二时长内的第三声音数据划分为多个子声音数据，或者，将所述目标视频后第二时长内的第三声音数据划分为多个子声音数据；
[0154]
按照预设间隔帧数，获取所述目标视频前第二时长内的视频片段中的多帧图像，或者，获取所述目标视频后第二时长内的视频片段中的多帧图像；
[0155]
基于以下至少一项，获取所述目标视频发生场景切换的第一时间范围：
[0156]
所述多个子声音数据的声音识别信息之间的场景匹配度；
[0157]
所述多帧图像的图像识别信息之间的场景匹配度；
[0158]
所述多帧图像的文字识别信息之间的场景匹配度。
[0159]
可选地，处理器401还用于读取所述计算机程序，执行如下步骤：
[0160]
对于所述多帧第一图像，进行目标分割，并获取分割后的第一目标的定位信息和图像特征信息；
[0161]
根据所述多帧第一图像中所述第一目标的定位信息和图像特征信息，建立所述第一目标的运动轨迹模型；
[0162]
根据所述运动轨迹模型，获取所述第一目标在所述多帧第二图像中的预测位置；
[0163]
将所述多帧第二图像中所述第一目标的所在位置与所述预测位置进行匹配，获取所述第一匹配结果。
[0164]
可选地，处理器401还用于读取所述计算机程序，执行如下步骤：
[0165]
采用预设形状特征信息，在所述多帧第一图像中，获取颜色与背景相差小于预设阈值的目标。
[0166]
可选地，处理器401还用于读取所述计算机程序，执行如下步骤：
[0167]
通过识别所述第一声音数据和所述第二声音数据中的声学信息和语义信息，获取所述第一声音数据对应的第一场景，以及所述第二声音数据对应的第二场景；
[0168]
对所述第一场景与所述第二场景进行匹配，获取所述第二匹配结果。
[0169]
可选地，处理器401还用于读取所述计算机程序，执行如下步骤：
[0170]
获取所述第一匹配结果小于第一匹配阈值的至少一帧第二图像所对应的第二时间范围；
[0171]
获取所述第二匹配结果小于第二匹配阈值的至少一个第二声音数据所对应的第三时间范围；
[0172]
基于所述第二时间范围和所述第三时间范围，获取所述片头结束时刻或所述片尾开始时刻。
[0173]
可选地，处理器401还用于读取所述计算机程序，执行如下步骤：
[0174]
根据所述第二时间范围和所述第三时间范围的重合时刻，获取所述片头结束时刻或所述片尾结束时刻。
[0175]
需要说明的是，本发明实施例提供的上述设备，能够实现上述视频片头片尾识别方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
[0176]
本领域技术人员可以理解，实现上述实施例的全部或者部分步骤可以通过硬件来完成，也可以通过程序来指示相关的硬件来完成，所述程序包括执行上述方法的部分或者全部步骤的指令；且该程序可以存储于一可读存储介质中，存储介质可以是任何形式的存储介质。
[0177]
本发明实施例还提供一种可读存储介质，其中，所述可读存储介质上存储有程序，所述程序被处理器执行时实现如上任一项所述的视频片头片尾识别方法。
[0178]
在本技术所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0179]
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。
[0180]
上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，简称rom)、随机存取存储器 (random access memory，简称ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0181]
以上所述的是本发明的优选实施方式，应当指出对于本技术领域的普通人员来说，在不脱离本发明所述的原理前提下还可以作出若干改进和润饰，这些改进和润饰也在本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张楠冯海洋李征张晓迪孙方明张春江
技术所有人：北京视达科技有限公司
我是此专利的发明人

上一篇：一种多孔TiO2基纳米材料的制备方法及多孔TiO2基纳米材料、钠离子电池
上一篇：后路腰椎融合手术装置

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。