视频检测方法、装置、设备及存储介质与流程

文档序号：28158994发布日期：2021-12-24 17:58阅读：120来源：国知局

1.本发明涉及视频检测领域，尤其涉及一种视频检测方法、装置、设备及存储介质。

背景技术：

2.相关技术中，为了检测视频播放终端视频播放过程中的视频异常形态(如图像卡顿、音频卡顿、马赛克、黑屏、花屏、色彩异常、用户主动暂停等)，往往通过内嵌sdk(software development kit，软件开发工具)包或者抓取视频流进行视频播放过程中的视频异常形态检测，其中，内嵌sdk包需要获取视频app(应用程序)的开发权限；抓取视频流对于加密视频流亦存在无法解析的问题，且视频流的检测中需要人为通过经验设置阈值，导致检测结果不准确。

技术实现要素：

3.有鉴于此，本发明实施例提供了一种视频检测方法、装置、设备及存储介质，旨在不需要获取视频app的开发权限或者解析权限的前提下，实现视频异常形态的检测。
4.本发明实施例的技术方案是这样实现的：
5.本发明实施例提供了一种视频检测方法，包括：
6.获取视频播放终端的视频信息，所述视频信息包括以下至少之一：图像信息、音频信息及用于指示视频播放过程中交互行为的交互信息；
7.基于所述视频信息和视频检测模型识别视频播放过程中的视频异常形态，其包括以下至少之一：
8.基于所述视频信息中的图像信息和第一视频检测模型，识别视频播放过程中是否存在图像相关的第一异常形态；
9.基于所述视频信息中的音频信息和第二视频检测模型，识别视频播放过程中是否存在声音相关的第二异常形态；
10.基于所述视频信息中的交互信息和第三视频检测模型，识别视频播放过程中是否存在交互相关的第三异常形态；
11.其中，所述第一视频检测模型、所述第二视频检测模型及所述第三视频检测模型均基于至少两个视频播放终端的数据集和联邦学习训练生成。
12.本发明实施例还提供了一种视频检测装置，包括：
13.获取模块，用于获取视频播放终端的视频信息，所述视频信息包括以下至少之一：图像信息、音频信息及用于指示视频播放过程中交互行为的交互信息；
14.检测模块，用于基于所述视频信息和视频检测模型识别视频播放过程中的视频异常形态，包括以下至少之一：
15.基于所述视频信息中的图像信息和第一视频检测模型，识别视频播放过程中是否存在图像相关的第一异常形态；
16.基于所述视频信息中的音频信息和第二视频检测模型，识别视频播放过程中是否
存在声音相关的第二异常形态；
17.基于所述视频信息中的交互信息和第三视频检测模型，识别视频播放过程中是否存在交互相关的第三异常形态。
18.本发明实施例又提供了一种视频检测设备，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，其中，所述处理器，用于运行计算机程序时，执行本发明任一实施例所述方法的步骤。
19.本发明实施例还提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现本发明任一实施例所述方法的步骤。
20.本发明实施例提供的技术方案，获取视频播放终端的视频信息，基于所述视频信息和视频检测模型识别视频播放过程中的视频异常形态，其中，视频检测模型包括以下至少之一：于图像异常检测的第一视频检测模型、用于声音异常检测的第二视频检测模型、用于交互异常检测的第三视频检测模型，从而可以基于视频播放终端的视频信息中的图像信息、音频信息及交互信息中的至少一种进行视频异常检测，无需获取视频app的开发权限或者解析权限，即可实现视频播放过程中视频异常形态的检测。
附图说明
21.图1为本发明实施例视频检测方法的流程示意图；
22.图2为本发明应用实施例中基于多通道融合的视频形态监测系统的结构示意图；
23.图3为本发明应用实施例中多通道智能融合模块的自演进训练的流程示意图；
24.图4为本发明应用实施例中基于多通道智能融合的视频形态监测的流程示意图；
25.图5为本发明应用实施例中图像监测模块的训练原理示意图；
26.图6为本发明应用实施例中音频监测模块的训练原理示意图；
27.图7为本发明应用实施例中交互监测模块的训练原理示意图；
28.图8为本发明实施例视频检测装置的结构示意图；
29.图9为本发明实施例视频检测设备的结构示意图。
具体实施方式
30.下面结合附图及实施例对本发明再作进一步详细的描述。
31.除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。
32.本发明实施例提供了一种视频检测方法，如图1所示，该方法包括：
33.步骤101，获取视频播放终端的视频信息，所述视频信息包括以下至少之一：图像信息、音频信息及用于指示视频播放过程中交互行为的交互信息；
34.步骤102，基于所述视频信息和视频检测模型识别视频播放过程中的视频异常形态。
35.本发明实施例中，视频检测方法可以应用于视频播放终端，由视频播放终端检测本地的视频播放过程中的视频异常形态；该视频检测方法还可以应用于云端或者服务器，用于对云端或者服务器覆盖的视频播放终端进行视频异常检测。
36.这里，获取的视频播放终端的视频信息为视频播放终端侧缓存的视频信息。比如，可以通过视频播放终端的api(application programming interface，应用程序接口)获取显卡及声卡中缓存的视频信息，从而有效避免针对非自有业务不能内嵌sdk采集数据的问题，又解决了利用抓包工具获取到加密流量不能解析的问题。
37.这里，视频播放终端缓存的视频信息包括图像信息、音频信息和交互信息。其中，交互信息可以表现为视频播放终端针对用户的交互行为(如暂停、快进等操作)进行响应而产生的图标信息。图像信息及交互信息可通过调度视频播放终端中显卡的图像缓存信息获得，音频信息可通过调度视频播放终端中的声卡的声音缓存信息获得。基于此，在一些实施例中，步骤101获取视频播放终端的视频信息，包括以下至少之一：
38.基于视频播放终端的图像缓存信息获取图像信息；
39.基于视频播放终端的音频缓存信息获取音频信息；
40.基于视频播放终端的图像缓存信息获取交互信息。
41.本发明实施例中，视频检测模型包括：用于图像异常检测的第一视频检测模型、声音异常检测的第二视频检测模型及用于交互异常检测的第三视频检测模型。
42.这里，视频异常形态包括：图像相关的第一异常形态(如图像卡顿、马赛克、黑屏、花屏、色彩异常等)、声音相关的第二异常形态(如音频卡顿、音频提前、音频滞后等)和交互相关的第三异常形态(如暂停、快进、回退等)。
43.本发明实施例中，步骤102基于所述视频信息和视频检测模型识别视频播放过程中的视频异常形态，包括以下至少之一：
44.基于所述视频信息中的图像信息和第一视频检测模型，识别视频播放过程中是否存在图像相关的第一异常形态；
45.基于所述视频信息中的音频信息和第二视频检测模型，识别视频播放过程中是否存在声音相关的第二异常形态；
46.基于所述视频信息中的交互信息和第三视频检测模型，识别视频播放过程中是否存在交互相关的第三异常形态。
47.本发明实施例视频检测方法，获取视频播放终端的视频信息，基于所述视频信息和视频检测模型识别视频播放过程中的异常形态，其中，视频检测模型包括以下至少之一：于图像异常检测的第一视频检测模型、用于声音异常检测的第二视频检测模型、用于交互异常检测的第三视频检测模型，从而可以基于视频播放终端的视频信息中的图像信息、音频信息及交互信息中的至少一种进行视频异常检测，无需获取视频app的开发权限或者解析权限，即可实现视频播放过程中视频异常形态的检测。
48.实际应用中，第一视频检测模型、第二视频检测模型及第三视频检测模型均可以基于至少两个视频播放终端的数据集和联邦学习训练生成，以满足视频异常检测的泛化能力，相较于基于经验设定检测阈值，可以提高视频异常检测的准确率。基于此，本发明实施例视频检测方法还包括：训练生成视频检测模型。
49.这里，考虑到上述的图像信息、音频信息及交互信息具有不同的特性，可以分别针对上述三种信息进行训练，得到第一视频检测模型、第二视频检测模型及第三视频检测模型。可以将训练生成的第一视频检测模型、第二视频检测模型、第三视频检测模型分别部署于视频检测设备的图像通道、音频通道及交互通道中，从而实现视频异常形态的检测。
50.本发明实施例中，可以针对多个视频播放终端，基于联邦学习进行模型训练，得到视频检测模型。联邦学习具有以下特点：各方数据都保留在本地，不泄露隐私也不违反法规；各个参与者联合数据建立虚拟的共有模型，并且共同获益的体系；在联邦学习的体系下，各个参与者的身份和地位相同；联邦学习的建模效果和将整个数据集放在一处建模的效果相同，或相差不大。如此，可以提高视频检测模型的泛化能力，相较于基于经验设定检测阈值，可以提高视频异常检测的准确率。
51.这里，训练生成视频检测模型，包括以下至少之一：
52.基于至少两个视频播放终端的数据集和联邦学习训练生成所述第一视频检测模型；
53.基于至少两个视频播放终端的数据集和联邦学习训练生成所述第二视频检测模型；
54.基于至少两个视频播放终端的数据集和联邦学习训练生成所述第三视频检测模型。
55.在一些实施例中，基于至少两个视频播放终端的数据集和联邦学习训练生成所述第一视频检测模型，包括：
56.针对至少两个视频播放终端，获取各所述视频播放终端基于第一视频检测模型和各自的第一数据集训练生成的第一模型参数，所述第一数据集为带有标签的图像信息的集合；
57.基于各所述视频播放终端的第一模型参数进行联邦学习，以融合各所述视频播放终端的第一模型参数；
58.发送融合后的第一模型参数给各所述视频播放终端，以启动各所述视频播放终端的基于融合后的第一模型参数进行的下一次迭代，直至联邦学习的第一视频检测模型满足迭代结束的条件，得到训练好的第一视频检测模型。
59.在一些实施例中，所述第一视频检测模型采用三维卷积神经网络 (3d-cnn，three dimensional convolutional neural network)与长短期记忆网络 (lstm，long short-term memory)相结合的深度学习模型。其中，3d-cnn 可以实现对图像序列的特征提取，lstm可以实现时序特征序列的异常检测。
60.在一些实施例中，所述基于至少两个视频播放终端的数据集和联邦学习训练生成所述第二视频检测模型，包括：
61.针对至少两个视频播放终端，获取各所述视频播放终端基于第二视频检测模型和各自的第二数据集训练生成的第二模型参数，所述第二数据集为带有标签的音频信息的集合；
62.基于各所述视频播放终端的第二模型参数进行联邦学习，以融合各所述视频播放终端的第二模型参数；
63.发送融合后的第二模型参数给各所述视频播放终端，以启动各所述视频播放终端的基于融合后的第二模型参数进行的下一次迭代，直至联邦学习的第二视频检测模型满足迭代结束的条件，得到训练好的第二视频检测模型。
64.在一些实施例中，所述第二视频检测模型采用卷积神经网络(cnn)与 lstm相结合的深度学习模型。其中，cnn可以实现对音频序列的特征提取， lstm可以实现对时序特征序
列的异常检测。
65.在一些实施例中，所述基于至少两个视频播放终端的数据集和联邦学习训练生成所述第三视频检测模型，包括：
66.针对至少两个视频播放终端，获取各所述视频播放终端基于第三视频检测模型和各自的第三数据集训练生成的第三模型参数，所述第三数据集为带有标签的交互信息的集合；
67.基于各所述视频播放终端的第三模型参数进行联邦学习，以融合各所述视频播放终端的第三模型参数；
68.发送融合后的第三模型参数给各所述视频播放终端，以启动各所述视频播放终端的基于融合后的第三模型参数进行的下一次迭代，直至联邦学习的第三视频检测模型满足迭代结束的条件，得到训练好的第三视频检测模型。
69.这里，第三视频检测模型可以采用基于cnn的多分类模型。
70.如此，本发明实施例可以基于联邦学习，对多个视频播放终端的本地数据进行训练，得到训练好的第一视频检测模型、第二视频检测模型及第三视频检测模型。基于联邦学习，既解决了数据由于安全及隐私不能出本地的问题，又提升了模型的泛化能力。
71.实际应用中，可以将训练好的第一视频检测模型、第二视频检测模型及第三视频检测模型分别部署在视频检测设备(可以为视频播放终端或者服务器) 的多通道智能融合模块中，该多通道融合模型可以获取视频播放过程中缓存的视频信息，比如，通过图像通道获取图像信息，通过音频通道获取音频信息，通过交互通道获取交互信息，从而基于图像信息与第一视频检测模型进行图像相关的第一异常形态检测，基于音频信息与第二视频检测模型进行声音相关的第二异常形态检测，基于交互信息与第三视频检测模型进行交互相关的第三异常形态检测。
72.在一些实施例中，视频检测方法还包括：
73.获取视频播放过程中基于交互行为对异常形态的识别结果进行校正的异常样本数据集；
74.基于所述异常样本数据集更新所述第一视频检测模型、所述二视频检测模型及所述第三视频检测模型中的至少一种。
75.如此，可以对视频播放过程中异常样本进行主动标注，从而实现校正，并基于校正的异常数据集更新所述第一视频检测模型、所述二视频检测模型及所述第三视频检测模型，形成视频检测模型的自演进机制，不断提升视频检测模型的泛化能力。
76.在一些实施例中，视频检测方法还包括以下至少之一：
77.基于视频播放过程中视频异常形态的识别结果确定是否存在网络侧故障；
78.基于视频播放过程中视频异常形态的识别结果确定评估用户体验的评估结果。
79.本发明实施例视频检测方法可以基于视频异常形态的识别结果进行后续的应用。第一种应用是用于确定是否存在网络侧故障。第二种应用是用于评估用户体验。
80.针对第一种应用，对于运营商来说，希望通过检测视频异常形态，从而知道网络侧是否出现故障。但图像检测出的卡顿有两种情况：一种是因为网络侧的问题出现卡顿，另一种是因为用户主动暂定出现了画面卡顿。显然，运营商关心的是第一种情况，本发明实施例可以基于第一异常形态和第二异常形态的识别结果确定是否存在网络侧故障。
81.针对第二种应用，对于视频厂商来说，第一视频检测模型和第二视频检测模型可辅助视频app方对客户体验感知进行评估，第三视频检测模型可通过交互行为辅助分析用户喜好，从而实现一些定制化服务。因此，本发明实施例可以基于第一异常形态、第二异常形态及第三异常形态的识别结果确定于评估用户体验的评估结果，并基于评估结果推送视频服务。
82.下面结合应用实施例对本发明再作进一步详细的描述。
83.图2示出了本应用实施例的基于多通道融合的视频形态监测系统的结构示意图。图3示出了本应用实施例多通道智能融合模块的自演进训练的流程示意图。图4示出了本应用实施例基于多通道智能融合的视频形态监测的流程示意图。
84.如图2所示，本应用实施例的基于多通道融合的视频形态监测系统包括：多通道智能融合模型训练装置和基于多通道智能融合的视频形态监测模型推理装置。
85.其中，多通道智能融合模型训练装置主要包括云服务器及n个视频终端设备(即前述的视频播放终端)，n为大于1的自然数。由于视频信息中包括图像信息、音频信息及交互信息三种信息。其中交互信息表现为视频终端设备针对用户交互行为(如暂停、快进等操作)进行响应而产生的图标信息。图像信息及交互信息可通过调度视频终端设备中显卡功能单元的图像缓存信息获得，音频信息可通过调度视频终端设备中的声卡功能单元中的声音缓存信息获得。三种信息具有不同的特性，本应用实施例分别针对三种信息进行训练获得不同的模型分别部署于多通道智能融合模块中的图像通道、音频通道及交互通道。针对图像识别模型，设计了3d-cnn与lstm结合的神经网络模型；针对音频识别模型，设计了cnn与lstm相结合的神经网路模型；针对交互识别模型，设计了cnn的神经网路模型。由于要解决数据由于安全及隐私不能出本地的问题，同时要提升模型的泛化能力，训练过程中采用了联邦学习方式。在云服务器上部署联邦学习模型，n个视频终端设备上部署本地模型，通过联邦学习的方式训练出对应于多通道智能融合模块中的模型，可准确识别视频信息中的视频异常形态。
86.基于多通道智能融合的视频形态监测模型推理装置，主要包括视频终端设备、视频信息监控模块、多通道智能融合模块及监测结果展示模块。视频信息监控模块其主要功能是通过视频信息监控模块分别从视频终端设备中获取图像信息、音频信息以及交互信息，将获取的信息分别输入多通道智能融合模块。多通道智能融合模块是由图像通道、音频通道以及交互通道组成，其中分别部署了图像监测模型(即第一视频检测模块)、音频监测模型(即第二视频检测模块)以及交互监测模型(即第三视频检测模块)。图像通道用于图像形态监测，包括图像中出现的多种异常形态；音频通道用于音频形态监测，包括音频中出现的多种异常形态；交互通道有两部分功能，第一，交互监测模型可以监测交互行为，如用户主动暂停等，第二，可实现用户对视频播放过程中异常样本的主动标注，并将异常样本补充到本地模型，用于模型的迭代训练，不断提升模型的泛化能力，形成一种模型的自演进机制。
87.本应用实施例中，视频检测包括：多通道智能融合模型训练流程、基于多通道智能融合的视频形态监测模型推理流程。
88.如图3所示，多通道智能融合模型训练流程包括：
89.步骤301，预置初始化模型；
90.这里，可以在云服务器预置初始化模型，该初始化模型可以包括图像监测模型、音频监测模型及交互监测模型的初始化模型。
91.步骤302，选择参与模型训练的终端设备；
92.这里，云服务器可以从n个终端设备中选择k个参与者，k≤n。
93.步骤303，参与模型训练的终端设备获取预置的初始化模型；
94.参与模型训练的终端设备从云服务器获取预置的初始化模型。
95.步骤304，参与者利用本地数据训练模型，并计算模型更新参数；
96.各参与者利用本地数据训练模型，比如，利用带有标签的图像信息的集合训练图像监测模型，得到图像监测模型的更新参数；利用带有标签的音频信息的集合训练音频监测模块，得到音频监测模型的更新参数；利用带有标签的交互信息的集合训练交互监测模型，得到交互监测模型的更新参数。
97.步骤305，参与者上传模型更新参数；
98.各参与者上传训练后的模型的更新参数，比如，上传图像监测模型的更新参数、音频监测模型的更新参数及交互监测模型的更新参数。
99.步骤306，服务器将各个参与者上传的模型参数进行汇集，对联邦学习模型参数进行更新；
100.云服务器将各参与者上传的模型更新参数进行汇集，基于汇集的参数对联邦学习模型的参数进行更新。这里，汇集是指基于各参与者的样本数量的占比将各参与者的模型参数基于占比进行加权求和。比如，可以基于各参与者的图像监测模型的更新参数进行汇集，得到图像监测模型的联邦学习的参数；可以基于各参与者的音频监测模型的更新参数进行汇集，得到音频监测模型的联邦学习的参数；可以基于各参与者的交互监测模型的更新参数进行汇集，得到交互监测模型的联邦学习的参数。
101.步骤307，异常标注样本添加；
102.交互通道维持一个固定时长为t0的缓存，用于收集异常标注(主动校正的标注)对应的图像和音频异常样本，样本是包含异常形态的图像或音频的序列，将对应的序列和标签文本发送到终端设备，以更新终端设备的本地数据集。
103.步骤308，基于模型的联邦学习的参数和终端设备的本地数据集继续训练，直至模型收敛；
104.这里，终端设备的本地模型将新增异常样本与本地样本进行混洗，基于云服务器侧联邦学习的参数进行模型训练，并将本地模型训练后的更新参数上传给云服务器，云服务器将各参与者上传的模型更新参数进行汇集，基于汇集的参数对联邦学习模型的参数进行更新(即重复前述步骤304至306)，确定联邦学习模型收敛，得到训练好的模型。
105.步骤309，将训练好的模型部署到多通道智能融合模型。
106.云服务器将训练好的模型部署到视频检测设备的多通道智能融合模型中，以供视频检测设备进行视频异常形态推理(即视频异常形态检测)。
107.如图4所示，基于多通道智能融合的视频形态监测模型推理流程包括：
108.步骤401，视频信息监控模块向视频终端设备发起数据请求；
109.这里，视频信息监控模块向视频终端设备发起数据请求，该数据请求用于通过终端设备api获取终端设备的显卡及声卡功能单元中的视频相关信息，该视频信息监控模块
可集成于视频终端设备，也可部署于终端设备外其他具有存储和通信能力的服务器。
110.步骤402，视频终端设备返回图像、音频及交互信息；
111.这里，视频终端设备响应请求，对终端设备中的显卡功能单元中缓存的图像及交互信息进行调度，交互信息为包含有交互图标的图像信息，同时对终端设备中声卡功能单元中缓存的音频信息进行调度，并将图像、音频及交互信息返回给视频信息监控模块；
112.步骤403，将图像、音频及交互信息分别输出到图像通道、音频通道、交互通道；
113.视频信息监控模块将步骤402中获取到的图像、音频及交互信息分别对应输入到多通道智能融合模块中的图像通道、音频通道及交互通道。具体地，步骤403包括：
114.步骤3.1，输出图像信息；
115.步骤3.2，输出音频信息；
116.步骤3.3，输出交互信息。
117.多通道智能融合模块利用已分别部署于图像通道的图像监测模型、音频通道的音频监测模型及交互通道的交互监测模型对获取的视频信息进行识别监测；同时交互通道中的异常标注子模块对图像及音频信息进行异常标注。
118.需要说明的是，视频信息监控模块将图像信息输出到图像通道、音频信息输出到音频通道、交互信息输出到交互通道(即步骤3.1至3.3)可以同步执行。
119.步骤404，多通道智能融合模块将监测结果融合汇总输出到监测结果显示模块进行可视化。
120.这里，步骤404包括：
121.步骤4.1，输出图像监测结果；
122.步骤4.2，输出音频监测结果；
123.步骤4.3，输出交互监测结果；
124.步骤4.4，对步骤3.1和步骤3.2的数据进行异常标注，输出异常标注结果。
125.这里，多通道智能融合模块将图像相关的第一异常形态的识别结果、声音相关的第二异常形态的识别结果、交互相关的第三异常形态的识别结果及异常标注的结果输出到监测结果显示模块进行可视化。需要说明的是，步骤4.1、4.2、 4.3和4.4可同步执行。
126.下面结合图5对本应用实施例中的图像监测模型进行具体说明：
127.训练数据：带有标签的视频信息中的图片序列，即将视频播放中出现的图像卡顿、马赛克、黑屏、花屏、色彩异常等异常形态进行标注。
128.模型设计：采用3d-cnn(卷积神经网络)与lstm(长短时记忆网络) 相结合的多分类深度学习模型。3d-cnn可实现对图像序列的特征提取，lstm 可实现时序特征序列的异常检测。
129.算法流程：
130.a)对输入训练数据集d(标记了是否有异常及异常类型的图像序列)进行数据预处理(颜色变换、大小裁剪、尺度变换)，将处理完的数据输入模型。
131.b)3d-cnn模块对训练数据进行特征特征提取，函数表示为： x
cnn
＝f(w
cnn
·
x
in
+b
cnn
)，x
cnn
代表cnn层的输出的特征向量，x
in
是输入数据，w
cnn
是第一权重参数，b
cnn
是偏置，f是激活函数。
132.c)将3d-cnn输出的特征向量输入至lstm层，函数表示为： c(t)＝f(x
cnn
(t)
·
w
lstm
+c(t-1)
·
v+b
lstm
)，c(t)是lstm的输出，v是表示记忆参数，b
lstm
是偏置，w
lstm
是第二权重参数。
133.d)将lstm的输出连接到全连接层，全连接层采用softmax函数，
134.e)设置损失函数，损失函数用交叉熵表示，求最小。
135.f)整个过程基于随机梯度下降算法进行求解，损失函数达到最小值，模型收敛。
136.g)最后输出y表示图像卡顿、马赛克、黑屏、花屏等的标签类型。
137.下面结合图6对本应用实施例中的音频监测模型进行具体说明：
138.训练数据：获取带有标签的视频信息中的音频序列(如对音频卡顿进行标注的数据)。
139.模型设计：采用cnn(卷积神经网络)与lstm(长短时记忆网络)相结合的多分类深度学习模型。cnn可实现对音频序列的特征提取，lstm可实现时序特征序列的异常检测。
140.算法流程：
141.a)对输入训练数据集d(标记了是否有异常及异常类型的音频序列)进行数据预处理(对音频序列进行预分帧、加窗、短时傅里叶变换、梅尔滤波，对梅尔频谱图以时长τ进行切片，得到n个输入层切片)，将处理完的数据输入模型；
142.b)cnn模块对训练数据进行特征特征提取，函数表示为： x
cnn
＝f(w
cnn
·
x
in
+b
cnn
)，x
cnn
代表cnn层的输出的特征向量，x
in
是输入数据，w
cnn
是第一权重参数，b
cnn
是偏置，f是激活函数。
143.c)将cnn输出的特征向量输入至lstm层，函数表示为： c(t)＝f(x
cnn
(t)
·
w
lstm
+c(t-1)
·
v+b
lstm
)，c(t)是lstm的输出，v是表示记忆参数，b
lstm
是偏置，w
lstm
是第二权重参数。
144.d)将lstm的输出连接到全连接层，全连接层采用softmax函数，
145.e)设置损失函数，损失函数用交叉熵表示，求最小。
146.f)整个过程基于随机梯度下降算法进行求解，损失函数达到最小值，模型收敛。
147.g)最后输出y表示音频卡顿、断续等的标签类型。
148.下面结合图7对本应用实施例中的交互监测模型进行具体说明：
149.训练数据：带有标签的视频信息中的交互信息(如：带有用户主动暂停、快进图标的图像序列)
150.模型设计：采用基于cnn(卷积神经网络)的多分类模型
151.算法流程：
152.a)对输入训练数据集d(标记了是否有交互图标的图像序列)进行数据预处理(进行数据预处理(颜色变换、大小裁剪、尺度变换)，将处理完的数据输入模型；
153.b)cnn模块对训练数据进行特征特征提取，函数表示为： x
cnn
＝f(w
cnn
·
x
in
+b
cnn
)，x
cnn
代表cnn层的输出的特征向量，x
in
是输入数据，w
cnn
是权重参数，b
cnn
是偏置，f是激活函数。
154.c)将cnn模块的输出连接到全连接层，全连接层采用softmax函数，
155.d)设置损失函数，损失函数用交叉熵表示，求最小。
156.e)整个过程基于随机梯度下降算法进行求解，损失函数达到最小值，模型收敛。
157.f)最后输出y表示用户主动暂停、快进等的标签类型。
158.本应用实施例视频检测方法，通过视频信息监控装置从终端设备的api获取显卡及声卡功能单元中的缓存信息，既解决了针对非自有业务不能内嵌sdk 采集数据的问题，又解决了利用抓包工具获取到加密流量不能解析的问题，可以基于获取的缓存的视频信息，基于视频检测模型识别播放过程中的视频异常形态，具体地，可以基于缓存的视频信息与图像监测模块检测第一异常形态，基于缓存的图像信息与音频监测模块检测第二异常形态，基于缓存的交互信息与交互监测模块检测第三异常形态。此外，图像监测模块、音频监测模块及交互监测模块基于自演进机制进行迭代训练，泛化能力强，且分别建立图像通道、音频通道、交互通道，再集成三通道的识别结果，能更准确的判别视频的故障或异常。
159.为了实现本发明实施例的方法，本发明实施例还提供一种视频检测装置，该视频检测装置与上述视频检测方法对应，上述视频检测方法实施例中的各步骤也完全适用于本视频检测装置实施例。
160.如图8所示，该视频检测装置800包括：获取模块801、检测模块802；其中，获取模块801用于获取视频播放终端的视频信息，所述视频信息包括以下至少之一：图像信息、音频信息及用于指示视频播放过程中交互行为的交互信息；检测模块802用于基于所述视频信息和视频检测模型识别视频播放过程中的视频异常形态，包括以下至少之一：
161.基于所述视频信息中的图像信息和第一视频检测模型，识别视频播放过程中是否存在图像相关的第一异常形态；
162.基于所述视频信息中的音频信息和第二视频检测模型，识别视频播放过程中是否存在声音相关的第二异常形态；
163.基于所述视频信息中的交互信息和第三视频检测模型，识别视频播放过程中是否存在交互相关的第三异常形态。
164.在一些实施例中，获取模块801用于以下至少之一：
165.基于视频播放终端的图像缓存信息获取图像信息；
166.基于视频播放终端的音频缓存信息获取音频信息；
167.基于视频播放终端的图像缓存信息获取交互信息。
168.在一些实施例中，视频检测装置800还包括：模型训练模块803，用于基于至少两个视频播放终端的数据集和联邦学习训练生成所述第一视频检测模型。
169.在一些实施例中，模型训练模块803基于至少两个视频播放终端的数据集和联邦学习训练生成所述第一视频检测模型，包括：
170.针对至少两个视频播放终端，获取各所述视频播放终端基于第一视频检测模型和各自的第一数据集训练生成的第一模型参数，所述第一数据集为带有标签的图像信息的集合；
171.基于各所述视频播放终端的第一模型参数进行联邦学习，以融合各所述视频播放终端的第一模型参数；
172.发送融合后的第一模型参数给各所述视频播放终端，以启动各所述视频播放终端的基于融合后的第一模型参数进行的下一次迭代，直至联邦学习的第一视频检测模型满足迭代结束的条件，得到训练好的第一视频检测模型。
173.在一些实施例中，第一视频检测模型采用三维卷积神经网络(3d-cnn) 与长短期记忆网络(lstm)相结合的深度学习模型。
174.在一些实施例中，模型训练模块803还用于基于至少两个视频播放终端的数据集和联邦学习训练生成所述第二视频检测模型。
175.在一些实施例中，模型训练模块803基于至少两个视频播放终端的数据集和联邦学习训练生成所述第二视频检测模型，包括：
176.针对至少两个视频播放终端，获取各所述视频播放终端基于第二视频检测模型和各自的第二数据集训练生成的第二模型参数，所述第二数据集为带有标签的音频信息的集合；
177.基于各所述视频播放终端的第二模型参数进行联邦学习，以融合各所述视频播放终端的第二模型参数；
178.发送融合后的第二模型参数给各所述视频播放终端，以启动各所述视频播放终端的基于融合后的第二模型参数进行的下一次迭代，直至联邦学习的第二视频检测模型满足迭代结束的条件，得到训练好的第二视频检测模型。
179.在一些实施例中，第二视频检测模型采用卷积神经网络(cnn)与lstm 相结合的深度学习模型。
180.在一些实施例中，模型训练模块803还用于基于至少两个视频播放终端的数据集和联邦学习训练生成所述第三视频检测模型。
181.在一些实施例中，模型训练模块803基于至少两个视频播放终端的数据集和联邦学习训练生成所述第三视频检测模型，包括：
182.针对至少两个视频播放终端，获取各所述视频播放终端基于第三视频检测模型和各自的第三数据集训练生成的第三模型参数，所述第三数据集为带有标签的交互信息的集合；
183.基于各所述视频播放终端的第三模型参数进行联邦学习，以融合各所述视频播放终端的第三模型参数；
184.发送融合后的第三模型参数给各所述视频播放终端，以启动各所述视频播放终端的基于融合后的第三模型参数进行的下一次迭代，直至联邦学习的第三视频检测模型满足迭代结束的条件，得到训练好的第三视频检测模型。
185.在一些实施例中，获取模块801还用于获取视频播放过程中基于交互行为对异常形态的识别结果进行校正的异常样本数据集；
186.模型训练模块803还用于基于所述异常样本数据集更新所述第一视频检测模型、所述二视频检测模型及所述第三视频检测模型中的至少一种。
187.在一些实施例中，视频检测装置800还包括：确定模块804，用于以下至少之一：
188.基于视频播放过程中异常形态的识别结果确定是否存在网络侧故障；
189.基于视频播放过程中异常形态的识别结果确定评估用户体验的评估结果。
190.实际应用时，获取模块801、检测模块802、模型训练模块803及确定模块 804，可以
由视频检测装置中的处理器来实现。当然，处理器需要运行存储器中的计算机程序来实现它的功能。
191.需要说明的是：上述实施例提供的视频检测装置在进行视频检测时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的视频检测装置与视频检测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。
192.基于上述程序模块的硬件实现，且为了实现本发明实施例的方法，本发明实施例还提供一种视频检测设备。图9仅仅示出了该视频检测设备的示例性结构而非全部结构，根据需要可以实施图9示出的部分结构或全部结构。
193.如图9所示，本发明实施例提供的视频检测设备900包括：至少一个处理器901、存储器902、用户接口903和至少一个网络接口904。视频检测设备900 中的各个组件通过总线系统905耦合在一起。可以理解，总线系统905用于实现这些组件之间的连接通信。总线系统905除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图9中将各种总线都标为总线系统905。
194.其中，用户接口903可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
195.本发明实施例中的存储器902用于存储各种类型的数据以支持视频检测设备的操作。这些数据的示例包括：用于在视频检测设备上操作的任何计算机程序。
196.本发明实施例揭示的视频检测方法可以应用于处理器901中，或者由处理器901实现。处理器901可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，视频检测方法的各步骤可以通过处理器901中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器901可以是通用处理器、数字信号处理器(dsp，digital signal processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器901可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器902，处理器901 读取存储器902中的信息，结合其硬件完成本发明实施例提供的视频检测方法的步骤。
197.在示例性实施例中，视频检测设备可以被一个或多个应用专用集成电路 (asic，application specific integrated circuit)、dsp、可编程逻辑器件(pld， programmable logic device)、复杂可编程逻辑器件(cpld，complexprogrammable logic device)、fpga、通用处理器、控制器、微控制器(mcu， micro controller unit)、微处理器(microprocessor)、或者其他电子元件实现，用于执行前述方法。
198.可以理解，存储器902可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器 (rom，read only memory)、可编程只读存储器(prom，programmableread-only memory)、可擦除可编程只读存储器(eprom，erasableprogrammable read-only memory)、电可擦除可编程只读存储器(eeprom， electrically erasable programmable read-only memory)、磁性随机存取存
储器 (fram，ferromagnetic random access memory)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(cd-rom，compact disc read-only memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(ram，random access memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如静态随机存取存储器(sram， static random access memory)、同步静态随机存取存储器(ssram， synchronous static random access memory)、动态随机存取存储器(dram， dynamic random access memory)、同步动态随机存取存储器(sdram， synchronous dynamic random access memory)、双倍数据速率同步动态随机存取存储器(ddrsdram，double data rate synchronous dynamic random accessmemory)、增强型同步动态随机存取存储器(esdram，enhanced synchronousdynamic random access memory)、同步连接动态随机存取存储器(sldram， synclink dynamic random access memory)、直接内存总线随机存取存储器 (drram，direct rambus random access memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
199.在示例性实施例中，本发明实施例还提供了一种存储介质，即计算机存储介质，具体可以是计算机可读存储介质，例如包括存储计算机程序的存储器 902，上述计算机程序可由视频检测设备的处理器901执行，以完成本发明实施例方法所述的步骤。计算机可读存储介质可以是rom、prom、eprom、 eeprom、flash memory、磁表面存储器、光盘、或cd-rom等存储器。
200.需要说明的是：“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。
201.另外，本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。
202.以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱艳宏;李琴;李唯源
技术所有人：中国移动通信集团有限公司
我是此专利的发明人

上一篇：一种投影设备的镜头组件及投影设备的制作方法
上一篇：直下式背光模组、显示器及终端设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。