视频的处理方法、装置及系统与流程

文档序号：29969439发布日期：2022-05-11 11:05阅读：47来源：国知局

1.本技术涉及互联网领域，具体而言，涉及一种视频的处理方法、装置及系统。

背景技术：

2.目前在直播过程中，主播往往会依次向观众展示多款商品，而且，在同一时刻主播仅推荐一个产品，其余产品虽然会显示在直播视频中，但属于直播间的背景商品，也即，在同一时刻直播视频中仅有一个产品作为显示对象进行展示。
3.为了能够从直播视频中识别出主播主推的商品，需要对直播视频进行目标检测。现有检测方法是基于对候选框进行分类实现的，对于同一类别的产品均可以检测出来，如图1所示的方框，均属于服饰类别。但是，在直播视频中，上述检测方法不仅仅可以识别出主播当前主推的产品(如图1中所示的第1类产品)，而且会识别出其他属于背景产品的产品(如图1中所示的第2类产品)，导致识别结果存在干扰，准确率较低。
4.针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

5.本技术实施例提供了一种视频的处理方法、装置及系统，以至少解决相关技术中的图像识别方法对直播视频中主推产品的识别准确度较低的技术问题。
6.根据本技术实施例的一个方面，提供了一种视频的处理方法，包括：获取直播视频中显示的不同类型的对象，其中，对象包括：推荐的前景对象，以及在直播视频中展现的除前景对象之外的备选对象；基于筛选条件，从不同类型的对象中识别出直播视频中展示的前景对象，其中，筛选条件由至少一个用于表征具有前景对象特点的特征参数构成；输出前景对象。
7.根据本技术实施例的另一方面，还提供了一种视频的处理方法，包括：在显示界面中播放直播视频；在显示界面中显示直播视频中播放的不同类型的对象，其中，对象包括：推荐的前景对象，以及在直播视频中展现的除前景对象之外的备选对象；在直播视频中标注出前景对象，其中，前景对象为直播视频播放的对象中满足筛选条件的对象，其中，筛选条件由至少一个用于表征具有前景对象特点的特征参数构成。
8.根据本技术实施例的另一方面，还提供了一种视频的处理装置，包括：获取模块，用于获取直播视频中显示的不同类型的对象，其中，对象包括：推荐的前景对象，以及在直播视频中展现的除前景对象之外的备选对象；识别模块，用于基于筛选条件，从不同类型的对象中识别出直播视频中展示的前景对象，其中，筛选条件由至少一个用于表征具有前景对象特点的特征参数构成；输出模块，用于输出前景对象。
9.根据本技术实施例的另一方面，还提供了一种视频的处理装置，包括：播放模块，用于在显示界面中播放直播视频；显示模块，用于在显示界面中显示直播视频中播放的不同类型的对象，其中，对象包括：推荐的前景对象，以及在直播视频中展现的除前景对象之外的备选对象；标注模块，用于在直播视频中标注出前景对象，其中，前景对象为直播视频
播放的对象中满足筛选条件的对象，其中，筛选条件由至少一个用于表征具有前景对象特点的特征参数构成。
10.根据本技术实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在设备执行上述的视频的处理方法。
11.根据本技术实施例的另一方面，还提供了一种计算机终端，包括：存储器和处理器，处理器用于运行存储器中存储的程序，其中，程序运行时执行上述的视频的处理方法。
12.根据本技术实施例的另一方面，还提供了一种视频的处理系统，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取直播视频中显示的不同类型的对象，其中，对象包括：推荐的前景对象，以及在直播视频中展现的除前景对象之外的备选对象；基于筛选条件，从不同类型的对象中识别出展示直播视频中展示的前景对象，其中，筛选条件由至少一个用于表征具有前景对象特点的特征参数构成；输出前景对象。
13.根据本技术实施例的另一方面，还提供了一种视频的处理方法，包括：通过调用第一接口获取直播视频，其中，第一接口包括：第一参数，第一参数的参数值为直播视频；确定直播视频中显示的不同类型的对象，其中，对象包括：推荐的前景对象，以及在直播视频中展现的除前景对象之外的备选对象；基于筛选条件，从不同类型的对象中识别出直播视频中展示的前景对象，其中，筛选条件由至少一个用于表征具有前景对象特点的特征参数构成；通过调用第二接口输出前景对象，其中，第二接口包括：第二参数，第二参数的参数值为前景对象。
14.根据本技术实施例的另一方面，还提供了一种视频的处理方法，包括：获取视频中显示的多个对象，其中，对象包括：前景对象和备选对象；基于筛选条件，从多个对象中识别出视频的前景对象，其中，筛选条件由至少一个用于表征具有前景对象特点的特征参数构成；输出前景对象。
15.在本技术实施例中，在获取到直播视频中显示的不同类型的对象之后，通过筛选条件对不同类型的对象进行筛选，识别出直播视频中展示的前景对象并进行输出，从而实现检测主播主推的产品的目的。容易注意到的是，由于筛选条件由至少一个用于表征具有前景对象特点的特征参数构成，因此，通过筛选条件筛选出的对象是主播主推的产品，并不会包含其他背景产品，从而避免了其他背景产品的干扰，达到了提高主推产品的识别准确度，提升用户体验感和好感度的技术效果，进而解决了相关技术中的图像识别方法对直播视频中主推产品的识别准确度较低的技术问题。
附图说明
16.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
17.图1是根据现有技术的一种目标检测结果的示意图；
18.图2是根据现有技术的一种对图像中手表进行定位的示意图；
19.图3是根据本技术实施例的一种用于实现视频的处理方法的计算机终端(或移动设备)的硬件结构框图；
20.图4是根据本技术实施例的一种视频的处理方法的流程图；
21.图5a是根据本技术实施例的一种可选的视频帧的示意图；
22.图5b是根据本技术实施例的一种可选的视频帧对应的运动历史图的示意图；
23.图5c是根据本技术实施例的一种可选的视频帧中每个像素对应的坐标的示意图；
24.图6是根据本技术实施例的一种可选的视频的处理方法的流程图；
25.图7是根据本技术实施例的另一种视频的处理方法的流程图；
26.图8是根据本技术实施例的一种视频的处理装置的示意图；
27.图9是根据本技术实施例的另一种视频的处理装置的示意图；
28.图10是根据本技术实施例的又一种视频的处理方法的流程图；
29.图11是根据本技术实施例的又一种视频的处理装置的示意图；
30.图12是根据本技术实施例的一种计算机终端的结构框图。
具体实施方式
31.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
32.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
33.首先，在对本技术实施例进行描述的过程中出现的部分名词或术语适用于如下解释：
34.检测：可以是指对图像中指定类别的物体进行定位，并输出坐标框，如图2所示，可以将图像中属于手表的物体进行定位。
35.yolo v3：可以是指一种基于卷积神经网络的检测算法，可以利用多尺度特征进行目标检测，并通过逻辑回归模型进行目标分类。
36.检测框回归模型：可以是一种对检测位置进行微调、精修的算法模型。
37.运动历史图：motion history image，简称为hmi，可以是一种表示视频中物体运动信息的方法。
38.前景对象：可以是指直播视频中主播正在介绍的主推产品；
39.备选对象：可以是指主播视频中主播当前未介绍，稍后介绍的主推产品，也可以是直播视频中不会被主播介绍的产品。
40.现有目标检测方案主要通过深度学习实现，逻辑上包括如下三个步骤：
41.根据一定的规则在图片空间中定义数十万、甚至更多的“候选框”，彼此之间可能
存在重叠，由于候选框的数量足够多，因此可以保证其中有个别框能够大概定位到用户所关心的核心物体上。
42.对上述候选框进行过滤，去掉与物体重合程度过低的候选框。可以通过神经网络来实现，通过数据训练后的神经网络，可以筛选出指定类别(例如服饰、箱包)的候选框。
43.使用检测框回归模型对筛选出的候选框的坐标进行微调，确保其边缘尽量与感兴趣物体的边缘贴合。
44.由于现有目标检测方案是基于对候选框进行分类，则同一类别的物体均会被检测出来，在直播视频场景中，不仅包含主播主推的产品，还包含其他背景产品，因此，存在较大干扰。
45.为了解决上述问题，本技术提供了一种直播视频中主推产品检测的方法，主要在候选框分类过程中，对主播主推的产品和背景产品进行准确区分，确保最终可以检测出、且仅检测出直播视频中主播主推的产品。
46.实施例1
47.根据本技术实施例，提供了一种视频的处理方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
48.本技术实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图3示出了一种用于实现视频的处理方法的计算机终端(或移动设备)的硬件结构框图。如图3所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，
……
，102n来示出)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为bus总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图3所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图3中所示更多或者更少的组件，或者具有与图3所示不同的配置。
49.应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本技术实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
50.存储器104可用于存储应用软件的软件程序以及模块，如本技术实施例中的视频的处理方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的(视频的处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
51.传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(network interface controller，nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(radio frequency，rf)模块，其用于通过无线方式与互联网进行通讯。
52.显示器可以例如触摸屏式的液晶显示器(lcd)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
53.此处需要说明的是，在一些可选实施例中，上述图3所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图3仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
54.在上述运行环境下，本技术提供了如图4所示的视频的处理方法。图4是根据本技术实施例的一种视频的处理方法的流程图。如图4所示，该方法可以包括如下步骤：
55.步骤s42，获取直播视频中显示的不同类型的对象，其中，对象包括：推荐的前景对象，以及在直播视频中展现的除前景对象之外的备选对象。
56.上述步骤中的直播视频可以是观众在观看直播过程中截图的视频片段，也可以是直播结束后获取到的完整直播视频，本技术对此不作具体限定。
57.在一种可选的实施例中，当用户需要对直播视频中主播主推的产品进行检测时，用户可以直接在移动终端(例如智能手机、平板电脑、掌上电脑、笔记本电脑等)或计算机终端选择直播视频，由移动终端或计算机终端对直播视频进行处理，并将检测出的主推产品进行标注、展示。在另一种可选的实施例中，为了避免检测方法对移动终端或计算机终端的计算资源和存储资源消耗较大，可以由服务器实现检测方法。当用户需要对直播视频中主播主推的产品进行检测时，用户可以在移动终端或计算机终端选择直播视频，并将选中的直播视频或检测请求发送给服务器，由服务器对相关直播视频进行处理，并将检测出的主推产品返回给移动终端，由移动终端或计算机终端进行标注、展示。
58.上述步骤中不同类型的对象可以是指直播视频中主播主推的产品和直播间中展示的其他产品，其中，主播主推的产品为前景对象，其他背景产品为备选对象。不同类型的对象与对象本身所属的类别无关，也即，本技术中的不同类型的对象既可以是不同类别的对象，例如前景对象为护肤品，备选对象为煎锅；不同类型的对象还可以是相同类别的对象，例如前景对象为主播身上穿着的服饰，备选对象为直播间内挂在衣架上或穿着在其他模特身上的服饰。
59.在一种可选的实施例中，可以通过预先训练好的检测模型对直播视频进行处理，将直播视频中显示的所有产品进行检测，检测出不同类型的产品，也即，将不同类型的产品分别通过候选框进行定位。由于此时候选框既包含框出的主推的产品的候选框，还包含框出的其他背景产品的候选框，因此需要进一步过滤掉框出背景产品的候选框，仅保留框出主播主推的产品的候选框。
60.步骤s44，基于筛选条件，从不同类型的对象中识别出直播视频中展示的前景对象，其中，筛选条件由至少一个用于表征具有前景对象特点的特征参数构成。
61.上述步骤中的特征参数可以是直播视频中主播主推的产品所特有的特征。可选
的，上述的特征参数可以包括如下至少之一：对象在直播视频中的显示位置、显示时长、运动信息和与推荐信息的匹配结果，其中，推荐信息包括直播视频中同步输出的文字信息和主播输出的语音信息。上述的文字信息可以是显示在直播视频中的推荐文字，对主播主推的产品进行了详细介绍。上述的语音信息可以是主播在展示主推的产品的过程中，通过语言对其进行了详细介绍。
62.在一种可选的实施例中，对于直播视频中主播主推的产品，为了确保直播观众能够清晰观看到该产品，该产品往往出现在直播视频中相对中心的位置，而其他背景产品往往出现在直播视频中相对较偏的位置。在此基础上可知，主播主推的产品和其他背景产品的区别在于显示位置不同，因此特征参数可以包括：不同对象在直播视频中的显示位置。
63.在另一种可选的实施例中，对于直播视频中主播主推的产品，主播往往会在该产品的推荐时段内对该产品进行展示和介绍；而其他背景产品往往出现较短时间，例如在直播视频中一闪而过，或者，其他背景产品一直放置在直播间内，出现时间可以是整个直播视频的时间。在此基础上可知，主播主推的产品和其他背景产品的区别在于显示时长不同，因此特征参数可以包括：不同对象在直播视频中的显示时长。
64.在又一种可选的实施例中，对于直播视频中主播主推的产品，为了确保直播观众能够清晰观看到该产品的完整样子，主播在介绍该产品的过程中，往往会将产品不断地旋转，并靠近镜头，例如，对于服饰产品，穿着该产品的模特(例如主播自己)往往需要旋转至背面或侧面；而其他背景产品往往放置在货架上，或由其他假模特进行展示，基本属于静止状态。在此基础上可知，主播主推的产品和其他背景产品的区别在于运动信息不同，因此特征参数可以包括：不同对象在直播视频中的运动信息。
65.在又一种可选的实施例中，对于直播视频中主播主推的产品，为了确保直播观众能够准确获知该产品的详情信息，主播在展示该产品的过程中，往往会通过语言或文字方式进行介绍；而其他背景产品往往不会被介绍。在此基础上可知，主播主推的产品和其他背景产品的区别在于主播主推的产品与推荐信息匹配，而其他背景产品与推荐信息不匹配，因此特征参数可以包括：不同对象与推荐信息的匹配结果。
66.需要说明的是，在实际使用过程中，可以根据检测精度和检测速度对不同特征参数进行组合，在本技术实施例中，以特征参数包括显示位置和运动信息为例进行说明。
67.上述步骤中的筛选条件可以是基于主播主推的产品所特有的特征，确定的能够准确筛选出框出主播主推的产品的候选框，达到准确检测主播主推产品的目的，避免其他背景产品的干扰。可选的，上述的筛选条件可以由如下至少一个特征参数确定的条件构成：在直播视频中的显示位置位于关键位置，其中，关键位置包括：直播视频的中心位置、与主播间距最小的位置和预定的固定位置；在直播视频中的显示时长超过预定时长；在直播视频中的预定时间段内产生的移动频率最高；在直播视频中展示的所有对象中发生移动的时间最长；与直播视频中显示的对象特征与推荐信息匹配度最高。
68.上述的预定时长可以是固定的推荐时长，也可以是通过对该主播之前的所有直播视频进行统计确定出的主推的产品的平均展示时长，可以根据实际需要进行设定，本技术对此不作具体限定。
69.在一种可选的实施例中，在通过现有技术对直播视频中所有产品进行检测之后，可以通过预先设定的筛选条件对所有候选框进行分类过滤，将满足筛选条件的候选框保
留，其余候选框直接丢弃，从而确保保留下来的候选框均可以对主播主推的产品进行定位，因此，可以得到最终检测到的主播主推的产品。
70.需要说明的是，为了简化筛选操作，可以将筛选过程融合在检测模型的训练过程中，从而通过该模型可以仅仅识别出主播主推的产品，而不需要识别出其他背景产品。
71.步骤s46，输出前景对象。
72.在一种可选的实施例中，为了方便用户查看筛选出的主推的产品，移动终端或计算机终端在检测出主推的产品之后，可以将主推的产品进行标注并显示在显示屏中，供用户查看。在另一种可选的实施例中，为了方便用户查看筛选出的主推的产品，服务器在检测出主推的产品之后，可以将检测结果返回给移动终端或计算机终端，由移动终端或计算机终端对主推的产品进行标注并显示在显示屏中，供用户查看。
73.通过本技术上述实施例提供的方案，在获取到直播视频中显示的不同类型的对象之后，通过筛选条件对不同类型的对象进行筛选，识别出直播视频中展示的前景对象并进行输出，从而实现检测主播主推的产品的目的。容易注意到的是，由于筛选条件由至少一个用于表征具有前景对象特点的特征参数构成，因此，通过筛选条件筛选出的对象是主播主推的产品，并不会包含其他背景产品，从而避免了其他背景产品的干扰，达到了提高主推产品的识别准确度，提升用户体验感和好感度的技术效果，进而解决了相关技术中的图像识别方法对直播视频中主推产品的识别准确度较低的技术问题。
74.在本技术上述实施例中，该方法还包括如下步骤：解析推荐信息，生成关键特征信息，其中，关键特征信息包括如下至少之一：从文字信息中解析到的关键词句和从语音信息中解析到的关键词句；将直播视频中显示的每个对象的对象特征分别与关键特征信息比对，获取比对结果，其中，比对结果用于表征每个对象分别与推荐信息的匹配度。
75.上述步骤中的对象特征可以是产品自身的特征，例如产品的颜色、形状、参数、材质、具体功能、价格等。上述步骤中的关键特征信息可以是针对产品的对象特征所提取出的词语或语句，例如，关键特征信息可以是“黄色”这个词语，或者可以是“使用该梳子进行梳头可以提升头发的顺滑度和光泽度”这个句子。
76.在一种可选的实施例中，在推荐信息是文字信息的情况下，可以通过文本识别方法识别出推荐信息中的关键特征信息，并通过图像识别方法识别出直播视频中每个产品的产品特征，进一步通过计算关键特征信息和产品特征的相似度，可以确定每个产品与关键特征信息的匹配程度，从而得到每个产品与推荐信息的匹配程度，也即得到上述的比对结果。
77.在另一种可选的实施例中，在推荐信息是语音信息的情况下，可以通过语音识别方法识别出推荐信息中的关键特征信息，并通过图像识别方法识别出直播视频中每个产品的产品特征，进一步通过计算关键特征信息和产品特征的相似度，可以确定每个产品与关键特征信息的匹配程度，从而得到每个产品与推荐信息的匹配程度，也即得到上述的比对结果。
78.在本技术上述实施例中，获取直播视频中显示的不同类型的对象包括如下步骤：获取待检测的直播视频；采用预测模型识别待检测的直播视频，从直播视频的直播画面中检测出不同类型的对象，其中，采用检测框来标识识别到的对象。
79.上述步骤中的预测模型可以是预先通过训练得到的神经网络模型，例如，可以是
yolo v3，但不仅限于此，也可以是其他基于卷积神经网络的检测模型。
80.在一种可选的实施例中，可以预先通过训练的方式训练得到一个预测模型，该预测模型可以检测出直播视频中不同类型的产品，并通过标注检测框的方式对不同类型的产品进行标注，检测框内包含整个产品，而且检测框的边缘与产品的边缘贴合。
81.在本技术上述实施例中，在采用预测模型识别待检测的直播视频之前，该方法还包括如下步骤：获取历史直播视频中的多帧历史图片；对每帧历史图片进行标注，标注出历史图片中的前景对象和备选对象，其中，历史图片中的前景对象和备选对象采用不同的检测框进行标识；基于标注了前景对象和备选对象的历史图片来训练神经网络模型，生成预测模型。
82.在一种可选的实施例中，在利用预测模型进行检测之前，首先需要对预测模型进行训练，整个训练流程如下：可以从历史直播视频中随机抽取多帧历史图片，或者按照预定时间间隔抽取多帧历史图片，例如，可以抽取如图1所示的图像；对于抽取出的每帧历史图片，可以通过人为标注的方式分别对不同类型的产品进行标注，也即，通过检测框框选出图片中的产品，需要说明的是，为了对不同类型的产品进行区分，可以采用不同的检测框对不同类型的产品进行标注，例如，通过不同颜色的检测框进行标注，例如，对于如图1所示的图像，第1类检测框可以用红色进行标注，第2类检测框可以用绿色进行标注；多帧历史图片均标注完成之后，可以将多帧历史图片作为训练样本对卷积神经网络进行训练，得到最终的预测模型。
83.需要说明的是，如果预测模型需要对不同类型的产品进行检测，则可以将不同类型的产品对应的检测框为目标进行训练；如果预设模型仅对主播主推的产品进行检测，则可以将主播主推的产品对应的检测框为目标进行训练。
84.在本技术上述实施例中，获取历史直播视频中的多帧历史图片包括如下步骤：获取待识别的历史直播视频，获取每帧视频帧对应的运动历史图，以及视频帧中每个像素对应的坐标；基于视频帧中每个像素对应的坐标，沿通道维度进行图像拼接，得到多帧历史图片。
85.在一种可选的实施例中，对于提取出的每帧历史视频帧，可以计算相邻两帧的时间段内同一位置的像素变化，将目标运动情况已图像亮度的形式表现出来，从而得到该帧对应的运动历史图mhi，例如，对于如图5a所示的历史视频帧，可以得到如图5b所示的hmi。另外，对于提取出的每帧历史视频帧，还可以获取视频帧中每个像素对应的坐标图，例如，对于如图5a所示的历史视频帧，可以得到如图5c所示的坐标图。在获取到历史视频帧、运动历史图和每个像素对应的坐标之后，可以沿通道维度进行拼接，从而得到用于进行模型训练的历史图像。
86.需要说明的是，提取出的历史视频帧可以是3通道的彩色图像，历史运动图可以是1通道图像，每个像素对应的坐标对应的图像可以是2通道图像，因此，最终得到的历史图片是6通道的图像。
87.下面结合图5a-5c和图6对本技术一种优选的实施例进行详细说明，该方法可以应用于移动终端、计算机终端或服务器中，本技术对此不作具体限定。基于直播视频特殊的应用场景可知，主播主推的产品往往出现在图像相对中心的位置，而且往往会不断旋转、靠近镜头，在此基础上，为了解决相关技术中目标检测方法对直播视频进行识别的准确率较低，
存在干扰的问题，该方法可以在候选框分类过程中考虑候选框在图片中的位置，以及候选框内产品的运动信息，并通过模型训练得到一个仅检测出直播视频中主播主推的产品的预测模型。
88.该方法主要包括模型训练和实际测试两个过程，如图6所示，模型训练过程的具体流程如下：
89.步骤s62，获取6通道输入图片。
90.可选的，可以从直播视频中抽取待检测的视频帧，并获取视频帧对应的运动历史图，以及每个像素对应的坐标，进而沿通道维度进行拼接，可以得到一个6通道的输入图片。
91.步骤s64，标注输入图片中产品的检测框。
92.可选的，对于输入图片可以分别标注图片中主播主推的产品和其他背景产品对应的检测框。
93.步骤s66，训练模型得到预测主推产品的检测框的预测模型。
94.可选的，可以将6通道输入图片作为输入，并将标注后的检测框作为目标进行学习，训练yolo v3得到上述的预测模型。
95.实际测试过程可以包括如下两个步骤：
96.步骤s68，获取6通道测试图片。
97.可选的，步骤s68的实现方式与步骤s62的实现方式相同，在此不做赘述。
98.步骤s610，使用训练好的预测模型对6通道测试图片进行预测，得到主播主推产品的检测框。
99.可选的，可以使用预测模型对6通道测试图片进行预测，可以得到该图片中不同类型的产品的检测框，进一步通过筛选条件从不同类型的产品的检测框中识别出主推的产品的检测框。
100.通过上述步骤提供的方法可以准确定位出直播视频中主播主推的产品，避免其他产品的干扰。
101.需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本技术所必须的。
102.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本技术各个实施例所述的方法。
103.实施例2
104.根据本技术实施例，还提供了一种视频的处理方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的
步骤。
105.图7是根据本技术实施例的另一种视频的处理方法的流程图。如图7所示，该方法可以包括如下步骤：
106.步骤s72，在显示界面中播放直播视频。
107.上述步骤中的显示界面可以是直播视频的播放界面。在一种可选的实施例中，观众可以通过移动终端(例如智能手机、平板电脑、掌上电脑、笔记本电脑等)或计算机终端观看直播，因此，该显示界面可以显示在移动终端或计算机终端的显示屏上。
108.上述步骤中的直播视频可以是观众在观看直播过程中截图的视频片段，也可以是直播结束后获取到的完整直播视频，本技术对此不作具体限定。
109.步骤s74，在显示界面中显示直播视频中播放的不同类型的对象，其中，对象包括：推荐的前景对象，以及在直播视频中展现的除前景对象之外的备选对象。
110.上述步骤中不同类型的对象可以是指直播视频中主播主推的产品和直播间中展示的其他产品，其中，主播主推的产品为前景对象，其他背景产品为备选对象。不同类型的对象与对象本身所属的类别无关，也即，本技术中的不同类型的对象既可以是不同类别的对象，例如前景对象为护肤品，备选对象为煎锅；不同类型的对象还可以是相同类别的对象，例如前景对象为主播身上穿着的服饰，备选对象为直播间内挂在衣架上或穿着在其他模特身上的服饰。
111.步骤s76，在直播视频中标注出前景对象，其中，前景对象为直播视频播放的对象中满足筛选条件的对象，其中，筛选条件由至少一个用于表征具有前景对象特点的特征参数构成。
112.上述步骤中的特征参数可以是直播视频中主播主推的产品所特有的特征。可选的，上述的特征参数可以包括如下至少之一：对象在直播视频中的显示位置、显示时长、运动信息和与推荐信息的匹配结果，其中，推荐信息包括直播视频中同步输出的文字信息和主播输出的语音信息。上述的文字信息可以是显示在直播视频中的推荐文字，对主播主推的产品进行了详细介绍。上述的语音信息可以是主播在展示主推的产品的过程中，通过语言对其进行了详细介绍。
113.上述步骤中的筛选条件可以是基于主播主推的产品所特有的特征，确定的能够准确筛选出框出主播主推的产品的候选框，达到准确检测主播主推产品的目的，避免其他背景产品的干扰。可选的，上述的筛选条件可以由如下至少一个特征参数确定的条件构成：在直播视频中的显示位置位于关键位置，其中，关键位置包括：直播视频的中心位置、与主播间距最小的位置和预定的固定位置；在直播视频中的显示时长超过预定时长；在直播视频中的预定时间段内产生的移动频率最高；在直播视频中展示的所有对象中发生移动的时间最长；与直播视频中显示的对象特征与推荐信息匹配度最高。
114.上述的预定时长可以是固定的推荐时长，也可以是通过对该主播之前的所有直播视频进行统计确定出的主推的产品的平均展示时长，可以根据实际需要进行设定，本技术对此不作具体限定。
115.在一种可选的实施例中，在通过筛选条件检测出主推的产品之后，可以通过检测框标注的方式对主推的产品进行标注，并通过移动终端或计算机终端的显示屏进行显示。
116.在本技术上述实施例中，在直播视频中标注出前景对象之前，该方法还包括如下
步骤：解析推荐信息，生成关键特征信息，其中，关键特征信息包括如下至少之一：从文字信息中解析到的关键词句和从语音信息中解析到的关键词句；将直播视频中显示的每个对象的对象特征分别与关键特征信息比对，获取比对结果，其中，比对结果用于表征每个对象分别与推荐信息的匹配度。
117.在本技术上述实施例中，在显示界面中显示直播视频中播放的不同类型的对象之前，该方法还包括如下步骤：获取待检测的直播视频；采用预测模型识别待检测的直播视频，从直播视频的直播画面中检测出不同类型的对象，其中，采用检测框来标识识别到的对象。
118.在本技术上述实施例中，在采用预测模型识别待检测的直播视频之前，该方法还包括如下步骤：获取历史直播视频中的多帧历史图片；对每帧历史图片进行标注，标注出历史图片中的前景对象和备选对象，其中，历史图片中的前景对象和备选对象采用不同的检测框进行标识；基于标注了前景对象和备选对象的历史图片来训练神经网络模型，生成预测模型。
119.在本技术上述实施例中，获取历史直播视频中的多帧历史图片包括如下步骤：获取待识别的历史直播视频，获取每帧视频帧对应的运动历史图，以及视频帧中每个像素对应的坐标；基于视频帧中每个像素对应的坐标，沿通道维度进行图像拼接，得到多帧历史图片。
120.需要说明的是，本技术上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。
121.实施例3
122.根据本技术实施例，还提供了一种用于实施上述视频的处理方法的视频的处理装置，如图8所示，该装置800包括：获取模块802、识别模块804和输出模块806。
123.其中，获取模块802用于获取直播视频中显示的不同类型的对象，其中，对象包括：推荐的前景对象，以及在直播视频中展现的除前景对象之外的备选对象；识别模块804用于基于筛选条件，从不同类型的对象中识别出直播视频中展示的前景对象，其中，筛选条件由至少一个用于表征具有前景对象特点的特征参数构成；输出模块806用于输出前景对象。
124.此处需要说明的是，上述获取模块802、识别模块804和输出模块806对应于实施例1中的步骤s42至步骤s46，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
125.在本技术上述实施例中，该装置还包括：解析模块和比对模块。
126.其中，解析模块用于解析推荐信息，生成关键特征信息，其中，关键特征信息包括如下至少之一：从文字信息中解析到的关键词句和从语音信息中解析到的关键词句；比对模块用于将直播视频中显示的每个对象的对象特征分别与关键特征信息比对，获取比对结果，其中，比对结果用于表征每个对象分别与推荐信息的匹配度。
127.在本技术上述实施例中，获取模块包括：第一获取单元和检测单元。
128.其中，获取单元用于获取待检测的直播视频；检测单元用于采用预测模型识别待检测的直播视频，从直播视频的直播画面中检测出不同类型的对象，其中，采用检测框来标识识别到的对象。
129.在本技术上述实施例中，该装置还包括：标注模块和训练模块。
130.其中，获取模块还用于获取历史直播视频中的多帧历史图片；标注模块用于对每帧历史图片进行标注，标注出历史图片中的前景对象和备选对象，其中，历史图片中的前景对象和备选对象采用不同的检测框进行标识；训练模块用于基于标注了前景对象和备选对象的历史图片来训练神经网络模型，生成预测模型。
131.在本技术上述实施例中，获取模块包括：第二获取单元和拼接单元。
132.其中，第二获取单元用于获取待识别的历史直播视频，获取每帧视频帧对应的运动历史图，以及视频帧中每个像素对应的坐标；拼接单元用于基于视频帧中每个像素对应的坐标，沿通道维度进行图像拼接，得到多帧历史图片。
133.需要说明的是，本技术上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。
134.实施例4
135.根据本技术实施例，还提供了一种用于实施上述视频的处理方法的视频的处理装置，如图9所示，该装置900包括：播放模块902、显示模块904和标注模块906。
136.其中，播放模块902用于在显示界面中播放直播视频；显示模块904用于在显示界面中显示直播视频中播放的不同类型的对象，其中，对象包括：推荐的前景对象，以及在直播视频中展现的除前景对象之外的备选对象；标注模块906用于在直播视频中标注出前景对象，其中，前景对象为直播视频播放的对象中满足筛选条件的对象，其中，筛选条件由至少一个用于表征具有前景对象特点的特征参数构成。
137.此处需要说明的是，上述播放模块902、显示模块904和标注模块906对应于实施例2中的步骤s72至步骤s76，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
138.在本技术上述实施例中，该装置还包括：解析模块和比对模块。
139.其中，解析模块用于解析推荐信息，生成关键特征信息，其中，关键特征信息包括如下至少之一：从文字信息中解析到的关键词句和从语音信息中解析到的关键词句；比对模块用于将直播视频中显示的每个对象的对象特征分别与关键特征信息比对，获取比对结果，其中，比对结果用于表征每个对象分别与推荐信息的匹配度。
140.在本技术上述实施例中，获取模块包括：第一获取单元和检测单元。
141.其中，获取单元用于获取待检测的直播视频；检测单元用于采用预测模型识别待检测的直播视频，从直播视频的直播画面中检测出不同类型的对象，其中，采用检测框来标识识别到的对象。
142.在本技术上述实施例中，该装置还包括：标注模块和训练模块。
143.其中，获取模块还用于获取历史直播视频中的多帧历史图片；标注模块用于对每帧历史图片进行标注，标注出历史图片中的前景对象和备选对象，其中，历史图片中的前景对象和备选对象采用不同的检测框进行标识；训练模块用于基于标注了前景对象和备选对象的历史图片来训练神经网络模型，生成预测模型。
144.在本技术上述实施例中，获取模块包括：第二获取单元和拼接单元。
145.其中，第二获取单元用于获取待识别的历史直播视频，获取每帧视频帧对应的运
动历史图，以及视频帧中每个像素对应的坐标；拼接单元用于基于视频帧中每个像素对应的坐标，沿通道维度进行图像拼接，得到多帧历史图片。
146.需要说明的是，本技术上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。
147.实施例5
148.根据本技术实施例，还提供了一种视频的处理方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
149.图10是根据本技术实施例的又一种视频的处理方法的流程图。如图10所示，该方法可以包括如下步骤：
150.步骤s102，通过调用第一接口获取直播视频，其中，第一接口包括：第一参数，第一参数的参数值为直播视频。
151.上述步骤中的第一接口可以是服务器与客户端之间进行数据交互的接口，客户端可以将直播视频传入接口函数，作为接口函数的一个参数，实现直播视频上传至服务器的目的。
152.上述步骤中的直播视频可以是观众在观看直播过程中截图的视频片段，也可以是直播结束后获取到的完整直播视频，本技术对此不作具体限定。
153.步骤s104，确定直播视频中显示的不同类型的对象，其中，对象包括：推荐的前景对象，以及在直播视频中展现的除前景对象之外的备选对象。
154.上述步骤中不同类型的对象可以是指直播视频中主播主推的产品和直播间中展示的其他产品，其中，主播主推的产品为前景对象，其他背景产品为备选对象。不同类型的对象与对象本身所属的类别无关，也即，本技术中的不同类型的对象既可以是不同类别的对象，例如前景对象为护肤品，备选对象为煎锅；不同类型的对象还可以是相同类别的对象，例如前景对象为主播身上穿着的服饰，备选对象为直播间内挂在衣架上或穿着在其他模特身上的服饰。
155.步骤s106，基于筛选条件，从不同类型的对象中识别出直播视频中展示的前景对象，其中，筛选条件由至少一个用于表征具有前景对象特点的特征参数构成。
156.上述步骤中的特征参数可以是直播视频中主播主推的产品所特有的特征。可选的，上述的特征参数可以包括如下至少之一：对象在直播视频中的显示位置、显示时长、运动信息和与推荐信息的匹配结果，其中，推荐信息包括直播视频中同步输出的文字信息和主播输出的语音信息。上述的文字信息可以是显示在直播视频中的推荐文字，对主播主推的产品进行了详细介绍。上述的语音信息可以是主播在展示主推的产品的过程中，通过语言对其进行了详细介绍。
157.上述步骤中的筛选条件可以是基于主播主推的产品所特有的特征，确定的能够准确筛选出框出主播主推的产品的候选框，达到准确检测主播主推产品的目的，避免其他背景产品的干扰。可选的，上述的筛选条件可以由如下至少一个特征参数确定的条件构成：在直播视频中的显示位置位于关键位置，其中，关键位置包括：直播视频的中心位置、与主播间距最小的位置和预定的固定位置；在直播视频中的显示时长超过预定时长；在直播视频
中的预定时间段内产生的移动频率最高；在直播视频中展示的所有对象中发生移动的时间最长；与直播视频中显示的对象特征与推荐信息匹配度最高。
158.上述的预定时长可以是固定的推荐时长，也可以是通过对该主播之前的所有直播视频进行统计确定出的主推的产品的平均展示时长，可以根据实际需要进行设定，本技术对此不作具体限定。
159.步骤s108，通过调用第二接口输出前景对象，其中，第二接口包括：第二参数，第二参数的参数值为前景对象。
160.上述步骤中的第二接口可以是服务器与客户端之间进行数据交互的接口，服务器可以将前景对象传入接口函数，作为接口函数的一个参数，实现前景对象下发至客户端的目的。
161.在本技术上述实施例中，该方法还包括如下步骤：解析推荐信息，生成关键特征信息，其中，关键特征信息包括如下至少之一：从文字信息中解析到的关键词句和从语音信息中解析到的关键词句；将直播视频中显示的每个对象的对象特征分别与关键特征信息比对，获取比对结果，其中，比对结果用于表征每个对象分别与推荐信息的匹配度。
162.上述步骤中的对象特征可以是产品自身的特征，例如产品的颜色、形状、参数、材质、具体功能、价格等。上述步骤中的关键特征信息可以是针对产品的对象特征所提取出的词语或语句，例如，关键特征信息可以是“黄色”这个词语，或者可以是“使用该梳子进行梳头可以提升头发的顺滑度和光泽度”这个句子。
163.在本技术上述实施例中，确定直播视频中显示的不同类型的对象包括如下步骤：获取待检测的直播视频；采用预测模型识别待检测的直播视频，从直播视频的直播画面中检测出不同类型的对象，其中，采用检测框来标识识别到的对象。
164.上述步骤中的预测模型可以是预先通过训练得到的神经网络模型，例如，可以是yolo v3，但不仅限于此，也可以是其他基于卷积神经网络的检测模型。
165.在本技术上述实施例中，在采用预测模型识别待检测的直播视频之前，该方法还包括如下步骤：获取历史直播视频中的多帧历史图片；对每帧历史图片进行标注，标注出历史图片中的前景对象和备选对象，其中，历史图片中的前景对象和备选对象采用不同的检测框进行标识；基于标注了前景对象和备选对象的历史图片来训练神经网络模型，生成预测模型。
166.在本技术上述实施例中，获取历史直播视频中的多帧历史图片包括如下步骤：获取待识别的历史直播视频，获取每帧视频帧对应的运动历史图，以及视频帧中每个像素对应的坐标；基于视频帧中每个像素对应的坐标，沿通道维度进行图像拼接，得到多帧历史图片。
167.需要说明的是，本技术上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。
168.实施例6
169.根据本技术实施例，还提供了一种用于实施上述视频的处理方法的视频的处理装置，如图11所示，该装置1100包括：第一调用模块1102、确定模块1104、识别模块1106和第二调用模块1108。
170.其中，第一调用模块1102用于通过调用第一接口获取直播视频，其中，第一接口包
括：第一参数，第一参数的参数值为直播视频；确定模块1104用于确定直播视频中显示的不同类型的对象，其中，对象包括：推荐的前景对象，以及在直播视频中展现的除前景对象之外的备选对象；识别模块1106用于基于筛选条件，从不同类型的对象中识别出直播视频中展示的前景对象，其中，筛选条件由至少一个用于表征具有前景对象特点的特征参数构成；第二调用模块1108用于通过调用第二接口输出前景对象，其中，第二接口包括：第二参数，第二参数的参数值为前景对象。
171.此处需要说明的是，上述第一调用模块1102、确定模块1104、识别模块1106和第二调用模块1108对应于实施例5中的步骤s102至步骤s108，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
172.在本技术上述实施例中，该装置还包括：解析模块和比对模块。
173.其中，解析模块用于解析推荐信息，生成关键特征信息，其中，关键特征信息包括如下至少之一：从文字信息中解析到的关键词句和从语音信息中解析到的关键词句；比对模块用于将直播视频中显示的每个对象的对象特征分别与关键特征信息比对，获取比对结果，其中，比对结果用于表征每个对象分别与推荐信息的匹配度。
174.在本技术上述实施例中，获取模块包括：第一获取单元和检测单元。
175.其中，获取单元用于获取待检测的直播视频；检测单元用于采用预测模型识别待检测的直播视频，从直播视频的直播画面中检测出不同类型的对象，其中，采用检测框来标识识别到的对象。
176.在本技术上述实施例中，该装置还包括：标注模块和训练模块。
177.其中，获取模块还用于获取历史直播视频中的多帧历史图片；标注模块用于对每帧历史图片进行标注，标注出历史图片中的前景对象和备选对象，其中，历史图片中的前景对象和备选对象采用不同的检测框进行标识；训练模块用于基于标注了前景对象和备选对象的历史图片来训练神经网络模型，生成预测模型。
178.在本技术上述实施例中，获取模块包括：第二获取单元和拼接单元。
179.其中，第二获取单元用于获取待识别的历史直播视频，获取每帧视频帧对应的运动历史图，以及视频帧中每个像素对应的坐标；拼接单元用于基于视频帧中每个像素对应的坐标，沿通道维度进行图像拼接，得到多帧历史图片。
180.需要说明的是，本技术上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。
181.实施例7
182.根据本技术实施例，还提供了一种视频的处理系统，包括：
183.处理器；
184.存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取直播视频中显示的不同类型的对象，其中，对象包括：推荐的前景对象，以及在直播视频中展现的除前景对象之外的备选对象；基于筛选条件，从不同类型的对象中识别出展示直播视频中展示的前景对象，其中，筛选条件由至少一个用于表征具有前景对象特点的特征参数构成；输出前景对象。
185.在本技术上述实施例中，存储器还用于为处理器提供处理上述实施例1和2中视频
的处理方法步骤的指令。
186.需要说明的是，本技术上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。
187.实施例8
188.根据本技术实施例，还提供了一种视频的处理方法，该方法包括如下步骤：获取视频中显示的多个对象，其中，对象包括：前景对象和备选对象；基于筛选条件，从多个对象中识别出视频的前景对象，其中，筛选条件由至少一个用于表征具有前景对象特点的特征参数构成；输出前景对象。
189.上述步骤中的视频可以是直播视频，具体可以是观众在观看直播过程中截图的视频片段，也可以是直播结束后获取到的完整直播视频，本技术对此不作具体限定。
190.需要说明的是，本技术上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。
191.实施例9
192.本技术的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。
193.可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
194.在本实施例中，上述计算机终端可以执行视频的处理方法中以下步骤的程序代码：获取直播视频中显示的不同类型的对象，其中，对象包括：推荐的前景对象，以及在直播视频中展现的除前景对象之外的备选对象；基于筛选条件，从不同类型的对象中识别出直播视频中展示的前景对象，其中，筛选条件由至少一个用于表征具有前景对象特点的特征参数构成；输出前景对象。
195.可选地，图12是根据本技术实施例的一种计算机终端的结构框图。如图12所示，该计算机终端a可以包括：一个或多个(图中仅示出一个)处理器1202、以及存储器1204。
196.其中，存储器可用于存储软件程序以及模块，如本技术实施例中的视频的处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频的处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端a。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
197.处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取直播视频中显示的不同类型的对象，其中，对象包括：推荐的前景对象，以及在直播视频中展现的除前景对象之外的备选对象；基于筛选条件，从不同类型的对象中识别出直播视频中展示的前景对象，其中，筛选条件由至少一个用于表征具有前景对象特点的特征参数构成；输出前景对象。
198.可选的，上述处理器还可以执行如下步骤的程序代码：解析推荐信息，生成关键特征信息，其中，关键特征信息包括如下至少之一：从文字信息中解析到的关键词句和从语音
信息中解析到的关键词句；将直播视频中显示的每个对象的对象特征分别与关键特征信息比对，获取比对结果，其中，比对结果用于表征每个对象分别与推荐信息的匹配度。
199.可选的，上述处理器还可以执行如下步骤的程序代码：获取待检测的直播视频；采用预测模型识别待检测的直播视频，从直播视频的直播画面中检测出不同类型的对象，其中，采用检测框来标识识别到的对象。
200.可选的，上述处理器还可以执行如下步骤的程序代码：获取历史直播视频中的多帧历史图片；对每帧历史图片进行标注，标注出历史图片中的前景对象和备选对象，其中，历史图片中的前景对象和备选对象采用不同的检测框进行标识；基于标注了前景对象和备选对象的历史图片来训练神经网络模型，生成预测模型。
201.可选的，上述处理器还可以执行如下步骤的程序代码：获取待识别的历史直播视频，获取每帧视频帧对应的运动历史图，以及视频帧中每个像素对应的坐标；基于视频帧中每个像素对应的坐标，沿通道维度进行图像拼接，得到多帧历史图片。
202.处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：在显示界面中播放直播视频；在显示界面中显示直播视频中播放的不同类型的对象，其中，对象包括：推荐的前景对象，以及在直播视频中展现的除前景对象之外的备选对象；在直播视频中标注出前景对象，其中，前景对象为直播视频播放的对象中满足筛选条件的对象，其中，筛选条件由至少一个用于表征具有前景对象特点的特征参数构成。
203.处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：通过调用第一接口获取直播视频，其中，第一接口包括：第一参数，第一参数的参数值为直播视频；确定直播视频中显示的不同类型的对象，其中，对象包括：推荐的前景对象，以及在直播视频中展现的除前景对象之外的备选对象；基于筛选条件，从不同类型的对象中识别出直播视频中展示的前景对象，其中，筛选条件由至少一个用于表征具有前景对象特点的特征参数构成；通过调用第二接口输出前景对象，其中，第二接口包括：第二参数，第二参数的参数值为前景对象。
204.处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取视频中显示的多个对象，其中，对象包括：前景对象和备选对象；基于筛选条件，从多个对象中识别出视频的前景对象，其中，筛选条件由至少一个用于表征具有前景对象特点的特征参数构成；输出前景对象。
205.采用本技术实施例，提供了一种视频处理的方案。通过识别直播视频中显示的不同类型的对象，并通过筛选条件识别出直播视频中展示的前景对象，无需识别出直播视频中展示的备选对象，从而达到了提高主推产品的识别准确度，提升用户体验感和好感度的技术效果，进而解决了相关技术中的图像识别方法对直播视频中主推产品的识别准确度较低的技术问题。
206.本领域普通技术人员可以理解，图12所示的结构仅为示意，计算机终端也可以是智能手机(如android手机、ios手机等)、平板电脑、掌上电脑以及移动互联网设备(mobile internet devices，mid)、pad等终端设备。图12其并不对上述电子装置的结构造成限定。例如，计算机终端a还可包括比图12中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图12所示不同的配置。
207.本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可
以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(read-only memory，rom)、随机存取器(random access memory，ram)、磁盘或光盘等。
208.实施例10
209.本技术的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例所提供的视频的处理方法所执行的程序代码。
210.可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。
211.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取直播视频中显示的不同类型的对象，其中，对象包括：推荐的前景对象，以及在直播视频中展现的除前景对象之外的备选对象；基于筛选条件，从不同类型的对象中识别出直播视频中展示的前景对象，其中，筛选条件由至少一个用于表征具有前景对象特点的特征参数构成；输出前景对象。
212.可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：解析推荐信息，生成关键特征信息，其中，关键特征信息包括如下至少之一：从文字信息中解析到的关键词句和从语音信息中解析到的关键词句；将直播视频中显示的每个对象的对象特征分别与关键特征信息比对，获取比对结果，其中，比对结果用于表征每个对象分别与推荐信息的匹配度。
213.可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：获取待检测的直播视频；采用预测模型识别待检测的直播视频，从直播视频的直播画面中检测出不同类型的对象，其中，采用检测框来标识识别到的对象。
214.可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：获取历史直播视频中的多帧历史图片；对每帧历史图片进行标注，标注出历史图片中的前景对象和备选对象，其中，历史图片中的前景对象和备选对象采用不同的检测框进行标识；基于标注了前景对象和备选对象的历史图片来训练神经网络模型，生成预测模型。
215.可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：获取待识别的历史直播视频，获取每帧视频帧对应的运动历史图，以及视频帧中每个像素对应的坐标；基于视频帧中每个像素对应的坐标，沿通道维度进行图像拼接，得到多帧历史图片。
216.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在显示界面中播放直播视频；在显示界面中显示直播视频中播放的不同类型的对象，其中，对象包括：推荐的前景对象，以及在直播视频中展现的除前景对象之外的备选对象；在直播视频中标注出前景对象，其中，前景对象为直播视频播放的对象中满足筛选条件的对象，其中，筛选条件由至少一个用于表征具有前景对象特点的特征参数构成。
217.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过调用第一接口获取直播视频，其中，第一接口包括：第一参数，第一参数的参数值为直播视频；确定直播视频中显示的不同类型的对象，其中，对象包括：推荐的前景对象，以及在直播视频中展现的除前景对象之外的备选对象；基于筛选条件，从不同类型的对象中识别出直播视频中展示的前景对象，其中，筛选条件由至少一个用于表征具有前景对象特点的特征参数构成；通过调用第二接口输出前景对象，其中，第二接口包括：第二参数，第二参数的
参数值为前景对象。
218.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取视频中显示的多个对象，其中，对象包括：前景对象和备选对象；基于筛选条件，从多个对象中识别出视频的前景对象，其中，筛选条件由至少一个用于表征具有前景对象特点的特征参数构成；输出前景对象。
219.上述本技术实施例序号仅仅为了描述，不代表实施例的优劣。
220.在本技术的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
221.在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
222.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
223.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
224.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
225.以上所述仅是本技术的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本技术原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本技术的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谢晨伟张严浩熊雄郑赟潘攀徐盈辉
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

上一篇：番茄倒垂式种植方法及番茄基质种植台与流程
上一篇：一种适用于62Si2Mn淬火带生产的淬火炉的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。