特定内容识别方法、装置和电子设备与流程

文档序号：11620936阅读：193来源：国知局

本发明涉及互联网技术领域，尤其涉及一种特定内容识别方法、装置和电子设备。

背景技术：

随着互联网技术的不断发展，基于互联网的直播平台得到了快速发展，直播作为一种新的媒体传播方式，也吸引了越来越多的主播和用户参与到直播中。

在直播中，一方面，用户可以与主播进行实时交互，具有很强的灵活性和实时性；但另一方面，直播的内容不确定度较高，而且由于其实时性和并发量大的特点，给包括非法内容在内的特定内容监管带来了很大难度。现有技术中，这种基于人工识别特定内容的方式，在用于直播时，识别效果很差，而且耗费成本较高。

技术实现要素：

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种特定内容识别方法，以实现针对直播的特定内容识别，解决现有技术中人工识别特定内容识别效果很差，而且耗费成本较高的技术问题。

本发明的第二个目的在于提出一种特定内容识别装置。

本发明的第三个目的在于提出一种电子设备。

为达上述目的，本发明第一方面实施例提出了一种特定内容识别方法，包括：

对历史直播视频进行截图，生成图片样本库；

基于图片样本库中各样本图片，以及各样本图片是否为特定内容的标注，对机器学习模型进行训练；

将在线直播视频进行截图所得到的测试图片，利用经过训练的机器学习模型进行内容识别，根据识别结果对机器学习模型进行重新训练；

利用经过重新训练的机器学习模型，对在线直播视频进行特定内容识别。

可选地，作为第一方面的第一种可能的实现方式，机器学习模型，包括第一级模型和第二级模型，所述第一级模型和所述第二级模型具有相同的模型结构。

可选地，作为第一方面的第二种可能的实现方式，所述基于图片样本库中各样本图片，以及各样本图片是否为特定内容的标注，对机器学习模型进行训练，包括：

基于所述图片样本库，以及所述图片样本库中各样本图片是否为特定内容的标注，对所述机器学习模型的第一级模型进行训练。

可选地，作为第一方面的第三种可能的实现方式，所述将在线直播视频进行截图所得到的测试图片，利用经过训练的机器学习模型进行内容识别，根据识别结果对机器学习模型进行重新训练，包括：

将所述测试图片，利用经过训练的第一级模型进行内容识别；

根据所述测试图片中识别有误的部分，对第二级模型进行训练，得到经过训练的第二级模型。

可选地，作为第一方面的第四种可能的实现方式，所述根据所述测试图片中识别有误的部分，对第二级模型进行训练，得到经过训练的第二级模型，包括：

从所述测试图片中，查询识别有误的误识别图片，其中，所述误识别图片包括标注为包含正常内容的特定图片，和/或标注为包含特定内容的正常图片；

根据所述误识别图片，重新生成所述图片样本库；

基于重新生成的所述图片样本库，对所述机器学习模型的第二级模型进行训练。

可选地，作为第一方面的第五种可能的实现方式，所述利用经过重新训练的机器学习模型，对在线直播视频进行特定内容识别，包括：

利用所述第一级模型对在线直播视频的截图进行特定内容识别；

根据识别的置信度，将识别的置信度低于阈值的在线直播视频的截图，利用所述第二级模型，进行特定内容识别。

可选地，作为第一方面的第六种可能的实现方式，所述机器学习模型为卷积神经网络；所述特定内容，包括非法内容。

本发明实施例的特定内容识别方法，通过对历史直播视频进行截图，生成图片样本库，基于图片样本库中各样本图片，以及各样本图片是否为特定内容的标注，对机器学习模型进行训练，将在线直播视频进行截图所得到的测试图片，利用经过训练的机器学习模型进行内容识别，根据识别结果对机器学习模型进行重新训练，利用经过重新训练的机器学习模型，对在线直播视频进行特定内容识别。由于利用了机器学习模型进行特定内容识别，识别过程无需人工进行参与，减少了人力成本，提高了识别效率，解决了现有技术中人工识别效率较低的技术问题。

为达上述目的，本发明第二方面实施例提出了一种特定内容识别装置，包括：

生成模块，用于对历史直播视频进行截图，生成图片样本库；

训练模块，用于基于图片样本库中各样本图片，以及各样本图片是否为特定内容的标注，对机器学习模型进行训练；

重训练模块，用于将在线直播视频进行截图所得到的测试图片，利用经过训练的机器学习模型进行内容识别，根据识别结果对机器学习模型进行重新训练；

识别模块，用于利用经过重新训练的机器学习模型，对在线直播视频进行特定内容识别。

可选地，作为第二方面的第一种可能的实现方式，所述机器学习模型，包括第一级模型和第二级模型，所述第一级模型和所述第二级模型具有相同的模型结构。

可选地，作为第二方面的第二种可能的实现方式，所述训练模块，具体用于：

基于所述图片样本库，以及所述图片样本库中各样本图片是否为特定内容的标注，对所述机器学习模型的第一级模型进行训练。

可选地，作为第二方面的第三种可能的实现方式，所述重训练模块，包括：

识别单元，用于将所述测试图片，利用经过训练的第一级模型进行内容识别；

重训练单元，用于根据所述测试图片中识别有误的部分，对第二级模型进行训练，得到经过训练的第二级模型。

可选地，作为第二方面的第四种可能的实现方式，所述重训练单元，具体用于：

从所述测试图片中，查询识别有误的误识别图片，其中，所述误识别图片包括标注为包含正常内容的特定图片，和/或标注为包含特定内容的正常图片；

根据所述误识别图片，重新生成所述图片样本库；

基于重新生成的所述图片样本库，对所述机器学习模型的第二级模型进行训练。

可选地，作为第二方面的第五种可能的实现方式，所述识别模块，具体用于：

利用所述第一级模型对在线直播视频的截图进行特定内容识别；

根据识别的置信度，将识别的置信度低于阈值的在线直播视频的截图，利用所述第二级模型，进行特定内容识别。

可选地，作为第二方面的第六种可能的实现方式，所述机器学习模型为卷积神经网络；所述特定内容，包括非法内容。

本发明实施例的特定内容识别装置，通过对历史直播视频进行截图，生成图片样本库，基于图片样本库中各样本图片，以及各样本图片是否为特定内容的标注，对机器学习模型进行训练，将在线直播视频进行截图所得到的测试图片，利用经过训练的机器学习模型进行内容识别，根据识别结果对机器学习模型进行重新训练，利用经过重新训练的机器学习模型，对在线直播视频进行特定内容识别。由于利用了机器学习模型进行特定内容识别，识别过程无需人工进行参与，减少了人力成本，提高了识别效率，解决了现有技术中人工识别效率较低的技术问题。

为达上述目的，本发明第三方面实施例提出了电子设备，包括：壳体、处理器、存储器、电路板和电源电路，其中，电路板安置在壳体围成的空间内部，处理器和存储器设置在电路板上；电源电路，用于为上述电子设备的各个电路或器件供电；存储器用于存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，用于执行第一方面所述的特定内容识别方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种特定内容识别方法的流程示意图；

图2为本发明实施例所提供的另一种特定内容识别方法的流程示意图；

图3为本发明实施例提供的一种特定内容识别装置的结构示意图；

图4为本发明实施例提供的另一种特定内容识别装置的结构示意图；以及

图5为本发明电子设备一个实施例的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的特定内容识别方法和装置。

互联网的直播具有实时性强、不确定程度高、并发量大等特点，给内容监管带来很大的挑战。尤其是针对未成年人保护方面，需要能够实时监测到直播中所包含的特定内容。这里的特定内容包括非法内容、垃圾广告、低俗内容等等。

图1为本发明实施例所提供的一种特定内容识别方法的流程示意图，本实施例所提供的方法，利用了机器学习模型进行特定内容识别，识别过程无需人工进行参与，减少了人力成本，提高了识别效率，解决了现有技术中人工识别效率较低的技术问题。

如图1所示，特定内容识别方法包括以下步骤：

步骤101，对历史直播视频进行截图，生成图片样本库。

具体地，每隔预设帧数，对历史直播视频进行截图，或者每隔预设周期，对历史直播视频进行截图。将截图得到的图片作为图片样本库中的样本图片。采用人工方式，对截图进行识别，标注每一张图片为特定图片还是正常图片。

其中，未包含特定内容的图片可以视为正常图片。

步骤102，基于图片样本库中各样本图片，以及各样本图片是否为特定内容的标注，对机器学习模型进行训练。

具体地，通过对机器学习模型进行训练，使得机器学习模型学习到各参数值，从而实现对特定内容的识别。

步骤103，将在线直播视频进行截图所得到的测试图片，利用经过训练的机器学习模型进行内容识别，根据识别结果对机器学习模型进行重新训练。

具体地，将机器学习模型投入线上进行运行，周期性对在线直播视频进行截图，得到测试图片。利用经过训练的机器学习模型对测试图片进行内容识别。

从所述测试图片中，查询识别有误的误识别图片，其中，所述误识别图片包括标注为包含正常内容的特定图片，和/或标注为包含特定内容的正常图片；根据所述误识别图片，重新生成所述图片样本库；基于重新生成的所述图片样本库，对所述机器学习模型进行重新训练。

步骤104，利用经过重新训练的机器学习模型，对在线直播视频进行特定内容识别。

本实施例所提供的方法，可以重复执行步骤103和步骤104，从而使得机器学习模型更加完善，识别准确率不断提高。

本实施例中，对历史直播视频进行截图，生成图片样本库，基于图片样本库中各样本图片，以及各样本图片是否为特定内容的标注，对机器学习模型进行训练，将在线直播视频进行截图所得到的测试图片，利用经过训练的机器学习模型进行内容识别，根据识别结果对机器学习模型进行重新训练，利用经过重新训练的机器学习模型，对在线直播视频进行特定内容识别。由于利用了机器学习模型进行特定内容识别，识别过程无需人工进行参与，减少了人力成本，提高了识别效率，解决了现有技术中人工识别效率较低的技术问题。

为了清楚说明上一实施例，本实施例提供了另一种特定内容识别方法，图2为本发明实施例所提供的另一种特定内容识别方法的流程示意图，在本实施例中，机器学习模型具体为两级模型，包括第一级模型和第二级模型，第一级模型和所述第二级模型具有相同的卷积神经网络模型结构。第一级模型识别的置信度低于阈值时，采用第二级模型进行特定内容识别。由于第二级模型是基于第一级模型识别有误的误识别图片进行训练得到的，因此，能够获得更加准确的识别结果，提高识别准确率。

本实施例的方法具体应用于对非法内容进行识别的应用场景下，从而本实施例中的特定内容具体包括非法内容，相应地，特定图片为包含特定内容的图片，具体可以为包含非法内容的非法图片。其中，这里的特定内容可以是指垃圾广告、暴力、色情等等。

如图2所示，该特定内容识别方法，包括：训练阶段和识别阶段。

其中，训练阶段包括：

步骤201，对历史直播视频进行截图，生成图片样本库。

具体地，每隔预设帧数，对历史直播视频进行截图，或者每隔预设周期，对历史直播视频进行截图。将截图得到的图片作为图片样本库中的样本图片。采用人工方式，对截图进行识别，标注每一张图片为非法图片还是正常图片。

步骤202，基于图片样本库，以及图片样本库中各样本图片是否为非法内容的标注，对机器学习模型的第一级模型进行训练。

其中，第一级模型和第二级模型均可参考谷歌公司的卷积神经网络模型inceptionv3。与inceptionv3不同的是，本实施例的第一级模型和第二级模型，在全连接层，将logit函数转换成softmax函数输出识别结果。从而可以直接采用输出的0-1的数值，作为本次识别的置信度。

步骤203，将在线直播视频进行截图所得到的测试图片，利用经过训练的第一级模型进行内容识别。

具体地，将在线直播视频进行截图所得到的测试图片，仅仅利用经过训练的第一级模型进行内容识别，而不采用第二级模型进行识别。

步骤204，根据测试图片中识别有误的部分，对第二级模型进行训练，得到经过训练的第二级模型。

具体地，从测试图片中，查询识别有误的误识别图片，其中，误识别图片包括标注为包含正常内容的非法图片，和/或标注为包含非法内容的正常图片。根据误识别图片，重新生成所述图片样本库。基于重新生成的图片样本库，对机器学习模型的第二级模型进行训练。

其中，识别阶段包括：

步骤205，在线识别非法内容时，利用第一级模型对在线直播视频的截图进行非法内容识别，确定各截图是否为非法图片，及识别结果的置信度。

步骤206，判断置信度是否低于阈值，若低于阈值，执行步骤207，否则执行步骤208。

步骤207，若置信度低于阈值，利用第二级模型，对该截图重新进行非法内容识别，采信第二级模型的识别结果。

步骤208，若置信度不低于阈值，采信第一级模型的识别结果。

本实施例中，对历史直播视频进行截图，生成图片样本库，基于图片样本库中各样本图片，以及各样本图片是否为非法内容的标注，对机器学习模型进行训练，将在线直播视频进行截图所得到的测试图片，利用经过训练的机器学习模型进行内容识别，根据识别结果对机器学习模型进行重新训练，利用经过重新训练的机器学习模型，对在线直播视频进行非法内容识别。由于利用了机器学习模型进行非法内容识别，识别过程无需人工进行参与，减少了人力成本，提高了识别效率，解决了现有技术中人工识别效率较低的技术问题。

为了实现上述实施例，本发明还提出一种特定内容识别装置。

图3为本发明实施例提供的一种特定内容识别装置的结构示意图。

如图3所示，该特定内容识别装置包括：生成模块31、训练模块32、重训练模块33和识别模块34。

生成模块31，用于对历史直播视频进行截图，生成图片样本库。

训练模块32，用于基于图片样本库中各样本图片，以及各样本图片是否为特定内容的标注，对机器学习模型进行训练。

重训练模块33，用于将在线直播视频进行截图所得到的测试图片，利用经过训练的机器学习模型进行内容识别，根据识别结果对机器学习模型进行重新训练。

识别模块34，用于利用经过重新训练的机器学习模型，对在线直播视频进行特定内容识别。

需要说明的是，前述对方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

基于上述实施例，本发明实施例还提供了另一种特定内容识别装置的可能的实现方式，图4为本发明实施例提供的另一种特定内容识别装置的结构示意图，在上一实施例的基础上，机器学习模型，包括第一级模型和第二级模型，所述第一级模型和所述第二级模型具有相同的模型结构，例如：卷积神经网络。

进一步，训练模块32，具体用于：基于所述图片样本库，以及所述图片样本库中各样本图片是否为特定内容的标注，对所述机器学习模型的第一级模型进行训练。

重训练模块33，包括：识别单元331和重训练单元332。

识别单元331，用于将所述测试图片，利用经过训练的第一级模型进行内容识别。

重训练单元332，用于根据所述测试图片中识别有误的部分，对第二级模型进行训练，得到经过训练的第二级模型。

具体地，重训练单元332，具体用于：从所述测试图片中，查询识别有误的误识别图片，其中，所述误识别图片包括标注为包含正常内容的特定图片，和/或标注为包含特定内容的正常图片；根据所述误识别图片，重新生成所述图片样本库；基于重新生成的所述图片样本库，对所述机器学习模型的第二级模型进行训练。

进一步，识别模块34，具体用于：利用所述第一级模型对在线直播视频的截图进行特定内容识别；根据识别的置信度，将识别的置信度低于阈值的在线直播视频的截图，利用所述第二级模型，进行特定内容识别。

本发明实施例中，对历史直播视频进行截图，生成图片样本库，基于图片样本库中各样本图片，以及各样本图片是否为特定内容的标注，对机器学习模型进行训练，将在线直播视频进行截图所得到的测试图片，利用经过训练的机器学习模型进行内容识别，根据识别结果对机器学习模型进行重新训练，利用经过重新训练的机器学习模型，对在线直播视频进行特定内容识别。由于利用了机器学习模型进行特定内容识别，识别过程无需人工进行参与，减少了人力成本，提高了识别效率，解决了现有技术中人工识别效率较低的技术问题。

作为一种可能的应用场景，本实施例所提供的装置具体应用于对非法内容进行识别的应用场景下，从而本实施例中的特定内容具体包括非法内容，相应地，特定图片为包含特定内容的图片，具体可以为包含非法内容的非法图片。其中，这里的特定内容可以是指垃圾广告、暴力、色情等等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式光盘只读存储器(cdrom)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

本发明实施例还提供一种电子设备，电子设备包含前述任一实施例所述的装置。

图5为本发明电子设备一个实施例的结构示意图，可以实现本发明图1-4所示实施例的流程，如图5所示，上述电子设备可以包括：壳体41、处理器42、存储器43、电路板44和电源电路45，其中，电路板44安置在壳体41围成的空间内部，处理器42和存储器43设置在电路板44上；电源电路45，用于为上述电子设备的各个电路或器件供电；存储器43用于存储可执行程序代码；处理器42通过读取存储器43中存储的可执行程序代码来运行与可执行程序代码对应的程序，用于执行前述任一实施例所述的特定内容识别方法。

处理器42对上述步骤的具体执行过程以及处理器42通过运行可执行程序代码来进一步执行的步骤，可以参见本发明图1-4所示实施例的描述，在此不再赘述。

该电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括：智能手机(例如iphone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：pda、mid和umpc设备等，例如ipad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括：音频、视频播放器(例如ipod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器：提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子设备。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory，rom)或随机存储记忆体(randomaccessmemory，ram)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘德顺
技术所有人：乐蜜科技有限公司
我是此专利的发明人

上一篇：一种基于时间域卷积神经网络的视频行人检测方法与流程
上一篇：一种低误触发率运动想象双层分类识别方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。