一种图片识别方法、装置、设备及存储介质与流程

文档序号：31648374发布日期：2022-09-27 20:50阅读：38来源：国知局

1.本技术涉及人工智能(artificial intelligence，ai)技术领域，尤其涉及一种图片识别方法、装置、设备及存储介质。

背景技术：

2.近年来，随着移动互联网的高速发展，用户在浏览阅读资讯上花费的时间越来越多，资讯的质量对于用户的阅读体验至关重要。然而，网络上每天充斥的资讯的质量参差不齐，其中一些资讯包含有惊悚、恶心、令人反感的图片，这严重影响了用户的阅读体验。相关技术领域将上述影响用户阅读体验、令用户感觉不适的图片定义为不适图片，识别资讯中包含的不适图片并对其进行打压，对于提升内容生态、提高用户的资讯阅读体验至关重要。
3.相关技术中，目前主要采用单模态的图片识别模型识别不适图片，即将待识别的图片输入预先训练的图片识别模型，通过该图片识别模型识别该图片的类型，进而，根据图片识别模型的输出结果判断该图片是否为不适图片。
4.然而，上述实现方式目前存在以下问题：在实际应用场景中新增类型的不适图片层出不穷，对于新增类型的不适图片，图片识别模型往往容易漏召回，由此导致新增类型的不适图片出现在线上，影响用户的阅读体验；而收集新增类型的不适图片作为训练样本，对图片识别模型进行更新训练，使得该图片识别模型能够识别出新增类型的不适图片，通常又需要耗费很长时间。由此可见，上述相关技术中的实现方式目前无法及时有效地避免新增类型的不适图片出现在线上。

技术实现要素：

5.本技术实施例提供了一种图片识别方法、装置、设备及存储介质，能够及时有效地防止新增类型的不适图片出现在线上。
6.有鉴于此，本技术第一方面提供了一种图片识别方法，所述方法包括：
7.获取待识别的目标图片；
8.在图片检索库中检索所述目标图片对应的匹配参考不适图片；所述匹配参考不适图片与所述目标图片之间的相似度满足预设相似条件；所述图片检索库中包括多张参考不适图片，所述多张参考不适图片包括被用户举报、且通过不适图片审核的图片；
9.若在所述图片检索库中检索到所述匹配参考不适图片，则确定所述目标图片属于不适图片。
10.本技术第二方面提供了一种图片识别装置，所述装置包括：
11.图片获取模块，用于获取待识别的目标图片；
12.图片检索模块，用于在图片检索库中检索所述目标图片对应的匹配参考不适图片；所述匹配参考不适图片与所述目标图片之间的相似度满足预设相似条件；所述图片检索库中包括多张参考不适图片，所述多张参考不适图片包括被用户举报、且通过不适图片审核的图片；
13.图片识别模块，用于若在所述图片检索库中检索到所述匹配参考不适图片，则确定所述目标图片属于不适图片。
14.本技术第三方面提供了一种设备，所述设备包括处理器以及存储器：
15.所述存储器用于存储计算机程序；
16.所述处理器用于根据所述计算机程序，执行如上述第一方面所述的图片识别方法的步骤。
17.本技术第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述第一方面所述的图片识别方法的步骤。
18.本技术第五方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面所述的图片识别方法的步骤。
19.从以上技术方案可以看出，本技术实施例具有以下优点：
20.本技术实施例提供了一种图片识别方法，在该方法中，先获取待识别的目标图片；然后，在图片检索库中检索该目标图片对应的匹配参考不适图片，该匹配参考不适图片是指与目标图片之间的相似度满足预设相似条件的图片，该图片检索库中包括大量的参考不适图片，这些参考不适图片中包括被用户举报、且通过不适图片审核的图片；如若在图片检索库中检索到该匹配参考图片，则可确定该目标图片属于不适图片。上述图片识别方法基于图片检索库识别目标图片是否属于不适图片，由于图片检索库支持随时向其中补充图片，因此，当出现新增类型的不适图片时，可以根据用户对该不适图片的举报情况以及该不适图片的审核情况，及时地将新增类型的不适图片添加至图片检索库中；如此，后续可以基于该图片检索库快速地识别出该新增类型的不适图片，进而防止该新增类型的不适图片上线，避免影响用户的资讯阅读体验。
附图说明
21.图1为本技术实施例提供的图片识别方法的应用场景示意图；
22.图2为本技术实施例提供的图片识别方法的流程示意图；
23.图3为本技术实施例提供的多模态识别模型的工作原理示意图；
24.图4为本技术实施例提供的第一种图片识别装置的结构示意图；
25.图5为本技术实施例提供的第二种图片识别装置的结构示意图；
26.图6为本技术实施例提供的第三种图片识别装置的结构示意图；
27.图7为本技术实施例提供的第四种图片识别装置的结构示意图；
28.图8为本技术实施例提供的第五种图片识别装置的结构示意图；
29.图9为本技术实施例提供的终端设备的结构示意图；
30.图10为本技术实施例提供的服务器的结构示意图。
具体实施方式
31.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本
申请一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
32.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
33.人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
34.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
35.计算机视觉技术(computer vision，cv)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。
36.机器学习(machine learning，ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
37.随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如，常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。
38.本技术实施例提供的方案涉及人工智能领域的计算机视觉技术和机器学习技术，具体通过如下实施例进行说明：
39.相关技术中，目前主要采用单模态的图片识别模型识别不适图片。而这种实现方
式往往容易漏识别新增类型的不适图片，导致新增类型的不适图片出现在线上；此外，收集新增类型的不适图片对图片识别模型进行更新训练，使得该图片识别模型能够识别出新增类型的不适图片，通常又需要耗费很长的时间。由此可见，相关技术中的图片识别方式目前无法及时有效地识别出新增类型的不适图片，新增类型的不适图片可能会长时间出现在线上。
40.针对上述相关技术存在的问题，本技术实施例提供了一种图片识别方法，该方法能够及时有效地识别新增类型的不适图片，从而防止新增类型的不适图片长时间出现在线上，影响用户的资讯阅读体验。
41.具体的，在本技术实施例提供的图片识别方法中，先获取待识别的目标图片；然后，在图片检索库中检索该目标图片对应的匹配参考不适图片，该匹配参考不适图片是指与目标图片之间的相似度满足预设相似条件的图片，该图片检索库中包括大量的参考不适图片，这些参考不适图片中包括被用户举报、且通过不适图片审核的图片；如若在图片检索库中检索到该匹配参考图片，则可确定该目标图片属于不适图片。
42.上述图片识别方法基于图片检索库识别目标图片是否属于不适图片，由于图片检索库支持随时向其中补充图片，因此，当出现新增类型的不适图片时，可以根据用户对该不适图片的举报情况以及该不适图片的审核情况，及时地将新增类型的不适图片添加至图片检索库中；如此，后续可以基于图片检索库快速地识别出该新增类型的不适图片，进而防止该新增类型的不适图片长时间地出现在线上，避免影响用户的资讯阅读体验。
43.应理解，本技术实施例提供的图片识别方法可以应用于具备计算能力的设备，如终端设备或服务器。其中，终端设备具体可以为智能手机、计算机、平板电脑、个人数字助理(personal digital assitant，pda)等；服务器具体可以为应用服务器或web服务器，实际部署时，可以为独立服务器，也可以为集群服务器或云服务器。
44.为了便于理解本技术实施例提供的图片识别方法，下面以该图片识别方法的执行主体为服务器为例，对该图片识别方法的应用场景进行示例性介绍。
45.参见图1，图1为本技术实施例提供的图片识别方法的应用场景示意图。如图1所示，该应用场景中包括终端设备110和服务器120，终端设备110与服务器120之间可以通过网络通信。终端设备110支持用户创建并编辑待发布的信息资讯，该信息资讯中可以包括图片和文本；服务器120可以为审核信息资讯的后台服务器，其用于执行本技术实施例提供的图片识别方法。
46.在实际应用中，用户可以通过终端设备110创建和编辑所要发布的信息资讯，并且可以在所编辑的信息资讯中插入相关的图片；用户通过终端设备110确认完成对于信息资讯的编辑后，可以将所编辑的信息资讯通过网络传输给服务器120。上述信息资讯包括但不限于待推送的文章、新闻等。
47.服务器120接收到终端设备110发送的信息资讯后，可以获取该信息资讯中插入的图片作为待识别的目标图片；进而，在图片检索库121中检索该目标图片对应的匹配参考不适图片，即在图片检索库121中检索与该目标图片之间的相似度满足预设相似条件的参考不适图片；若服务器120在图片检索库121中检索到目标图片对应的匹配参考不适图片，则说明该目标图片与参考不适图片之间的相似度较高，因此可以确定该目标图片属于不适图片。
48.需要说明的是，上述图片检索库121中通常包括大量的参考不适图片，这些参考不适图片中可以包括被用户举报、且已通过不适图片审核的图片；换言之，网络上被用户举报为不适图片的图片，在通过不适图片审核确认其确实属于不适图片后，将被相应地添加至图片检索库121中。如此，对于新增类型的不适图片，其被用户举报且通过不适图片审核后，将被快速地添加至图片检索库121，相应地，后续可以基于图片检索库121有效地识别出此类新增的不适图片。
49.为了进一步防止不适图片上线，服务器120还可以在没有在图片检索库121中检索到目标图片对应的匹配参考不适图片的情况下，通过预先训练好的多模态识别模型122确定目标图片属于不适图片的概率。该多模态识别模型122中包括图片识别子模型、文本识别子模型和多模态融合模块，其中，图片识别子模型用于识别图片本身属于不适图片的概率，文本识别子模型用于根据与图片相关的文本信息(如信息资讯的标题、信息资讯中的内容文本等)，识别该图片属于不适图片的概率，多模态融合模块用于融合图片识别子模型的识别结果和文本识别子模型的识别结果，进而根据融合后的结果确定图片属于不适图片的概率。进而，服务器120可以根据多模态识别模型122输出的结果，即目标图片属于不适图片的概率，确定该目标图片是否属于不适图片。
50.应理解，图1所示的应用场景仅为示例，在实际应用中，除了可以由服务器执行本技术实施例提供的图片识别方法外，还可以由终端设备执行本技术实施例提供的图片识别方法，在此不对本技术实施例提供的图片识别方法适用的应用场景做任何限定。
51.下面通过方法实施例对本技术提供的图片识别方法进行详细介绍。
52.参见图2，图2为本技术实施例提供的图片识别方法的流程示意图。为了便于描述，下述实施例仍以该图片识别方法的执行主体为服务器为例进行介绍。如图2所示，该图片识别方法包括以下步骤：
53.步骤201：获取待识别的目标图片。
54.本技术实施例提供的图片识别方法应用在不同的场景中时，服务器可以采用相应的方式获取需要识别是否属于不适图片的目标图片。
55.示例性的，当本技术实施例提供的图片识别方法应用在审核待发布的信息资讯(如待推送的文章、新闻等)的场景中时，服务器可以在接收到终端设备上传的待发布的信息资讯后，获取该信息资讯中插入的图片作为待识别的目标图片；或者，服务器也可以从数据库中调取待发布的信息资讯，进而获取所调取的信息资讯中插入的图片作为待识别的目标图片。当本技术实施例提供的图片识别方法应用在审核待上线的图片的场景中时，服务器可以获取终端设备上传的待上线的图片作为待识别的目标图片，或者，服务器也可以从数据库中调取待上线的图片作为待识别的目标图片。当本技术实施例提供的图片识别方法应用在审核待上线的视频的场景中时，服务器可以获取终端设备上传的视频，进而从视频中抽取视频帧作为待识别的目标图片；或者，服务器也可以从数据库中调取待上线的视频，从所调取的视频中抽取视频帧作为待识别的目标图片。
56.应理解，在实际应用中，本技术实施例提供的图片识别方法除了可以应用在上述场景中外，还可以应用于其它场景，在此不对本技术实施例提供的图片识别方法的应用场景做任何限定。此外，服务器除了可以通过上述方式获取待识别的目标图片外，也可以采用其它方式获取目标图片，本技术在此也不对目标图片的获取方式做任何限定。
57.步骤202：在图片检索库中检索所述目标图片对应的匹配参考不适图片；所述匹配参考不适图片与所述目标图片之间的相似度满足预设相似条件；所述图片检索库中包括多张参考不适图片，所述多张参考不适图片包括被用户举报、且通过不适图片审核的图片。
58.服务器获取到目标图片后，可以在图片检索库中检索该目标图片对应的匹配参考图片，即在图片检索库中检索与该目标图片之间的相似度满足预设相似条件的匹配参考不适图片。经上述检索操作得到的检索结果，可以用于确定目标图片是否属于不适图片。
59.需要说明的是，上述图片检索库中通常存储有大量的参考不适图片，所存储的参考不适图片具体可以是参考不适图片对应的特征向量。这些参考不适图片可以包括被用户举报、且已通过不适图片审核被确定属于不适图片的图片，这些参考不适图片还可以包括初始被添加到图片检索库中的比较典型的不适图片。该图片检索库支持随时向其中添加新的图片，即服务器只要检测到存在通过不适图片审核的图片，即可将该不适图片添加至图片检索库中，相应地，后续基于该图片检索库进行图片识别，可以将与该不适图片相似的其它不适图片有效地识别出来。
60.通常情况下，为了便于快速地在图片检索库中进行匹配参考不适图片的检索，图片检索库可以存储多张参考不适图片各自对应的特征向量。相应地，服务器在图片检索库中检索目标图片对应的匹配参考图片时，可以先对目标图片进行向量化处理，得到该目标图片对应的特征向量；进而，针对图片检索库中包括的每张参考不适图片对应的特征向量，计算目标图片对应的特征向量与该参考不适图片对应的特征向量之间的相似度，若该相似度超过预设相似度阈值，则可以确定该参考不适图片为目标图片对应的匹配参考不适图片。
61.示例性的，上述图片检索库可以为faiss检索库，faiss检索库是facebook开源的高性能相似性检索库，支持十亿级别向量的搜索，可以高效快速地检索到相似向量，该faiss检索库中存储有大量的参考不适图片各自对应的特征向量，参考不适图片对应的特征向量具体可以是服务器使用phash算法对参考不适图片进行向量化处理得到的64位二进制编码。服务器基于faiss检索库检索目标图片对应的匹配参考图片时，可以先采用phash算法对目标图片进行向量化处理，得到64位二进制编码即该目标图片对应的特征向量；进而，检索faiss检索库中是否存在与该目标图片对应的特征向量之间的相似度超过预设相似度阈值的特征向量，若检索到与目标图片对应的特征向量之间的相似度超过预设相似度阈值的特征向量，则可确定该特征向量对应的参考不适图片为目标图片对应的匹配参考不适图片。
62.应理解，在实际应用中，图片检索库也可以为其它检索库，例如，可以为用于存储参考不适图片本身的检索库，本技术在此不对图片检索库的类型做任何限定。相应地，服务器也可以采用其它方式在图片检索库中检索目标图片对应的匹配参考图片，例如，可以通过图片特征比对的方式，在图片检索库中检索与目标图片之间的相似度超过预设相似度阈值的参考不适图片，本技术在此也不对匹配参考图片的查找方式做任何限定。
63.考虑到在实际应用中，网络上存在的被用户举报为不适图片的图片的数量可能很庞大，而且用户举报的数据噪声较大，存在很多被举报为不适图片但实际上属于正常图片的图片，将此类图片添加至图片检索库，可能会误将正常图片识别为不适图片。基于此，本技术实施例提供的技术方案，在将被用户举报为不适图片的图片添加至图片检索库之前，
可以对被举报为不适图片的图片进行审核，在确认图片通过不适图片审核后，再将其添加至图片检索库。而图片审核往往是人工执行的，审核人力资源有限，经常容易发生大量待审核的图片堆积的情况，本技术实施例提供的技术方案为了能够更好地利用审核人力资源，使得比较有可能属于不适图片的图片能够被尽快地审核并添加至图片检索库，本技术实施例还提供了一种被举报图片的审核调度机制。
64.具体实现时，服务器可以获取预设时段内被举报次数超过预设次数的图片，作为第一候选不适图片，将该第一候选不适图片传输至审核通道，并获取该第一候选不适图片对应的审核结果；若该审核结果表示第一候选不适图片属于不适图片，则确定该第一候选不适图片为参考不适图片，并将该参考不适图片添加至图片检索库。
65.即，服务器可以将某段时间内被大量用户举报为不适图片的图片，作为第一候选不适图片，将此类第一候选不适图片直接送到人工审核，并相应地获取第一候选不适图片对应的审核结果。若第一候选不适图片对应的审核结果表示该第一候选不适图片确实属于不适图片，则相应地将该第一候选不适图片确定为参考不适图片，并将该参考不适图片添加至图片检索库；具体实现时，服务器可以对该参考不适图片进行向量化处理，得到该参考不适图片对应的特征向量，进而将该参考不适图片对应的特征向量添加至图片检索库。反之，若第一候选不适图片对应的审核结果表示该第一候选不适图片并不属于不适图片，则不再对该第一候选不适图片进行任何处理。
66.此外，服务器可以获取预设时段内被举报次数未超过预设次数的图片，作为第二候选不适图片；然后，通过多模态识别模型对该第二候选不适图片进行识别，并根据识别结果确定该第二候选不适图片对应的审核顺序；进而，基于该第二候选不适图片对应的审核顺序，将该第二候选不适图片传输至审核通道，并获取该第二候选不适图片对应的审核结果；若该审核结果表示该第二候选不适图片属于不适图片，则确定该第二候选不适图片为参考不适图片，并将该参考不适图片添加至图片检索库。
67.需要说明的是，上述多模态识别模型包括图片识别子模型、文本识别子模型和多模态融合模块，其中，图片识别子模型用于识别图片是否属于不适图片，文本识别子模型用于根据与图片相关的文本信息识别该图片是否属于不适图片，多模态融合模块用于融合图片识别子模型的识别结果和文本识别子模型的识别结果，从而确定图片属于不适图片的概率。
68.即，服务器可以将某段时间内被举报为不适图片的次数较少的图片，作为第二候选不适图片。对于此类第二候选不适图片，服务器可以利用多模态识别模型对该第二候选不适图片进行打分，并根据打分结果确定该第二候选不适图片对应的审核顺序，进而基于该审核顺序将该第二候选不适图片相应地送入待审核队列，以送至人工审核。
69.具体的，针对每张第二候选不适图片，服务器可以将该第二候选不适图片本身和与该第二候选不适图片相关的文本信息(如该第二候选不适图片的标题、该第二候选不适图片所属的信息资讯中的文本等)，输入预先训练好的多模态识别模型。多模态识别模型中的图片识别子模型可以对第二候选不适图片进行识别，并输出该第二候选不适图片属于不适图片的概率；多模态识别模型中的文本识别子模型可以对与第二候选不适图片相关的文本信息进行识别，并相应地输出该第二候选不适图片属于不适图片的概率；多模态识别模型中的多模态融合模块可以将图片识别子模型输出的概率与文本识别子模型输出的概率
拼接起来，然后依次经过全连接网络和softmax分类层，输出多模态识别模型的识别结果，即输出通过该多模态识别模型确定的该第二候选不适图片属于不适图片的概率。然后，服务器可以根据各第二候选不适图片各自属于不适图片的概率，相应地为各第二候选不适图片配置对应的审核顺序，应理解，第二候选不适图片属于不适图片的概率越高，其对应的审核顺序应该越靠前。进而，服务器可以依据各第二候选不适图片各自对应的审核顺序，依次将各第二候选不适图片传输至审核通道以送至人工审核，并相应地获取各第二候选不适图片各自对应的审核结果。若第二候选不适图片对应的审核结果表示该第二候选不适图片确实属于不适图片，则相应地将该第二候选不适图片确定为参考不适图片，并将该参考不适图片添加至图片检索库；具体实现时，服务器可以对该参考不适图片进行向量化处理，得到该参考不适图片对应的特征向量，进而将该参考不适图片对应的特征向量添加至图片检索库。反之，若第二候选不适图片对应的审核结果表示该第二候选不适图片并不属于不适图片，则不再对该第二候选不适图片进行任何处理。
70.应理解，上述预设时段可以根据实际需求设定，例如，可以设定为当前时刻之前的一个小时、两个小时等等，本技术在此不对该预设时段做任何限定。此外，上述预设次数也可以根据实际需求设定，例如，可以设定为200次，本技术在此也不对该预设次数做任何限定。
71.在实际应用中，上述多模态识别模型中包括的图片识别子模型具体可以为bit模型、inceptionv3模型、efficientnet模型、mobilenet模型和vggnet(visual geometry group network)模型中的任意一者，上述多模态识别模型中包括的文本识别子模型具体可以为bert(bidirectional encoder representation from transformers)模型、fasttext(快速文本识别)模型、长短期记忆网络(long short-term memory，lstm)模型、文本卷积神经网络(text convolutional neural networks，textcnn)模型中的任意一者。优选的，图片识别子模型可以为bit模型，文本识别子模型可以为bert模型。
72.此外，在实际应用中，上述多模态识别模型识别图片是否属于不适图片时，除了可以综合考虑图片特征和文本特征外，还可以融合其它维度的特征识别图片是否属于不适图片，例如，融合图片标签、图片分类等维度的信息。
73.如此，通过上述被举报图片的审核调度机制，可以在审核人力资源有限的情况下，优先处理影响更恶劣的被举报图片(即上述第一候选不适图片)，对于影响相对较轻的被举报图片(即上述第二候选不适图片)，可以根据多模态识别模型对该图片的识别结果，优先审核更有可能属于不适图片的被举报图片，靠后审核不太可能属于不适图片的被举报图片，使得审核人力资源得到合理的分配利用。
74.步骤203：若在所述图片检索库中检索到所述匹配参考不适图片，则确定所述目标图片属于不适图片。
75.若服务器通过上述步骤202在图片检索库中检索到目标图片对应的匹配参考不适图片，则说明目标图片与图片检索库中存储的某张或某几张参考不适图片较为相似，因此，可以判定该目标图片属于不适图片，后续可以禁止该目标图片上线，或者限制该目标图片的上线范围。
76.若服务器通过上述步骤202在图片检索库中没有检索到目标图片对应的匹配参考不适图片，为了更有效地防止不适图片出现在线上，本技术实施例提供的方法，可以进一步
通过多模态识别模型确定该目标图片属于不适图片的概率，并根据该目标图片属于不适图片的概率，确定该目标图片是否属于不适图片。此处所使用的多模态识别模型与上文中对第二候选不适图片进行初步判断时使用的多模态识别模型可以为相同的模型。
77.下面结合图3所示的多模态识别模型的工作原理示意图，对上述实现过程进行示例性介绍。如图3所示，多模态识别模型中包括图片识别子模型301、文本识别子模型302和多模态融合模块303。
78.具体实现时，服务器可以将目标图片本身以及与目标图片相关的文本信息输入多模态识别模型；在不同的应用场景中，上述与目标图片相关的文本信息可以为不同类型的文本信息；例如，在对待发布的信息资讯进行审核的应用场景中，与目标图片相关的文本信息可以是目标图片的图片标题、目标图片所属的信息资讯的标题、或者目标图片所属的信息资讯中的文本内容；又例如，在对待上线的视频进行审核的应用场景中，与目标图片相关的文本信息可以为目标图片中的字幕文本；本技术在此不对与目标文本相关的文本信息做任何限定。
79.将目标图片本身以及与目标图片相关的文本信息输入多模态识别模型后，多模态识别模型中的图片识别子模型301可以对输入的目标图片本身进行分析处理，进而输出该目标图片属于不适图片的概率。该图片识别子模型301具体可以为bit模型、inceptionv3模型、efficientnet模型、mobilenet模型和vggnet模型中的任意一者。优选的，该图片识别子模型301可以为bit模型，bit模型对预训练过程进行了优化，可以使用更大规模的预训练语料对其进行训练，即在预训练阶段使用gn+weight standardization取代bn(batch normalization)层，可以减少batch-size对训练的影响；此外，bit模型还提出了超规则(hyper rule)机制，该机制可以减少参数微调(finetune)阶段的调参工作；bit模型的表征能力通过预训练的优化能够得到大幅度地提升，在下游任务中只需要较少的标注样本进行finetune即可达到较好的效果。
80.将目标图片本身以及与目标图片相关的文本信息输入多模态识别模型后，多模态识别模型中的文本识别子模型302可以对与目标图片相关的文本信息进行分析处理，进而输出该目标图片属于不适图片的概率。该文本识别子模型302具体可以为bert模型、fasttext模型、lstm模型、textcnn模型中的任意一者。优选的，该文本识别子模型302可以为bert模型，bert模型在很多自然语言处理(natural language processing，nlp)任务中取得了很好的效果，bert使用双向transformer结构在大规模无监督语料上训练两个任务；一个任务是masked lm任务，例如，随机掩盖(mask)语料中15％的token，其中，80％的token用被掩盖掉的token替代，10％的token用任意token替代，剩余10％的token保持不变，模型需要通过上下文语义预测出被掩盖的token的对应值；另一个任务是next sentence prediction任务，例如，给定两个句子a和b，其中b有50％的可能性是a的下一句话，模型需要预测b是否为a的下一句话；bert模型在大规模无监督语料上训练这两个任务，可以使得自身能够学习到充分的上下文语义特征，并且由于在预训练阶段不需要标注数据，因此可以收集庞大的无监督语料对其进行预训练，预训练模型的表征能力可以得到大幅度的提升，在下游任务上微调bert模型的参数时只需使用少量的标注样本即可得到很好的效果。
81.图片识别子模型301和文本识别子模型302输出各自的识别结果后，多模态融合模块303可以综合考虑图片识别子模型301的识别结果和文本识别子模型302的识别结果，确
定目标图片属于不适图片的概率。具体的，多模态融合模块303可以采用基于概率融合(late fusion)的方式，即多模态融合模块303可以对图片识别子模型301输出的概率和文本识别子模型302输出的概率进行拼接(concat)，然后依次经过全连接网络和softmax层进行分类，输出目标图片属于不适图片的概率。
82.此外，在实际应用中，多模态融合模块303也可以采用基于特征融合(early fusion)的方式，即多模态融合模块303可以获取图片识别子模型301中的softmax层之前的全连接层输出的特征向量、以及文本识别子模型302中的softmax层之前的全连接层输出的特征向量，进而，对这两个特征向量进行拼接，然后依次经过全连接网络和softmax层进行分类，输出目标图片属于不适图片的概率。本技术在此不对多模态融合模块303融合特征的具体实现方式做任何限定。
83.服务器获取到多模态识别模型输出的目标图片属于不适图片的概率后，可以判断该概率是否超过预设概率阈值，若该概率超过预设概率阈值，则可以确定目标图片属于不适图片；反之，若该概率未超过预设概率阈值，则可以确定该目标图片并非不适图片。
84.如此，借助于与图片相关的文本能够在一定程度上表达图片内容的特点，本技术实施例通过多模态识别模型，从图片和相关文本两个维度识别待识别的图片是否属于不适图片，由此可以更有效地防止漏识别的情况发生。相比相关技术中仅使用单模态的图片识别模型识别图片是否属于不适图片，本技术实施例提供的技术方案可以借助与图片相关的文本，将包含有语义信息不明显的不适元素的不适图片识别出来，从而更有效地防止漏识别不适图片。
85.经实验证明，通过本技术实施例提供的多模态识别模型识别不适图片，该多模态识别模型的误判率为0.3％，该多模态识别模型的召回率达到70％，对比相关技术中单模态的图片识别模型，在相同的误判率下，模型的召回率提高了10％。
86.需要说明的是，训练上述多模态识别模型时具体可以采用两阶段的训练方式。先分别训练单模态下的分类任务，即分别训练图片识别子模型和文本识别子模型；示例性的，可以使用大规模的标注图片样本训练图片识别子模型，以使图片识别子模型能够有效地识别出不适图片，即完成image task，可以使用大规模的文本样本训练文本识别子模型，以使文本识别子模型能够有效地识别出包含有不适内容的文本，即完成text task。完成对于图片识别子模型和文本识别子模型的训练后，可以使用同时包括图片和文本信息的训练样本，对多模态识别模型进行整体训练，即完成fusion task。
87.上述训练方式的优势在于，对于两个单模态的识别模型(即图片识别子模型和文本识别子模型)，可以先分别采用大规模的单模态数据进行训练，使得图片识别子模型和文本识别子模型都能学习到充分的语义特征；然后，再使用小规模的共同数据(即同时包括图片和文本的训练样本数据)训练整个多模态识别模型，以学习融合特征。
88.此外，在本技术实施例提供的技术方案中，多模态融合模型除了可以综合考虑图片特征和相关文本特征，识别图片是否属于不适图片外，还可以进一步融合考虑图片标签tag、图片分类等特征，以识别图片是否属于不适图片，从而可以进一步降低不适图片的漏识别率。
89.具体的，上述多模态识别模型还可以包括参考识别子模型，该参考识别子模型可以包括标签识别子模型和图片类型识别子模型中的至少一种；其中，标签识别子模型用于
根据图片对应的标签识别图片是否属于不适图片，图片类型识别子模型用于根据图片对应的图片类型识别图片是否属于不适图片。相应地，多模态融合模块用于融合图片识别子模型的识别结果、文本识别子模型的识别结果以及参考识别子模型的识别结果，以确定图片属于不适图片的概率。
90.考虑到网络上很多图片都被配置有对应的标签，图片对应的标签在很多情况下可以反映图片中包括的元素或者与该图片相关的元素，因此，本技术实施例提供的技术方案可以构建并训练标签识别子模型，通过该标签识别子模型，根据图片对应的标签识别该图片是否属于不适图片。
91.考虑到网络上很多图片会被划分至相应的分类，而图片所属的分类(即图片类型)在一定程度上也能够反映图片是否属于不适图片，因此，本技术实施例提供的技术方案可以构建并训练图片类型识别子模型，通过该图片类型识别子模型，根据图片对应的图片类型识别该图片是否属于不适图片。
92.相应地，多模态识别模型中包括的多模态融合模块，应当将标签识别子模型的识别结果和/或图片类型识别子模型的识别结果，与图片识别子模型的识别结果和文本识别子模型的识别结果融合起来，以根据该融合后的结果确定图片属于不适图片的概率。如此，可以更准确地识别出不适图片。
93.此外，为了提升上述多模态识别模型的模型性能，使其能够适用于识别更多类型的不适图片，本技术实施例提供的技术方案，还可以将上文中的图片检索库中包括的参考不适图片作为训练样本，对多模态识别模型进行更新训练。
94.考虑到在一些情况下，多模态识别模型的图片识别性能有限，对于一些新增类型的不适图片可能难以准确地识别处理；因此，在本技术实施例提供的技术方案中，服务器可以利用图片检索库中包括的参考不适图片作为训练样本，对多模态识别模型定期地进行更新训练。由于图片检索库中包括的参考不适图片通常比较全面，涵盖有新增类型的不适图片，因此，基于该图片检索库中包括的参考不适图片对多模态识别模型进行更新训练，可以使得该多模态识别模型能够有效地识别出新增类型的不适图片，如此实现了一个闭环反馈机制，有助于提升不适图片识别系统的整体性能。
95.上述图片识别方法基于图片检索库识别目标图片是否属于不适图片，由于图片检索库支持随时向其中补充图片，因此，当出现新增类型的不适图片时，可以根据用户对该不适图片的举报情况以及该不适图片的审核情况，及时地将新增类型的不适图片添加至图片检索库中；如此，后续可以基于图片检索库快速地识别出该新增类型的不适图片，进而防止该新增类型的不适图片长时间地出现在线上，避免影响用户的资讯阅读体验。
96.针对上文描述的图片识别方法，本技术还提供了对应的图片识别装置，以使上述图片识别方法在实际中的应用以及实现。
97.参见图4，图4是上文图2所示的图片识别方法对应的图片识别装置400的结构示意图。如图4所示，该图片识别装置400包括：
98.图片获取模块401，用于获取待识别的目标图片；
99.图片检索模块402，用于在图片检索库中检索所述目标图片对应的匹配参考不适图片；所述匹配参考不适图片与所述目标图片之间的相似度满足预设相似条件；所述图片检索库中包括多张参考不适图片，所述多张参考不适图片包括被用户举报、且通过不适图
片审核的图片；
100.图片识别模块403，用于若在所述图片检索库中检索到所述匹配参考不适图片，则确定所述目标图片属于不适图片。
101.可选的，所述图片检索库中包括所述多张参考不适图片各自对应的特征向量；则所述图片检索模块402具体用于：
102.对所述目标图片进行向量化处理，得到所述目标图片对应的特征向量；
103.针对所述图片检索库中包括的每张所述参考不适图片对应的特征向量，计算所述目标图片对应的特征向量与所述参考不适图片对应的特征向量之间的相似度；若所述相似度超过预设相似度阈值，则确定所述参考不适图片为所述匹配参考不适图片。
104.可选的，在图4所示的图片识别装置400的基础上，参见图5，图5为本技术实施例提供的另一种图片识别装置500的结构示意图，如图5所示，该装置还包括：
105.第一图片检索库构建模块501，用于获取预设时段内被举报次数超过预设次数的图片，作为第一候选不适图片；将所述第一候选不适图片传输至审核通道，并获取所述第一候选不适图片对应的审核结果；若所述审核结果表示所述第一候选不适图片属于不适图片，则确定所述第一候选不适图片为所述参考不适图片，将所述参考不适图片添加至所述图片检索库。
106.可选的，在图4所示的图片识别装置400的基础上，参见图6，图6为本技术实施例提供的另一种图片识别装置600的结构示意图，如图6所示，该装置还包括：
107.第二图片检索库构建模块601，用于获取预设时段内被举报次数未超过预设次数的图片，作为第二候选不适图片；通过多模态识别模型对所述第二候选不适图片进行识别，根据识别结果确定所述第二候选不适图片对应的审核顺序；所述多模态识别模型包括图片识别子模型、文本识别子模型和多模态融合模块，所述图片识别子模型用于识别图片是否属于不适图片，所述文本识别子模型用于根据与所述图片相关的文本信息识别所述图片是否属于不适图片，所述多模态融合模块用于融合所述图片识别子模型的识别结果和所述文本识别子模型的识别结果，确定所述图片属于不适图片的概率；基于所述第二候选不适图片对应的审核顺序，将所述第二候选不适图片传输至审核通道，并获取所述第二候选不适图片对应的审核结果；若所述审核结果表示所述第二候选不适图片属于不适图片，则确定所述第二候选不适图片为所述参考不适图片，将所述参考不适图片添加至所述图片检索库。
108.可选的，在图4所示的图片识别装置400的基础上，参见图7，图7为本技术实施例提供的另一种图片识别装置700的结构示意图，如图7所示，该装置还包括：
109.模型识别模块701，用于若在所述图片检索库中未检索到所述匹配参考不适图片，则通过多模态识别模型确定所述目标图片属于不适图片的概率；所述多模态识别模型包括图片识别子模型、文本识别子模型和多模态融合模块，所述图片识别子模型用于识别图片是否属于不适图片，所述文本识别子模型用于根据与所述图片相关的文本信息识别所述图片是否属于不适图片，所述多模态融合模块用于融合所述图片识别子模型的识别结果和所述文本识别子模型的识别结果，确定所述图片属于不适图片的概率；
110.则所述图片识别模块403，还用于根据所述目标图片属于不适图片的概率，确定所述目标图片是否属于不适图片。
111.可选的，在图7所示的图片识别装置的基础上，所述多模态识别模型还包括参考识别子模型，所述参考识别子模型包括标签识别子模型和图片类型识别子模型中的至少一种；所述标签识别子模型用于根据图片对应的标签识别所述图片是否属于不适图片；所述图片类型识别子模型用于根据所述图片对应的图片类型识别所述图片是否属于不适图片；
112.则所述多模态融合模块，用于融合所述图片识别子模型的识别结果、所述文本识别子模型的识别结果以及参考识别子模型的识别结果，确定所述图片属于不适图片的概率。
113.可选的，在图7所示的图片识别装置的基础上，参见图8，图8为本技术实施例提供的另一种图片识别装置800的结构示意图，如图8所示，该装置还包括：
114.模型更新训练模块801，用于将所述图片检索库中包括的所述参考不适图片作为训练样本，对所述多模态识别模型进行更新训练。
115.上述图片识别装置基于图片检索库识别目标图片是否属于不适图片，由于图片检索库支持随时向其中补充图片，因此，当出现新增类型的不适图片时，可以根据用户对该不适图片的举报情况以及该不适图片的审核情况，及时地将新增类型的不适图片添加至图片检索库中；如此，后续可以基于图片检索库快速地识别出该新增类型的不适图片，进而防止该新增类型的不适图片长时间地出现在线上，避免影响用户的资讯阅读体验。
116.本技术实施例还提供了一种用于图片识别的设备，该设备具体可以是终端设备或者服务器，下面将从硬件实体化的角度对本技术实施例提供的终端设备和服务器进行介绍。
117.参见图9，图9是本技术实施例提供的终端设备的结构示意图。如图9所示，为了便于说明，仅示出了与本技术实施例相关的部分，具体技术细节未揭示的，请参照本技术实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(英文全称：personal digital assistant，英文缩写：pda)、销售终端(英文全称：point of sales，英文缩写：pos)、车载电脑等任意终端设备，以终端为计算机为例：
118.图9示出的是与本技术实施例提供的终端相关的计算机的部分结构的框图。参考图9，计算机包括：射频(英文全称：radio frequency，英文缩写：rf)电路910、存储器920、输入单元930、显示单元940、传感器950、音频电路960、无线保真(英文全称：wireless fidelity，英文缩写：wifi)模块970、处理器980、以及电源990等部件。本领域技术人员可以理解，图9中示出的计算机结构并不构成对计算机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
119.存储器920可用于存储软件程序以及模块，处理器980通过运行存储在存储器920的软件程序以及模块，从而执行计算机的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器920可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
120.处理器980是计算机的控制中心，利用各种接口和线路连接整个计算机的各个部分，通过运行或执行存储在存储器920内的软件程序和/或模块，以及调用存储在存储器920
内的数据，执行计算机的各种功能和处理数据，从而对计算机进行整体监控。可选的，处理器980可包括一个或多个处理单元；优选的，处理器980可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器980中。
121.在本技术实施例中，该终端所包括的处理器980还具有以下功能：
122.获取待识别的目标图片；
123.在图片检索库中检索所述目标图片对应的匹配参考不适图片；所述匹配参考不适图片与所述目标图片之间的相似度满足预设相似条件；所述图片检索库中包括多张参考不适图片，所述多张参考不适图片包括被用户举报、且通过不适图片审核的图片；
124.若在所述图片检索库中检索到所述匹配参考不适图片，则确定所述目标图片属于不适图片。
125.可选的，所述处理器980还用于执行本技术实施例提供的图片识别方法的任意一种实现方式的步骤。
126.参见图10，图10为本技术实施例提供的一种服务器1000的结构示意图。该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，cpu)1022(例如，一个或一个以上处理器)和存储器1032，一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中，存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1022可以设置为与存储介质1030通信，在服务器1000上执行存储介质1030中的一系列指令操作。
127.服务器1000还可以包括一个或一个以上电源1026，一个或一个以上有线或无线网络接口1050，一个或一个以上输入输出接口1058，和/或，一个或一个以上操作系统，例如windows servertm，mac os xtm，unixtm,linuxtm，freebsdtm等等。
128.上述实施例中由服务器所执行的步骤可以基于该图10所示的服务器结构。
129.其中，cpu 1022用于执行如下步骤：
130.获取待识别的目标图片；
131.在图片检索库中检索所述目标图片对应的匹配参考不适图片；所述匹配参考不适图片与所述目标图片之间的相似度满足预设相似条件；所述图片检索库中包括多张参考不适图片，所述多张参考不适图片包括被用户举报、且通过不适图片审核的图片；
132.若在所述图片检索库中检索到所述匹配参考不适图片，则确定所述目标图片属于不适图片。
133.可选的，cpu 1022还可以用于执行本技术实施例提供的图片识别方法的任意一种实现方式的步骤。
134.本技术实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行前述各个实施例所述的一种图片识别方法中的任意一种实施方式。
135.本技术实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算
机设备执行前述各个实施例所述的一种图片识别方法中的任意一种实施方式。
136.所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
137.在本技术所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
138.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
139.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
140.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(英文全称：read-only memory，英文缩写：rom)、随机存取存储器(英文全称：random access memory，英文缩写：ram)、磁碟或者光盘等各种可以存储计算机程序的介质。
141.应当理解，在本技术中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“a和/或b”可以表示：只存在a，只存在b以及同时存在a和b三种情况，其中a，b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。
142.以上所述，以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈少华余亭浩侯昊迪张绍明
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：一种基于互联网的农药包装废弃物回收设备的制作方法
上一篇：一种墩柱混凝土浇筑安全操作平台的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。