敏感数据识别方法、装置及设备与流程

文档序号:23986829发布日期:2021-02-20 12:19阅读:107来源:国知局
敏感数据识别方法、装置及设备与流程

[0001]
本发明涉及数据识别技术领域,特别是涉及敏感数据识别方法、装置及设备。


背景技术:

[0002]
当今,多媒体数据作为传递信息内容的常用载体,已经普遍存在人们的工作和生活中,且越来越海量。
[0003]
多媒体数据通常存在多种元素,而通过将多种元素组合在一起可以表征任一种元素所无法表征的含义。例如:针对一张既存在图像内容又存在文字内容的图片而言,该图片中图像内容和文字内容属于不同元素,通过将图像内容和文字内容组合在一起可以表征某一含义;或者,针对一张属于全身照的图片,该图片中的人脸部分和服饰部分属于不同元素,通过将人脸部分和服饰部分组合在一起可以表征某一含义。
[0004]
那么,如何有效识别多媒体数据是否属于敏感数据,是一个亟待解决的问题。


技术实现要素:

[0005]
本发明实施例的目的在于提供敏感数据识别方法、装置及设备,以实现有效识别多媒体数据是否属于敏感数据的目的。具体技术方案如下:
[0006]
第一方面,本发明实施例提供了一种敏感数据识别方法,所述方法包括:
[0007]
获取多媒体数据;
[0008]
对所述多媒体数据的多种指定元素分别进行元素识别,得到每一种指定元素的目标识别结果;其中,对每一种指定元素所进行的元素识别为:所得出识别结果能够用于判断所述多媒体数据是否敏感数据的识别方式;
[0009]
对所述多种指定元素的目标识别结果进行指定方式的融合分析,得到融合分析结果;
[0010]
基于所述融合分析结果,识别所述多媒体数据是否为敏感数据。
[0011]
可选地,所述对所述多种指定元素的目标识别结果进行指定方式的融合分析,得到融合分析结果,包括:
[0012]
检测关于所述多种指定元素的目标识别结果的组合内容,是否能够表征预设的多个寓意内容中的至少一个,得到检测结果,作为融合分析结果;其中,每一寓意内容所表征的含义均属于敏感性内容;
[0013]
所述基于所述融合分析结果,识别所述多媒体数据是否为敏感数据,包括:
[0014]
若所述融合分析结果表明关于所述多种指定元素的目标识别结果的组合内容,能够表征预设的多个寓意内容中的至少一个,则确定所述多媒体数据为敏感数据;否则,确定所述多媒体数据不为敏感数据。
[0015]
可选地,所述检测关于所述多种指定元素的目标识别结果的组合内容,是否能够表征预设的多个寓意内容中的至少一个,得到检测结果,包括:
[0016]
通过存储有预设知识图谱的图数据库,检测关于所述多种指定元素的目标识别结
果的组合内容,是否能够表征预设的多个寓意内容中的至少一个,得到检测结果;
[0017]
其中,所述预设知识图谱中至少记录有多个第一类节点、多个第二类节点,以及各个第一类节点与各个第二类节点的关联关系;所述多个第一类节点至少包括表示所述多种指定元素的潜在识别结果的多个节点,所述多个节点中的每一节点表示一个潜在识别结果,每一第二类节点表示一个寓意内容,所述关联关系用于表征各个第一类节点所表示内容与各个第二类节点所表示内容的相关性。
[0018]
可选地,各个潜在识别结果均属于实体内容,且对应有本体内容;
[0019]
所述多个第一类节点还包括:表示所述潜在识别结果对应的本体内容的节点。
[0020]
可选地,所述各个第一类节点与各个第二类节点的关联关系的表征形式包括:
[0021]
存在关联性的第一类节点和第二类节点相连接,且每一第二类节点的指定属性的属性值为与该第二类节点相连接的多个目标第一类节点的节点内容,所述多个目标第一类节点为所表示的内容在组合时,能够表征该第二类节点所表示内容的多个节点;
[0022]
所述通过存储有预设知识图谱的图数据库,检测关于所述多种指定元素的目标识别结果的组合内容,是否能够表征预设的多个寓意内容中的至少一个,得到检测结果,包括:
[0023]
将所述多种指定元素的目标识别结果输入所述图数据库,以使所述图数据库基于所述多种指定元素的目标识别结果,检测是否存在符合第一预设条件的第二类节点,得到检测结果;
[0024]
其中,所述第一预设条件为与多个指定节点相连接,且所述指定属性的属性值为所述多个指定节点的内容,所述多个指定节点为所述多种指定元素的目标识别结果对应的第一类节点,每一目标识别结果对应的第一类节点为表示该目标识别结果的第一类节点和表示该目标识别结果对应本体内容的第一类节点中的任一个。
[0025]
可选地,所述各个第一类节点与各个第二类节点的关联关系的表征形式包括:
[0026]
存在关联性的第一类节点和第二类节点相连接,且设置有所述关联性对于数据敏感识别的权重;
[0027]
所述通过存储有预设知识图谱的图数据库,检测关于所述多种指定元素的目标识别结果的组合内容,是否能够表征预设的多个寓意内容中的至少一个,得到检测结果,包括:
[0028]
将所述多种指定元素的目标识别结果输入所述图数据库,以使所述图数据库基于所述多种指定元素的目标识别结果,检测是否存在满足第二预设条件的第二类节点,得到检测结果;
[0029]
其中,所述第二预设条件为与多个指定节点相连接,且综合权重大于预定权重阈值;所述多个指定节点为所述多种指定元素的目标识别结果对应的第一类节点,每一目标识别结果对应的第一类节点为表示该目标识别结果的第一类节点和表示该目标识别结果对应本体内容的第一类节点中的任一个;所述综合权重为与各个指定节点的相关性对于数据敏感识别的权重的和值。
[0030]
可选地,多种指定元素的数量为两种;
[0031]
所述各个第一类节点与各个第二类节点的关联关系的表征形式包括:
[0032]
存在关联性的第一类节点和第二类节点相连接;
[0033]
所述通过存储有预设知识图谱的图数据库,检测关于所述多种指定元素的目标识别结果的组合内容,是否能够表征预设的多个寓意内容中的至少一个,得到检测结果,包括:
[0034]
将两种指定元素的目标识别结果输入所述图数据库,以使所述图数据库检测是否存在关于两个指定节点和一第二类节点的、且节点回路的路径长度小于预定阈值的链路,得到检测结果;
[0035]
其中,两个指定节点为表示所述两种指定元素的目标识别结果的两个第一类节点。
[0036]
可选地,所述多种指定元素包括以下内容中的至少两种:
[0037]
所述多媒体数据的多种数据类型下的数据内容;
[0038]
所述多媒体数据的指定数据类型下的数据内容中的部分内容。
[0039]
第二方面,本发明实施例提供了一种敏感数据识别装置,所述装置包括:
[0040]
获取模块,用于获取多媒体数据;
[0041]
识别模块,用于对所述多媒体数据的多种指定元素分别进行元素识别,得到每一种指定元素的目标识别结果;其中,对每一种指定元素所进行的元素识别为:所得出识别结果能够用于判断所述多媒体数据是否敏感数据的识别方式;
[0042]
分析模块,用于对所述多种指定元素的目标识别结果进行指定方式的融合分析,得到融合分析结果;
[0043]
确定模块,用于基于所述融合分析结果,识别所述多媒体数据是否为敏感数据。
[0044]
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
[0045]
存储器,用于存放计算机程序;
[0046]
处理器,用于执行存储器上所存放的程序时,实现上述第一方面所提供的方法的步骤。
[0047]
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述的第一方面所提供的方法的步骤。
[0048]
本发明实施例有益效果:
[0049]
本发明实施例所提供的方案中,在获取到多媒体数据后,对多媒体数据的多种指定元素分别进行元素识别,得到每一种指定元素的目标识别结果,其中,对每一种指定元素所进行的元素识别为:所得出识别结果能够用于判断多媒体数据是否敏感数据的识别方式;对多种指定元素的目标识别结果进行指定方式的融合分析,得到融合分析结果;基于融合分析结果,识别多媒体数据是否为敏感数据。由于多媒体数据中的多种元素组合时能够表征某一含义,因此,本方案在识别敏感数据时,首先针对多种指定元素进行单一识别,得到每种元素所表征的单独含义,然后,通过对多种指定元素的单一识别结果来进行融合分析,来识别多媒体数据是否为敏感数据,从而得到识别结果。可见,通过利用本方案可以实现有效识别多媒体数据是否属于敏感数据的目的。
[0050]
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
[0051]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
[0052]
图1为本发明实施例所提供的敏感数据识别方法的流程图;
[0053]
图2为本发明实施例所提供的敏感数据识别方法的另一流程图;
[0054]
图3为本发明实施例所提供的知识图谱的节点内容的关系示意图;
[0055]
图4为本发明实施例所提供的敏感数据识别装置的结构示意图;
[0056]
图5为本发明实施例所提供的电子设备的结构示意图。
具体实施方式
[0057]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0058]
为了实现有效识别多媒体数据是否属于敏感数据的目的,本发明实施例提供了敏感数据识别方法、系统、装置、电子设备及存储介质。
[0059]
下面首先对本发明实施例所提供的敏感数据识别方法进行介绍。
[0060]
本发明实施例所提供的敏感数据识别方法可以应用于电子设备。在具体应用中,该电子设备可以为终端设备,例如:笔记本电脑、台式电脑、平板电脑、智能手机等;当然,该电子设备也可以为服务器。
[0061]
并且,本发明实施例所提供的敏感数据识别方法的执行主体可以为运行于电子设备中的敏感数据识别装置。其中,该敏感数据识别装置可以为专门的用于识别敏感数据的客户端软件,也可以为现有的存在敏感数据识别需求的客户端软件中的插件程序。
[0062]
另外,本发明实施例所提及的多媒体数据可以包括图片或视频,等等,也就是说,一张图片可以作为待进行敏感数据识别的多媒体数据,而一段视频也可以作为待进行敏感数据识别的多媒体数据。
[0063]
可以理解的是,所谓的敏感数据,也可以称为违规数据,是存在不良影响或涉及违法犯罪的数据,例如:涉恐数据、损坏国家形象和民族团结的数据,等等。而在不同的场景下,敏感数据的定义可以不同。其中,在涉政场景下,损坏国家威严、民族团结、领导人形象等的多媒体数据均可以认为是敏感数据。例如:一张图片中,图像内容体现一个农村孩子在泥地中艰难行走,而文字内容是体现歌颂人民幸福的内容,该图像内容和文字内容组合在一起可以表征出暗讽国内政治或形势的含义,则该图片属于敏感数据。
[0064]
如图1所示,本发明实施例提供的敏感数据识别方法,可以包括如下步骤:
[0065]
s101,获取多媒体数据;
[0066]
其中,该敏感数据识别装置所获取到的多媒体数据为待进行敏感数据识别的数据,该多媒体数据可以为图片,也可以为视频,并且,该多媒体数据的数量可以为一个或多个,每一个多媒体数据是否属于敏感数据的识别过程均相同。
[0067]
并且,多媒体数据的获取方式可以存在多种。示例性的,可以利用网络爬虫,从网络上爬取多媒体数据;或者,从指定文件路径下获取多媒体数据;或者,从人工输入的关于多媒体数据的文件包中获取多媒体数据。
[0068]
s102,对该多媒体数据的多种指定元素分别进行元素识别,得到每一种指定元素的目标识别结果;其中,对每一种指定元素所进行的元素识别为:所得出识别结果能够用于判断该多媒体数据是否敏感数据的识别方式;
[0069]
其中,每种指定元素为能够单独进行识别的且能够表征具体含义的数据。其中,多种指定元素包括以下内容中的至少两种:该多媒体数据的多种数据类型下的数据内容;该多媒体数据的指定数据类型下的数据内容中的部分内容。
[0070]
示例性的,若该多媒体数据为图片,则该多种指定元素可以包括:图像内容和文字内容两种元素;或者,图像内容中的人脸部分和服饰部分两种元素;或者,文字内容、图像内容中的人脸部分和服饰部分三种元素;或者,文字内容、图像内容中的人脸部分、服饰部分、物体部分四种元素,等等。
[0071]
示例性的,若该多媒体数据为视频,该多种指定元素可以包括:视频帧序列和音频帧序列两种元素;或者,视频帧序列中的人脸数据和音频帧序列。
[0072]
可以理解的是,为了适应涉及多种应用场景的多媒体数据,该多种指定元素可以涵盖各种应用场景的多媒体数据的元素,此时,获取到的多媒体数据实际包含的指定元素的数量可以不等于该固定数量。当然,针对不同的应用场景,该多种指定元素的数量和具体类型可以不同。示例性的,在应用场景1中,多张指定元素包括a种元素和b种元素;在应用场景2中,多种指定元素可以包括a种元素、b种元素和c种元素。
[0073]
另外,由于每一种指定元素的目标识别结果需要用于分析多媒体数据是否为敏感数据,因此,对每一种指定元素所进行的元素识别为:所得出识别结果能够用于判断该多媒体数据是否敏感数据的识别方式。例如,多种指定元素可以包括:图像内容和文字内容,考虑到情感色彩不同的图像内容和文字内容组合在一起有可能表征敏感性内容,因此,针对图像内容所进行的元素识别可以为情感色彩识别,而对于文字内容所进行的元素识别可以为:情感色彩识别,或者,关于情感色彩和关键字的识别,进而,通过情感色彩识别、关键字识别所得到的识别结果能够用于敏感数据识别。其中,情感色彩识别所针对情感色彩可以包括至少两种,例如:正面和负面两种,或者,悲伤和欢快两种,或者,贫苦和非贫苦两种,等等。
[0074]
又如:多种指定元素可以包括:图像内容中的人脸部分和服饰部分,那么,考虑到人脸部分和服饰部分的搭配不当可以使得该多媒体数据属于敏感性数据,因此,针对人脸部分所进行的元素识别可以为:身份识别,而针对服饰部分的识别可以为:服饰类型识别,进而,通过身份识别和服饰类型识别所得到的识别结果能够用于敏感数据的识别。
[0075]
又如:多张指定元素可以包括:视频帧序列和音频帧序列,那么,考虑到不同情感色彩的视频帧序列和音频帧序列相组合可能表征敏感性内容,因此,针对视频帧序列和音频帧序列所进行的元素识别可以为:情感色彩识别,进而,通过情感色彩识别所得到的识别结果能够用于敏感数据的识别。
[0076]
需要强调的是,上述所给出的多种指定元素的具体类型以及具体识别方式仅仅作为示例,并不应该构成对本发明实施例的限定。并且,针对任一种元素的识别而言,可以存
在多个潜在识别结果,而目标识别结果为多个潜在识别结果中的一个;而针对任一种元素的识别所采用的识别方式可以为任一种能够实现识别目的的方式,本发明实施例对此不做限定,示例性的,可以利用预先训练的情感分析模型来识别元素的情感色彩
[0077]
s103,对该多种指定元素的目标识别结果进行指定方式的融合分析,得到融合分析结果;
[0078]
s104,基于该融合分析结果,识别该多媒体数据是否为敏感数据。
[0079]
在获取到每一种指定元素的目标识别结果后,考虑到多种指定元素可以共同表征某一含义,因此,可以对多种指定元素的目标识别结果进行指定方式的融合分析,从而基于融合分析结果来识别该多媒体数据是否为敏感数据。
[0080]
其中,对该多种指定元素的目标识别结果进行指定方式的融合分析,得到融合分析结果,进而,基于该融合分析结果,识别该多媒体数据是否为敏感数据的具体实现方式可以存在多种。示例性的,在一种实现方式中,对该多种指定元素的目标识别结果进行指定方式的融合分析,得到融合分析结果,可以包括:
[0081]
对多种指定元素的目标识别结果的进行向量化,得到每种指定元素的目标识别结果的向量;按照预定的拼接方式,对多种指定元素的目标识别结果的向量进行拼接,得到拼接向量;将拼接向量输入至预先训练的用于识别敏感数据的神经网络模型中,得到输出结果,作为融合分析结果;其中,该输出结果为是否属于敏感数据的置信度;
[0082]
相应的,基于该融合分析结果,识别该多媒体数据是否为敏感数据,包括:
[0083]
当融合分析结果大于预设置信度阈值时,判定该多媒体数据为敏感数据,否则,判定该多媒体数据不为敏感数据。
[0084]
其中,神经网络模型的具体结构可以采用任一种模型结构;并且,该神经网络模型的训练过程可以包括:确定样本多媒体数据,对样本多媒体数据中的多种指定元素进行元素识别,得到多个样本识别结果;对多个样本识别结果进行向量化,得到多个样本识别结果的向量,并按照预定的拼接方式,对多个样本识别结果的向量进行拼接,得到样本拼接向量;将样本拼接向量输入至训练中的神经网络模型中,得到预测结果;基于该预测结果和该样本多媒体数据的标签信息的差异,确定该神经网络模型是否收敛,如果收敛,则训练完成;如果未收敛,调整神经网络模型的参数,继续训练。其中,该样本多媒体数据的标签信息为表征样本媒体数据是否为敏感数据的信息。
[0085]
可以理解的是,除了利用神经网络模型,对该多种指定元素的目标识别结果进行指定方式的融合分析,得到融合分析结果,以及基于该融合分析结果,识别该多媒体数据是否为敏感数据还可以采用其他方式,后续结合具体的实施例,对其他具体实现方式进行详细介绍。
[0086]
本发明实施例所提供的方案中,在获取到多媒体数据后,对多媒体数据的多种指定元素分别进行元素识别,得到每一种指定元素的目标识别结果,其中,对每一种指定元素所进行的元素识别为:所得出识别结果能够用于判断多媒体数据是否敏感数据的识别方式;对多种指定元素的目标识别结果进行指定方式的融合分析,得到融合分析结果;基于融合分析结果,识别多媒体数据是否为敏感数据。由于多媒体数据中的多种元素组合时能够表征某一含义,因此,本方案在识别敏感数据时,首先针对多种指定元素进行单一识别,得到每种元素所表征的单独含义,然后,通过对多种指定元素的单一识别结果来进行融合分
析,来识别多媒体数据是否为敏感数据,从而得到识别结果。可见,通过利用本方案可以实现有效识别多媒体数据是否属于敏感数据的目的。
[0087]
下面结合另一实施例,对本发明实施例所提供的敏感数据识别方法进行介绍。
[0088]
如图2所示,本发明实施例提供的敏感数据识别方法,可以包括如下步骤:
[0089]
s201,获取多媒体数据;
[0090]
s202,对该多媒体数据的多种指定元素分别进行元素识别,得到每一种指定元素的目标识别结果;
[0091]
其中,对每一种指定元素所进行的元素识别为:所得出识别结果能够用于判断该多媒体数据是否敏感数据的识别方式。
[0092]
本实施例中,步骤s201-s202与上述实施例中的步骤s101-s102相同,在此不做赘述。
[0093]
s203,检测关于该多种指定元素的目标识别结果的组合内容,是否能够表征预设的多个寓意内容中的至少一个,得到检测结果,作为融合分析结果;其中,每一寓意内容所表征的含义均属于敏感性内容;
[0094]
s204,若该融合分析结果表明关于该多种指定元素的目标识别结果的组合内容,能够表征预设的多个寓意内容中的至少一个,则确定该多媒体数据为敏感数据;否则,确定该多媒体数据不为敏感数据。
[0095]
其中,s203-s204为上述实施例中s103-s104的一种具体实现方式。
[0096]
本实施例中,可以基于具体的应用场景,预先设置多个寓意内容,每一寓意内容所表征的含义均属于敏感性内容。示例性的,涉政场景下,该多个寓意内容可以包括:暗讽国内政治、攻击领导人、港独等等中的多个。
[0097]
进而,敏感数据识别过程中,在获取到多个目标识别结果后,检测关于该多种指定元素的目标识别结果的组合内容,是否能够表征预设的多个寓意内容中的至少一个,得到检测结果,作为融合分析结果;进而,基于该融合分析结果是否表明关于多种指定元素的目标识别结果的组合内容,能够表征预设的多个寓意内容中的至少一个,来确定该多媒体数据是否为敏感数据。
[0098]
可选地,在一种实现方式中,预先分析多种指定元素的潜在识别结果的各种组合所表征的寓意内容,从而可以建立有关于多种指定元素的潜在识别结果的组合内容与寓意内容的映射关系;其中,每一组合内容中包括每种指定元素的一个潜在识别结果。例如:指定元素1对应有潜在识别结果a和b,指定元素2对应有潜在识别结果c和d,指定元素3对应有潜在识别结果e和f,经过人工分析可知,潜在识别结果a、c和e组合在一起时可以表征寓意内容l1,潜在识别结果a、d和f组合在一起时可以表征寓意内容l2,潜在识别结果b、c和f组合在一起时可以表征寓意内容l3,则可以建立如下映射关系:a、c和e,对应有l1,a、d和f对应有l2,b、c和f对应有l3。
[0099]
相应的,检测关于多种指定元素的目标识别结果的组合内容,是否能够表征预设的多个寓意内容中的至少一个,得到检测结果,可以包括:
[0100]
从预设的映射关系中,检测是否存在与关于多种指定元素的目标识别结果的组合内容所对应的寓意内容,得到检测结果。
[0101]
可选地,在一种实现方式中,可以基于各个寓意内容和潜在识别结果来构建知识
图谱,进而基于知识图谱来实现检测;相应的,检测关于多种指定元素的目标识别结果的组合内容,是否能够表征预设的多个寓意内容中的至少一个,得到检测结果,可以包括:
[0102]
通过存储有预设知识图谱的图数据库,检测关于多种指定元素的目标识别结果的组合内容,是否能够表征预设的多个寓意内容中的至少一个,得到检测结果;
[0103]
其中,该预设知识图谱中至少记录有多个第一类节点、多个第二类节点,以及各个第一类节点与各个第二类节点的关联关系;该多个第一类节点至少包括表示该多种指定元素的潜在识别结果的多个节点,该多个节点中的每一节点表示一个潜在识别结果,每一第二类节点表示一个寓意内容,该关联关系用于表征各个第一类节点所表示内容与各个第二类节点所表示内容的相关性。
[0104]
另外,各个潜在识别结果均属于实体内容,且对应有本体内容;相应的,多个第一类节点还包括:表示潜在识别结果对应的本体内容的节点。其中,本体内容是概括性内容。例如:领导1、领导2和领导3均属于实体内容,如果领导1和领导2为国内领导人,而领导3属于国外领导人,则该国内领导人则为本体内容,且与领导1和领导2对应,该国外领导人为本体内容,且与领导3对应。例如:贫苦、悲伤均可以属于实体内容,语义负面可以为本体内容,且与贫苦和悲伤对应。针对潜在识别结果较多的指定元素而言,可以在知识图谱中设置关于该指定元素的潜在识别结果的第一类节点,并且,设置用于表示该较多的潜在识别结果对应的本体内容的第一类节点,这样,在表示本体内容的第一类节点与第二类节点相连接时,则该本体内容下的各实体内容均与相连接的第二类节点的内容具有相关性。另外,本体内容的级别可以设置一级或多级,例如:一级为本体内容-实体内容,二级为本体内容-本体内容-实体内容。
[0105]
为了方案清楚以及布局清晰,后续对通过存储有预设知识图谱的图数据库,检测关于所述多种指定元素的目标识别结果的组合内容,是否能够表征预设的多个寓意内容中的至少一个,得到检测结果的具体实现方式进行示例性介绍。
[0106]
本方案中,由于多媒体数据通过多种元素来表征某一含义,因此,本方案在识别敏感数据时,首先针对多种指定元素进行单一识别,得到每种元素所表征的单独含义,然后,通过预设的知识图谱对多种指定元素的单一识别结果进行融合分析,来识别多媒体数据是否为敏感数据,得到识别结果。可见,通过本方案可以实现有效识别多媒体数据是否属于敏感数据的目的。
[0107]
为了方案清楚以及布局清晰,下面对通过存储有预设知识图谱的图数据库,检测关于多种指定元素的目标识别结果的组合内容,是否能够表征预设的多个寓意内容中的至少一个,得到检测结果的具体实现方式进行示例性介绍。
[0108]
示例性的,在一种实现方式中,各个第一类节点与各个第二类节点的关联关系的表征形式可以包括:
[0109]
存在关联性的第一类节点和第二类节点相连接,且每一第二类节点的指定属性的属性值为与该第二类节点相连接的多个目标第一类节点的节点内容,多个目标第一类节点为所表示的内容在组合时,能够表征该第二类节点所表示内容的多个节点;
[0110]
相应的,通过存储有预设知识图谱的图数据库,检测关于多种指定元素的目标识别结果的组合内容,是否能够表征预设的多个寓意内容中的至少一个,得到检测结果,包括:
[0111]
将多种指定元素的目标识别结果输入该图数据库,以使该图数据库基于该多种指定元素的目标识别结果,检测是否存在符合第一预设条件的第二类节点,得到检测结果;
[0112]
其中,第一预设条件为与多个指定节点相连接,且指定属性的属性值为多个指定节点的内容,多个指定节点为多种指定元素的目标识别结果对应的第一类节点,每一目标识别结果对应的第一类节点为表示该目标识别结果的第一类节点和表示该目标识别结果对应本体内容的第一类节点中的任一个。
[0113]
可以理解的是,任一第二类节点的指定属性的属性值的数量可以为一个或多个;并且,指定属性可以为用于表征敏感性的属性。并且,某一第一类节点和一个第二类节点存在关联性具体指:该某一第一类节点所表示内容和其他第一类节点所表示内容组合在一起时能够表征该一个第二类节点所表示的内容。
[0114]
其中,多个第一类节点仅仅包括表示各个潜在识别结果的多个节点时,每一第二类节点相连接的多个目标第一类节点即为多个表示潜在识别结果的第一类节点,该多个表示潜在识别结果的第一类节点的内容在组合时,能够表征该第二类节点所表示的内容。举例而言,指定元素a的一个潜在识别结果1为:负面情感,指定元素b的一个潜在识别结果2为:正面情感,若指定元素a的潜在识别结果1和指定元素b的潜在识别结果2组合时,能够表征寓意内容1,则知识图谱中可以设置表示潜在识别结果1的第一类节点a、表示潜在识别结果2的第一类节点b,以及表示寓意内容的第二类节点c,将第一类节点a、第一类节点b分别和第二类节点c相连接,并且将第一类节点a所表示的潜在识别结果1和第一类节点b所表示的潜在识别结果2的组合内容,作为该第二类节点c的指定属性的一个属性值。
[0115]
而多个第一类节点既包括表示各个潜在识别结果的多个节点,又包括表示潜在识别结果对应本体内容时,每一第二类节点相连接的多个目标第一类节点可以包括表示潜在识别结果的第一类节点和/或表示本体内容的第一类节点。举例而言,指定元素a的一个潜在识别结果1为:人员1,指定元素b的一个潜在识别结果2为:地点1,若指定元素a的潜在识别结果1和指定元素b的潜在识别结果2组合时,能够表征寓意内容2,则知识图谱中可以设置表示潜在识别结果1的第一类节点a、表示潜在识别结果2的第一类节点b、表示潜在识别结果1对应的本体内容1的第一类节点c,以及表示寓意内容2的第二类节点d,将第一类节点a和第一类节点c相连接,第一类节点c和第一类节点b分别和第二类节点d相连接,并且将第一类节点c所表示的本体内容1和第一类节点b所表示的潜在识别结果2的组合内容,作为该第二类节点d的指定属性的一个属性值。
[0116]
基于上述的关于各个第一类节点与各个第二类节点的关联关系的表征形式,在获取到多个目标识别结果后,可以将目标识别结果作为检测依据,输入至图数据库中;相应的,图数据库可以基于检测依据,来检测是否存在符合第一预设条件的第二类节点,得到检测结果。
[0117]
可选地,在另一种实现方式中,各个第一类节点与各个第二类节点的关联关系的表征形式可以包括:
[0118]
存在关联性的第一类节点和第二类节点相连接,且设置有该关联性对于数据敏感识别的权重,即相连接的边对应有权重;
[0119]
相应的,通过存储有预设知识图谱的图数据库,检测关于多种指定元素的目标识别结果的组合内容,是否能够表征预设的多个寓意内容中的至少一个,得到检测结果,可以
包括:
[0120]
将多种指定元素的目标识别结果输入图数据库,以使图数据库基于多种指定元素的目标识别结果,检测是否存在满足第二预设条件的第二类节点,得到检测结果;
[0121]
其中,第二预设条件为与多个指定节点相连接,且综合权重大于预定权重阈值;多个指定节点为多种指定元素的目标识别结果对应的第一类节点,每一目标识别结果对应的第一类节点为表示该目标识别结果的第一类节点和表示该目标识别结果对应本体内容的第一类节点中的任一个;综合权重为与各个指定节点的相关性对于数据敏感识别的权重的和值。
[0122]
其中,当多个第一类节点仅仅包括表示各个潜在识别结果的多个节点时,与第二类节点存在关联性的第一类节点是指表示潜在识别结果的节点;当多个第一类节点既包括表示各个潜在识别结果的多个节点,又包括表示潜在识别结果对应的本体内容的节点,与第二类节点存在关联性的第一类节点可以是表示潜在识别结果的节点或表示潜在识别结果对应本体内容的节点。并且,基于人工分析可以确定出相连接的第二类节点和第一类节点的关联紧密度,基于关联紧密度确定出相连接的第二类节点和第一类节点所存在的关联性,对于数据敏感识别的权重。举例而言:指定元素a的一个潜在识别结果1为:负面情感,指定元素b的一个潜在识别结果2为:正面情感,若指定元素a的潜在识别结果1和指定元素b的潜在识别结果2组合时,能够表征寓意内容1,则知识图谱中可以设置表示潜在识别结果1的第一类节点a、表示潜在识别结果2的第一类节点b,以及表示寓意内容1的第二类节点c,将第一类节点a、第一类节点b分别和第二类节点c相连接,并且,设置第一类节点a和第二类节点c的关联性所对应的权重为0.7,设置第一类节点b和第二类节点c的关联性所对应的权重为0.2。
[0123]
其中,在设置权重时,针对与第二类节点c均存在关联性的第一类节点a和第一类节点b,若第一类节点a相对于第一类节点b而言,对于能够表征该第二类节点的贡献较大,即对于敏感性贡献较大,则第一类节点a与第二类节点c的关联性对应的权重,大于第一类节点b与第二类节点c的关联性所对应的权重,且权重差值可以大于预定阈值。另外,每一第一类节点与第二类节点所存在关联性对应的权重具有初始值,且在输入到图数据库中的多个输入内容中存在指定内容时,多个输入内容所属的第一类节点与各个第二类节点所存在关联性对应的权重可以增大。示例性的,指定内容可以为预先确定出的对于敏感性贡献较大的识别结果,当然并不局限于此。
[0124]
该种实现方式中,通过为相连接的第一类节点和第二类节点的关联性设置权重,即为连接边设置权重,这样使得图数据库可以在获得作为检测依据的多个目标识别结果后,可以通过计算综合权重的方式,选取第二类节点。
[0125]
可选地,在另一种实现方式中,多种指定元素的数量为两种;
[0126]
各个第一类节点与各个第二类节点的关联关系的表征形式包括:
[0127]
存在关联性的第一类节点和第二类节点相连接;
[0128]
相应的,通过存储有预设知识图谱的图数据库,检测关于多种指定元素的目标识别结果的组合内容,是否能够表征预设的多个寓意内容中的至少一个,得到检测结果,包括:
[0129]
将两种指定元素的目标识别结果输入图数据库,以使图数据库检测是否存在关于
两个指定节点和一第二类节点的、且节点回路的路径长度小于预定阈值的链路,得到检测结果;其中,两个指定节点为表示所述两种指定元素的目标识别结果的两个第一类节点。
[0130]
其中,当多个第一类节点仅仅包括表示各个潜在识别结果的多个节点时,与第二类节点存在关联性的第一类节点是指表示潜在识别结果的节点;当多个第一类节点既包括表示各个潜在识别结果的多个节点,又包括表示潜在识别结果对应的本体内容的节点,与第二类节点存在关联性的第一类节点可以是表示潜在识别结果的节点或表示潜在识别结果对应本体内容的节点。
[0131]
可以理解的是,由于存在关联性的第一类节点和第二类节点相连接,而表示潜在识别结果的第一类节点与表示该潜在识别结果对应本体内容的第一类节点连接,因此,如果两个目标识别结果组合在一起能够表征一个寓意内容,那么,表示两个目标识别结果的两个第一类节点能形成形成一条链路,且所形成链路中的路径长度会较短。
[0132]
因此,该种实现方式中,通过检测表示两个目标识别结果的两个第一类节点是否能形成形成一条链路,以及在形成链路时所经历的节点回路的路径长度是否小于预设阈值,来检测关于多种指定元素的目标识别结果的组合内容,是否能够表征预设的多个寓意内容中的至少一个。
[0133]
下面结合一具体示例,对本发明实施例所提供的敏感数据识别方法进行介绍。
[0134]
预先建立有知识图谱,图3示出了该知识图谱中各个第一类节点的节点内容和各个第二类节点的节点内容的关系,具体而言,第一列示出了各个第一类节点的节点内容,第二列示出了各个第二类节点的节点内容。其中,“正面”、“70周年国庆”、“贫苦”这三个内容组合在一起可以表征“暗讽国内政治”,也就是,“正面”、“70周年国庆”、“贫苦”这三个内容均与“暗讽国内政治”存在关联性,因此,在知识图谱中表示“正面”、“70周年国庆”、“贫苦”的三个第一类节点分别与表示“暗讽国内政治”的第二类节点相连接,且表示“暗讽国内政治”的第二类节点的指定属性的一个属性值设置为:“正面”、“70周年国庆”、“贫苦”。图3中示出了表示“正面”、“70周年国庆”、“贫苦”的三个第一类节点分别与表示“暗讽国内政治”的第二类节点相连接的示意图。
[0135]
假设一目标视频,视频帧序列描述的是一个孩子在去学校的路上,背着书包在泥地里前行,而音频帧序列的音频内容是:祝祖国70周年国庆快乐;
[0136]
利用本发明实施例所提供的敏感数据识别方法对该视频进行处理的过程包括:
[0137]
获取该目标视频;
[0138]
对该目标视频的作为指定元素a的视频帧序列进行抽帧处理,得到至少一帧视频帧,利用深度学习算法,对该至少一帧进行情感色彩识别,得到指定元素a的目标识别结果“贫苦”;
[0139]
对该目标视频的作为指定元素b的音频帧序列进行情感色彩识别,得到指定元素b的目标识别结果“正面”;
[0140]
对该目标视频的作为指定元素b的音频帧序列进行关键字识别,得到指定元素b的目标识别结果“70周年国庆”;
[0141]
将所得到的各个目标识别结果输入到存储有知识图谱的图数据库,以使得该图数据库可以检测到与“贫苦”、“正面”和“70周年国庆”均相连接,且指定属性的属性值为该三个内容的第二类节点,则判断出该视频为敏感数据。
[0142]
可见,通过利用本方案可以实现有效识别多媒体数据是否属于敏感数据的目的。
[0143]
相应于上述的方法实施例,本发明实施例提供了一种敏感数据识别装置,如图4所示,所述装置可以包括:
[0144]
获取模块410,用于获取多媒体数据;
[0145]
识别模块420,用于对所述多媒体数据的多种指定元素分别进行元素识别,得到每一种指定元素的目标识别结果;其中,对每一种指定元素所进行的元素识别为:所得出识别结果能够用于判断所述多媒体数据是否敏感数据的识别方式;
[0146]
分析模块430,用于对所述多种指定元素的目标识别结果进行指定方式的融合分析,得到融合分析结果;
[0147]
确定模块440,用于基于所述融合分析结果,识别所述多媒体数据是否为敏感数据。
[0148]
本发明实施例所提供的方案中,在获取到多媒体数据后,对多媒体数据的多种指定元素分别进行元素识别,得到每一种指定元素的目标识别结果,其中,对每一种指定元素所进行的元素识别为:所得出识别结果能够用于判断多媒体数据是否敏感数据的识别方式;对多种指定元素的目标识别结果进行指定方式的融合分析,得到融合分析结果;基于融合分析结果,识别多媒体数据是否为敏感数据。由于多媒体数据中的多种元素组合时能够表征某一含义,因此,本方案在识别敏感数据时,首先针对多种指定元素进行单一识别,得到每种元素所表征的单独含义,然后,通过对多种指定元素的单一识别结果来进行融合分析,来识别多媒体数据是否为敏感数据,从而得到识别结果。可见,通过利用本方案可以实现有效识别多媒体数据是否属于敏感数据的目的。
[0149]
可选地,所述分析模块430,包括:
[0150]
分析子模块,用于检测关于所述多种指定元素的目标识别结果的组合内容,是否能够表征预设的多个寓意内容中的至少一个,得到检测结果,作为融合分析结果;其中,每一寓意内容所表征的含义均属于敏感性内容;
[0151]
所述确定模块440,包括:
[0152]
确定子模块,用于若所述融合分析结果表明关于所述多种指定元素的目标识别结果的组合内容,能够表征预设的多个寓意内容中的至少一个,则确定所述多媒体数据为敏感数据;否则,确定所述多媒体数据不为敏感数据。
[0153]
可选地,分析子模块,包括:
[0154]
分析单元,用于通过存储有预设知识图谱的图数据库,检测关于所述多种指定元素的目标识别结果的组合内容,是否能够表征预设的多个寓意内容中的至少一个,得到检测结果,作为融合分析结果;
[0155]
其中,所述预设知识图谱中至少记录有多个第一类节点、多个第二类节点,以及各个第一类节点与各个第二类节点的关联关系;所述多个第一类节点至少包括表示所述多种指定元素的潜在识别结果的多个节点,所述多个节点中的每一节点表示一个潜在识别结果,每一第二类节点表示一个寓意内容,所述关联关系用于表征各个第一类节点所表示内容与各个第二类节点所表示内容的相关性。
[0156]
可选地,各个潜在识别结果均属于实体内容,且对应有本体内容;
[0157]
所述多个第一类节点还包括:表示所述潜在识别结果对应的本体内容的节点。
[0158]
可选地,所述各个第一类节点与各个第二类节点的关联关系的表征形式包括:
[0159]
存在关联性的第一类节点和第二类节点相连接,且每一第二类节点的指定属性的属性值为与该第二类节点相连接的多个目标第一类节点的节点内容,所述多个目标第一类节点为所表示的内容在组合时,能够表征该第二类节点所表示内容的多个节点;
[0160]
所述分析单元具体用于:
[0161]
将所述多种指定元素的目标识别结果输入所述图数据库,以使所述图数据库基于所述多种指定元素的目标识别结果,检测是否存在符合第一预设条件的第二类节点,得到检测结果;
[0162]
其中,所述第一预设条件为与多个指定节点相连接,且所述指定属性的属性值为所述多个指定节点的内容,所述多个指定节点为所述多种指定元素的目标识别结果对应的第一类节点,每一目标识别结果对应的第一类节点为表示该目标识别结果的第一类节点和表示该目标识别结果对应本体内容的第一类节点中的任一个。
[0163]
可选地,所述各个第一类节点与各个第二类节点的关联关系的表征形式包括:
[0164]
存在关联性的第一类节点和第二类节点相连接,且设置有所述关联性对于数据敏感识别的权重;
[0165]
所述分析单元具体用于:
[0166]
将所述多种指定元素的目标识别结果输入所述图数据库,以使所述图数据库基于所述多种指定元素的目标识别结果,检测是否存在满足第二预设条件的第二类节点,得到检测结果;
[0167]
其中,所述第二预设条件为与多个指定节点相连接,且综合权重大于预定权重阈值;所述多个指定节点为所述多种指定元素的目标识别结果对应的第一类节点,每一目标识别结果对应的第一类节点为表示该目标识别结果的第一类节点和表示该目标识别结果对应本体内容的第一类节点中的任一个;所述综合权重为与各个指定节点的相关性对于数据敏感识别的权重的和值。
[0168]
可选地,多种指定元素的数量为两种;
[0169]
所述各个第一类节点与各个第二类节点的关联关系的表征形式包括:
[0170]
存在关联性的第一类节点和第二类节点相连接;
[0171]
所述分析单元具体用于:
[0172]
将两种指定元素的目标识别结果输入所述图数据库,以使所述图数据库检测是否存在关于两个指定节点和一第二类节点的、且节点回路的路径长度小于预定阈值的链路,得到检测结果;
[0173]
其中,两个指定节点为表示所述两种指定元素的目标识别结果的两个第一类节点。
[0174]
可选地,所述多种指定元素包括以下内容中的至少两种:
[0175]
所述多媒体数据的多种数据类型下的数据内容;
[0176]
所述多媒体数据的指定数据类型下的数据内容中的部分内容。
[0177]
本发明实施例还提供了一种电子设备,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
[0178]
存储器503,用于存放计算机程序;
[0179]
处理器501,用于执行存储器503上所存放的程序时,实现本发明实施例所提供的敏感数据识别方法的步骤。
[0180]
上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0181]
通信接口用于上述电子设备与其他设备之间的通信。
[0182]
存储器可以包括随机存取存储器(random access memory,ram),也可以包括非易失性存储器(non-volatile memory,nvm),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
[0183]
上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processing,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0184]
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例所提供的敏感数据识别方法的步骤。
[0185]
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行本发明实施例所提供的敏感数据识别方法的步骤。
[0186]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0187]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在
包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0188]
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、存储介质等实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0189]
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1