敏感数据检测方法、装置、计算机设备及存储介质与流程

文档序号:22546333发布日期:2020-10-17 02:16阅读:105来源:国知局
敏感数据检测方法、装置、计算机设备及存储介质与流程

本申请涉及信息安全技术领域,尤其涉及一种敏感数据检测方法、装置、计算机设备及存储介质。



背景技术:

随着信息技术行业的快速发展,使用手机、计算机等电子设备进行办公或日常信息处理已成为人们生活中不可或缺的一部分,越来越多的人开始通过电子设备进行信息交流。然而,在信息技术带来便利的同时,信息泄露的问题越来越严重,信息安全问题也被越来越多人的人重视。在互联网应用中,很多信息都包括相对敏感的信息,这些信息直接在网络中进行传输,则会很容易造成用户隐私泄露的问题。

当前,为避免用户隐私数据的泄露,保护用户信息安全,减少用户被骚扰甚至欺诈的可能,通常在接收到用户信息数据时,依靠人工进行用户信息数据的判断,在人为地筛选出可能的隐私数据时,再对数据进行加密处理等。然而,在同时接收到大量的用户信息数据时,当前的数据处理方式并不能实现对隐私数据快速检测筛选,由此导致对隐私数据不能进行及时地预警,进一步导致隐私数据泄露的问题。



技术实现要素:

本申请实施例的目的在于提出一种敏感数据检测方法、装置、计算机设备及存储介质,旨在解决隐私数据泄露的技术问题。

为了解决上述技术问题,本申请实施例提供一种敏感数据检测方法,采用了如下所述的技术方案:

一种敏感数据检测方法,包括以下步骤:

在接收到下发数据时,获取所述下发数据的数据类型,根据所述数据类型确定所述下发数据是否为文本数据;

在确定所述下发数据为所述文本数据时,检测所述文本数据的文本类型,根据所述文本类型确定所述文本数据对应的特征码;

将所述特征码与数据库中存储的标准特征码进行匹配,确定所述文本数据中是否存在敏感信息;

在确定所述文本数据中存在所述敏感信息时,计算所述文本数据的基敏感度,对所述基敏感度不小于预设阈值的文本数据进行脱敏处理。

进一步的,所述计算所述文本数据的基敏感度的步骤包括:

获取所述文本数据的基准分数;

根据所述基准分数确定所述文本数据的基敏感度。

进一步的,所述根据所述基准分数确定所述文本数据的基敏感度的步骤包括:

从所述数据库中获取预设的标记隐私数据,计算所述文本数据与所述标记隐私数据的匹配度;

根据所述匹配度和所述基准分数,计算所述文本数据的基敏感度。

进一步的,所述根据所述文本类型确定所述文本数据对应的特征码的步骤包括:

所述文本类型包括数字类型、字母类型及文字类型,按照所述文本类型对所述文本数据进行对应的符号化处理,得到符号化处理后的文本数据为所述文本数据对应的特征码。

进一步的,所述将所述特征码与数据库中存储的标准特征码进行匹配,确定所述文本数据中是否存在敏感信息的步骤包括:

通过语法分析识别所述特征码中的关键词,根据数据库中存储的标准特征码构建的文档链表,获取包括所述关键词的文档;

获取所述文档与所述特征码之间的相关性,根据所述相关性确定所述文本数据中是否存在敏感信息。

进一步的,所述确定所述文本数据中是否存在敏感信息的步骤之后,所述敏感数据检测方法还包括:

在确定所述文本数据中存在所述敏感信息时,发送所述下发数据至前端页面,检测所述下发数据是否被所述前端页面完全使用,若所述前端页面中存在未使用数据,则确定所述下发数据提供过量,发送报警提示信息。

进一步的,所述根据所述数据类型确定所述下发数据是否为文本数据的步骤之后,所述敏感数据检测还包括:

在确定所述下发数据为非文本数据时,根据所述数据类型确定所述下发数据是否为图像数据;

在确定所述下发数据为所述图像数据时,提取所述图像数据中的图像信息及信息提供方的使用权限,根据所述图像信息和所述使用权限确定所述图像数据中是否包括敏感信息,若所述图像数据中包括所述敏感信息,则标记存储所述图像数据;

在确定所述下发数据为音频数据或视频数据时,识别所述音频数据或所述视频数据中的语音数据,确定所述语音数据中是否包括敏感信息,若所述语音数据中包括所述敏感信息,则标记存储所述音频数据或所述视频数据。

为了解决上述技术问题,本申请实施例还提供一种敏感数据检测装置,采用了如下所述的技术方案:

第一确认模块,用于在接收到下发数据时,获取所述下发数据的数据类型,根据所述数据类型确定所述下发数据是否为文本数据;

获取模块,用于在确定所述下发数据为所述文本数据时,检测所述文本数据的文本类型,根据所述文本类型确定所述文本数据对应的特征码;

第二确认模块,用于将所述特征码与数据库中存储的标准特征码进行匹配,确定所述文本数据中是否存在敏感信息;

脱敏模块,用于在确定所述文本数据中存在所述敏感信息时,计算所述文本数据的基敏感度,对所述基敏感度不小于预设阈值的文本数据进行脱敏处理。

为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器和处理器,以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述敏感数据检测方法的步骤。

为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述敏感数据检测方法的步骤。

上述敏感数据检测方法、装置、计算机设备及存储介质,通过在接收到下发数据时,获取所述下发数据的数据类型,根据所述数据类型确定所述下发数据是否为文本数据,以便根据数据类型对不同的数据进行处理;在确定所述下发数据为所述文本数据时,检测所述文本数据的文本类型,根据所述文本类型确定所述文本数据对应的特征码,其中,特征码用来表示该文本数据的特征信息,不同文本类型的文本数据对应不同类型的特征码;将所述特征码与数据库中存储的标准特征码进行匹配,确定所述文本数据中是否存在敏感信息,在确定所述文本数据中存在敏感信息时,计算所述文本数据的基敏感度,该基敏感度可以用来衡量该文本数据的敏感程度,在获取到该基敏感度时,则对所述基敏感度不小于预设阈值的文本数据进行脱敏处理,由此则解决了隐私数据泄露的技术问题。

附图说明

为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图;

图2为敏感数据检测方法的一个实施例的流程图;

图3是根据本申请的敏感数据检测装置的一个实施例的结构示意图;

图4是根据本申请的计算机设备的一个实施例的结构示意图。

附图标记:600敏感数据检测装置;610第一确认模块;620获取模块;630第二确认模块;640脱敏模块。

具体实施方式

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(movingpictureexpertsgroupaudiolayeriii,动态影像专家压缩标准音频层面3)、mp4(movingpictureexpertsgroupaudiolayeriv,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是,本申请实施例所提供的敏感数据检测方法一般由服务端/终端执行,相应地,敏感数据检测装置一般设置于服务端/终端设备中。

应该理解,图1中的终端、网络和服务端的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

继续参考图2,示出了根据本申请的敏感数据检测方法的一个实施例的流程图。所述敏感数据检测方法,包括以下步骤:

步骤s200,在接收到下发数据时,获取所述下发数据的数据类型,根据所述数据类型确定所述下发数据是否为文本数据;

下发数据为通过预警接口接收到的数据,该下发数据可能为文本数据、图像数据、音频数据和视频数据等。在通过预警接口接收到下发数据时,获取该下发数据的数据类型,根据该数据类型确定下发数据是否为文本数据,其中,该数据类型可通过接收到的文件的文件名确定,不同的数据类型的下发数据对应不同的文件名。

需要强调的是,为进一步保证上述文本数据的私密和安全性,上述文本数据还可以存储于一区块链的节点中。

步骤s300,在确定所述下发数据为所述文本数据时,检测所述文本数据的文本类型,根据所述文本类型确定所述文本数据对应的特征码;

在确定下发数据为文本数据时,获取该文本数据的特征码,该特征码用来表示该文本数据的特征信息,不同文本类型的文本数据对应不同类型的特征码。其中,文本数据的文本类型包括:证件类型、证件号码类型、生日类型、住址类型、手机号码类型等,在获取到文本数据时检测该文本数据的文本类型,根据该文本类型进一步确定该文本数据对应的特征码。该文本数据的文特征码可根据当前该文本类型对应的预设处理规则确定。如对于文本类型为电话号码的文本数据,则该文本类型的特征码的预设处理规则为,对该文本类型的文本数据进行符号化处理,得到该文本数据的正则表达式,该正则表达式即为该文本数据对应的特征码。获取该文本数据对应的特征码,根据该特征码则可以进一步对当前文本数据中是否存在敏感信息进行确定。

步骤s400,将所述特征码与数据库中存储的标准特征码进行匹配,确定所述文本数据中是否存在敏感信息;

在获取到该文本数据的特征码时,将该特征码与数据库中存储的标准特征码进行匹配,若数据库中存在与该文本数据的特征码匹配的标准特征码,则确定该文本数据中存在敏感信息;若数据库中不存在与该文本数据的特征码匹配的标准特征码,则确定该文本数据中不存在敏感信息。

步骤s500,在确定所述文本数据中存在所述敏感信息时,计算所述文本数据的基敏感度,对所述基敏感度不小于预设阈值的文本数据进行脱敏处理。

在确定文本数据中存在敏感信息时,则获取该文本数据的基敏感度,其中,该基敏感度用来衡量该文本数据的敏感程度。该基敏感度可通过该文本数据的基准分数和其他衡量参数确定,其他衡量参数则如当前该文本信息中敏感信息与数据库中存储的标记隐私数据的匹配度及该文本信息对应的风险分数。在计算得到该文本数据的基敏感度时,则判断该基敏感度是否不小于预设阈值,若该基敏感度不小于预设阈值,则对该文本数据进行脱敏处理;若该基敏感度小于预设阈值,则对该文本数据进行暂存处理。

在本实施例中,通过在接收到下发数据时,获取所述下发数据的数据类型,根据所述数据类型确定所述下发数据是否为文本数据,接着在确定所述下发数据为所述文本数据时,检测所述文本数据的文本类型,根据所述文本类型确定所述文本数据对应的特征码,之后将所述特征码与数据库中存储的标准特征码进行匹配,确定所述文本数据中是否存在敏感信息,而后在确定所述文本数据中存在敏感信息时,计算所述文本数据的基敏感度,对所述基敏感度不小于预设阈值的文本数据进行脱敏处理,实现了对隐私数据的智能确定,提高了隐私数据的识别效率和识别精确率,减少隐私信息的泄露,保护个人信息的安全。

在本申请的一些实施例中,步骤s500,包括:

获取所述文本数据的基准分数;

根据所述基准分数确定所述文本数据的基敏感度。

每个不同文本类型的文本数据都对应有其预设的基准分数,不同文本类型的文本数据对应不同的基准分数,如手机号码类型的文本数据对应的基准分数为40分,性别类型的文本数据对应的基准分数为5分。该基准分数为预设数值,获取当前该文本数据对应的基准分数,根据该基准分数进一步计算得到该文本数据的基敏感度。

在本实施例中,实现了对不同文本类型的文本数据的基敏感度的确定,从而根据该基敏感度可以更精确地确定当前文本数据是否需要预警或脱敏处理。

在本申请的一些实施例中,上述根据所述基准分数确定所述文本数据的基敏感度包括:

从所述数据库中获取预设的标记隐私数据,计算所述文本数据与所述标记隐私数据的匹配度;

根据所述匹配度和所述基准分数,计算所述文本数据的基敏感度。

在获取到该文本数据的基准分数时,获取该文本数据的匹配度,其中,该匹配度为该文本数据中敏感信息与数据库中存储的标记隐私数据的匹配度,如手机号码11位,与标记隐私数据只能对应匹配到10位,则匹配度为10/11,约90.9%。在数据库中预先存储有很多隐私数据,该隐私数据均被标记存储于数据库中,即将预先存储的隐私数据按照数据类别进行分别标记而后存储,则可得到对应的标记隐私数据。获取该文本数据中敏感信息与该标记隐私数据的匹配度,该匹配度可用小数点表示,精确到小数点后的预设位数。在获取到该匹配度时,根据该匹配度及该文本数据的基准分数,计算得到该文本数据的基敏感度。具体计算方式可通过加权计算,如基准分数权重为百分之二十,匹配度权重为百分之八十,通过加权综合计算得到该文本数据的基敏感度。除此之外,该基敏感度亦可直接通过该匹配度和该基准分数做乘法运算得到。

在本实施例中,实现了对文本数据的基敏感度的精确计算,提高了文本数据的处理精度,以及对文本数据是否需要进行脱敏处理或预警的处理速度。

在本申请的一些实施例中,步骤s300,包括:

所述文本类型包括数字类型、字母类型及文字类型,按照所述文本类型对所述文本数据进行对应的符号化处理,得到符号化处理后的文本数据为所述文本数据对应的特征码。

符号化处理的过程为,在获取到文本数据时,将该文本数据用符号表达式表示。不同文本类型的文本数据的符号化处理规则不同,其中,该文本类型则包括数字类型、字母类型及文字类型。对于数字类型的文本数据,则获取该文本数据的长度以及前预设位数的数字,根据该长度及前预设位数的数字,确定该数字类型的文本数据的具体类别,如身份证类别、手机号码类别、其他类别等。而后,再根据其对应的具体类别确定对应的符号化处理方式。如对于861或1开头的手机号,长度为13或11位的数字,进行手机号码类别对应的符号化处理方式,得到该手机号的特征码为/(86)?1\d{10}/。对于数字类型以外的文本数据,如字母或文字,获取该文本数据对应的字符串,该字符串即为该文本数据对应的特征码。

在本实施例中,实现了对文本数据的特征码的确定,从而根据该特征码可以实现对文本数据中敏感信息的精确判断,提高了文本数据中敏感信息的检测效率。

在本申请的一些实施例中,步骤s400,包括:

通过语法分析识别所述特征码中的关键词,根据数据库中存储的标准特征码构建的文档链表,获取包括所述关键词的文档;

获取所述文档与所述特征码之间的相关性,根据所述相关性确定所述文本数据中是否存在敏感信息。

在获取到该特征码时,通过全文检索分析的方式可将该特征码与数据库中预先存储的标准特征码进行匹配分析。具体地,通过语法分析识别得到该特征码中的关键词,而后根据标准特征码构建的文档链表确定包括该关键词的文档,对该文档与特征码之间的相关性进行打分排序,越相关的文档则越靠前。由此则可以确定数据库中是否存在与当前文本数据的特征码相匹配的标准特征码,若排列最前的文档的相关性大于等于预设相关值,则确定数据库中存在与该文本数据的特征码匹配的标准特征码,即确定该文本数据中存在敏感信息;若排列最前的文档的相关性小于预设相关值,则确定数据库中不存在与该文本数据的特征码匹配的标准特征码,即确定该文本数据中不存在敏感信息。

在本实施例中,实现了对文本数据中是否存在敏感信息的精确判断,进一步地提高了对文本数据的处理效率。

在本申请的一些实施例中,步骤s400之后,包括:

在确定所述文本数据中存在所述敏感信息时,发送所述下发数据至前端页面,检测所述下发数据是否被所述前端页面完全使用,若所述前端页面中存在未使用数据,则确定所述下发数据提供过量,发送报警提示信息。

在对文本数据进行脱敏处理之前,还可以将该下发数据发送至前端界面,基于该前端界面对下发数据进行再一次地检测,以确定下发数据是否提供过量,在下发数据提供过量时则也可能存在敏感信息泄露的风险。具体地,在确定下发数据中存在敏感信息时,发送该下发数据至前端页面,并检测该下发数据是否被该前端页面完全使用。通过ajax遍历所有下发数据,而后通过正则表达式匹配该下发数据,即将该下发数据与前端页面中的页面数据进行匹配,确定该下发数据是否在该前端页面中已存在,若完全匹配即表示已存在,其泄露的风险可能性较小。对该已存在于前端页面的下发数据根据预设打分方式进行风险打分,如根据其出现在前端页面的次数进行打分,次数越高对应的风险分数越高。若在该前端页面中未匹配到该下发数据,则确定该下发数据被当前后端接口过量提供,即表示当前该下发数据并不被当前前端页面所需要。此时,则发送报警提示信息至控制中心或指定目标人员,以提示当前可能存在文本敏感信息泄露的风险,并获取该未被当前前端页面所需要的下发数据对应的风险分数,此时该风险分数为预设数值。在获取到下发数据的风险分数时,则可将该风险分数作为基敏感度的衡量参数之一,根据该风险分数对该下发数据的基敏感度进行计算。具体地,将该风险分数作为基敏感度的衡量参数之一,并结合该下发数据对应的匹配度与基准分数,综合进行加权计算即可得到最终的基敏感度。

在本实施例中,实现了通过前端页面检测下发数据是否提供过量,进一步对下发数据中是否存在敏感信息泄露的风险进行高效地判断,确保了对敏感信息泄露风险的双重检测,避免了敏感信息泄露的风险。

在本申请的一些实施例中,在步骤s200之后,包括:

在确定所述下发数据为非文本数据时,根据所述数据类型确定所述下发数据是否为图像数据;

在确定所述下发数据为所述图像数据时,提取所述图像数据中的图像信息及信息提供方的使用权限,根据所述图像信息和所述使用权限确定所述图像数据中是否包括敏感信息,若所述图像数据中包括所述敏感信息,则标记存储所述图像数据;

在确定所述下发数据为音频数据或视频数据时,识别所述音频数据或所述视频数据中的语音数据,确定所述语音数据中是否包括敏感信息,若所述语音数据中包括所述敏感信息,则标记存储所述音频数据或所述视频数据。

下发数据包括了文本数据、图像数据、音频数据和视频数据。在根据该下发数据的数据类型确定该下发数据为图像数据时,通过人脸识别系统提取该图像数据中的图像信息,并获取该图像数据的信息提供方的使用权限,若该图像信息与数据库中存储的图像信息匹配,其中,存储的图像信息均为敏感图像信息,且该使用权限为未授权,则确定该图像数据中包括敏感信息,标记存储该图像数据为敏感图像数据,并发送报警提示信息,以提示当前图像数据中存在图像敏感信息;若该图像信息与数据库中存储的图像信息不相匹配,且该使用权限为未授权,则确定该图像数据中不包括敏感信息,不发送报警提示信息。若该图像信息与数据库中存储的图像信息匹配,而该使用权限为已授权,则确定该图像数据中包括敏感信息,标记存储该图像数据但不发送报警提示信息;若该图像信息与数据库中存储的图像信息不匹配,而该使用权限为已授权,则确定该图像数据中不包括敏感信息,不发送报警提示信息。

在确定下发数据为音频数据或视频数据时,识别该音频数据或视频数据中的语音数据,确定该语音数据中是否包括敏感信息;具体地,将该音频数据或视频数据中的语音数据进行音频识别,得到该语音数据对应的文本数据,从而根据该文本数据是否包括敏感信息可以确定对应的该语音数据中是否包括敏感信息。其中,该文本数据是否包括敏感信息则与上述文本数据根据特征码判断是否包括敏感信息的过程相同。若该语音数据中包括敏感信息,则同样标记存储该音频数据或视频数据,并发送报警提示信息以提示当前音频数据或视频数据中存在语音敏感信息。除此之外,在下发数据为图像数据、音频数据和视频数据,若该图像数据、音频数据和视频数据中存在文本信息,则提取该文本信息,并对该文本信息按照上述文本数据的处理方式进行处理。

在本实施例中,实现了对除文本数据以外的图像数据、音频数据及视频数据的全面检测及处理,减少了信息泄露,提高了信息安全。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)等非易失性存储介质,或随机存储记忆体(randomaccessmemory,ram)等。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种敏感数据检测装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。

如图3所示,本实施例所述的敏感数据检测装置600包括:

第一确认模块610,用于在接收到下发数据时,获取所述下发数据的数据类型,根据所述数据类型确定所述下发数据是否为文本数据;

下发数据为通过预警接口接收到的数据,该下发数据可能为文本数据、图像数据、音频数据和视频数据等。在通过预警接口接收到下发数据时,获取该下发数据的数据类型,根据该数据类型确定下发数据是否为文本数据,其中,该数据类型可通过接收到的文件的文件名确定,不同的数据类型的下发数据对应不同的文件名。

需要强调的是,为进一步保证上述文本数据的私密和安全性,上述文本数据还可以存储于一区块链的节点中。

获取模块620,用于在确定所述下发数据为所述文本数据时,检测所述文本数据的文本类型,根据所述文本类型确定所述文本数据对应的特征码;

其中,所述获取模块620还包括:

处理单元,用于所述文本类型包括数字类型、字母类型及文字类型,按照所述文本类型对所述文本数据进行对应的符号化处理,得到符号化处理后的文本数据为所述文本数据对应的特征码。

在确定下发数据为文本数据时,获取该文本数据的特征码,该特征码用来表示该文本数据的特征信息,不同文本类型的文本数据对应不同类型的特征码。其中,文本数据的文本类型包括:证件类型、证件号码类型、生日类型、住址类型、手机号码类型等,在获取到文本数据时检测该文本数据的文本类型,根据该文本类型进一步确定该文本数据对应的特征码。该文本数据的文特征码可根据当前该文本类型对应的预设处理规则确定。如对于文本类型为电话号码的文本数据,则该文本类型的特征码的预设处理规则为,对该文本类型的文本数据进行符号化处理,得到该文本数据的正则表达式,该正则表达式即为该文本数据对应的特征码。获取该文本数据对应的特征码,根据该特征码则可以进一步对当前文本数据中是否存在敏感信息进行确定。

第二确认模块630,将所述特征码与数据库中存储的标准特征码进行匹配,确定所述文本数据中是否存在敏感信息;

其中,所述第二确认模块630还包括:

分析单元,用于通过语法分析识别所述特征码中的关键词,根据数据库中存储的标准特征码构建的文档链表,获取包括所述关键词的文档;

第一确认单元,用于获取所述文档与所述特征码之间的相关性,根据所述相关性确定所述文本数据中是否存在敏感信息。

在获取到该文本数据的特征码时,将该特征码与数据库中存储的标准特征码进行匹配,若数据库中存在与该文本数据的特征码匹配的标准特征码,则确定该文本数据中存在敏感信息;若数据库中不存在与该文本数据的特征码匹配的标准特征码,则确定该文本数据中不存在敏感信息。

脱敏模块640,用于在确定所述文本数据中存在所述敏感信息时,计算所述文本数据的基敏感度,对所述基敏感度不小于预设阈值的文本数据进行脱敏处理。

其中,所述脱敏模块640包括:

获取单元,用于获取所述文本数据的基准分数;

第二确认单元,用于根据所述基准分数确定所述文本数据的基敏感度。

其中,所述第二确认单元包括:

第一计算单元,用于从所述数据库中获取预设的标记隐私数据,计算所述文本数据与所述标记隐私数据的匹配度;

第二计算单元,用于根据所述匹配度和所述基准分数,计算所述文本数据的基敏感度。

在确定文本数据中存在敏感信息时,则获取该文本数据的基敏感度,其中,该基敏感度用来衡量该文本数据的敏感程度。该基敏感度可通过该文本数据的基准分数和其他衡量参数确定,其他衡量参数则如当前该文本信息中敏感信息与数据库中存储的标记隐私数据的匹配度及该文本信息对应的风险分数。在计算得到该文本数据的基敏感度时,则判断该基敏感度是否不小于预设阈值,若该基敏感度不小于预设阈值,则对该文本数据进行脱敏处理;若该基敏感度小于预设阈值,则对该文本数据进行暂存处理。

检测模块,用于在确定所述文本数据中存在所述敏感信息时,发送所述下发数据至前端页面,检测所述下发数据是否被所述前端页面完全使用,若所述前端页面中存在未使用数据,则确定所述下发数据提供过量,发送报警提示信息。

在对文本数据进行脱敏处理之前,还可以将该下发数据发送至前端界面,基于该前端界面对下发数据进行再一次地检测,以确定下发数据是否提供过量,在下发数据提供过量时则也可能存在敏感信息泄露的风险。具体地,在确定下发数据中存在敏感信息时,发送该下发数据至前端页面,并检测该下发数据是否被该前端页面完全使用。通过ajax遍历所有下发数据,而后通过正则表达式匹配该下发数据,即将该下发数据与前端页面中的页面数据进行匹配,确定该下发数据是否在该前端页面中已存在,若完全匹配即表示已存在,其泄露的风险可能性较小。对该已存在于前端页面的下发数据根据预设打分方式进行风险打分,如根据其出现在前端页面的次数进行打分,次数越高对应的风险分数越高。若在该前端页面中未匹配到该下发数据,则确定该下发数据被当前后端接口过量提供,即表示当前该下发数据并不被当前前端页面所需要。此时,则发送报警提示信息至控制中心或指定目标人员,以提示当前可能存在文本敏感信息泄露的风险,并获取该未被当前前端页面所需要的下发数据对应的风险分数,此时该风险分数为预设数值。在获取到下发数据的风险分数时,则可将该风险分数作为基敏感度的衡量参数之一,根据该风险分数对该下发数据的基敏感度进行计算。具体地,将该风险分数作为基敏感度的衡量参数之一,并结合该下发数据对应的匹配度与基准分数,综合进行加权计算即可得到最终的基敏感度。

第三确认模块,用于在确定所述下发数据为非文本数据时,根据所述数据类型确定所述下发数据是否为图像数据;

提取模块,用于在确定所述下发数据为所述图像数据时,提取所述图像数据中的图像信息及信息提供方的使用权限,根据所述图像信息和所述使用权限确定所述图像数据中是否包括敏感信息,若所述图像数据中包括所述敏感信息,则标记存储所述图像数据;

识别模块,用于在确定所述下发数据为音频数据或视频数据时,识别所述音频数据或所述视频数据中的语音数据,确定所述语音数据中是否包括敏感信息,若所述语音数据中包括所述敏感信息,则标记存储所述音频数据或所述视频数据。

下发数据包括了文本数据、图像数据、音频数据和视频数据。在根据该下发数据的数据类型确定该下发数据为图像数据时,通过人脸识别系统提取该图像数据中的图像信息,并获取该图像数据的信息提供方的使用权限,若该图像信息与数据库中存储的图像信息匹配,其中,存储的图像信息均为敏感图像信息,且该使用权限为未授权,则确定该图像数据中包括敏感信息,标记存储该图像数据为敏感图像数据,并发送报警提示信息,以提示当前图像数据中存在图像敏感信息;若该图像信息与数据库中存储的图像信息不相匹配,且该使用权限为未授权,则确定该图像数据中不包括敏感信息,不发送报警提示信息。若该图像信息与数据库中存储的图像信息匹配,而该使用权限为已授权,则确定该图像数据中包括敏感信息,标记存储该图像数据但不发送报警提示信息;若该图像信息与数据库中存储的图像信息不匹配,而该使用权限为已授权,则确定该图像数据中不包括敏感信息,不发送报警提示信息。

在确定下发数据为音频数据或视频数据时,识别该音频数据或视频数据中的语音数据,确定该语音数据中是否包括敏感信息;具体地,将该音频数据或视频数据中的语音数据进行音频识别,得到该语音数据对应的文本数据,从而根据该文本数据是否包括敏感信息可以确定对应的该语音数据中是否包括敏感信息。其中,该文本数据是否包括敏感信息则与上述文本数据根据特征码判断是否包括敏感信息的过程相同。若该语音数据中包括敏感信息,则同样标记存储该音频数据或视频数据,并发送报警提示信息以提示当前音频数据或视频数据中存在语音敏感信息。除此之外,在下发数据为图像数据、音频数据和视频数据,若该图像数据、音频数据和视频数据中存在文本信息,则提取该文本信息,并对该文本信息按照上述文本数据的处理方式进行处理。

在本实施例中,实现了对隐私数据的智能确定,提高了隐私数据的识别效率和识别精确率,减少隐私信息的泄露,保护个人信息的安全。

为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。

所述计算机设备7包括通过系统总线相互通信连接存储器71、处理器72、网络接口73。需要指出的是,图中仅示出了具有组件71-73的计算机设备7,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(applicationspecificintegratedcircuit,asic)、可编程门阵列(field-programmablegatearray,fpga)、数字处理器(digitalsignalprocessor,dsp)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器71至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器71可以是所述计算机设备7的内部存储单元,例如该计算机设备7的硬盘或内存。在另一些实施例中,所述存储器71也可以是所述计算机设备7的外部存储设备,例如该计算机设备7上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。当然,所述存储器71还可以既包括所述计算机设备7的内部存储单元也包括其外部存储设备。本实施例中,所述存储器71通常用于存储安装于所述计算机设备7的操作系统和各类应用软件,例如敏感数据检测方法的程序代码等。此外,所述存储器71还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器72在一些实施例中可以是中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器72通常用于控制所述计算机设备7的总体操作。本实施例中,所述处理器72用于运行所述存储器71中存储的程序代码或者处理数据,例如运行所述敏感数据检测方法的程序代码。

所述网络接口73可包括无线网络接口或有线网络接口,该网络接口73通常用于在所述计算机设备7与其他电子设备之间建立通信连接。

本实施例提供的所述计算机设备,实现了对隐私数据的智能确定,提高了隐私数据的识别效率和识别精确率,减少隐私信息的泄露,保护个人信息的安全。

本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述敏感数据检测方法的步骤。

进一步地,所述存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。

本实施例提供的所述计算机可读存储介质,实现了对隐私数据的智能确定,提高了隐私数据的识别效率和识别精确率,减少隐私信息的泄露,保护个人信息的安全。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。

显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1