一种敏感信息识别方法、装置、设备及存储介质与流程

文档序号:32426640发布日期:2022-12-03 00:03阅读:57来源:国知局
一种敏感信息识别方法、装置、设备及存储介质与流程

1.本发明属于信息安全技术领域,具体涉及一种敏感信息识别方法、装置、设备及存储介质。


背景技术:

2.随着信息化程度的日益推进,公司信息安全涉及的信息泄露方式也日益丰富,以往采用的通过监控文本信息传输进行敏感信息识别的方案,已经不能保证公司客户信息的安全,相关人员仍可以通过截图、拍照等方式,以图片的形式进行信息泄露。
3.现有技术中主要是通过人工排查可疑人员的截图进行判别,但这种方式要投入大量的人力,效率也不高,而且仍存在公司其他人员泄露客户信息的安全隐患;同时,出于对客户信息的保护,在进行信息筛选时,客户的敏感信息是不可见的。因此,如何在敏感信息不可见的前提下,对图片中的信息进行识别判断,高效准确的识别其中是否包含敏感信息,是一个亟待解决的问题。


技术实现要素:

4.本发明提供了一种敏感信息识别方法、装置、设备及存储介质,用以解决如何在敏感信息不可见的前提下,对图片中的敏感信息进行识别判断,防止敏感信息泄露的问题。
5.为了解决上述技术问题,本发明提供了一种敏感信息识别方法,包括:
6.对输入图片进行信息提取,获得若干文字信息和每一文字信息对应的位置信息;
7.将所述文字信息按照其对应的位置信息进行排序,按照顺序依次判断当前文字信息是否为第一类关键词;
8.若为,确定当前文字信息处于表格中,则判断其所处表格类型并识别相应位置的文字信息是否含有敏感标识,若是,继续识别下一个文字信息;若否,确定所述输入图片包含敏感信息;
9.若不为,判断当前文字信息是否包含第二类关键词,若包含,确定所述输入图片包含敏感信息;若不包含,继续识别下一个文字信息。
10.进一步地,所述表格类型包括竖向表格和横向表格;所述判断其所处表格类型,包括:
11.判断所述当前文字信息的上侧和/或下侧是否为第一类关键词,若是,确定其所处表格类型为横向表格;
12.若否,判断所述当前文字信息的左侧和/或右侧是否为第一类关键词,若是,确定其所处表格类型为竖向表格。
13.进一步地,所述识别相应位置的文字信息是否含有敏感标识,包括:
14.若所述当前文字信息所处表格类型为所述横向表格,识别其右侧相邻的文字信息是否含有敏感标识;
15.若所述当前文字信息所处表格类型为所述竖向表格,识别其下侧相邻的文字信息
是否含有敏感标识。
16.进一步地,所述位置信息包括每一文字信息的左侧边界的位置信息;
17.识别所述当前文字信息下侧相邻的文字信息含有敏感标识后,继续依次识别位于所述当前文字信息下侧、且左侧边界的位置信息与其相同的文字信息是否含有敏感标识。
18.进一步地,相应位置的文字信息识别含有敏感标识后,对其设置已识别标识;
19.当按照顺序依次判断当前文字信息是否为第一类关键词时,跳过有已识别标识的文字信息。
20.进一步地,所述将所述文字信息按照其对应的位置信息进行排序,包括:
21.将所述文字信息按照其对应的位置信息从左到右、从上到下进行排序。
22.进一步地,所述敏感标识用于屏蔽信息。
23.本发明还提供了一种敏感信息识别装置,所述装置包括数据获取模块、文本排序模块和判断引擎模块;
24.所述数据获取模块用于对输入图片进行信息提取,获得若干文字信息和每一文字信息对应的位置信息;
25.所述文本排序模块用于将所述文字信息按照其对应的位置信息进行排序;
26.所述判断引擎模块用于按照顺序依次判断当前文字信息是否为第一类关键词;
27.若为,确定当前文字信息处于表格中,则判断其所处表格类型并识别相应位置的文字信息是否含有敏感标识,若是,继续识别下一个文字信息;若否,确定所述输入图片包含敏感信息;
28.若不为,所述判断引擎模块继续判断当前文字信息是否包含第二类关键词,若包含,确定所述输入图片包含敏感信息;若不包含,继续识别下一个文字信息。
29.本发明还提供了一种敏感信息识别设备,包括处理器和存储器,其中:
30.所述存储器用于存储计算机程序;
31.所述处理器用于读取所述存储器中的计算机程序,并执行上述任一项敏感信息识别方法的步骤。
32.本发明还提供了一种计算机可读存储介质,其上存储有可读的计算机程序,该程序被处理器执行时实现如上述任一项敏感信息识别方法的步骤。
33.与现有技术相比,本发明提供的一种敏感信息识别方法、装置、设备及存储介质,能够自动识别图片中是否存在客户的敏感信息,减少了人力筛查成本,提高了敏感信息识别的准确性;通过根据预设关键词,确定文字信息所处的表格类型,在敏感信息不可见的前提下,实现对图片中表格形式的敏感信息的快速识别判断;通过设置敏感标识等手段,减少了敏感信息识别所需的算力,提高了筛查效率,进一步保障了客户的信息安全。
附图说明
34.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一部分实施例,而不是全部的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,根据这些附图获得的其他的附图,都属于本技术保护的范围。
35.图1是本发明实施例提供的一种敏感信息识别方法的流程图;
36.图2是本发明实施例提供的一种文字信息及其对应的位置信息的示意图;
37.图3是本发明实施例提供的一种敏感信息识别方法的横向表格的示意图;
38.图4是本发明实施例提供的一种敏感信息识别方法的另一横向表格的示意图;
39.图5是本发明实施例提供的一种敏感信息识别方法的竖向表格的示意图;
40.图6是本发明实施例提供的一种判断当前文字信息是否包含第二类关键词的流程图;
41.图7是本发明实施例提供的一种敏感信息识别方法的特殊表格的示意图;
42.图8是本发明实施例提供的一种敏感信息识别装置的模块示意图;
43.图9是本发明实施例提供的一种敏感信息识别设备的结构示意图;
44.图10是本发明实施例提供的一种计算机可读存储介质的结构示意图。
具体实施方式
45.为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
46.为了使本揭示内容的叙述更加详尽与完备,下文针对本发明的实施方式与具体实施例提出了说明性的描述;但这并非实施或运用本发明具体实施例的唯一形式。实施方式中涵盖了多个具体实施例的特征以及用以建构与操作这些具体实施例的方法步骤与其顺序。然而,亦可利用其它具体实施例来达成相同或均等的功能与步骤顺序。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
47.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
48.在本发明实施例的描述中,除非另有说明,“/”表示或的意思,例如,a/b可以表示a或b;文本中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况,另外,在本技术实施例的描述中,“多个”是指两个或多于两个,其它量词与之类似应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本技术的实施例及实施例中的特征可以相互组合。
49.请参照图1-图7,用于解决如何在敏感信息不可见的前提下,对图片中的敏感信息进行识别判断,防止客户敏感信息泄露的问题。如图1所示,本发明实施例提供了一种敏感信息识别方法的流程图,其中,该方法包括:
50.步骤s1:对输入图片进行信息提取,获得若干文字信息和每一文字信息对应的位置信息;
51.本实施例中,上述输入图片的图片种类可以是包含各种社交平台上的聊天内容的图片,也可以是microsoft office word文字处理器应用程序、microsoft office excel表格数据处理软件、microsoft office powerpoint演示文稿软件等办公软件的内容的图片,
还可以是包含公司内部的系统内容的图片,或者是包含其它内容的图片;上述图片的形式,可以是截图,也可以是拍照图片;只要是包含文字信息、表格信息等可能会泄露客户敏感信息的图片,都可以作为上述输入图片,此处不做限制。
52.作为一种可选的实施方式,通过ocr(optical character recognition,光学字符识别)技术对输入图片进行信息提取,获得输入图片中的若干文字信息和每一文字信息所对应的位置信息。
53.上述ocr技术通过定位框对输入图片中的文字信息进行定位,获得该定位框内的文字信息,及该定位框所对应的坐标标识。
54.如图2所示,本发明实施例提供了一种文字信息及其对应的位置信息的示意图。请参照图2所示的某输入图片,通过ocr技术可以获得该输入图片内的文字信息,如图中被框出的文字信息,包括“关键词a”、“关键词a的内容”、“关键词b”、“关键词b的内容”等;同时可以获得被框出文字信息所对应的坐标标识:如“关键词a”所对应的坐标标识可以为其文字框的四角坐标,(x1,x2,y1,y2),或,如“关键词a的内容”所对应的坐标标识可以为其文字框中心点坐标(x3,y3),与中心点到两侧边界的距离x4,y4。
55.需要进行说明的是,也可以将“关键词a”所对应的坐标标识表示为“第一行第一列”,将“关键词a的内容”所对应的坐标标识表示为“第一行第二列”,将“关键词b”所对应的坐标标识表示为“第一行第四列”,只要能够实现将若干文字信息和该文字信息所对应的位置信息一一对应,所选用的位置标识方式都是可行的,本发明实施例对此不进行任何限定。
56.步骤s2:将所述文字信息按照其对应的位置信息进行排序;
57.作为一种可选的实施方式,上述文字信息按照其对应的位置信息从左到右、从上到下进行排序。
58.请继续参照图2所示的某输入图片,将该输入图片中的文字信息按照其对应的位置信息从左到右、从上到下进行排序后的结果为“关键词a”、“关键词a的内容”、“关键词b”、“关键词b的内容”、“关键词c”、“关键词c的内容”、“关键词d”、“关键词d的内容”;当然本发明实施例中提供的从左到右、从上到下的排序方式只是一种可供选择的具体排序方式,并不仅限于此。
59.步骤s3:按照顺序依次判断当前文字信息是否为第一类关键词,若为,执行步骤s4,若不为,执行步骤s5;
60.对排序后的文字信息按照其排序的顺序依次进行识别判断。
61.需要说明的是,上述提到的输入图片中,可能会出现大量的表格,由于表格是泄露信息量较大的一种形式,所以在进行敏感信息的识别中,要重点针对图片中的表格内容进行识别。又因为出于对客户信息的保护,在信息筛选过程中,客户的敏感信息是不可见的,只能知道敏感信息的信息类别,而表格具有表头以及表格内容的特征,因此,在上述步骤3中进行对第一类关键词的判断。
62.作为一种可选的实施方式,上述第一类关键词包括但不限于客户公司和公司简称。
63.以目前需要进行识别判断的当前文字信息为例,判断当前文字信息是否为第一类关键词,即判断当前文字信息是否为“客户公司”、“公司简称”。
64.需要说明的是,上述第一类关键词为预先设置的词语,体现了敏感信息的种类,可
以根据具体的实施情况进行具体的调整,例如,可以增加“账单金额”等关键词,本发明实施例对此不进行限定。
65.步骤s4:确定当前文字信息处于表格中,则判断其所处表格类型并识别相应位置的文字信息是否含有敏感标识,若是,执行步骤s3,继续识别下一个文字信息;若否,执行步骤s6;
66.在本实施例中,当前文字信息为第一类关键词时,那么就确定当前文字信息处于需要进行识别判断的表格,下一步判断当前文字信息所处表格的表格类型,再按照其表格类型识别相应位置的文字信息是否含有敏感标识。
67.如果当前文字信息相应位置的文字信息含有敏感标识,继续识别下一个文字信息;如果当前文字信息相应位置的文字信息不含有敏感标识,确定上述输入图片包含敏感信息,流程结束。
68.需要进行说明的是,如果只提取输入图片中的文字信息,而不对文字信息所处的表格类型进行判断,在不知道客户敏感信息的前提下,是无法实现对敏感信息的识别的,因此本发明实施例针对不同的表格类型采用不同的判断方式,以实现对输入图片中表格信息的识别与判断。
69.具体的,常见的表格类型包括横向表格和竖向表格,其中,横向表格中关键词对应的内容在其右侧,关键词的上侧和/或下侧为关键词;竖向表格中关键词对应的内容在其下侧,关键词的左侧和/或右侧为关键词。
70.如图3所示,为本发明实施例提供的一种敏感信息识别方法的横向表格的示意图,该输入图片中的关键词a-f对应的内容在其右侧,其中,以“关键词c”为例,其上侧为“关键词a”,下侧为“关键词e”。
71.请继续参照图4,图4为本发明实施例提供的一种敏感信息识别方法的另一横向表格的示意图,该输入图片中的关键词a-f对应的内容在其右侧;其中以“关键词a”、“关键词b”和“关键词c”为例,“关键词a”和其右侧的“关键词a的内容”构成一横向表格,“关键词b”和其右侧的“关键词b的内容”构成一横向表格,“关键词c”和其右侧的“关键词c的内容”构成一横向表格,构成的各横向表格之间存在有间隙。
72.需要说明的是,本发明实施例中的横向表格,每一个关键词对应位于其相邻右侧的一项内容。上述图3和图4分别为本发明实施例中横向表格的一种示例,其他具有上述特征的横向表格形式也可以应用到本发明中,并不构成对本发明的限定。
73.如图5所示,为本发明实施例提供的一种敏感信息识别方法的竖向表格的示意图,图中的关键词1-n的内容在其下侧,以“关键词1”为例,其右侧为“关键词2”。
74.作为一种可选的实施方式,上述判断其所处表格类型,包括:
75.判断上述当前文字信息的上侧和/或下侧是否为第一类关键词,若是,确定其所处表格类型为横向表格;
76.若否,判断上述当前文字信息的左侧和/或右侧是否为第一类关键词,若是,确定其所处表格类型为竖向表格。
77.首先判断当前文字信息的上侧和/或下侧是否为第一类关键词时,如果是的话,则当前文字信息所处的表格类型为横向表格,如果不是的话,继续判断当前文字信息的左侧和/或右侧是否为第一类关键词,如果是的话,则当前文字信息所述的表格类型为竖向表
格。
78.作为一种可选的实施方式,上述识别相应位置的文字信息是否含有敏感标识,包括:
79.若上述当前文字信息所处表格类型为上述横向表格,识别其右侧相邻的文字信息是否含有敏感标识;
80.若上述当前文字信息所处表格类型为上述竖向表格,识别其下侧相邻的文字信息是否含有敏感标识。
81.请继续参照图3和图4所展示的横向表格,图中的“关键词a”、“关键词c”、“关键词e”等均属于第一类关键词,其右侧相邻的内容即为需要进行识别判断的相应位置的文字信息。
82.请继续参照图5所展示的竖向表格,图中的“关键词1”、“关键词2”至“关键词n”均属于第一类关键词,其下侧相邻的文字信息即为需要进行识别判断的相应位置的文字信息;
83.需要说明的是,上述敏感标识用于屏蔽信息。作为一种可选的实施方式,上述敏感标识为*、xx等。以敏感标识*为例,通常情况下,公司的客户信息是被*遮盖一部分的,保证客户信息的安全信息,如果是在非正常使用的情况下,*可以被解锁显示出完整的客户信息,此时进行截图就属于泄露了客户的敏感信息。
84.步骤s5:判断当前文字信息是否包含第二类关键词,若包含,执行步骤s6;若不包含,执行步骤s3,继续识别下一个文字信息。
85.本实施例中,若当前文字信息不是第一类关键词时,则继续判断当前文字信息中是否包含第二类关键词,如果包含的话,确定上述输入图片包含敏感信息,流程结束;如果不包含的话,继续识别下一个文字信息。
86.作为一种可选的实施方式,上述第二类关键词包括但不限于手机号码、地址、有限公司字样以及邮箱。
87.需要说明的是,上述第二类关键词主要为预先设置的信息类型,体现了敏感信息的种类,可以根据具体的实施情况进行具体的调整,例如,可以增加“账号”等信息类型,本发明实施例对此不进行限定。
88.其中,上述第二类关键词之中的“有限公司”字样,并非信息类型,而是考虑到自然语言习惯中一般不会采用“某某有限公司”的方式称呼某个公司,则直接判断文字信息中是否包含“有限公司”字样,可以有效的提高敏感信息识别的速度。
89.如图6所示,为本发明实施例提供的一种判断当前文字信息是否包含第二类关键词的流程图。
90.具体的,步骤s601:判断当前文字信息是否包含手机号码,若是,执行步骤s605;若否,执行步骤s602;
91.如果当前文字信息包含手机号码,则确定当前文字信息包含第二类关键词。
92.步骤s602,判断当前文字信息是否包含地址,若是,执行步骤s605;若否,执行步骤s603;
93.如果当前文字信息不包含手机号码,则继续判断当前文字信息是否包含地址,如果当前文字信息包含地址,则确定当前文字信息包含第二类关键词。
94.为了提高敏感信息识别的准确性,可以对上述步骤进行进一步地调整。作为一种可选的实施方式,上述步骤s602中判断当前文字信息包含地址之后,继续判断上述地址是否为内部公司地址,若不是内部公司地址,确定当前文字信息包含第二类关键词。
95.步骤s603,判断当前文字信息是否包含“有限公司”字样,若是,执行步骤s605;若否,执行步骤s604;
96.如果当前文字信息不包含地址,则继续判断当前文字信息中是否包含“有限公司”字样,若当前文字信息包含“有限公司”字样,确定当前文字信息包含第二类关键词。
97.为了提高敏感信息识别的准确性,可以对上述步骤进行进一步地调整。作为一种可选的实施方式,上述步骤s603中判断当前文字信息包含“有限公司”字样之后,继续判断上述“有限公司”字样是否为内部公司的名称,若不是内部公司的名称,确定当前文字信息包含第二类关键词。
98.步骤s604,判断当前文字信息中是否包含邮箱,若是,执行步骤s605;若否,执行步骤s606;
99.如果当前文字信息中未包含“有限公司”字样,则继续判断当前文字信息中是否包含邮箱,若包含邮箱,则确定当前文字信息包含第二类关键词。
100.步骤s605:当前文字信息中包含第二类关键词;
101.步骤s606:当前文字信息中不包含第二类关键词。
102.如果当前文字信息中不包含第二类关键词,继续识别下一个文字信息,直至所有的文字信息均被识别判断;如果图片中所有的文字信息均被识别判断,且过程中并未识别到该输入图片中存在敏感信息,则判断该输入图片为非敏感图。
103.步骤s6:确定所述输入图片包含敏感信息。
104.确定输入图片包含敏感信息,流程结束。
105.本领域技术人员应当知悉,上述第一类关键词、第二类关键词和敏感标识并不仅仅限于本发明实施例中提供的词组,可以根据实际情况对其进行编辑或者调整,以满足不同的筛选需求;进一步地,若能实现与上述实施例相同的识别判断结果,本发明的方法并不以图1和图6所示的流程图顺序为限;在具体实施时,可以根据实施情况调整步骤s3-s4,与步骤s5的执行顺序,例如,先进行第二类关键词的识别,再进行第一类关键词的识别,本发明对此不进行任何限定。
106.在上述步骤s4识别当前文字信息相应位置的文字信息是否含有敏感标识的过程中,参考上述图5,可以得到,竖向表格的关键词可以对应位于其下侧的不止一项内容,为了进一步提高敏感信息识别的效率,减少所需算力,可以对上述步骤s4进行如下调整:
107.作为一种可选的实施方式,上述位置信息包括每一文字信息的左侧边界的位置信息;
108.识别上述当前文字信息下侧相邻的文字信息含有敏感标识后,继续依次识别位于上述当前文字信息下侧、且左侧边界的位置信息与其相同的文字信息是否含有敏感标识。
109.需要说明的是,根据文字信息的上下位置关系,以及左侧边界的位置信息是否相同,识别文字信息是否为竖向表格关键词对应的内容。
110.上述左侧边界的位置信息可以为坐标形式,例如,边界框的四角坐标,或者边界框的中心点坐标与到左侧边界的距离等,本发明实施例对此不进行任何限定。
111.为了避免对文字信息的重复识别,进一步提高敏感信息识别的效率,减少所需算力,可以对上述步骤s4进行如下调整:
112.作为一种可选的实施方式,相应位置的文字信息识别含有敏感标识后,对其设置已识别标识;
113.当按照顺序依次判断当前文字信息是否为第一类关键词时,跳过有已识别标识的文字信息。
114.因此,如果当前文字信息其右侧相邻的文字信息中含有敏感标识的话,则对当前文字信息右侧相邻的文字信息设置已识别标识,同时按照排序顺序判断下一个当前文字信息是否为第一类关键词,判断过程中跳过设置有已识别标识的文字信息,之后的识别判断过程中不再对其进行识别,一定程度上减少了算力;如果当前文字信息右侧相邻的文字信息中不含有敏感标识,则确定当前文字信息所处的输入图片包含敏感信息,即判断该输入图片为敏感图片,该输入图片判断结束。
115.需要进行说明的是,当跳过设置有已识别标识的文字信息,按照排序顺序对当前文字信息进行识别判断的过程中,一旦在识别过程中判断到该输入图片中包含敏感信息,则认为该输入图片为敏感图片,结束对该输入图片的判断,开始对下一张输入图片进行识别判断,这种识别方式加快了对输入图片的判断速度,减少了算力。
116.如果当前文字信息下侧相邻的文字信息中含有敏感标识的话,则对当前文字信息下侧相邻的文字信息设置已识别标识,同时按照由上到下的顺序,继续判断位于当前文字信息下侧与当前文字信息左对齐的文字信息中是否含有敏感标识,并对过程中已经识别过的所有文字信息设置已识别标识,之后按照排序顺序对当前文字信息进行识别判断时,跳过设置有已识别标识的文字信息。
117.需要说明的是,竖向表格关键词对应的内容可能存在空的状态,例如,上述图5中“关键词2”下方的第二个内容。在步骤s1进行文字信息的提取时,此处的空内容不会被识别为文字信息,也不会影响步骤s4的识别,对于上述图5中的“关键词2”,可以依次识别到两个文字信息。
118.需要进一步说明的是,实际识别判断中可能会出现某表格既是横向表格又是竖向表格的情况。
119.如图7所示,为本发明实施例提供的一种敏感信息识别方法的特殊表格的示意图。请参照图7所展示的特殊表格,这种情况下按照排序顺序进行识别判断时,首先会对“关键词1”进行判断,由于“关键词1”属于第一类关键词,同时“关键词1”右侧的“关键词2”也属于第一类关键词,因此先将该表格作为竖向表格进行判断,例如,先判断关键词1下方对应位置的文字信息,即“关键词1和关键词a的内容”、“关键词1和关键词b的内容”、“关键词1和关键词c的内容”。以此类推,按照排序顺序依次识别关键词2-n下方对应位置的文字信息。
120.当关键词1-n下方对应位置的文字信息均被识别判断后,继续按照排序顺序对“关键词a”进行判断,由于“关键词a”属于第一类关键词,同时“关键词a”下方的“关键词b”也属于第一类关键词,此时则会将该表格作为横向表格进行判断。
121.本发明实施例中横向表格只对应当前文字信息右侧相邻的文字信息进行识别判断,即横向表格关键词右侧相邻的文字信息仅有一项,如果只考虑横向表格的判断的话,会存在文字信息遗漏判断的情况,但是以“关键词a”为例,“关键词a”右侧的“关键词1和关键
词a的内容”已经在作为竖向表格进行判断的过程中被识别判断过了。由于竖向表格下侧可以有多项文字信息,因此针对如上述图7所示的特殊表格,结合竖向表格和横向表格的识别判断过程,不会出现文字信息遗漏判断的情况,这样设置实现了对该表格中所有文字信息的全检。
122.基于上述敏感信息识别方法,如图8所示,本发明实施例还提供了一种敏感信息识别装置的模块示意图,该装置包括数据获取模块801、文本排序模块802和判断引擎模块803;
123.由数据获取模块801对输入图片进行信息提取,获得若干文字信息和每一文字信息对应的位置信息;
124.由文本排序模块802对获得的文字信息按照其对应的位置信息从左到右、从上到下进行排序;
125.由判断引擎模块803按照顺序依次判断当前文字信息是否为第一类关键词;
126.若为,确定当前文字信息处于表格中,则判断其所处表格类型并识别相应位置的文字信息是否含有敏感标识,若是,继续识别下一个文字信息;若否,确定所述输入图片包含敏感信息;
127.若不为,由判断引擎模块803继续判断当前文字信息是否包含第二类关键词,若包含,确定所述输入图片包含敏感信息;若不包含,继续识别下一个文字信息。
128.需要进行说明的是,该装置还包括关键词管理模块804,本领域技术人员可以根据不同的敏感信息判别标准通过该关键词管理模块804对上述第一类关键词、第二类关键词和敏感标识进行编辑与调整,从而满足不同标准的敏感信息识别需求。
129.关于上述敏感信息识别装置中各模块实现上述技术方案的其他细节,可参见上述发明实施例中提供的敏感信息识别方法中的描述,此处不再赘述。
130.基于上述敏感信息识别方法,如图9所示,本发明实施例还提供了一种敏感信息识别设备的结构示意图,该识别设备包括处理器91和与该处理器91耦合的存储器92。存储器92存储有计算机程序,计算机程序被处理器91执行时,使得处理器91执行上述实施例中的敏感信息识别方法的步骤。
131.关于上述敏感信息识别设备中处理器91实现上述技术方案的其他细节,可参见上述发明实施例中提供的敏感信息识别方法中的描述,此处不再赘述。
132.其中,处理器91还可以称为cpu(centralprocessingunit,中央处理单元),处理器91可能是一种集成电路芯片,具有信号的处理能力;处理器91还可以是通用处理器、dsp(digital signal process,数字信号处理器)、asic(application specific integrated circuit,专用集成电路)、fpga(field programmable gataarray,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,其中通用处理器可以是微处理器或者该处理器91也可以是任何常规的处理器等。
133.如图10所示,本发明实施例还提供了一种计算机可读存储介质的结构示意图,该存储介质上存储有可读的计算机程序101;其中,该计算机程序101可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、磁碟或者光盘、rom(read-only memory,只
读存储器)、ram(random access memory,随机存取存储器)等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
134.在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
135.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
136.本发明提供的一种敏感信息识别方法、装置、设备及存储介质,能够自动识别图片中是否存在客户的敏感信息,减少了公司的人力筛查成本,提高了敏感信息识别的准确性;通过根据预设关键词,确定文字信息所处的表格类型,在敏感信息不可见的前提下,实现对图片中表格形式的敏感信息的识别判断;通过设置关键词、敏感标识以及根据不同的表格类型等手段,实现对图片中的表格信息识别判断,减少了敏感信息识别所需的算力,提高了筛查效率,进一步保障了客户的信息安全。
137.以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1