关键信息处理方法和装置与流程

文档序号:15165103发布日期:2018-08-14 17:23阅读:155来源:国知局

本发明涉及计算机技术领域,特别涉及一种关键信息处理方法和装置。



背景技术:

随着科学技术的不断发展,越来越多的信息被发布在网络上进行交流使用。如为了方便企业的财务监管,需要在企业的金融系统中提交各种证件、发票、文凭复印件或照片等信息,但发布的这些信息中可能包括身份证号、账号等关键信息,如果不加处理的公布在网络系统中,容易造成关键信息的泄漏,给人们生活带来不便。因此,需要在信息发布前对其中的关键信息进行处理。

传统的关键信息处理方法是按照尺寸将固定区域的信息作为关键信息区域,对信息进行处理时,对固定区域进行模糊或者遮盖处理,但由于提交的图片大小不同或出现倒置的情况,可能导致对错误区域进行处理,导致关键信息没有被完全处理。也可以通过人工手动的对待发布的图片的关键信息进行处理,但这种方式很难对大量图片进行批量处理,且人工处理也容易造成关键信息的泄漏。因此,传统的关键信息处理方法存在关键信息处理区域不准确或无法批量化处理的问题。



技术实现要素:

基于此,有必要针对上述问题,提供一种能够准确确定关键信息区域且能批量化进行处理的关键信息处理方法和装置。

一种关键信息处理方法,包括:

获取待处理图片,识别所述待处理图片中的信息;

通过机器学习获取识别到的所述待处理图片中的信息中的特征信息;

判断预设的关键信息库中是否存在与待处理图片中的特征信息匹配的关键信息;

若是,则获取与所述特征信息匹配的关键信息对应的模糊化处理区域和模糊化处理方式;

根据所述模糊化处理区域确定与所述特征信息对应的需要进行模糊化处理的区域,根据所述模糊化处理方式对所述区域进行模糊化处理。

在其中一个实施例中,所述获取待处理图片,识别所述待处理图片中的信息的步骤,包括:

获取待处理图片,根据预设规则对所述待处理图片进行区域划分,分别对各个区域中的信息进行识别。

在其中一个实施例中,所述通过机器学习获取识别到的所述待处理图片中的信息中的特征信息的步骤,包括:

获取识别到的所述待处理图片中的信息,根据机器学习对所述信息进行分词处理;

将分词处理的结果与预设匹配词典相匹配;

若匹配成功,则提取分词结果中分词信息为所述待处理图片中的特征信息。

在其中一个实施例中,所述获取待处理图片,识别所述待处理图片中的信息的步骤之后,还包括:

若识别所述待处理图片中的信息识别失败,则对所述待处理图片进行标记存储。

在其中一个实施例中,获取待处理图片,识别所述待处理图片中的信息,包括:

获取待处理图片,判断所述待处理图片的图片格式是否为预设图片格式;

若是,则识别所述待处理图片中的信息;

若否,则转换所述待处理图片的图片格式为预设图片格式,然后识别所述待处理图片中的信息。

一种关键信息处理装置,包括:

识别模块,用于获取待处理图片,识别所述待处理图片中的信息;

第一获取模块,用于通过机器学习获取识别到的所述待处理图片中的信息中的特征信息;

匹配模块,用于判断预设的关键信息库中是否存在与待处理图片中的特征信息匹配的关键信息;

第二获取模块,用于若是,则获取与所述特征信息匹配的关键信息对应的模糊化处理区域和模糊化处理方式;

处理模块,用于根据所述模糊化处理区域确定与所述特征信息对应的需要进行模糊化处理的区域,根据所述模糊化处理方式对所述区域进行模糊化处理。

在其中一个实施例中,所述识别模块还用于获取待处理图片,根据预设规则对所述待处理图片进行区域划分,分别对各个区域中的信息进行识别。

在其中一个实施例中,所述第一获取模块包括:

分词模块,用于获取识别到的所述待处理图片中的信息,根据机器学习对所述信息进行分词处理;

提取模块,用于将分词处理的结果与预设匹配词典相匹配;若匹配成功,则提取分词结果中分词信息为所述待处理图片中的特征信息。

在其中一个实施例中,所述装置还包括:

标记存储模块,用于若识别所述待处理图片中的信息识别失败,则对所述待处理图片进行标记存储。

在其中一个实施例中,所述识别模块还用于获取待处理图片,判断所述待处理图片的图片格式是否为预设图片格式;若是,则识别所述待处理图片中的信息;若否,则转换所述待处理图片的图片格式为预设图片格式,然后识别所述待处理图片中的信息。

上述关键信息处理方法和装置,识别待处理图片中的信息,并利用机器学习获取待处理图片中的信息中的特征信息,通过特征信息与预设的关键信息库中的关键信息相互匹配获取对应的模糊化处理区域和模糊化处理方式,确定待处理图片中需要进行模糊化处理的区域,按照对应的模糊化处理方式进行模糊化处理。利用机器学习获取待处理图片中的特征信息,并根据特征信息获取对应的关键信息模糊化处理方式及区域,从而对待处理图片中需要进行模糊化处理的区域采用对应的模糊化处理方式进行处理,避免了关键信息处理区域不准确或无法批量化处理的问题,能够对待处理图片进行自动化处理,并且能够准确的确定模糊化处理区域。

附图说明

图1为一个实施例中关键信息处理方法流程图;

图2为另一个实施例中关键信息处理方法流程图;

图3为一个实施例中机器学习原理图;

图4为一个实施例中关键信息模糊化处理的示意图;

图5为一个实施例中待处理图片模糊化处理后效果图;

图6为一个实施例中关键信息处理装置结构图;

图7为另一个实施例中关键信息处理装置结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

如图1所示,在一个实施例中,提供了一种关键信息处理方法,具体内容如下:

步骤110,获取待处理图片,识别待处理图片中的信息。

本实施例中,待处理图片是指将要发布到网络上进行交流使用的图片,待处理图片包括身份证、各种票据、银行卡等重要证件或单据的复印件或扫描件。使用识别算法对待处理图片中的信息进行识别,主要包括文字信息和图片信息。

步骤120,通过机器学习获取识别到的待处理图片中的信息中的特征信息。

本实施例中,对识别到的待处理图片中的内容进行分析,判断待处理图片中对应的证件类型,然后利用机器学习的结果对待处理图片中的信息进行提取,获取待处理图片中的特征信息。特征信息是指根据机器学习的结果获取的分段信息字符组成的词或者待处理图片中携带的图形信息。

步骤130,判断预设的关键信息库中是否存在与待处理图片中的特征信息匹配的关键信息。

本实施例中,预先建立关键信息库,如将二代身份证中的姓名、照片、地址以及身份证号码为关键信息存储在关键信息库中;将银行卡中的卡号、有效期、签名等关键信息存储在关键信息库中。

本实施例中,将获取的待处理图片中的特征信息与预先建立的关键信息库中的关键信息进行匹配,判断预先建立的关键信息库中是否存在与在待处理图片中提取的特征信息相同的敏感信息。进一步地,为了更好的保护关键信息,预先设置匹配率,即从待处理图片中获取的特征信息与预先建立的敏感信息库中的敏感信息不一定需要完全相同,只要匹配成功满足预先设置的匹配率就认为匹配成功,如提取的特征信息为身份证,敏感信息库中的敏感信息为身份证号,则认为能够匹配。

步骤140,若是,则获取与特征信息匹配的关键信息对应的模糊化处理区域和模糊化处理方式。

本实施例中,预先针对不同的关键信息建立不同的模糊化处理方式以及模糊化处理区域,如关键字姓名对应的模糊化处理方式为将实际姓名中的一个字隐藏、证件号码对应的模糊化处理方式为隐藏实际的证件号码的其中某些位等。根据模糊化处理方式能够获取对应的需要进行模糊化处理的实际信息在待处理图片中的位置,即能够确定待处理图片中的模糊化处理区域。当预先建立的关键信息库中存在与待处理图片中的特征信息相匹配的关键信息时,能够根据关键信息获取对应的信息模糊化处理方式和对应的模糊化处理区域。

步骤150,根据模糊化处理区域确定与特征信息对应的需要进行模糊化处理的区域,根据模糊化处理方式对区域进行模糊化处理。

本实施例中,获取与特征信息匹配的关键信息对应的模糊化处理方式,根据模糊化处理方式识别实际需要进行模糊化处理的信息所处的区域,获取关键信息对应的模糊化处理区域,根据模糊化处理区域确定与特征信息对应的需要进行模糊化处理的区域,并根据模糊化处理方式对需要进行模糊化处理的区域进行模糊化处理。具体地,如在待处理图片中提取的关键信息为姓名,与关键信息库中的姓名这一关键词相匹配,则获取关键词姓名对应的关键信息模糊化方式,若姓名对应的模糊化方式为对实际的姓名其中一个字进行隐藏处理,则根据模糊化处理方式识别实际姓名在待处理图片中所处的区域,确定姓名关键词对应的模糊化处理区域,并且采用隐藏其中一个字的方式对实际姓名进行处理。

上述关键信息处理方法,利用机器学习获取待处理图片中的特征信息,并根据特征信息获取对应的关键信息模糊化处理方式及区域,从而对待处理图片中需要进行模糊化处理的区域采用对应的模糊化处理方式进行处理,避免了关键信息处理区域不准确或无法批量化处理的问题,能够对待处理图片进行自动化处理,并且能够准确的确定模糊化处理区域。

在一个实施例中,获取待处理图片,识别待处理图片中的信息的步骤,包括:获取待处理图片,根据预设规则对待处理图片进行区域划分,分别对各个区域中的信息进行识别。

本实施例中,获取待处理图片,根据图片类型将待处理图片进行区域划分,通常将待处理图片中的不同的特征信息划分在不同的区域,特征信息对应的实际信息划分到与特征信息相同的区域,然后根据划分的区域对待处理图片进行识别。具体地,如对于二代身份证,在识别的过程中,首先将对身份证按行进行区域划分,即将二代身份证上的姓名、性别与民族、出生日期、地址以及居民身份证号码分别划分为不同的区域,然后对各个区域中包含的信息进行识别。

本实施例中,通过对待处理图片进行区域划分,将待处理图片中的信息碎片化处理,有利于在对待处理图片中的信息进行识别的过程中,更准确的识别到待处理图片中的特征信息以及与特征信息对应的实际信息,避免了特征信息之间的相互干扰,提高了特征信息识别的准确性。

在一个实施例中,通过机器学习获取识别到的待处理图片中的信息中的特征信息的步骤,包括:

获取识别到的待处理图片中的信息,根据机器学习对信息进行分词处理;

将分词处理的结果与预设匹配词典相匹配;

若匹配成功,则提取分词结果中分词信息为待处理图片中的特征信息。

本实施例中,预先对识别系统进行深度学习训练,深度学习主要是特征学习,预先将大量的图片,比如几千张图片放入识别系统进行识别,在识别到图片中的信息之后,对信息进行分割,利用nlp(naturallanguageprocessing,自然语言分词)的分词方法对信息进行分词,分词之后判断分词结果是否符合语法、语义,适当调整分词权值调整分词,将分词结果与预设的匹配词典中的词相匹配,若匹配成功,将匹配成功的分词与人为设置的分词结果对比,适当调整匹配词典中的分词优先级。然后,将分词结果进行提取获取待处理图片中的特征信息。

本实施例中,预先对识别系统进行深度学习的训练,即进行机器学习,使得当需要对识别到的待处理图片中的信息进行提取特征信息时,能够准确的将信息分割并提取出待处理图片中的特征信息。具体地,获取识别到的待处理图片中的信息,根据机器学习对信息进行分词,即将识别到的信息先分割成独立的字符,然后根据机器学习获取每个字符相邻的字符,判断是否能够作为词组组合,对信息进行分词处理,获取分词结果并与预设匹配词典中的词匹配,若与匹配词典中的词相匹配则提取该分词结果作为待处理图片的特征信息,完成对待处理图片特征信息的提取。本实施例中,通过机器学习能够自动对待处理图片中的特征信息进行识别提取,因此能够批量化进行处理并提高了关键信息识别的准确性。

在一个实施例中,获取待处理图片,识别待处理图片中的信息的步骤之后,还包括:

若识别待处理图片中的信息识别失败,则对待处理图片进行标记存储。

本实施例中,在对待处理图片进行识别的过程中,由于图片字体、拍摄光线等原因可能存在识别失败的情况,即未识别到待处理图片中的信息。对于识别失败的待处理图片进行标记,并将待处理图片进行存储,以便再次识别或根据待处理图片的信息重新获取相应的数据进行处理。

本实施例中,对于识别失败的待处理图片进行标记并存储,有利于后续对于识别失败的待处理图片中的信息的处理,避免了由于识别失败造成的特征信息泄露的问题,有效的提高了待处理图片中的信息的安全性。

在一个实施例中,获取待处理图片,识别待处理图片中的信息,包括:

获取待处理图片,判断待处理图片的图片格式是否为预设图片格式;

若是,则识别待处理图片中的信息;

若否,则转换待处理图片的图片格式为预设图片格式,然后识别待处理图片中的信息。

本实施例中,预先设置系统能够识别的图片格式,如jpg格式、png格式。若对待处理图片中的信息进行识别首先需要判断待处理图片的图片格式是否为系统支持的图片格式,若是,则直接对待处理图片进行识别;若否,则将待处理图片的图片格式转换为预设的图片格式后,再对待处理图片中的信息进行识别。

如图2所示,在一个实施例中,提供一种关键信息处理方法,具体内容如下:

步骤210,获取待处理图片,判断待处理图片的图片格式是否为预设图片格式,若否,执行步骤220,若是,执行步骤230。

本实施例中,预先设置能够识别的图片格式为jpg格式、png格式。获取待处理图片,判断待处理图片的图片格式是否为jpg格式或png格式,若是,则说明能够识别获取到的待处理图片中的信息,执行步骤230,若否,则说明不能识别获取到的待处理图片中的信息,执行步骤220。

步骤220,将待处理图片的图片格式转换为预设图片格式。

本实施例中,通过图片转换器或者图片格式设置将待处理图片的图片格式转换成预设的图片格式,如jpg格式或png格式。

步骤230,对待处理图片进行区域划分,并分别识别各个区域中的信息。

本实施例中,对待处理图片进行区域划分,按照划分区域对待处理图片中的信息进行识别。待处理图片中的信息主要包括文字信息和图片信息。采用文字识别算法识别文字信息,采用图像识别算法识别图像信息。如利用ocr(opticalcharacterrecognition,光学字符识别)识别技术识别待处理图片中的文字信息,ocr是一种通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其他印刷品的文字转换为图像信息,再利用文字识别技术将图像信息转换为能够使用计算机输入的技术。利用sift技术识别待处理图片中的图形,如logo(标志)、照片等。sift识别算法(scale-invariantfeaturetransform,尺度不变特征转换)是一种电脑视觉的算法,能够侦测和描述图片中的局部特征,在空间尺度中寻找极值点,并提取位置、尺度、旋转不变量,能够识别到发生旋转偏移的图片。采用ocr算法识别与sift算法识别能够对实际中发送翻转、内容倒置情况的待处理图片中的信息准确识别。

步骤240,通过机器学习获取识别到的待处理图片中的信息中的特征信息。

本实施例中,当利用ocr与sift识别算法识别到待处理图片中的信息后,使用cnn(convolutionneuralnetwork,卷积神经网络)提取待处理图片中的信息。在进行信息提取前预先提供大量的训练,提高提取的正确率。

如图3所示,在一个实施例中提供一种特征信息提取训练原理图。识别到待处理图片中的信息之后,首先使用nlp进行分词,将每一句的字符切割,空格隔开。然后把每一句话进行标注处理,对于不同的分词采用不同的标注,如对于单独字符,不与前后构成词的标注为s(0)、与后面字符构成词且自身是第一个字符的标注为b(1)、在成词的中间的字符标注为m(2)、在词尾的字符标注为e(3)。然后对分词结果进行判断,并根据判断结果不断调整分词权值并反馈,调整nlp分词的组合。nlp分词结束后,将分词结果与匹配字典相匹配,也就是与预先设置的匹配字典中预先设置的词语相匹配,若匹配成功,则将此时的分词结果与预先设置的正确的分词结果对比,根据对比结果调整匹配词典中分词的优先级或新增分词,不断更新维护匹配词典以提高分词的准确度,根据分词结果提取特征信息。当获取到待处理图片并识别到待处理图片中的信息时,根据通过训练学习到的分词规则或组合对获取的待处理图片中的信息进行分词处理,根据分词结果获取到待处理图片中的特征信息。

步骤250,判断预设的关键信息库中是否存在与待处理图片中的特征信息匹配的关键信息,若是,执行步骤260,若否,则不执行后续操作。

本实施例中,预先建立关键信息库,如将二代身份证中的姓名、照片、地址以及身份证号码为关键信息存储在关键信息库中;将银行卡中的卡号、有效期、签名等关键信息存储在关键信息库中。获取到待处理图片中的特征信息之后,识别特征信息对应的图片类型即判断图片中证件或票据类型,将利用机器学习获取的待处理图片中的特征信息与对应的证件或票据类型在预先建立的关键信息库中存储的关键信息相匹配,匹配成功,则执行步骤260,匹配失败则说明识别到的待处理图片中的信息不包括作为特征信息的关键信息,不执行后续操作。这里所说的匹配成功根据预先设置的匹配率进行判断,当匹配率不小于预设匹配率时,即认为匹配成功,执行步骤260。

步骤260,获取与特征信息匹配的关键信息对应的关键信息对应的模糊化处理方式和模糊化处理区域。

本实施例中,不同的关键信息预先建立不同的关键信息处理方法,即不同的关键信息对应不同的模糊化处理方式和模糊化处理区域。模糊化处理方式是指对关键信息对应的需要进行模糊化处理的信息的模糊化处理的具体方式,如关键字姓名对应的模糊化处理方式为将实际姓名中的一个字隐藏、证件号码对应的模糊化处理方式为隐藏实际的证件号码的其中某些位等。模糊化处理区域是指关键信息对应的需要进行模糊化处理的信息在待处理图片中所处的位置区域。不同的关键信息对应不同的需要进行模糊化处理的信息,获取与特征信息对应的关键信息对应的模糊化处理方式以及模糊化处理区域,对待处理图片中的信息进行模糊化处理。

在一个实施例中,如图4所示,以二代身份证400为例,对二代身份证图片400进行处理。首先通过文字识别算法和图像识别算法分区域获取二代身份证图片400中的信息,识别出如410所示的信息,然后根据机器学习对410中的信息进行分割处理得到如420所示的信息分词组合,提取其中的分词作为特征信息,如提取特征信息身份证号码421。其次将提取的特征信息身份证号码421与预先建立的关键信息库430相匹配,检测到关键信息库430中的存在关键信息身份证号431与特征信息身份证号码421的匹配程度满足预设匹配度。再然后,获取与特征信息身份证号码421匹配的关键信息身份证号420对应的模糊化处理方式为覆盖处理,模糊化处理区域为连续18位数字的后6位区域。

步骤270,根据模糊化处理区域确定与特征信息对应的需要进行模糊化处理的区域,根据模糊化处理方式对区域进行模糊化处理。

本实施例中,获取关键信息对应的模糊化处理区域,根据模糊化处理区域识别待处理图像中的特征信息对应的需要进行模糊化处理的区域,根据模糊化处理方式对待处理图片中的需要进行模糊化处理的区域进行模糊化处理。

具体地,如图4所示,获取关键信息身份证号431对应的模糊化处理区域与模糊化处理方式后,根据关键信息身份证号431对应的模糊化处理区域确定二代身份证图片400中的连续18位数字所在的区域为需要进行模糊化处理的区域432,根据模糊化处理方式对区域432进行模糊化处理,实现了对二代身份证中身份证号码对应的具体号码的模糊化处理。

在一个实施例中,按照如图4所示的操作步骤,对二代身份证图片中对应的其他信息进行处理,得到如图5所示的模糊化处理之后的二代身份证图片500的效果图。

本实施例中关键信息处理方法,利用机器学习获取待处理图片中的特征信息,并根据特征信息获取对应的关键信息模糊化处理方式及区域,从而对待处理图片中需要进行模糊化处理的区域采用对应的模糊化处理方式进行处理,避免了关键信息处理区域不准确或无法批量化处理的问题,能够对待处理图片进行自动化处理,并且能够准确的确定模糊化处理区域。

如图6所示,在一个实施例中,提供一种关键信息识别装置,包括:

识别模块610,用于获取待处理图片,识别待处理图片中的信息;

第一获取模块620,用于通过机器学习获取识别到的待处理图片中的信息中的特征信息;

匹配模块630,用于判断预设的关键信息库中是否存在与待处理图片中的特征信息匹配的关键信息;

第二获取模块640,用于若是,则获取与特征信息匹配的关键信息对应的模糊化处理区域和模糊化处理方式;

处理模块650,用于根据模糊化处理区域确定与特征信息对应的需要进行模糊化处理的区域,根据模糊化处理方式对区域进行模糊化处理。

本实施例中,关键信息处理装置,利用机器学习获取待处理图片中的特征信息,并根据特征信息获取对应的关键信息模糊化处理方式及区域,从而对待处理图片中需要进行模糊化处理的区域采用对应的模糊化处理方式进行处理,避免了关键信息处理区域不准确或无法批量化处理的问题,能够对待处理图片进行自动化处理,并且能够准确的确定模糊化处理区域。

在一个实施例中,识别模块610还用于获取待处理图片,根据预设规则对待处理图片进行区域划分,分别对各个区域中的信息进行识别。

本实施例中,通过将待处理图片划分区域处理,能够将特征信息与特征信息对应的信息划分到同一区域进行处理,同时避免了其他信息造成的干扰,有利于更好的识别待处理图片中的特征信息,从而提高信息模糊化处理的准确性。

如图7所示,在一个实施例中,第一获取模块620包括:

分词模块621,用于获取识别到的所述待处理图片中的信息,根据机器学习对所述信息进行分词处理;

提取模块623,用于将分词处理的结果与预设匹配词典相匹配;若匹配成功,则提取分词结果中分词信息为所述待处理图片中的特征信息。

如图7所示,在一个实施例中,关键信息处理装置还包括:

标记存储模块660,用于若识别待处理图片中的信息识别失败,则对待处理图片进行标记存储。

在一个实施例中,识别模块610还用于获取待处理图片,判断待处理图片的图片格式是否为预设图片格式;若是,则识别待处理图片中的信息;若否,则转换待处理图片的图片格式为预设图片格式,然后识别待处理图片中的信息。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1