一种图像中敏感信息的检测方法及系统与流程

文档序号:15800598发布日期:2018-11-02 21:24阅读:164来源:国知局
本发明涉及图像处理技术、机器学习技术和大数据分析
技术领域
:,具体来说,涉及一种图像中敏感信息的检测方法及系统。
背景技术
:随着中国新广告法的出台,电子商务平台和平台的商家对于图片中出现的敏感文字需要进行审查和过滤。现有方法,如申请号201110428091.5,
专利名称::为视频图像文字的检测方法及系统的中国专利,不适用对于含有复杂背景的静态商品图片的敏感词识别的功能。同时基于人工处理审查图片中的敏感词的效率低,性能差,无法满足一天上百万的新图片处理需求。随着广告法的完善,商品覆盖面的提高,图片种类越来越丰富,有效的对商品图片中文字内容的鉴别就显得越来越重要。申请号201210490923.0,
专利名称::为一种微博图片敏感信息检测方法的中国专利,能够实现对于微博特定敏感图片的检测,但是没有通用性。该专利是基于图片的匹配。对于不出现在样本库中的文字无法直接识别,不能实现通用的审查功能。综上,现有技术对于敏感信息的检测往往使用人工的方式,效率低下,准确度低,无法跟上商品图片上线的速度。使用机器检测的方法中,如果采用文字图片直接匹配的方式,效果差,无法识别不在图片样本库中的文字内容。技术实现要素:本发明实施例提供一种图像中敏感信息的检测方法及系统,以自动识别图片复杂背景中的字符区域,从而有效识别字符内容,极大的提升检测效率。为解决上述技术问题,本发明实施例采用以下技术方案:第一方面,本发明实施例提供一种图像中敏感信息的检测方法,包括:对所上传的图像进行识别和解码,获得原始解码图像;并对所述原始解码图像进行预处理;搜索所述预处理后的原始解码图像中的字符区域;对所述字符区域进行字符分割,并对所述分割后的字符进行识别;从所述识别的字符中搜索敏感信息及对应的敏感信息级别,并反馈敏感信息。结合第一方面,作为第一种可实现的方案,所述对所上传的图像进行识别和解码,包括:对上传的图像的尺寸和格式进行识别,若检测到符合预先设定的尺寸和格式,则对所述图像进行解码,获得原始解码图像。结合第一方面,作为第二种可实现的方案,所述对所述原始解码图像进行预处理,包括:对所述原始解码图像进行图像尺度调整,将不同尺寸的原始解码图像调整为预先设定的固定宽度;对所述原始解码图像进行颜色调整,将彩色原始解码图像调整为灰度图像。结合第一方面,作为第三种可实现的方案,所述搜索所述预处理后的原始解码图像中的字符区域,包括:通过训练得到双分类器,其中,一个分类器用于判断图像中单个子区域为字符的概率,另一个分类器用于判断子区域组合成整体区域为字符组合的概率;采用所述双分类器判断图像中各个子区域含有字符的概率,根据所述概率得到所述子区域组合成的整体区域是否为字符组合区域。结合第一方面,作为第四种可实现的方案,所述对所述字符区域进行字符分割,包括:对所述字符区域进行过分割处理,搜索所有的可能字符的过分割点;构建搜索树,其中,树节点对应过分割点,两个树节点之间为对应两个过分割点之间的字符;获取从根节点到叶节点的最优路径,所述最优路径对应的概率值是所有可能路径中最大的;将所述最优路径中的节点作为最可能的分割点,根据所述最可能的分割点,分割字符。结合第一方面,作为第五种可实现的方案,所述对所述分割后的字符进行识别,包括:根据所述分割后的字符结果,计算平均字符宽度;结合所述平均字符宽度,在所述搜索树搜索更准确的最优路径;根据所述更准确的最优路径,对每个分割区域,获得识别概率最高的m个候选字符,同时根据分割点得到待识别的字符总数n,构造m*n的网格;所述m为整数,且2<m<8;对所述网格采用维特比动态规划算法,获得最终的最优路径;将所述最终的最优路径对应的字符串作为识别的字符。结合第一方面,作为第六种可实现的方案,所述从所述识别的字符中搜索敏感信息及对应的敏感信息级别,并反馈敏感信息,包括:对所述识别的字符进行后处理,然后与敏感词库中的敏感词进行匹配,得到可能的敏感信息和对应的敏感信息级别,并反馈给前端的业务系统和用户。第二方面,本实施例还提供一种图像中敏感信息的检测系统,包括:识别和解码模块:用于对所上传的图像进行识别和解码,获得原始解码图像;预处理模块:用于对所述原始解码图像进行预处理;第一搜索模块:用于搜索所述预处理后的原始解码图像中的字符区域;分割模块:用于对所述字符区域进行字符分割;字符识别模块:用于对所述分割后的字符进行识别;第二搜索模块:用于从所述识别的字符中搜索敏感信息及对应的敏感信息级别,并反馈敏感信息。结合第二方面,作为第一种可实现的方案,所述解码模块,具体用于对上传的图像的尺寸和格式进行识别,若检测到符合预先设定的尺寸和格式,则对所述图像进行解码,获得原始解码图像。结合第二方面,作为第二种可实现的方案,所述预处理模块,具体用于对所述原始解码图像进行图像尺度调整,将不同尺寸的原始解码图像调整为预先设定的固定宽度;对所述原始解码图像进行颜色调整,将彩色原始解码图像调整为灰度图像。结合第二方面,作为第三种可实现的方案,所述第一搜索模块,具体用于:通过训练得到双分类器,其中,一个分类器用于判断图像中单个子区域为字符的概率,另一个分类器用于判断子区域组合成整体区域为字符组合的概率;采用所述双分类器判断图像中各个子区域含有字符的概率,根据所述概率得到所述子区域组合成的整体区域是否为字符组合区域。结合第二方面,作为第四种可实现的方案,所述分割模块,具体用于:对所述字符区域进行过分割处理,搜索所有的可能字符的过分割点;构建搜索树,其中,树节点对应过分割点,两个树节点之间为对应两个过分割点之间的字符;获取从根节点到叶节点的最优路径,所述最优路径对应的概率值是所有可能路径中最大的;将所述最优路径中的节点作为最可能的分割点,根据所述最可能的分割点,分割字符。结合第二方面,作为第五种可实现的方案,所述识别模块,具体用于:根据所述分割后的字符结果,计算平均字符宽度;结合所述平均字符宽度,在所述搜索树搜索更准确的最优路径;根据所述更准确的最优路径,对每个分割区域,获得识别概率最高的m个候选字符,同时根据分割点得到待识别的字符总数n,构造m*n的网格;所述m为整数,且2<m<8;对所述网格采用维特比动态规划算法,获得最终的最优路径;将所述最终的最优路径对应的字符串作为识别的字符。本发明实施例的图像中敏感信息的检测方法及系统,可自动识别图片复杂背景中的字符区域,从而有效识别字符内容,极大的提升检测效率。本发明实施例的方法中,先对所上传的图像进行识别和解码,获得原始解码图像;并对所述原始解码图像进行预处理;然后搜索预处理后的原始解码图像中的字符区域;随后对字符区域进行字符分割,并对分割后的字符进行识别;最后从识别的字符中搜索敏感信息及对应的敏感信息级别,并反馈敏感信息。整个方法中,没有使用图像样本库,可适用于对广泛多样的商品图像中的敏感信息的检测,实现实时自动过滤含有敏感词图片的功能。附图说明为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1为本发明实施例的图2为本发明实施例的方法流程图;图3为本发明实施例中在一图片中识别字符区域示意图;图4为本发明实施例中在一图片中识别字符区域及进行字符分割示意图;图5为本发明实施例的装置结构框图。具体实施方式为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。本
技术领域
:技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本
技术领域
:技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。本发明实施例具体可以实现在一种如图1所示的系统环境中,具体包括了:电商服务平台、后台服务器和数据库;其中,商户通过电商服务平台上传图像,至后台服务器中保存。后台服务器将接收的图像进行处理。从图像中搜索字符区域,并对字符区域进行字符分割,识别字符。数据库中存有敏感信息列表,包含敏感信息及其对应的敏感等级。当敏感词汇发生变化时,可随时更新数据库中的敏感信息列表。后台服务器从数据库中调取敏感信息列表,将从图像中识别的字符与敏感信息列表中敏感信息进行比对,从而判断出图像中是否含有敏感信息。后台服务器具体可以是单独作成的服务器设备,比如:机架式、刀片、塔式或者机柜式的服务器设备,也可以采用工作站、大型计算机等具备较强计算能力硬件设备;也可以是由多个服务器设备组成的服务器集群。数据库具体可以是一种redis数据库或者其他类型的分布式数据库、关系型数据库等,具体可以是包括存储设备的数据服务器以及与数据服务器相连的存储设备,或者是由多个数据服务器和存储服务器组成的一种用于数据库的服务器集群系统。电商服务平台具体可以是目前在线运行的,包括了各类业务子系统的,用于在线交易、商品销售的平台系统。在硬件层面上,电商服务平台具体也是由一系列相互之间建立通信连接的服务器集群组成,电商服务平台具体的具体建设方式和所采用的架构标准,可以参照目前国内的几大大型网购平台所使用的常用技术,在本实施例中不再赘述。本发明实施例的图像中敏感信息的检测方法,如图2所示,包括以下步骤:s10对所上传的图像进行识别和解码,获得原始解码图像;并对所述原始解码图像进行预处理;s20搜索所述预处理后的原始解码图像中的字符区域;s30对所述字符区域进行字符分割,并对所述分割后的字符进行识别;s40从所述识别的字符中搜索敏感信息及对应的敏感信息级别,并反馈敏感信息。上述实施例的方法中,没有使用图像样本库,将上传的图像和图像样本库中的图像进行比较。而是直接对穿上的图像中的字符区域进行搜索,将搜索到的字符区域进行字符分割,并对分割后的字符进行识别。本实施例的方法,将分割后的字符进行识别,以判断字符是否属于敏感信息。本实施例的方法直接对图像中的字符进行识别,提高检测敏感信息的准确性。同时,本实施例的方法对图像的背景没有要求。图像中可以包含复杂背景,在复杂背景中包含字符。这样,本实施例的方法对图像的适用范围较广,不拘泥于白底黑字的图片。上述实施例的方法中,平台商户可通过网页上传商品图像;将上传的商品图像进行压缩,获得压缩后的商品图像文件;将压缩后的商品图像文件传输至后台服务器中进行存储。商品图像包含商品主图和商品详情图。上述实施例的步骤s10中,对所上传的图像进行识别和解码,具体包括:对上传的图像的尺寸和格式进行识别,若检测到符合预先设定的尺寸和格式,则对所述图像进行解码,获得原始解码图像。若检测上传的图像的尺寸和格式不符合预先设定的尺寸和格式,则将信息反馈给商户,并提示商户后续操作。上述实施例的步骤s10中,对所述原始解码图像进行预处理,包括:对所述原始解码图像进行图像尺度调整,将不同尺寸的原始解码图像调整为预先设定的固定宽度;对所述原始解码图像进行颜色调整,将彩色原始解码图像调整为灰度图像。原始解码图像经过预处理,使得不同上传者上传的不同尺寸和不同颜色的图像都统一为固定宽度和固定色彩。这便于后续从图像中检测字符。上述实施例的步骤s20使用最大稳定极值区域(maximumstableextremeregion)算法进行自然场景下的字符区域的搜索。将图片划分为多个子区域,用分类器判断各个子区域含有字符的概率值,并根据各概率值得到这些子区域组合成的矩形区是否为可能字符区域。具体来说,步骤s20包括:步骤s201通过训练得到双分类器,其中,一个分类器用于判断图像中单个子区域为字符的概率,另一个分类器用于判断子区域组合成整体区域为字符组合的概率。获得双分类器过程包括:准备训练数据,包括中文数据和英文数据。训练数据是从自然场景图片中提取的,并经过框选后的文字灰度化的图片。从这些数据中提取数值特征。数值特征包括连通域和笔画等体现文字属性的数值特征。利用数值特征训练两个adaboost级联分类器,得到双分类器。其中,一个分类器用于判断单个子区域为字符的概率,另一个分类器用于判断子区域组合成的整体区域为字符组合的概率。单个子区域的大小可以为40*40像素点。多个子区域组合成的整体区域,通常是水平的长条矩形区域,由多个40*40像素点的子区域组成。步骤s202采用所述双分类器判断图像中各个子区域含有字符的概率,根据所述概率得到所述子区域组合成的整体区域是否为字符组合区域。步骤s202中,判断的图像不局限于背景干净的印刷文字图像区域,还可适用于自然背景的图像。如图3所示,图中为一带有彩色背景的图片,通过本步骤s20,识别出字符区域。如图3中黑色背景所在区域为识别出的字符区域。上述实施例的步骤s30中,对所述字符区域进行字符分割,包括:s3011对所述字符区域进行过分割处理,搜索到所有的可能字符的过分割点。过分割处理采用直方图阈值的方法对字符区域进行粗分割,得到所有可能的字符分割点,为过分割点。这些分割点的子集是真正的字符分割点。s3012采用集束搜索(beamsearch)方法构建搜索树,其中,树节点对应过分割点,两个树节点之间为对应的两个过分割点之间的字符。获取从根节点到叶节点的最优路径,所述最优路径对应的概率值是所有可能路径中最大的。在s3012中,在构建搜索树之后,优选合并搜索树中可能的过分割点,确定精确的字符之间的分割点。获取从根节点到叶节点的最优路径的具体过程为:赋予节点之间的字符识别的概率值和字符在二元语言模型(bigram)的概率值,将所述两概率值对数值相加,得到每两个树节点之间的概率值;然后通过动态规划算法得到从根节点到叶节点的最优路径,所述最优路径对应的概率值是所有可能路径中最大的。s3013将所述最优路径中的节点作为最可能的分割点,根据所述最可能的分割点,分割字符。在上述分割点寻找的过程中,需要定义一个目标函数。此函数由使用不同分割点的字符识别的结果概率值函数对数值和使用相应分割点识别的字符组成的语言模型的概率值函数对数值相加组成。最优路径对应的概率值,也是最大化目标函数。根据最优路径确定最可能的分割点,从而得到对应的字符分割结果。上述实施例的步骤s30中,对分割后的字符进行识别,具体包括:s3021根据所述分割后的字符结果,计算平均字符宽度;结合所述平均字符宽度,在所述搜索树搜索更准确的最优路径。上述步骤中,优选在所述搜索树中运行集束搜索算法,并将所述平均字符宽度融入概率值的计算中,搜索更准确的最优路径。s3022根据所述更准确的最优路径,对每个分割区域,获得识别概率最高的m个候选字符,同时根据分割点得到待识别的字符总数n,构造m*n的网格;所述m为整数,且2<m<8。在上述步骤中,根据所述更准确的最优路径,得到对应的分割点间的字符识别结果;对于每个分割区域,获得识别概率最高的m个候选字符;同时根据分割点得到待识别的字符总数n,构造一个m*n的网格。候选字符的选择过程为:结合预先训练的覆盖上千字符的单字特征库,进行基于树结构的快速最近邻的匹配,获得各个字符区域的可能的字符及其对应的分值,选择分值最高的m个字符作为候选字符。s3023对所述网格采用维特比动态规划算法,获得最终的最优路径。在上述步骤中,对所述网格中每个字符根据bigram模型获得相应的概率值;根据网格中字符的概率值,对所述网格采用维特比(viterbi)动态规划算法,获得最终的最优路径。s3024将所述最终的最优路径对应的字符串作为识别的字符。如图4所示,上一行文字是从图片中识别的字符区域,下一行文字是对上一行文字进行字符分割后得到的字符。上述实施例的步骤s40中,对所述识别的字符进行后处理,然后与敏感词库中的敏感词进行匹配,得到可能的敏感信息和对应的敏感信息级别,并反馈给前端的业务系统和用户。所述后处理是使用一些规则减少错误,例如有些一维码会识别成特定字,那么使用规则可以去除这些结果。通过后处理,去除噪音字符。通过相似字列表进行相似词匹配和纠错,得到可能的敏感词和对应的敏感词级别。例如,在后台服务器中预先设定敏感词和对应级别,在进行相似词匹配和纠错后,将获得的词汇与预先设定敏感词进行匹配判断,如果一样,就属于敏感词,识别出敏感词后,在前端标识,并反馈给前端的业务系统和对商户进行提醒或者警告。后台服务器中预先设定敏感词和对应级别敏感词分级可实时更新,进一步完善了时效性和提高了客户服务体验。前端和网页端提供统一的客户接口和无缝的实时体验。在上述实施例的方法中,二元语言模型(bigram)主要是从文本材料训练得到。在字符分割过程中,搜索树的集束搜索算法中加入二元语言模型的影响(这个权重使用了bigram中的概率值,并且二元语言模型的概率值是整合在识别引擎的打分中的),获得更准确的分割结果。同时,在字符识别过程中,搜索树二次集束搜索和候选字网格使用维特比的动态规划路径搜索中,使用二元语言模型获得字符概率值。同时在字符识别完成后,根据相似字符列表对可能误识别的相似字进行基于概率的替换,用于输出最终的可能敏感词。上述实施例中,商户通过网页上传商品主页和详情页图像至后台图片库。后台同步多线程调用广告敏感词识别系统算法程序,以批处理的方式运行。程序设置定时器,等待后台算法在规定时间内返回识别的结果。对后台返回的敏感词进行分类,对不同级别的敏感词进行不同的处理。对最高级别的敏感词,给商家警告并且禁止相应图片上传,替换对应图片为此图无效的提示图片。对于较低等级的敏感词,发送信息给商家,进行提醒,商家收到信息后可以进行相应的替换行为。对于线下的已存在于图像存储库中的图像进行离线扫描,发现含有敏感词的图片进行替换等操作。上述实施例的方法,能够实时筛选商户上传的商品图像,而不用人工介入,商户体验不会受到影响和延误。该方法可以为不同背景的相关商品图片进行检测和识别其中包含的敏感信息,而不限于(不限定的意思可以是自然场景,背景不是像印刷体一样的白底黑字)特定图片格式、背景、场景和其他可能的限制,有广泛的通用性。应用场景也不限于电子商务平台,可以推广到线下等其它通用平台。如图5所示,本发明实施例还提供一种图像中敏感信息的检测系统,包括:识别和解码模块:用于对所上传的图像进行识别和解码,获得原始解码图像;预处理模块:用于对所述原始解码图像进行预处理;第一搜索模块:用于搜索所述预处理后的原始解码图像中的字符区域;分割模块:用于对所述字符区域进行字符分割;字符识别模块:用于对所述分割后的字符进行识别;第二搜索模块:用于从所述识别的字符中搜索敏感信息及对应的敏感信息级别,并反馈敏感信息。上述实施例的系统中,没有使用图像样本库,将上传的图像和图像样本库中的图像进行比较。而是直接利用第一搜索模块对上传的图像中的字符区域进行搜索,利用分割模块将搜索到的字符区域进行字符分割,利用字符识别模块对分割后的字符进行识别。本实施例的系统,通过字符识别模块对分割后的字符进行识别,以判断字符是否属于敏感信息。本实施例的系统直接对图像中的字符进行识别,提高检测敏感信息的准确性。同时,本实施例的系统对图像的背景没有要求。图像中可以包含复杂背景,在复杂背景中包含字符。这样,本实施例的系统对图像的适用范围较广,不拘泥于白底黑字的图片。上述实施例的系统中,所述识别和解码模块,具体用于对上传的图像的尺寸和格式进行识别,若检测到符合预先设定的尺寸和格式,则对所述图像进行解码,获得原始解码图像。所述预处理模块,具体用于对所述原始解码图像进行图像尺度调整,将不同尺寸的原始解码图像调整为预先设定的固定宽度;对所述原始解码图像进行颜色调整,将彩色原始解码图像调整为灰度图像。预处理模块对原始解码图像经过处理后,使得不同上传者上传的不同尺寸和不同颜色的图像都统一为固定宽度和固定色彩。这便于后续从图像中检测字符。所述第一搜索模块,具体用于:通过训练得到双分类器,其中,一个分类器用于判断图像中单个子区域为字符的概率,另一个分类器用于判断子区域组合成整体区域为字符组合的概率;采用所述双分类器判断图像中各个子区域含有字符的概率,根据所述概率得到所述子区域组合成的整体区域是否为字符组合区域。所述分割模块,具体用于:对所述字符区域进行过分割处理,搜索所有的可能字符的过分割点;构建搜索树,其中,树节点对应过分割点,两个树节点之间为对应两个过分割点之间的字符;获取从根节点到叶节点的最优路径,所述最优路径对应的概率值是所有可能路径中最大的;将所述最优路径中的节点作为最可能的分割点,根据所述最可能的分割点,分割字符。所述字符识别模块,具体用于:根据所述分割后的字符结果,计算平均字符宽度;结合所述平均字符宽度,在所述搜索树搜索更准确的最优路径;根据所述更准确的最优路径,对每个分割区域,获得识别概率最高的m个候选字符,同时根据分割点得到待识别的字符总数n,构造m*n的网格;所述m为整数,且2<m<8;对所述网格采用维特比动态规划算法,获得最终的最优路径;将所述最终的最优路径对应的字符串作为识别的字符。所述第二搜索模块,具体用于:对所述识别的字符进行后处理,然后与敏感词库中的敏感词进行匹配,得到可能的敏感信息和对应的敏感信息级别,并反馈给前端的业务系统和用户。本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本
技术领域
:的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1