一种对图像型垃圾邮件进行过滤的方法及装置的制造方法

文档序号:9261596阅读:334来源:国知局
一种对图像型垃圾邮件进行过滤的方法及装置的制造方法
【技术领域】
[0001] 本发明设及通信技术领域,尤其设及一种对图像型垃圾邮件进行过滤的方法及装 置。
【背景技术】
[0002] 目前,基于文本规则的垃圾邮件过滤技术已经取得了成功的应用。在图像领域,研 究者们提出了各种基于数字图像处理技术的方案进行图像过滤,并取得了一定效果。其中, 主要有:基于图像近似特征的过滤技术、基于图像文本区域的过滤技术W及基于图像本身 特征的过滤技术,
[0003] 虽然上述方法能够达到一定效果,但是其原理都是从分析图像浅层特征出发,容 易误断一些含公文扫描图像W及包含文本信息的宣传图像的正常公务邮件。

【发明内容】

[0004] 鉴于上述的分析,本发明旨在提供一种对图像型垃圾邮件进行过滤的方法及装 置,用W解决现有技术中基于图像过滤垃圾邮件准确率低的问题。
[0005] 为解决上述问题,本发明主要是通过W下技术方案实现的:
[0006] 本发明一方面提供了一种对图像型垃圾邮件进行过滤的方法,该方法包括:
[0007] 通过WAF模型对邮件图像中识别出的关键词进行关键词重构;
[0008] 基于重构后的关键词对邮件进行判断,当确定所述邮件是垃圾邮件后,对所述邮 件进行过滤。
[0009] 优选地,所述通过WAF模型对邮件图像中识别出的关键词进行关键词重构的步骤 具体包括:
[0010] 通过WAF模型计算没有被识别的字与其相邻的已识别的字构成预设的关键词的 亲密度之和,当亲密度之和的值超过预设的阔值时,则确定没有被识别的字与其相邻的已 识别的字构成关键词。
[0011] 优选地,通过WAF模型计算没有被识别的字与其相邻的已识别的字构成预设的关 键词的亲密度之和的步骤具体包括:
[0012] 通过WAF模型计算关键字之间的亲密度;
[0013] 根据关键字之间的亲密度计算没有被识别的字与其相邻的已识别的字构成预设 的关键词的亲密度之和。
[0014] 优选地,计算关键字与关键词的亲密度的步骤具体包括:
[0015] 根据词激活力公式W唤.= (./;,/乂 )*(.4././;)/<计算各个关键词之间的连接紧密 度,并通过亲密度矩阵
计算各个关键词之间 亲密度之和;
[0016] 其中,fi为关键字i出现的频率,fu为关键字i和关键字j一起出现的频率,du 为两个关键字一起出现时的平均距离,Ku= (k|afki〉〇orafkj〉〇},Lu= (l|afii〉0or afij〉0},0R(x,y) =min(x,y)/max(x,y),K。.为关键词i、j相同的前向关键词k的集合,L。 为关键词i、j相同后向关键词1的集合。
[0017] 优选地,所述基于重构后的关键词对邮件进行检测,当确定所述邮件是垃圾邮件 后,对所述邮件进行过滤的步骤具体包括:
[0018] 对已经识别出的和重构后的关键字和关键词设置权重,并进行计算,当计算的结 果超过预设的阔值后,则确定所述邮件是垃圾邮件,对所述邮件进行过滤。
[0019] 优选地,所述通过WAF模型对邮件图像中识别出的关键词进行关键词重构的步骤 之前,还包括:
[0020] 过滤掉复杂背景,检测出文本对比度高的像素区域,并从该区域中识别出关键字。
[0021] 优选地,所述过滤掉复杂背景,检测出文本对比度高的像素区域,并从该区域中识 别出关键字的步骤具体包括:
[0022] 通过计算LMM模型增强文字区域和背景区域的区分度,并通过Qs化获取全局阔 值,过滤掉复杂背景,检测出文本对比度高的像素区域;
[002引对文本对比度高的像素区域进行识别,识别出关键字。
[0024] 本发明再一方面提供了一种对图像型垃圾邮件进行过滤的装置,该装置包括:
[0025] 重构单元,用于通过WAF模型对邮件图像中识别出的关键词进行关键词重构;
[0026] 过滤单元,用于基于重构后的关键词对邮件进行判断,当确定所述邮件是垃圾邮 件后,对所述邮件进行过滤。
[0027] 优选地,所述重构单元具体用于,通过WAF模型计算没有被识别的字与其相邻的 已识别的字构成预设的关键词的亲密度之和,当亲密度之和的值超过预设的阔值时,则确 定没有被识别的字与其相邻的已识别的字构成关键词。
[0028] 优选地,所述重构单元具体用于,根据词激活力公式%部.=(./;./'乂)*(馬//;)/考计 算各个关键词之间的连接紧密度,并通过亲密度矩阵
计算各个关键词之间亲密度之和;其中,为关键字i出现的频率,fU为关键字i和关键字j一起出现的频率,dy为两个关键字一起出现时的平均距离,Ku= (k|afki〉〇or afw〉0}, Lu= (l|afii〉0 or afij〉0},0R(x,y) =111;[]1片7)/1]13又片7),1(。为关键词;[0相同的前向 关键词k的集合,Lu为关键词i、j相同后向关键词1的集合。
[0029] 本发明有益效果如下;
[0030] 本发明提供的一种对图像型垃圾邮件进行过滤的方法及装置,通过WAF模型对邮 件图像中识别出的关键词进行关键词重构,并基于重构后的关键词对邮件进行判断和过 滤,从而解决现有技术中基于图像过滤垃圾邮件准确率低的问题。
[0031] 本发明的其他特征和优点将在随后的说明书中阐述,并且部分的从说明书中变得 显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、 权利要求书、W及附图中所特别指出的结构来实现和获得。
【附图说明】
[0032] 图1为本发明实施例的一种对图像型垃圾邮件进行过滤的方法的流程图;
[0033] 图2为本发明实施例的文本区域与识别的关键字的示意图;
[0034] 图3为本发明实施例的计算亲密度之和的流程示意图;
[0035] 图4为本发明实施例的一种对图像型垃圾邮件进行过滤的装置的结构示意图。
【具体实施方式】
[0036] 下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并 与本发明的实施例一起用于阐释本发明的原理。为了清楚和简化目的,当其可能使本发明 的主题模糊不清时,将省略本文所描述的器件中已知功能和结构的详细具体说明。
[0037] 为了解决现有技术基于图像过滤垃圾邮件准确率低的问题,本发明提供了 一种对 图像型垃圾邮件进行过滤的方法及装置,W下结合附图W及几个实施例,对本发明进行进 一步详细说明。应当理解,此处所描述的具体实施例仅仅用W解释本发明,并不限定本发 明。
[0038] 方法实施例
[0039] 本发明实施例提供的一种对图像型垃圾邮件进行过滤的方法,参见图1,该方法包 括:
[0040] S101、通过WAF模型对邮件图像中识别出的关键词进行关键词重构;
[0041] S102、基于重构后的关键词对邮件进行判断,当确定所述邮件是垃圾邮件后,对所 述邮件进行过滤。
[0042] 即,本发明通过WAF模型对邮件图像中识别出的关键词进行关键词重构,并基于 重构后的关键词对邮件进行判断和过滤,从而解决现有技术中基于图像过滤垃圾邮件准确 率低的问题。
[0043] 其中,步骤S101具体包括:
[0044] 通过WAF模型计算没有被识别的字与其相邻的已识别的字构成预设的关键词的 亲密度之和,当亲密度之和的值超过预设的阔值时,则确定没有被识别的字与其相邻的已 识别的字构成关键词。
[0045] 具体而言,本发明是通过WAF模型计算关键字之间的亲密度;再根据关键字之间 的亲密度计算没有被识别的字与其相邻的已识别的字构成预设的关键词的亲密度之和。
[0046] 具体实施时,本发明实施例是根据词激活力公式WO/;, =(.4 苗计算各个 关键词之间的连接紧密度,并通过亲密度矩阵
计算各个关键词之间亲密度之和;
[0047] 其中,为关键字i出现的频率,fU为关键字i和关键字j一起出现的频率,dU 为两个关键字一起出现时的平均距离,Ku= (k|afki〉〇orafy〉0},Lu= {l|afii〉0or 3'。.〉0},01?片7)=111;[]1片7)/1]13义片7),1(。.为关键词;[0相同的前向关键词1^的集合,1^。 为关键词i、j相同后向关键词1的集合。
[004引本发明实施例基于重构后的关键词对邮件进行检测,当确定所述邮件是垃圾邮件 后,对所述邮件进行过滤的步骤具体包括:
[0049]对已经识别出的和重构后的关键字和关键词设置权重,并进行计算,当计算的结 果超过预设的阔值后,则确定所述邮件是垃圾邮件,对所述邮件进行过滤。
[0050]所述通过WAF模型对邮件图像中识别出的关键词进行关键词重构的步骤之前,还 包括:
[0051]过滤掉复杂背景,检测出文本对比度高的像素区域,并从该区域中识别出关键字。
[0052] 具体的,该步骤具体包括:
[0053] 通过计算LMM模型增强文字区域和背景区域的区分度,并通过Qs化获取全局阔 值,过滤掉复杂背景,检测出文本对比度高的像素区域;
[0054]对文本对比度高的像素区域进行识别,识别出关键字。
[00巧]下面将W-个具体的例子对本发明所述的方法进行详细的说明:
[0056] 1.增强对比度的过滤复杂背景:
[0057]为了能够在复杂背景下准确找到文字笔画集中的高对比度区域,本发明通 过计算LMM模型(局部极大极小值),抑制背景区域的变化。具体的计算方法如下:
其中和fmi。分别代表像素点3*3领域窗口内的最大 像素值和最小像素值,e代表一个很小的正数用来防止上述公式的分母为0。因为背景区 域的亮度变化相对于文字区域要小很多,而且其本身的亮度值也往往更大(因为文字常常 用黑色来表示),因此上述公式增加了文字区域和背景之间的区分度,使我们能够更简单地 通过阔值区分开来。然后利用化化获取全局阔值的方法,过滤掉复杂背景,检测出对比度 高的像素区域(即文字笔画丰富的区域)。
[0058] 2.提取文本密集区域,识别部分关键字:
[0059]将获取的高对比度图分别对X轴和y轴做映射,提取比例高的部分,就获得了文本 密集区域,再进行闭操作,分析连通域分割出单个文字区域。然后再对文字区域做一下步 骤;a、去除面积较小的合理区域,求出合理区域的平均面积;b、去除长宽比不合理的字,并 计算余下字的平均宽度和高度;C、处理不合理区域多文字和一个文字被分割的情况。最后 将文字区域归一化到32
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1