专利名称:一种支持增量训练的垃圾图片识别方法和系统的制作方法
技术领域:
本发明属于反垃圾邮件领域,尤其是涉及到一种支持增量训练的垃圾图片识别方法和系统。
背景技术:
在电子邮件领域,垃圾邮件的花样不断翻新,需要反垃圾系统不断的更新技术来识别垃圾邮件。其中垃圾图片的识别和过滤难度更大。图片垃圾或垃圾图片是指,在一张图片上含有被认为是垃圾信息的文字等,例如卖发票、垃圾广告等信息。垃圾图片较难识别,一方面因为图片处理耗费资源很大;另一方面是因为垃圾图片上的文字往往被彩色复杂的背景图案所包围,使得判断更难。目前针对垃圾图片的识别方案主要是基于图片特征,提取图片的特征信息,然后通过特征频率的统计来作为垃圾图片的判断依据。这类方法中,关键的是提取何种特征。主要的特征有-视觉属性图片的文字边界、图案边界等;-底层属性提取平均颜色、饱和度等;-纯数字信息例如图片的md5哈希值,BASE64编码数据等。上述前两类特征用于识别垃圾图片的准确率较高,但提取效率却很低,有测试表明,这类特征每一项的提取时间都在百毫秒数量级,提取多项就需要秒级别的时间。这样的性能难以应用到实际环境。第三类特征虽然生成效率高,但识别的准确率和很差。
发明内容
本发明的目的在于提供一种支持增量训练的垃圾图片识别方法和系统,提取一些图片有关的弱特征,具有很高的提取效率,同时借助支持向量机在弱特征的基础上同时保证了很高的准确率。同时,对新形式的图片支持增量式学习,动态更新模型,而不需要重新训练。从而对出现的新形式垃圾图片快速的学习,并不影响现有系统的正常工作。本发明所述的支持增量训练的垃圾图片识别方法,包括步骤A)将特征处理模块作为服务进程运行,初始化线性参数初值为零向量;B)收集的垃圾图片集和正常图片集,由图片处理模块二提取每张图片的特征,提取每张图片的元数据,将特征向量和对应的类别发送给特征处理模块,进行学习;C)在反垃圾系统中,对于每封经过发垃圾系统的邮件,由图片处理模块一提取图片的特征向量,发送给特征处理模块进行分类,并根据分类结果对邮件进行是否垃圾邮件的判断;D)如果出现了新形式的垃圾图片,由图片处理模块二提取特征并发给特征处理模块进行增量学习。所述的特征向量包括图片的宽度、高度、GIF帧数、压缩比。所述步骤B)通过元数据形成向量特征的步骤包括
Al)筛选出有区分度的元数据;A2)消除异常数值;A3)进行归一化处理。所述步骤B)进行学习的方法为SVM方法,采用SVM方法学习后,得到分类模型
权利要求
1.一种支持增量训练的垃圾图片识别方法,包括步骤A)将特征处理模块作为服务进程运行,初始化线性参数初值为零向量;B)收集的垃圾图片集和正常图片集,由图片处理模块二提取每张图片的特征,提取每张图片的元数据,将特征向量和对应的类别发送给特征处理模块,进行学习;C)在反垃圾系统中,对于每封经过发垃圾系统的邮件,由图片处理模块一提取图片的特征向量,发送给特征处理模块进行分类,并根据分类结果对邮件进行是否垃圾邮件的判断;D)如果出现了新形式的垃圾图片,由图片处理模块二提取特征并发给特征处理模块进行增量学习。
2.如权利要求1所述的支持增量训练的垃圾图片识别方法,其特征是所述的特征向量包括图片的宽度、高度、GIF帧数、压缩比。
3.如权利要求2所述的支持增量训练的垃圾图片识别方法,其特征是所述步骤B)通过元数据形成向量特征的步骤包括Al)筛选出有区分度的元数据;A2)消除异常数值;A3)进行归一化处理。
4.如权利要求1所述的支持增量训练的垃圾图片识别方法,其特征是所述步骤B)进行学习的方法为SVM方法,采用SVM方法学习后,得到分类模型
5.一种支持增量训练的垃圾图片识别系统,其特征是包括用于收集的垃圾图片和正常图片集的图片处理模块二,该图片处理模块二提取每张图片的元数据,形成特征向量,生成训练数据;对特征向量和对应的类别采用SVM方法进行学习的特征处理模块;用于提取反垃圾系统中每封经过反垃圾系统的邮件中图片的特征向量,并对提取到的特征向量进行分类的图片处理模块一;用于根据分类结果对图片是否属于垃圾图片进行判断的判断识别模块。
6.如权利要求5所述的垃圾图片识别系统,其特征是所述的图片处理模块二包括元数据提取模块、特征生成模块和训练数据生成模块。
7.如权利要求5所述的垃圾图片识别系统,其特征是所述的特征处理模块包括增量学习模块和分类模块。
8.如权利要求5所述的垃圾图片识别系统,其特征是所述的图片处理模块一包括元数据提取模块和特征生成模块。
全文摘要
本发明公开了一种支持增量训练的垃圾图片识别方法和系统,所述方法包括步骤将特征处理模块作为服务进程运行,初始化线性参数初值为零向量;B)收集的垃圾图片集和正常图片集,提取每张图片的特征,提取每张图片的元数据,将特征向量和对应的类别发送给特征处理模块,进行学习;C)在反垃圾系统中,对于每封经过发垃圾系统的邮件,提取图片的特征向量,发送给特征处理模块进行分类,并根据分类结果对邮件进行是否垃圾邮件的判断;D)如果出现了新形式的垃圾图片,提取特征并发给特征处理模块进行增量学习。本发明对出现的新形式垃圾图片快速的学习,不影响现有系统的正常工作,明显提升垃圾图片的识别效率。
文档编号G06K9/62GK103020646SQ20131000315
公开日2013年4月3日 申请日期2013年1月6日 优先权日2013年1月6日
发明者高洪涛 申请人:深圳市彩讯科技有限公司