垃圾邮件过滤方法及装置的制造方法

文档序号:9567048阅读:364来源:国知局
垃圾邮件过滤方法及装置的制造方法
【技术领域】
[0001]本发明实施例属于信息过滤领域,尤其涉及一种垃圾邮件过滤方法及装置。
【背景技术】
[0002]文本聚类是将语义相近的文本聚在一起,传统的数据挖掘方法在处理文本数据之前,首先必须把文本表示成计算机能够处理的、可体现文本本质特征的形式,然后用词频逆向文件频率(Term Frequency Inverse Document Frequency,TFIDF)将文档转化为向量形式,最后在向量空间模型中通过文本聚类方法计算文本相似度。在基于TFIDF的向量空间模型中,由于没有考虑词之间存在的概念相似情况,因此影响了数据聚类的准确性。并且,现有方法也难以识别出垃圾邮件发送者在邮件内容中融入的正常邮件信息或者关键词语,从而难以准确过滤出垃圾邮件。

【发明内容】

[0003]本发明实施例提供了一种垃圾邮件过滤方法及装置,旨在解决现有方法难以准确过滤出垃圾邮件的问题。
[0004]本发明实施例是这样实现的,一种垃圾邮件过滤方法,所述方法包括:
[0005]接收到新邮件后,获取所述新邮件的邮件内容;
[0006]将获取的邮件内容处理为预设类别的字符串;
[0007]根据预设的空格惩罚值、字符相似度值及预设的初始簇中心的数据确定所述邮件内容与所述预设初始簇中心的文本相似度;
[0008]根据确定的文本相似度与预设的阈值判断所述新邮件是否为垃圾邮件,以根据判断结果判断是否过滤所述新邮件。
[0009]本发明实施例的另一目的在于提供一种垃圾邮件过滤装置,所述装置包括:
[0010]邮件内容获取单元,用于接收到新邮件后,获取所述新邮件的邮件内容;
[0011]邮件内容预处理单元,用于将获取的邮件内容处理为预设类别的字符串;
[0012]文本相似度确定单元,用于根据预设的空格惩罚值、字符相似度值及预设的初始簇中心的数据确定所述邮件内容与所述预设初始簇中心的文本相似度;
[0013]垃圾邮件判断单元,用于根据确定的文本相似度与预设的阈值判断所述新邮件是否为垃圾邮件,以根据判断结果判断是否过滤所述新邮件。
[0014]在本发明实施例中,由于将获取的邮件内容处理为预设类别的字符串,因此缩短了邮件内容的长度,减少了邮件内容的比较次数,从而提高了过滤邮件的速度。并且,由于保留了完整的邮件内容,因此保证了聚类指令,从而提高了过滤垃圾邮件的准确度。
【附图说明】
[0015]图1是本发明第一实施例提供的一种垃圾邮件过滤方法的流程图;
[0016]图2是本发明第二实施例提供的一种垃圾邮件过滤装置的结构图。
【具体实施方式】
[0017]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0018]本发明实施例中,接收到新邮件后,获取所述新邮件的邮件内容,将获取的邮件内容处理为预设类别的字符串,根据预设的空格惩罚值、字符相似度值及预设的初始簇中心的数据确定所述邮件内容与所述预设初始簇中心的文本相似度,根据确定的文本相似度与预设的阈值判断所述新邮件是否为垃圾邮件,以根据判断结果判断是否过滤所述新邮件。
[0019]为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
[0020]实施例一:
[0021]图1示出了本发明第一实施例提供的一种垃圾邮件过滤方法的流程图,详述如下:
[0022]步骤S11,接收到新邮件后,获取所述新邮件的邮件内容。
[0023]该步骤中,当接收到一个新邮件时,解码该新邮件,使之成为正常的文本内容,再从解码后的新邮件中获取该新邮件的邮件内容,该邮件内容包括正文、关键字和附件等。
[0024]步骤S12,将获取的邮件内容处理为预设类别的字符串。
[0025]其中,预设类别的字符串包括中文字符、英文字符串和其他字符的字符串。需要指出的是,当邮件内容包括数字时,该数字划分为“英文字符串” 一类。
[0026]该步骤中,假设邮件内容为“Θ复:55如有打扰请见谅! 2”,则该邮件内容经过处理后变为:“Θ,,、“复,,、“:”、“55”、“如”、“有”、“打”、“扰”、“请”、“见”、“谅”、“! ”、“2””,其中,“Θ”、“: ”、“! ”划分为“其他字符”这一类,“复”、“如”、“有”、“打”、“扰”、“请”、“见”、“谅”划分为“中文字符”这一类,“55”、“2”划分为“英文字符”这一类。
[0027]步骤S13,根据预设的空格惩罚值、字符相似度值及预设的初始簇中心的数据确定所述邮件内容与所述预设初始簇中心的文本相似度。
[0028]其中,预设的空格惩罚值为负数,其具体数值根据需要进行设定,可以设定为-1,-2等,当然,也可以设定为其他数值,此处不作限定。
[0029]其中,初始簇中心的数据包括字符串及长度,具体地,所述根据预设的空格惩罚值、字符相似度值及预设的初始簇中心的数据确定所述邮件内容与所述预设初始簇中心的文本相似度包括:
[0030]Α1、根据预设的空格惩罚值及字符相似度值确定处理得到的字符串与预设的初始簇中心的字符串的最高得分。具体地,All、根据下式初始化回溯矩阵的第一行和第一列:F0iJ= dX j,其中,d为预设的空格惩罚值,0彡j彡(邮件内容的长度-1),或者,0彡j彡(预设的初始簇中心的长度-1) ;Fli0= dXi,其中,0彡i彡(邮件内容的长度-1),或者,Ο^?^Ξ (预设的初始簇中心的长度-1)。需要指出的是,如果j小于(预设的初始簇中心的长度-1),则i小于(邮件内容的长度-1)。这里预设的初始簇中心的字符串为人工选取的作为垃圾邮件的字符串。A12、根据下式确定回溯矩阵的其他行列:F^=^si
i+d, Fx ^+山’其中—址⑴,Pj)为1\与P」的字符相似度值,并将最大的F “ s作为处理得到的字符串与预设的初始簇中心的字符串的最高得分。需要指出的是,^与^为可能属于同一类别的字符,也可能属于不同类别的字符,当!\与P ]为都属于同一类别的字符,若两者匹配,则可定义sirnd P,)为1 (或者为大于0的其他数值),若两者不匹配,则可定义simd Pj)为0(或者为小于0的其他数值)。当然,当1\与P j分别属于不同类别的字符时,两者肯定不匹配。在该步骤中,最大的Fy为回溯矩阵最右下角单元格的值,为了节省工作量,可在计算出回溯矩阵最右下角单元格的值时,直接将该值作为处理得到的字符串与预设的初始簇中心的字符串的最高得分。
[0031]A2、根据确定的最高得分、邮件内容的长度、预设的初始簇中心的长度计算所述邮件内容和预设的初始簇中心的文本相似度。具体地,A21、确定邮件内容的长度和预设的初始簇中心的长度中的较大值;A22、根据确定的最高得分和确定的较大值计算所述邮件内容和预设的初始簇中心的文本相似度。具体地,当定义!\与P.j匹配时,sim(T Pj)为1,两者不匹配,sim^P,)为0,则根据下式计算所述邮件内容和预设的初始簇中心的文本相似度:S頂=确定的最高得分/确定的较大值,以归一化邮件内容和预设的初始簇中心的文本相似度(即S頂),使该S頂的值在[0,1]之间,当S頂越接近1,表明邮件内容和预设的初始簇中心越相似,否则,表明邮件内容和预设的初始簇中心越不相似。当然,当定义^与!3 j匹配时,simO^Pj)为非1的数值,则确定该simO^Pj)与1的倍数,假设为“M”,则S頂=确定的最高得分/(M*确定的较大值),以保证该S頂的值在[0,1]之间。
[0032]步骤S14,根据确定的文本相似度与预设的阈值判断所述新邮件是否为垃圾邮件,以根据判断结果判断是否过滤所述新邮件。
[0033]具体地,所述根据确定的文本相似度与预设的阈值判断所述新邮件是否为垃圾邮件,以根据判断结果判断是否过滤所述新邮件,包括:
[0034]B1、判断确定的文本相似度是否大于预设的阈值。假设预设的阈值为M,则判断S頂是否大于M。
[0035]B2、在确定的文本相似度大于预设的阈值时,判定所述新邮件为垃圾邮件,并过滤所述新邮件。具体地,过滤新邮件是指拒绝该新邮件存放在“收件箱”里,可以直接删掉该新邮件,也可以将该新邮件存放在垃圾邮件的文件夹,以使得邮件被错判时,用户也还可以浏览该邮件,减少用户损失。
[0036]B3、在确定的文本相似度小于或等于
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1