判断邮件类型的方法及设备的制作方法

文档序号:7986334阅读:125来源:国知局
判断邮件类型的方法及设备的制作方法
【专利摘要】本申请提供一种判断邮件类型的方法及设备,该方法包括:接收发送方发送的邮件;对所述发送方的发信频率进行实时统计;如果所述发送方的实时发信频率小于预定阈值,则对所述邮件的类型进行判断;以及根据所述邮件的类型对所述邮件进行处理。通过采用本申请,可对邮件的类型进行判断,方便用户从电子邮箱中有选择的收取并阅读有用的邮件。
【专利说明】判断邮件类型的方法及设备
【技术领域】
[0001]本申请涉及互联网通讯领域,尤其涉及一种判断邮件类型的方法及设备。
【背景技术】
[0002]随着互联网的快速发展,电子邮件已成为个人、机构、团体及公司进行日常通信、工作交流和业务往来的重要手段,使用频率越来越高。然而,垃圾邮件的问题也越来越普遍,越来越严重,垃圾邮件占用网络带宽,造成邮件服务器拥塞,进而降低整个网络的运行效率,还侵犯收件人的隐私权,侵占收件人信箱空间,耗费收件人的时间和精力。垃圾邮件还极有可能被利用传播不健康内容或被黑客利用散发病毒等,严重影响电子邮件的正常使用,已经对现实社会造成了危害。另外还有一些商家发送的广告邮件,虽然合法,但是他们大量涌入邮箱,用户想在众多邮件中寻找正常邮件,已经不太容易。因此,对邮件的类型进行判断,并拦截垃圾邮件,可以方便用户从邮箱中筛选有用的邮件。

【发明内容】

[0003]本申请的主要目的在于提供一种判断邮件类型的方法,其中,包括:接收发送方发送的邮件;对所述发送方的发信频率进行实时统计;如果所述发送方的实时发信频率小于预定阈值,则对所述邮件的类型进行判断;以及根据所述邮件的类型对所述邮件进行处理。
[0004]根据本申请的实施例,在该方法中,所述邮件的类型包括:正常邮件、推广类邮件、垃圾邮件,并且其中,对所述邮件的类型进行判断包括:提取邮件的特征信息,判断收发双方在预定时间内是否有过最近联系关系,如果所述收发双方有过最近联系关系,则判定所述邮件为正常邮件。
[0005]根据本申请的实施例,在该方法中,所述最近联系关系包括如下中的任一个或多个:所述收发双方的历史邮件往来关系;所述收发双方有第三方关联人的历史邮件往来关系;以及所述收发双方以电子邮箱地址作为账号基于第三方支付平台所进行的交易关系。
[0006]根据本申请的实施例,在该方法中,如果所述收发双方没有最近联系关系,则对所述邮件进行评分,以获取所述邮件的最终分值,并依据所述邮件的最终分值对所述邮件类型进行判定;其中,对所述邮件进行评分,以获取所述邮件的最终分值包括:对所述发送方的用户账号进行评分,以获取所述用户账号的分值;对所述邮件的内容进行评分,以获取所述邮件内容的分值;根据所述用户账号分值及所述邮件内容分值获取所述邮件的最终分值;
[0007]根据本申请的实施例,在该方法中,如果所述收发双方没有最近联系关系,则对所述邮件进行评分,以获取所述邮件的最终分值,并依据所述邮件的最终分值对所述邮件类型进行判定;其中,对所述邮件进行评分,以获取所述邮件的最终分值包括:对所述发送方的用户账号进行评分,以获取所述用户账号的分值;对所述邮件的内容进行评分,以获取所述邮件内容的分值;对所述发送方所属的高层级进行评分,以获取所述高层级的分值;根据所述用户账号的分值、所述邮件内容的分值以及所述发送方所属的高层级的分值获取所述邮件的最终分值。
[0008]根据本申请的实施例,在该方法中,依据所述最终分值对所述邮件的类型进行判定包括:所述邮件的最终分值小于第一预设分值,判定为垃圾邮件;所述邮件的最终分数值大于等于第一预设分值且小于第二预设分值,判定为推广类邮件;以及所述邮件的最终分值大于等于第二预设分值,判定为正常邮件;其中,所述第一预设分值小于所述第二预设分值。
[0009]根据本申请的实施例,在该方法中,对所述发送方用户账号进行评分,以获取所述用户账号的分值,包括对如下指标中的至少一个指标进行评分:所述用户账号在本邮件系统内的历史收发信频率;所述用户账号的创建时间;所述用户账号违反外发频率策略的次数;以及所述用户账号外发邮件被判为垃圾邮件或推广类邮件类型的计数。
[0010]根据本申请的实施例,在该方法中,所述对所述邮件的内容进行评分包括:基于贝叶斯预测模型,将所述邮件与大量已经被判定的垃圾邮件、推广类邮件及正常邮件的模型进行对比,并对所述邮件的内容进行评分。
[0011]根据本申请的实施例,在该方法中,根据所述邮件类型对所述邮件进行处理包括:将正常邮件通过正常邮件发送通道向收件方发送;将推广类邮件通过推广类邮件发送通道向收件方发送;将垃圾邮件拦截。
[0012]根据本申请的实施例,在该方法中,所述发送方所属的高层级包括:所述发送方所属的域和所述发送方所属的运营商层级,所述对发送方所属的高层级进行评分,包括对下述指标中的至少一个指标进行评分:所述高层级创建的时间;所述高层级下各用户违反外发频率策略平均次数;所述高层级下的用户数量;所述高层级下用户活跃度;所述高层级下各用户账号发信被判为垃圾邮件或推广类邮件类型的平均计数;以及所述高层级下用户被判定为坏用户的比例。
[0013]根据本申请的实施例,在该方法中,还包括:通过离线系统中收集的单独案例,对所述发送方用户账号或所述发送方所属的高层级的所述各项指标的预定评分规则和影响因子进行调整。
[0014]在本申请的另一方面,提供一种判断邮件类型的设备,包括:邮件外发模块,用于接收发送方发送的邮件,并对所述邮件进行处理;行为反垃圾模块,用于实时统计所述发送方的发信频率,并将所述频率与预定阈值进行比较;内容反垃圾模块,用于当所述行为反垃圾模块的比较结果为所述频率小于预定阈值时,对所述邮件的类型进行判断。
[0015]根据本申请的实施例,在该设备中,还包括:最近联系人模块,用于提取所述邮件的特征信息,以判断收发双方在预定时间内是否有过最近联系关系,所述最近联系关系包括如下中的任一个或多个:所述收发双方的历史邮件往来关系;所述收发双方有第三方关联人的历史邮件往来关系;以及外部系统中以收发双方以电子邮箱地址作为账号基于第三方支付平台所进行的交易关系。
[0016]根据本申请的实施例,在该设备中,所述邮件的类型包括:正常邮件、推广类邮件、垃圾邮件;并且其中,所述内容反垃圾模块对所述邮件的类型进行判断包括:所述内容反垃圾模块向所述最近联系人模块发起查询请求,以查询所述收发双方是否有过最近联系关系;如果所述收发双方有过最近联系关系,则所述内容发垃圾模块判定所述邮件为正常邮件,并将判定结果返回给所述邮件外发模块。[0017]根据本申请的实施例,在该设备中,还包括:模型与特征模块,用于当最近联系人模块的判断结果为所述收发双方没有过最近联系关系时,对所述发送方用户账号及所述邮件的内容进行评分。
[0018]根据本申请的实施例,在该设备中,所述内容反垃圾模块用于向所述模型与特征模块获取所述发送方用户账号的分值及所述邮件内容的分值,并获取所述邮件的最终分值;并且用于依据所述最终分值对所述邮件的类型进行判定,并将判定结果返回给所述邮件外发模块。
[0019]根据本申请的实施例,在该设备中,所述模型与特征模块对所述邮件发送方用户账号进行评分,以获取所述用户账号的分值,包括对如下指标中的至少一个指标进行评分:所述用户账号在本邮件系统内的历史收发信频率;所述用户账号的创建时间;所述用户账号违反外发频率策略的次数;以及所述用户账号外发邮件被判为垃圾邮件或推广类邮件类型的计数。
[0020]根据本申请的实施例,在该设备中,所述内容反垃圾模块依据所述最终分值对所述邮件的类型进行判定包括:所述邮件的最终分值小于第一预设分值,判定为垃圾邮件;所述邮件的最终分数值大于等于第一预设分值且小于第二预设分值,判定为推广类邮件;所述邮件的最终分值大于等于第二预设分值,判定为正常邮件;其中,所述第一预设分值小于所述第二预设分值。
[0021]根据本申请的实施例,在该设备中,所述邮件外发模块进一步用于根据所述邮件类型对所述邮件进行处理;并且其中,所述处理包括:将正常邮件通过正常邮件外发通道向收件方发送;将推广类邮件通过推广类邮件发送通道向收件方发送;将垃圾邮件拦截。与现有技术相比,根据本申请的技术方案,可以对邮件的类型进行判断。除了利用最近联系关系对邮件进行判断,还引用了第三方交易信息,将以邮箱地址为账号的第三方支付体系中的信用历史记录作为扩展联系人信息,能够降低误判的可能性。对邮件进行评分时,同时对用户账号及其所发送的邮件的内容进行实时评分,并对最终邮件的评分及判定邮件类型产生影响,避免离线数据不同步,手工操作失误等干扰因素。在对用户级进行评分的基础上,还加入了对用户账号所属的更高层级的评分,例如域或运营商层级,并对该域运营商下用户发送的邮件的评分及用户账号的评分产生影响。
【专利附图】

【附图说明】
[0022]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0023]图1是本申请实施例的流程图;
[0024]图2是本申请实施例的图1中的步骤S103的流程图;
[0025]图3是本申请实施例的图2中的步骤S203的具体流程图;
[0026]图4是本申请实施例的图3中的步骤S304的具体流程图;
[0027]图5是本申请实施例的图2中步骤S203的另一种实施方法的流程图;
[0028]图6是本申请实施例涉及的判断邮件类型的设备600的框图。
【具体实施方式】[0029]本申请的主要思想在于:对邮件的类型进行判断,在对用户账号进行评分的基础上,还加入了对用户账号所属的域和/或更高层级的运营商层级的评分。本申请除了利用最近联系关系对邮件进行判断,还将以邮箱地址为账号的基于第三方支付体系进行的交易关系作为扩展关联关系信息,能够降低误判的可能性。
[0030]为使本申请的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本申请作进一步地详细说明。
[0031 ] 根据本申请的实施例,提供了 一种判断邮件类型的方法。
[0032]参考图1,图1是本申请实施例的流程图;图2是本申请实施例的图1中的步骤S103的流程图;图3是本申请实施例的图2中的步骤S203的具体流程图;图4是本申请实施例的图3中的步骤S304的具体流程图;图5是本申请实施例的图2中步骤S203的另一实施方法的流程图。
[0033]如图1所示,在步骤SlOl中,系统接收发送方发送的邮件,然后,在步骤S102中,对发送方的发信频率进行实时统计,在步骤S103中,将发送方的实时发信频率与预定阈值作比较,预定阈值可根据要求设定,如果发送方的实时发信频率大于或等于预定阈值,则对邮件进行拦截。例如:以小时为计数单位,设预定阈值为100封/小时,则如果某发送方用户账号在I小时内外发邮件超过了 100封,则后续邮件无论内容好坏,均对其进行拦截,拒绝发送;
[0034]如果发送方的实时发信频率小于预定阈值,则对邮件的类型进行判断,在步骤S104中,根据邮件的类型对邮件进行处理。其中,邮件的类型包括:正常邮件、推广类邮件、垃圾邮件。
[0035]对邮件的类型进行判断,可如图2所示,首先,在步骤S201中,提取邮件的feature信息,这里所说的feature信息,即为通常所指的“邮件指纹”信息。通过这些信息判断收发双方在预定时间内是否有过最近联系关系,最近联系关系例如可以包括如下中的一个或多个:收发双方的历史邮件往来关系,以及收发双方有第三方关联人的历史邮件往来关系,还可以包括收发双方以电子邮箱地址作为账号基于第三方支付平台所进行的交易关系,例如,双方基于各种网购的支付平台进行的交易。如果收发双方在预定的时间范围内有过最近联系关系,在步骤S202中,则可以直接判定该邮件为正常邮件,并回到步骤S104,将该邮件向接收方发送。
[0036]如果收发双方没有最近联系关系,则进行步骤S203,可如图3所示,包括:步骤S301,对发送方的用户账号进行评分,获取用户账号的分值;步骤S302,对邮件的内容进行评分,获取邮件内容的分值;步骤S303,获取邮件的最终分值,并在步骤S304中,依据最终分值对邮件的类型进行判定。
[0037]在步骤S301中,对发送方用户账号进行评分,包括对用户账号的如下指标中的至少一个指标进行评分:用户账号在本邮件系统内的历史收发信频率;用户账号的创建时间;用户账号违反外发频率策略的次数以及用户账号外发邮件被判为垃圾邮件或推广类邮件类型的计数。并且,用上述指标各自的影响因子对各指标的分值进行加权,得到用户账号的分值。对上述各指标的评分可基于各自的预定的评分规则,本实施例可按照下述规则对各项指标进行评分。
[0038]其中,对用户账号历史发信的频率的进行评分的评分规则可以为:将第一阈值与第二阈值之间分成若干个子区间,每个子区间对应特定分值,每小时发信数量在其所属的子区间内取得对应的特定分值,每小时发信数量小于等于第一阈值,评为满分;每小时发信数量大于第二阈值,评为O分;频率越高分数越低。其中,第一阈值小于第二阈值;上述评分规则中的各阈值或参数的设定,可根据具体情况进行设定。
[0039]如:设第一阈值为5封,第二阈值为95封,则将(5~95]分成9个子区间,(5,15]、(15,25]、(25,35]、…(85,95],分别对应9分、8分、7分、…I分,其中,每小时发信数量小于等于5,评为满分;每小时发信数量大于95,则评为O分。若某一用户账号的历史发信频率为每小时100封,则根据上述的评分规则,评为O分。
[0040]对用户账号创建时间进行评分,例如可以依据用户账号的创建时间距离当前时间的时间差距,即,用户账号的创建时长,评分的规则可以为:将第一时长与第二时长之间分成多个时长区间,每个时长区间对应特定分值,发件方用户账号的创建时长在其所属的时长区间内取得对应的特定分值,发件方用户账号的创建时长大于等于第二时长,评为满分;发件方用户账号的创建时长小于第一时长,评为O分;创建时间越长评分越高。其中,第一时长小于第二时长;上述评分规则中的各阈值或参数的设定,可根据具体情况进行设定。
[0041]如:设第一时长为I个月,第二时长为9个月,将(1,9]区间分成9个时长区间,分别为(I, 2]、(2,3]、(3,4]、…、(8,9],分别对应I分、2分、3分,…,9分,用户账号的创建时长大于或等于9个月,评为满分10分,小于I个月评为O分,若某一用户账号的创建了 8个月以上,则根据上述的评分规则,评为9分。
[0042]对用户账号违反外发频率策略次数进行评分,评分规则可以为:将第一预设次数与第二预设次数之间分成多个次数区间,每个次数区间对应特定分值,发件方用户账号的违反外发频率策略的次数在其所属的次数区间内取得对应的特定分值,发件方用户账号违反外发频率策略的次数小于等于第一预设次数评为满分;发件方用户账号的违反外发频率策略的次数大于第二预设次数评为O分;违反外发频率策略的次数越少,得分越高。其中,第一预设次数小于第二预设次数。
[0043]如,设第一预设次数为1,第二预设次数为9.将[1,18)区间分成[1,3)、[3,5),[5,7)、…、[16,18) 9个区间,对应的分值分别为9分、8分、7分、…I分,发件方的违反外发频率策略的次数小于I次,评分 为满分10分,大于等于18次,评为O分;若某发送方违反外发频率策略的次数为8次,则按上述的评分规则,评分为6分。上述评分规则中的各阈值或参数的设定,可根据具体情况进行设定。
[0044]对用户账号外发邮件被判为垃圾邮件或推广类邮件类型的计数进行评分的评分规则可以为:发送垃圾邮件或推广类邮件计数的上限计数与第一预设计数之间分成多个计数区间,每个计数区间对应特定分值,发件方用户账号的发送垃圾邮件或推广类邮件计数在其所属的计数区间内取得对应的特定分值,发件方用户账号发送垃圾邮件或推广类邮件计数小于等于上限计数评为满分;发件方用户账号发送垃圾邮件或推广类邮件计数大于第一预设计数评为O分;发送垃圾邮件或推广类邮件计数越少,得分越高。其中,第一预设次数大于发送垃圾邮件或推广类邮件计数的上限计数。上述评分规则中的各阈值或参数的设定,可根据具体情况进行设定。
[0045]例如,设发送垃圾邮件或推广类邮件计数的上限计数为5,第一预设计数为95,将(5,95]分成(5,15]、(15,25]、(25,35]、…(85,95],9 个计数区间,分别对应 9 分、8 分、7分、…I分,用户发送垃圾邮件或推广类邮件计数小于等于5,评为满分10分,用户发送垃圾邮件或推广类邮件计数大于95,则评为O分,若某用户发送垃圾邮件或推广类邮件计数为23,则根据上述的评分规则,该用户此项目的评分为8分。
[0046]对上述的各项指标,可以针对其中的任一项或多项的组合对用户账号进行评分,并根据具体情况设定各指标的影响因子,再将各项指标的分值按各自的影响因子进行加权,得到该用户账号的分值。例如,若针对以上所有的指标对用户账号进行评分,设定它们的影响因子分别为:历史收发信的频率影响因子为0.2 ;账号创建时间影响因子为0.1 ;账号违反外发频率策略次数的影响因子为0.4 ;账号外发邮件被判为垃圾邮件或推广类邮件类型的计数的影响 因子为0.3。
[0047]假如,用户账号A于2011年10月5日创建,当前时间为2012年10月30日,历史发信频率为每小时4封,违反外发频率策略的次数为O次,账号A外发邮件被判为垃圾邮件或推广类邮件类型的计数为6。按照上述各项指标的评分规则进行评分,并按上述的影响因子对各指标的分值进行加权,可得到该用户的评分为10X0.2+10X0.1+10X0.4+9X0.3=9.7分。
[0048]此外还可以基于用户账号的分值,按照预设的阈值区间,对用户进行评级。例如,设分值在[0,3)区间为BAD User (差用户),分值在[8,10]区间为GOOD User (好用户)。
[0049]在步骤S302中,可基于贝叶斯预测模型,对邮件的内容进行评分,将该邮件与大量已经被判定的垃圾邮件、推广类邮件及正常邮件的模型进行对比,并获取该邮件内容的分值。其中,邮件内容分值的分制可以与用户账号分值的分制相同,可为10分制,百分制或其他分制,也可归一化为I分制。
[0050]以上的步骤S301与S302执行的先后顺序不唯一,可根据具体情况任意进行设置。
[0051]在步骤S303中,根据用户账号分值及邮件内容分值获取邮件的最终分值时,将发送方用户账号的分值与邮件内容的分值分别按照各自的预定权重进行加权,得到邮件的最终分值。如,设发送方用户账号的所占的预定权重为40%,邮件内容所占的预定权重为60%,若一邮件其发送方的用户账号分值为8分,邮件的内容分值为9分,则8 X 40%+9 X 60%=8.6,该邮件的最终分值为8.6分。
[0052]获取邮件的最终分值后,进行步骤S304,依据最终分值对邮件的类型进行判定,本实施例可以用如下的方法进行判定:可如图4所示,在步骤S401,如果邮件的最终分值小于第一预设分值,则判定该邮件为垃圾邮件;如果邮件的最终分值不小于第一预设分值,即大于等于第一预设分值,则执行步骤S402中,如果邮件分值小于第二预设分值,即该邮件分值介于第一预设分值与第二预设分值之间,则判定该邮件为推广类邮件;如果邮件的最终分值不小于第二预设分值,即大于等于第二预设分值,则判定其为正常邮件;其中,第一预设分值小于第二预设分值。
[0053]例如,设第一预设分值为5,第二预设分值为8,则邮件的最终分值小于3分,判定为垃圾邮件,邮件的最终分值大于等于5分且小于8分,判定为推广类邮件,邮件的最终分值大于8分,则可判定为正常邮件。那么,若某邮件的评分为8.5分,则可判定该邮件为正常邮件;若某邮件的评分为4.8分,则判定该邮件为垃圾邮件。对邮件的类型进行判断之后,返回图1中的步骤S104,根据邮件类型的判断结果对邮件进行处理。
[0054]在步骤S104中,根据邮件类型的判定结果,对邮件进行处理。将正常邮件通过正常邮件外发通道向收件方发送;将推广类邮件通过推广类邮件外发通道向收件方发送;对垃圾邮件进行拦截。
[0055]此外,在对邮件进行了一系列的判断之后,还可以进一步加入步骤S105,对邮件的处理日志进行收集,以便进行离线分析及问题核查。
[0056]本实施例还可以加入对发送方所属的高层级的评分,如图4所示,除了对用户账号及邮件内容进行评分的步骤S501及S502,还加入了步骤S503对发送方所属高层级进行评分,以获取高层级分值。其中,高层级可以是发送方用户账号所属的域和/或更高层级的运营商层级,并且,高层级的评分对邮件的分值或发送方用户账号的分值也会产生影响。
[0057]对发送方所属的高层级进行评分,包括对下述指标中的至少一个指标进行评分:高层级创建的时间、高层级下各用户违反外发频率策略平均次数、高层级下的用户数量、高层级下用户活跃度、高层级下各用户账号发信被判为垃圾邮件或推广类邮件类型的平均计数以及高层级下BAD User的比例。
[0058]对发送方所属高层级的创建时间进行评分,依据的是该高层级的创建时间距当前时间的时间差距,即,高层级的创建时长,评分的规则可以为:第一预设时长与第二预设时长之间分成多个时长区间,每个时长区间对应特定分值,高层级的创建时长在其所属的时长区间内取得对应的特定分值,高层级的创建时长小于第一预设时长,评为O分;高层级的创建时长大于等于第二预设时长,评为满分;创建时间越长评分越高;其中,第一预设时长小于第二预设时长;上述评分规则中的各阈值或参数的设定,可根据具体情况进行设定。
[0059]如:设第一时长为2个月,第二时长为18个月,将(3,18]区间分成9个时长区间,分别为(2,4]、(4,6]、(6,8]、…、(16,18],分别对应I分、2分、3分,…,9分,该高层级创建时长大于或等于18个 月,评为满分10分,小于I个月评为O分,若某高层级的创建了 8个月以上,则根据上述的评分规则,评为4分。
[0060]对高层级下用户账号违反外发频率策略的平均次数进行评分的规则可以为:将第一预设次数与第二预设次数之间分成多个次数区间,每个次数区间对应特定分值,高层级下用户账号的违反外发频率策略的平均次数在其所属的次数区间内取得对应的特定分值,高层级下用户账号的违反外发频率策略的平均次数小于等于第一预设次数评为满分;高层级下用户账号的违反外发频率策略的平均次数大于第二预设次数评为O分;其中,第一预设次数小于第二预设次数。
[0061]如,设第一预设次数为1,第二预设次数为18.将[1,18)区间分成[1,3)、[3,5),[5,7)、…[16,18) 9个区间,对应的分值分别为9分、8分、7分、…I分,高层级下用户账号的违反外发频率策略的平均次数小于I次,评分为满分10分,大于等于18次,评为O分;若高层级下用户账号的违反外发频率策略的平均次数为13次,则按上述的评分规则,评分为5分。上述评分规则中的各阈值或参数的设定,可根据具体情况进行设定。
[0062]对高层级下的用户数量进行评分的评分规则可以为:第一预设数值与第二预设数值之间分成多个数值子区间,每个数值子区间对应特定分值,高层级下的用户数量在其所属的数值子区间内取得对应的特定分值;高层级下的用户数量大于等于第二预设数值,评为满分;高层级下的用户数量小于第一预设数值,评为O分;其中,第一预设数值小于第二预设数值;如,设第一预设数值为20,第二预设数值为520.将[20,520)区间分成[20,70)、[70,120)、[120,170)、…、[420,470) 9个区间,对应的分值分别为I分、2分、3分、…、9分,高层级下用户数量大于等于470,评分为满分10分,小于20,评为O分;若高层级下用户数量320,则按上述的评分规则,评分为7分。上述评分规则中的各阈值或参数的设定,可根据具体情况进行设定。
[0063]对高层级下用户活跃度进行评分,即高层级下用户登录系统的比例,其评分规则可以为:第一阈值与第二阈值之间分成多个数值子区间,每个数值子区间对应特定分值,该高层级下用户登录系统的比例值,在其所属的数值子区间内取得对应的特定分值,该高层级下用户登录系统的比例值小于第一阈值,评为O分;该高层级下用户登录系统的比例值大于等于第二阈值,评为满分;其中,第一阈值大于第二阈值。
[0064]如,第一阈值设为20%,第二阈值设为65%,将(20%,65%]分成(20%,25%]、(25%,30%]、(30%,35%]、…、(60%,65%]9个区间,对应分值依次为I分、2分、3分、…、9分,该高层级下用户登录系统的比例值小于20%,评为O分;该高层级下的BAD User的比例大于等65%,评为10分;即,假如某层级下用户登录系统的比例值为52%,则该层级该项指标的分值为7分。
[0065]对高层级下用户账号外发邮件被判为垃圾邮件或推广类邮件类型的平均计数进行评分的评分规则可以为:发送垃圾邮件或推广类邮件计数的上限计数与第一预设计数之间分成多个计数区间,每个计数区间对应特定分值,高层级下用户账号的发送垃圾邮件或推广类邮件的平均计数在其所属的计数区间内取得对应的特定分值,高层级下用户账号发送垃圾邮件或推广类邮件的平均计数小于等于上限计数评为满分;高层级下用户账号发送垃圾邮件或推广类邮件的平均计数大于第一预设计数评为O分;第一预设次数大于发送垃圾邮件或推广类邮件计数的上限计数。
[0066]例如,设发送垃圾邮件或推广类邮件计数的上限计数为5,第一预设计数为95,将(5,95]分成(5,15]、( 15,25]、(25, 5],…(85,95],9 个计数区间,分别对应 9 分、8 分、7分、…I分,则高层级下用户发送垃圾邮件或推广类邮件平均计数小于等于5,评为满分10分,高层级下用户发送垃圾邮件或推广类邮件计数大于95,则评为O分,若某高层级下用户发送垃圾邮件或推广类邮件计数为23,则根据上述的评分规则,该高层级此项目的评分为8分。
[0067]对高层级下BAD User的比例进行评分的评分规则可以为:第一预设比值与第二预设比值之间分成多个比值子区间,每个比值子区间对应特定分值,该高层级下的BADUser的比例在其所属的比值子区间内取得对应的分值,该高层级下的BAD User的比例小于第一预设比值,评为满分;该高层级下的BAD User的比例大于等于第二预设比值,评为O分;第一预设比值小于第二预设比值。
[0068]如,第一预设比值设为5%,第二预设比值设为50%,将(5%,50%]分成(5%,10%]、(10%, 15%], (15%, 20%]、…、(45%,50%]9个区间,对应分值依次为9分、8分、7分、…、I分,该层级下BAD User的比例小于5%,评为10分;该高层级下的BAD User的比例大于50%,评为O分;8卩,假如某层级的BAD User的比例为32%,则该层级该项指标的分值为4分。
[0069]对上述的各项指标,可以针对其中的任一项或多项的组合对发送方所属的高层级进行评分,并根据具体情况设定各项指标的影响因子,再将各项指标的分值按各自的影响因子进行加权,得到该高层级的分值。例如,若针对以上所有的指标对用户账号进行评分,设定他们的影响因子分别为:高层级创建的时间为0.1、高层级下各用户违反外发频率策略平均次数为0.3、高层级下的用户数量为0.1、高层级下用户活跃度为0.1、高层级下各用户账号发信被判为垃圾邮件或推广类邮件类型的平均计数为0.2以及高层级下BADUser的比例为0.2。
[0070]假如某发送方所属的域于2011年10月5日创建,当前时间为2012年10月30日,域下各用户违反外发频率策略平均次数为5次、域下的用户数量为419、域下用户登录系统的比例为50%、域下各用户账号发信被判为垃圾邮件或推广类邮件类型的平均计数19、域下BAD User的比例为18%。按照上述各项指标的评分规则进行评分,并按上述的影响因子对各指标的分值进行加权,可得到该用户所属域的评分为6X0.1+7X0.3+8X0.1+7X0.1+8X0.2+7X0.2=7.2 分。
[0071]以上的步骤S501、S502与S503执行的先后顺序不唯一,可根据具体情况任意进行设置。
[0072]在执行步骤S504,根据用户账号的分值、邮件内容的分值以及发送方所属的高层级的分值获取邮件的最终分值时,将发送方用户账号的分值、邮件内容的分值以及发送方所属高层级的分值分别按照各自的预定权重进行加权,得到邮件的最终分值。例如:设用户账号的分值所占的权重为0.3 ;邮件样本内容的分值所占的权重为0.6 ;用户所属的高层级的分值所占的权重为0.1。若某用户,其发送方的用户账号分值为8分,邮件的内容分值为
7.5分,所属的高层级的分值为9分,则8 X 30%+7.5 X 60%+9 X 10%=7.8,该邮件的最终分值为7.8分。
[0073]除采用上述方法获取分值,还可以将高层级的评分加入对发送方用户账号的进行评分的项目中,作为对发送方用户账号进行评分的一项指标,并根据实际的情况设定其影响因子,获取最终分值时,则将用户账号的分值与邮件内容分进行加权。
[0074]获取邮件的最终分值后,在步骤S505中,再依据最终分值对邮件的类型进行判定。
[0075]本实施例中,对发送方用户账号进行评分或对发送方用户所属的高层级进行评分,都为在线实时进行评分,可实时产出评价结果,能够避免离线数据不同步,手工操作失误等干扰因素。
[0076]本实施例中,对发送方用户账号的各项指标进行评分所依据的预定评分规则和影响因子或对发送方用户所属的高层级的各项指标进行评分所依据的预定评分规则和影响因子,可以通过配置文件存储,以便可以随时调整。并且可以通过离线系统中收集的单独案例,对发送方用户账号或发送方所属的高层级的各项指标的预定评分规则和影响因子进行调整。例如:可以通过客服工单系统中客户投诉的案例,对在线评价进行补偿和修正。
[0077]此外,在对邮件进行了一系列的判断之后,还可以进一步加入步骤S105,对邮件的处理日志进行收集,以便进行离线分析及问题核查。
[0078]本实施例对用户账号及用户所属高层级的各指标的评分规则,可按上述各设定方法设置,也可按其他的方法设定,评分规则中的各阈值或参数的设定,也可根据具体情况进行设定。对于本领域的技术人员来说,对邮件各项指标的评分规则及其阈值或参数的设置,以及各指标影响因子的设置,可以有各种更改和变化。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
[0079]图6是本申请实施例涉及的判断邮件类型的设备600的框图。[0080]如图6所示,判断邮件类型的设备600可以包括:邮件外发模块601、行为反垃圾模块602和内容反垃圾模块603。
[0081]邮件外发模块601,可以用于接收发送方发送的邮件,并对邮件进行处理。
[0082]行为反垃圾模块602,可以用于实时统计发送方的发信频率,并将频率与预定阈值进行比较。
[0083]内容反垃圾模块603,可以用于当行为反垃圾模块的比较结果为频率小于预定阈值时,对邮件的类型进行判断。
[0084]邮件外发模块601还用于当行为反垃圾模块602的比较结果为频率大于等于预定阈值时,对邮件进行拦截。
[0085]本实施例中的设备600还可以进一步包括最近联系人模块604,可以用于提取邮件的特征信息,以判断收发双方在预定时间内是否有过最近联系关系。其中,最近联系关系包括如下中的任一个或多个:收发双方的历史邮件往来关系;收发双方有第三方关联人的历史邮件往来关系;以及外部系统中以收发双方以电子邮箱地址作为账号基于第三方支付平台所进行的交易关系。
[0086]本实施例对邮件类型进行判定,其中,邮件的类型包括:正常邮件、推广类邮件、垃圾邮件。
[0087]内容反垃圾模块603对邮件的类型进行判断包括:内容反垃圾模块603向最近联系人模块604发起查询请求,以查询收发双方是否有过最近联系关系,如果收发双方有过最近联系关系,则判定邮件为正常邮件,并将判定结果返回给邮件外发模块601。
[0088]本实施例中的设备600还可以进一步包括:模型与特征模块605,可用于当最近联系人模块604的判断结果为收发双方没有过最近联系关系时,对发送方用户账号及邮件内容进行评分。并且其中,内容反垃圾模块603,可进一步用于向模型与特征模块获取发送方用户账号的分值及邮件内容的分值,并获取邮件的最终分值;并且还用于依据最终分值对邮件的类型进行判定,并将判定结果返回给邮件外发模块。
[0089]内容反垃圾模块603获取邮件的最终分值,可以为将用户账号的分值与邮件内容的分值按预定权重进行加权,得到邮件的最终分值。
[0090]模型与特征模块605对邮件发送方用户账号进行评分,以获取用户账号的分值,包括对如下指标中的至少一个指标进行评分:用户账号在本邮件系统内的历史收发信频率;用户账号的创建时间;用户账号违反外发频率策略的次数;以及用户账号外发邮件被判为垃圾邮件或推广类邮件类型的计数。
[0091]模型与特征模块605对发送方用户账号进行评分为用上述至少一个指标各自的影响因子对各指标的分值分别进行加权,求出加权平均数,得到用户账号的分值。
[0092]内容反垃圾模块603依据最终分值对邮件的类型进行判定包括:当邮件的最终分值小于第一预设分值,判定为垃圾邮件;当邮件的最终分数值大于等于第一预设分值且小于第二预设分值,判定为推广类邮件;当邮件的最终分值大于等于第二预设分值,判定为正常邮件;其中,第一预设分值小于第二预设分值。其中第一预设分值和第二预设分值可根据具体情况进行设定。
[0093]模型与特征模块605对邮件内容进行评分可基于贝叶斯预测模型。
[0094]邮件外发模块601进一步用于根据邮件类型对邮件进行处理,将正常邮件通过正常邮件外发通道向收件方发送;将推广类邮件通过推广类邮件发送通道向收件方发送;对垃圾邮件进行拦截。
[0095]模型与特征模块605还可以用于对发送方所属的高层级进行评分,并且内容发垃圾模块603向模型与特征模块605获取发送方所属的高层级的分值。其中,发送方所属的高层级包括:发送方所属的域和发送方所属的运营商层级。
[0096]内容反垃圾模块603获取邮件的最终分值包括:将用户账号的分值、邮件内容的分值以及发送方所属的高层级的分值按预定权重进行加权,得到邮件的最终分值。
[0097]模型与特征模块605对发送方所属的高层级进行评分,包括对如下指标中的至少一个指标进行评分:高层级创建的时间、高层级下各用户违反外发频率策略平均次数、高层级下的用户数量、高层级下用户活跃度、高层级下各用户账号发信被判为垃圾邮件或推广类邮件类型的平均计数以及高层级下用户被判定为坏用户的比例。
[0098]模型与特征模块605对发送方用户账号或发送方所属的高层级进行评分为在线实时完成。
[0099]模型与特征模块605对发送方所属的高层级进行评分为用至少一个指标各自的影响因子对至少一个指标的分值分别进行加权,得到发送方所属的高层级的分值。
[0100]模型与特征模块605对发送方用户账号的各项指标进行评分所依据的预定评分规则和影响因子或对发送方所属的高层级的各项指标进行评分所依据的预定评分规则和影响因子,可以通过配置文件存储。并且,可以通过离线系统中收集的单独案例,对发送方用户账号的各项指标的预定评分规则和影响因子或发送方所属的高层级的各项指标的预定评分规则和影响因子进行调整。
[0101]内容反垃圾模块603还可以用于:将邮件类型的判断结果发送到行为反垃圾模块602。行为反垃圾模块602进一步用于:将发送方发送该类型的邮件的计数加I。
[0102]本申请的设备600还可以包括:离线日志收集模块606,用于收集行为反垃圾模块和内容反垃圾模块对邮件的处理日志。
[0103]本申请的设备600所包括的各个模块的具体实施与本申请的方法中的步骤的具体实施是相对应的,为了不模糊本申请,在此省略对各个模块的具体细节进行描述。
[0104]应当理解,图6所示的框图仅仅为了示例的目的而示出的,而不是对本申请范围的限制。应当注意,尽管在上文详细描述中提及了设备的若干模块或子模块,但是这种划分仅仅并非强制性的。实际上,根据本申请的实施方式,在某些情况下,可以根据具体情况而增加或者减少某些模块。上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
[0105]此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
[0106]本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0107]以上仅为本申请的实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
【权利要求】
1.一种判断邮件类型的方法,其特征在于,包括: 接收发送方发送的邮件; 对所述发送方的发信频率进行实时统计; 如果所述发送方的实时发信频率小于预定阈值,则对所述邮件的类型进行判断;以及 根据所述邮件的类型对所述邮件进行处理。
2.根据权利要求1所述的方法,其中,所述邮件的类型包括:正常邮件、推广类邮件、垃圾邮件,并且其中,对所述邮件的类型进行判断包括: 提取邮件的特征信息,判断收发双方在预定时间内是否有过最近联系关系,如果所述收发双方有过最近联系关系,则判定所述邮件为正常邮件。
3.根据权利要求2所述的方法,其中,所述最近联系关系包括如下中的任一个或多个: 所述收发双方的历史邮件往来关系; 所述收发双方有第三方关联人的历史邮件往来关系;以及 所述收发双方以电子邮箱地址作为账号基于第三方支付平台所进行的交易关系。
4.根据权利要求2所述的方法,其中,如果所述收发双方没有最近联系关系,则对所述邮件进行评分,以获取所述邮件的最终分值,并依据所述邮件的最终分值对所述邮件类型进行判定;其中,对所述邮件进行评分,以获取所述邮件的最终分值包括: 对所述发送方的用户账号进行评分,以获取所述用户账号的分值; 对所述邮件的内容进行评分,以获取所述邮件内容的分值; 根据所述用户账号分值及所述邮件内容分值获取所述邮件的最终分值。
5.根据权利要求2所述的方法,其中,如果所述收发双方没有最近联系关系,则对所述邮件进行评分,以获取所述邮件的最终分值,并依据所述邮件的最终分值对所述邮件类型进行判定;其中,对所述邮件进行评分,以获取所述邮件的最终分值包括: 对所述发送方的用户账号进行评分,以获取所述用户账号的分值; 对所述邮件的内容进行评分,以获取所述邮件内容的分值; 对所述发送方所属的高层级进行评分,以获取所述高层级的分值; 根据所述用户账号的分值、所述邮件内容的分值以及所述发送方所属的高层级的分值获取所述邮件的最终分值。
6.根据权利要求4或5所述的方法,其中,依据所述最终分值对所述邮件的类型进行判定包括: 所述邮件的最终分值小于第一预设分值,判定为垃圾邮件; 所述邮件的最终分数值大于等于第一预设分值且小于第二预设分值,判定为推广类邮件;以及 所述邮件的最终分值大于等于第二预设分值,判定为正常邮件; 其中,所述第一预设分值小于所述第二预设分值。
7.根据权利要求4或5所述的方法,其中,对所述发送方用户账号进行评分,以获取所述用户账号的分值,包括对如下指标中的至少一个指标进行评分: 所述用户账号在本邮件系统内的历史收发信频率; 所述用户账号的创建时间; 所述用户账号违反外发频率策略的次数;以及所述用户账号外发邮件被判为垃圾邮件或推广类邮件类型的计数。
8.根据权利要求4或5所述的方法,其中,所述对所述邮件的内容进行评分包括:基于贝叶斯预测模型,将所述邮件与大量已经被判定的垃圾邮件、推广类邮件及正常邮件的模型进行对比,并对所述邮件的内容进行评分。
9.根据权利要求4或5所述的方法,其中,根据所述邮件类型对所述邮件进行处理包括: 将正常邮件通过正常邮件发送通道向收件方发送; 将推广类邮件通过推广类邮件发送通道向收件方发送; 将垃圾邮件拦截。
10.根据权利要求5所述的方法,其中,所述发送方所属的高层级包括:所述发送方所属的域和所述发送方所属的运营商层级,所述对发送方所属的高层级进行评分,包括对下述指标中的至少一个指标进行评分:所述高层级创建的时间;所述高层级下各用户违反外发频率策略平均次数;所述高层级下的用户数量;所述高层级下用户活跃度;所述高层级下各用户账号发信被判为垃圾邮件或推广类邮件类型的平均计数;以及所述高层级下用户被判定为差用户的比例。
11.根据权利要求10所述的方法,其中,还包括:通过离线系统中收集的单独案例,对所述发送方用户账号或所述发送方所属的高层级的所述各项指标的预定评分规则和影响因子进行调整。
12.—种判断邮件类型的设备,其特征在于,包括: 邮件外发模块,用于接收发送方发送的邮件,并对所述邮件进行处理; 行为反垃圾模块,用于实时统计所述发送方的发信频率,并将所述频率与预定阈值进行比较; 内容反垃圾模块,用于当所述行为反垃圾模块的比较结果为所述频率小于预定阈值时,对所述邮件的类型进行判断。
13.根据权利要求12所述的设备,其特征在于,还包括: 最近联系人模块,用于提取所述邮件的特征信息,以判断收发双方在预定时间内是否有过最近联系关系,所述最近联系关系包括如下中的任一个或多个: 所述收发双方的历史邮件往来关系; 所述收发双方有第三方关联人的历史邮件往来关系;以及 外部系统中以收发双方以电子邮箱地址作为账号基于第三方支付平台所进行的交易关系。
14.根据权利要求13所述的设备,其中,所述邮件的类型包括:正常邮件、推广类邮件、垃圾邮件; 并且其中,所述内容反垃圾模块对所述邮件的类型进行判断包括:所述内容反垃圾模块向所述最近联系人模块发起查询请求,以查询所述收发双方是否有过最近联系关系; 如果所述收发双方有过最近联系关系,则所述内容发垃圾模块判定所述邮件为正常邮件,并将判定结果返回给所述邮件外发模块。
15.根据权利要求14所述的设备,其特征在于,还包括: 模型与特征模块,用于当最近联系人模块的判断结果为所述收发双方没有过最近联系关系时,对所述发送方用户账号及所述邮件的内容进行评分。
16.根据权利要求15所述的设备,其中,所述内容反垃圾模块用于向所述模型与特征模块获取所述发送方用户账号的分值及所述邮件内容的分值,并获取所述邮件的最终分值;并且用于依据所述最终分值对所述邮件的类型进行判定,并将判定结果返回给所述邮件外发模块。
17.根据权利要求16所述的设备,其中,所述模型与特征模块对所述邮件发送方用户账号进行评分,以获取所述用户账号的分值,包括对如下指标中的至少一个指标进行评分: 所述用户账号在本邮件系统内的历史收发信频率; 所述用户账号的创建时间; 所述用户账号违反外发频率策略的次数;以及 所述用户账号外发邮件被判为垃圾邮件或推广类邮件类型的计数。
18.根据权利要求16-17中任一项所述的设备,其中,所述内容反垃圾模块依据所述最终分值对所述邮件的类型进行判定包括: 所述邮件的最终分值小于第一预设分值,判定为垃圾邮件; 所述邮件的最终分数值大于等于第一预设分值且小于第二预设分值,判定为推广类邮件; 所述邮件的最终分值大于等于第二预设分值,判定为正常邮件; 其中,所述第一预设分值小于所述第二预设分值。
19.根据权利要求18所述的设备,其中,所述邮件外发模块进一步用于根据所述邮件类型对所述邮件进行处理; 并且其中,所述处理包括: 将正常邮件通过正常邮件外发通道向收件方发送; 将推广类邮件通过推广类邮件发送通道向收件方发送; 将垃圾邮件拦截。
【文档编号】H04L29/06GK103841094SQ201210491176
【公开日】2014年6月4日 申请日期:2012年11月27日 优先权日:2012年11月27日
【发明者】付强, 张盛广 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1