带质询的垃圾邮件检测器的制作方法

文档序号:6361201阅读:377来源:国知局
专利名称:带质询的垃圾邮件检测器的制作方法
技术领域
本发明涉及电子邮件,更具体地说,涉及采用带质询的非请求型电子邮件(垃圾邮件)检测的系统和方法。
不幸的是,和许多传统的通信形式(例如邮递邮件和电话)一样,电子邮件接收者正在日益受到非请求型海量邮件发送的困扰。随着基于因特网的商务的激增(尤其是最近几年来),各种并且日益增多的电子商业公司反复向不断扩大的全体电子邮件接收者发送宣传他们的产品和服务的非请求型邮件。通过因特网定购产品或者以其它方式与商家交易的多数消费者预期并且事实上定期接收这样的商业诱惑。但是,电子邮件发送者不断扩大他们的分发名单,以便更深地渗入社会,从而影响到数目不断增大的接收者。例如,响应各种网站产生的或许无害的关于访问者信息的请求,仅仅提供他们的电子邮件地址的接收者稍后当收到非请求型邮件并且多数邮件令人不愉快时,常常发现他们已被包含在电子分发名单内。这是在接收者不知道,更不必说同意的情况下发生的。此外,和邮政直接邮寄清单的情况一样,电子邮件发送者通常向另一电子邮件发送者散布其分发名单,不论是出售、租借还是以其它方式,对于随后的邮件发送者依次类推。因此,随着时间的过去,电子邮件接收者常常发现他们自己受到由各种并且日益增多的批量邮件发送者保存的单独分发名单产生的非请求型邮件的倾泻。虽然根据整个直接邮递行业内的相互合作,存在个人可请求从多数直接邮递邮政名单中除去他(她)的名字的一些方法,但是在电子邮件发送者间不存在这样的机制。
一旦接收者发现他(她)自己在电子邮件发送清单上,接收者个人根本不易从电子邮件发送清单上除去他(她)的地址,从而有效确保他(她)将继续接收来自该电子邮件发送清单以及有时来自其它电子邮件发送清单的非请求型邮件-通常数量越来越多。仅仅由于发送者防止消息的接收者识别消息的发送者(例如通过代理服务器发送邮件),从而阻止接收者联系发送者,试图从分发名单中除去接收者自己,或者仅仅忽略先前从要被这样排除的接收者接收的任意请求,即可实现这一点。
在一年或更少的时间内,个人能够容易地收到数百件非请求型邮寄邮件消息。相反,在电子邮件使用简易并且成本低的条件下,易于交换电子邮件分发名单,并且可在大量地址间散布电子邮件消息,包含在几个分发名单上的单个电子邮件收件人会在很短的时间内收到大量的非请求型消息。此外,虽然许多请求型电子邮件消息(例如,折扣办公用品或计算机供给品的报价,或者参加一种或另一种会议的邀请);但是,对于某些接收者来说,诸如色情、煽动性和辱骂性资料之类的其它非请求型电子邮件消息非常令人讨厌。
非请求型电子邮件消息通常被称为“垃圾邮件”(spam)。类似于处理垃圾邮寄邮件的任务,电子邮件接收者必须仔细查看他(她)的新到邮件,以便除去垃圾邮件。不幸的是,指定电子邮件消息是否是垃圾邮件的选择非常依赖于特定接收者和消息的内容-对一个接收者来说可能是垃圾邮件,但是对于另一接收者来说可能就不是垃圾邮件。经常,电子邮件发送者把消息准备成不能根据其主题行明白其真实内容,只有通过阅读消息本体,才能了解其真实内容。因此,为了彻底清除垃圾邮件消息,接收者通常需要把他(她)在任意指定日子接收的每一条消息读一遍,而不仅仅是扫描其主题行。不必说,这样的过滤(通过基于手动)是费力、费时的工作。
在使检测辱骂性新闻组消息(所谓的“火焰(flames)”的任务自动化的努力中,该技术教导一种通过基于规则的文本分类器对新闻组消息分类的方法。参见E.Spertus的“SmokeyAutomatic Recognition ofHostile Messages”,Proceedings of the Conference on InnovativeADDlications in Artificial Intelligence(IAAI),1997。这里,借助概率决策树发生器,通过送入恰当的一系列新闻组消息作为训练集,首先确定语义和语法文本分类特征。如果这些消息中的每条消息被手工分类成“火焰”或未被分类成“火焰”,则发生器描述如果存在于消息中或者不存在于消息中,可预测消息是否是火焰的具体文本特征。随后选择以足够高的概率正确预测消息本性的那些特征,以便以后使用。之后,为了对到来的消息分类,处理该消息中的每个句子,产生多元素(例如47元素)特征矢量,每个元素仅仅表示该句子中不同特征的存在与否。随后总计该消息中所有句子的特征矢量,产生(整个消息的)消息特征矢量。随后借助决策树发生器产生的相应规则评估消息特征矢量,从而在已知存在于或者不存在于整个消息中的特征组合和若干特征的情况下,评定该消息是否是火焰。例如,作为一个语义特征,作者注意到具有被某一名词短语,例如“you people”,“you bozos”,“you flamers”修改的单词“you”的短语往往是侮辱性的。短语“you guys”例外,使用中,该短语很少是侮辱性的。于是,一个特征是是否存在任意前述这些单词短语。相关的规则是,如果存在这样的短语,则句子是侮辱性的,该消息是火焰。另一特征是单词“thank”、“please”或者具有单词“would”(例如在“Would you be willing to e-mail me your1ogo”中)而不是单词“no thanks”的短语结构的存在。如果存在任意这种短语或单词(“no thanks”除外),则作者称为“有礼规则”的相关规则把该消息分类为有礼貌的消息,从而不是火焰。例外的是,本方法中使用的规则并不是特定于站点的,即,在极大程度上,这些规则使用相同的特征,并且按照相同的方式工作,而不考虑被邮寄的地址。
在W.W.Cohen的“Learning Rules that Classify E-mail”,1996AAAI Spring Symposium on Machine Learning in Information Access,1996(下面称为“Cohen”出版物)中描述了基于规则的文本电子邮件分类器,这里具体地说涉及学到的“关键字发现规则”的文本电子邮件分类器。在该方法中,先前被分成不同类别的一组电子邮件消息作为输入被提供给系统。随后从该组电子邮件消息学习规则,以便把新来的电子邮件消息分成不同的类别。虽然该方法确实涉及便于自动产生规则的学习组件,但是这些规则仅仅产生把电子邮件消息分成不同类别的是/否差别,而不提供关于指定预测的任意信任量度。此外,在该著作中,没有解决垃圾邮件检测的实际问题。在这方面,基于规则的分类器存在各种严重缺陷,实际上,这些缺陷会严重限制它们在垃圾邮件检测方面的应用。首先,现有的垃圾邮件检测系统要求用户手动构成区分合法邮件和垃圾邮件的恰当规则。多数接收者不耐烦采取这种费力的工作。如前所述,评定特定的电子邮件消息是否是垃圾邮件由其接收者主观决定。对一个接收者来说是垃圾邮件,对另一接收者来说可能就不是垃圾邮件。此外,非垃圾邮件因人而显著变化。于是,为了使基于规则的分类器在从到来的邮件流中滤除多数垃圾邮件方面表现出合意的性能,接收者必须构建并安排一组准确区分什么构成垃圾邮件,什么构成非垃圾(合法)邮件的一组分类规则。即使对于经验丰富并且知识渊博的计算机用户来说,正确地完成上述工作也是一项非常复杂、单调乏味并且费时的任务。
其次,随着时间的过去,垃圾邮件和非垃圾邮件的特性会发生显著变化;基于规则的分类器是静态的(除非用户经常自愿地对规则进行改变)。因此,批量电子邮件发送者例行公事地修改他们的消息的内容,不停地防止(“瞒骗”)接收者一开始就把这些消息识别为垃圾邮件,随后在根本不阅读这些消息的情况下抛弃这些消息。从而,除非接收者愿意不断构建新规则或者更新现有规则,以便跟踪垃圾邮件的变化(当接收者察觉这种变化时),随后,随着时间的过去,基于规则的分类器在区分垃圾邮件和该接收者的所需(非垃圾)邮件方面变得越来越不准确,从而进一步降低了分类器的效用,使用户/接收者感到失望。
另一方面,用户可考虑采用根据他们的现有垃圾邮件学习规则的方法(如同在Cohen出版物中那样),以便随着时间的过去,适应到来的邮件流中的变化。这里,基于规则的方法的问题更加突出。规则以逻辑表达式为基础;因此,如上所述,规则只产生和指定电子邮件消息的分类相关的是/否差别。问题是,这种规则不为它们的预测提供任何信任等级。由于用户对于他们希望如何积极主动地过滤他们的电子邮件,以便除去垃圾邮件存在各种容许限度,因此,在诸如检测垃圾邮件之类的应用程序中,基于规则的分类会变得问题相当大。例如,保守的用户要求系统在丢弃消息之前,确信该消息是垃圾邮件,而另一用户可能不这么小心。在例如Cohen出版物中描述的那种基于规则的系统中不易于考虑到这种不断变化的用户谨慎度。
本发明提供一种检测非请求型消息(例如电子邮件)的系统。该系统包括电子邮件组件和质询组件。系统可接收消息和该消息是垃圾邮件的相关概率。至少部分根据相关概率,系统可向消息的发送者发出质询。电子邮件组件可保存消息的该消息是垃圾邮件的相关概率。在一个例子中,根据电子邮件消息是垃圾邮件的相关概率,和不同的属性,例如文件夹名称一起保存电子邮件消息。在另一例子中,相关概率小于或等于第一阈值的电子邮件消息被保存在合法电子邮件文件夹中,而相关概率大于第一阈值的电子邮件消息被保存在垃圾邮件文件夹中。在本发明的另一种实现中,相关概率小于或等于第一阈值的电子邮件消息被保存在合法电子邮件文件夹中,相关概率大于第一阈值,但是小于或等于第二阈值的电子邮件消息被保存在可疑垃圾邮件文件夹中。相关概率大于第二阈值的电子邮件消息保存在垃圾邮件文件夹中。要认识到第一阈值和/或第二阈值可以其它用户喜好被固定和/或是自适应的(例如至少部分以可用的计算资源为基础)。
要认识到除概率之外的数字,例如来自Support Vector Machine,神经网络等的得分可起和概率相同的用途-一般来说,根据本发明的一方面,代替概率可使用任意机器学习算法的数字输出。类似地,诸如决策树之类一些机器学习算法输出分类信息,也可代替与阈值结合的概率使用所述分类信息。
质询组件可向相关概率大于第一阈值的电子邮件消息的发送者发出质询。例如,质询可以至少部分以嵌入质询内的代码(例如字母数字代码)为基础。在一个例子中,发送者的系统可适合于自动检索嵌入的代码并应答该质询。另外,可提示发送者应答质询(例如手动应答)。基于嵌入代码的质询的使用可增大垃圾邮件的发送者的带宽和/或计算负载,从而起阻止垃圾邮件的发送的作用。要认识到质询可以是各种适当类型(例如计算质询、人力质询和/或微支付请求)中的任意一种。质询可以是固定的和/或可变的。例如,随着相关概率的增大,质询组件可发送更困难的质询或者要求更大微支付的质询。
质询组件可至少部分根据对质询的响应,修改电子邮件消息是垃圾邮件的相关概率。例如,当收到恰当(例如正确的)质询响应时,质询组件可降低电子邮件消息是垃圾邮件的相关概率。在一个例子中,电子邮件消息从垃圾邮件文件夹被转移到合法电子邮件文件夹。在另一种实现中,电子邮件消息从可疑垃圾邮件文件夹被转移到合法电子邮件文件夹。当收到不恰当的(例如不正确的)质询响应和/或在特定时段(例如4小时)内未能收到对质询的响应时,质询组件可增大电子邮件消息是垃圾邮件的相关概率。例如,电子邮件消息可从可疑垃圾邮件文件夹转移到垃圾邮件文件夹。
本发明的另一方面提供一种还包括邮件分类器的系统。邮件分类器接收电子邮件消息,确定电子邮件消息是垃圾邮件的相关概率,并把电子邮件消息和相关概率保存在电子邮件组件中。因此,邮件分类器为指定接收者分析消息内容,并根据内容为该接收者区分垃圾邮件和合法(非垃圾邮件)消息,从而为该接收者对每个到来的电子邮件消息分类。
另外,可利用消息是垃圾邮件的可能性(概率)的指示标记电子邮件消息;根据可能性,可把被分配垃圾邮件的中间概率的消息被转移到可疑垃圾邮件文件夹。至少部分根据邮件分类器提供的信息,质询组合可向相关概率大于第一阈值的电子邮件消息的发送者发出质询。
本发明的另一方面提供一种还包括垃圾邮件文件夹和合法电子邮件文件夹的系统。邮件分类器确定电子邮件消息是垃圾邮件的相关概率,并把电子邮件消息保存在垃圾邮件文件夹或者合法电子邮件文件夹中(例如,根据第一阈值)。到来的电子邮件消息被提供给邮件分类器的输入端,邮件分类器再通过概率分析把这些消息中的每条消息分类成合法电子邮件消息或垃圾邮件。根据其分类,消息被转发给垃圾邮件文件夹或者合法电子邮件文件夹。之后,质询组件可向保存在垃圾邮件文件夹中的电子邮件消息(例如具有大于第一阈值的相关概率)的发送者发出质询。至少部分根据对该质询的响应,质询组件可把电子邮件消息从垃圾邮件文件夹转移到合法电子邮件文件夹。例如,当收到恰当的(例如正确的)质询响应时,质询组件可把电子邮件消息从垃圾邮件文件夹转移到合法电子邮件文件夹。此外,当收到不恰当的(例如不正确的)质询响应和/或在特定时段(例如4小时)内没有收到质询响应时,质询组件可从垃圾邮件文件夹删除该电子邮件消息和/或改变保存在垃圾邮件文件夹中的电子邮件消息的属性。
本发明的另一方面提供一种还包括合法电子邮件发送者存储库和/或垃圾邮件发送者存储库的系统。合法电子邮件发送者存储库保存与合法电子邮件的发送者相关的信息(例如电子邮件地址)。质询组件一般不质询来自于在合法电子邮件发送者存储库中识别的发送者的电子邮件消息。根据用户选择(例如“不质询”特定发送者命令),用户的地址簿,用户已至少向其发送规定数目的电子邮件消息的地址,和/或由质询组件,可把信息(例如电子邮件地址)保存在合法电子邮件发送者存储库中。合法电子邮件发送者存储库还可保存与合法电子邮件的发送者相关的信任等级。质询组件不质询相关概率小于或等于发送者的相关信任等级的电子邮件消息,质询组件质询相关概率大于所述相关信任等级的那些电子邮件消息。垃圾邮件发送者保存与垃圾邮件的发送者相关的信息(例如电子邮件地址)。用户和/或质询组件可把信息保存在垃圾邮件发送者存储库中。
为了实现前述及相关目的,这里结合下述说明和附图,描述了本发明的一些例证方面。但是,这些方面仅仅表示可采用本发明原理的各种方法中的一些方法,本发明意图包括所有这些方面和它们的等同物。结合附图,根据本发明的下述详细说明,本发明的其它优点和新特征将是显而易见的。
图2是根据本发明一方面的检测非请求型电子邮件的系统的方框图。
图3是根据本发明一方面的检测非请求型电子邮件的系统的方框图。
图4是根据本发明一方面的检测非请求型电子邮件的系统的方框图。
图5是根据本发明一方面的检测非请求型电子邮件的系统的方框图。
图6是根据本发明一方面的检测非请求型电子邮件的系统的方框图。
图7是根据本发明一方面的应答质询的系统的方框图。
图8是图解说明根据本发明一方面的检测非请求型电子邮件的方法的流程图。
图9是进一步图解说明图8的方法的流程图。


图10是图解说明根据本发明一方面的应答质询的方法的流程图。
图11是图解说明根据本发明一方面的应答质询的方法的流程图。
图12是根据本发明一方面的应答若干质询的例证用户界面。
图13图解说明本发明可在其中工作的例证操作环境。
本申请书中使用的术语“计算机组件”指的是与计算机相关的实体,或者是硬件,硬件和软件的组合,软件,或者是运行中的软件。例如,计算机组件可以是(但不限于)在处理器上运行的程序,处理器,对象,可执行文件,运行的线程,程序,和/或计算机。举例来说,服务器上运行的应用程序和服务器都可以是计算机组件。一个或多个计算机组件可驻留在程序和/或运行的线程之内,组件可位于一个计算机上和/或分布在两个或更多计算机之间。
参见图1,图中图解说明了根据本发明一方面的检测非请求型消息(例如电子邮件)的系统100。系统100包括电子邮件组件110和质询组件120。系统100可接收电子邮件消息和电子邮件消息是垃圾邮件的相关概率。甚至部分根据相关概率,系统100可向电子邮件消息的发送者发出质询。
电子邮件组件110接收和/或保存接收的电子邮件消息和/或计算电子邮件消息为垃圾邮件的相关概率。例如,电子邮件组件110可以至少部分根据从邮件分类器(未示出)接收的信息保存信息。在一个例子中,可根据电子邮件消息是垃圾邮件的相关概率,把电子邮件消息保存在电子邮件组件110中。在一个例子中,电子邮件组件110接收电子邮件消息,并计算电子邮件消息是垃圾邮件的相关概率。
质询组件120可向相关概率大于第一阈值的电子邮件消息的发送者发出质询。例如,质询至少可部分以嵌入质询内的代码(例如字母数字代码)为基础。响应该质询,电子邮件的发送者可以该代码答复。在一个例子中,发送者的系统(未示出)适合于自动取出嵌入的代码,并应答该质询。另一方面和/或另外,可提示发送者应答该质询(例如手动)。基于嵌入代码的质询的应用可增大垃圾邮件发送者的带宽和/或计算负荷,从而起阻止垃圾邮件发送的作用。
另外和/或另一方面,质询可以是计算质询,人力质询和/或微支付(micropayment)请求。下面更充分地说明这些质询及对这些质询的响应。此外,质询可以是固定的和/或可变的。例如,在相关概率增大的情况下,质询组件120可发送一个更困难的质询或者一个要求更大微支付的质询。
例如,微支付请求可随意地利用一次性垃圾邮件证明书。系统100可在接收的垃圾邮件证明书上添加‘监禁(hold)’。当系统100的用户读取消息并将其标记为垃圾邮件时,使垃圾邮件证明书无效-发送者不能再使用垃圾邮件证明书。如果消息不被标记为垃圾邮件,则释放监禁,从而允许发送者重新使用垃圾邮件证明书(例如消息的发送者不收费)。在一个备选实现中,收到消息时总是使垃圾邮件证明书无效,而不考虑消息是否被标记为垃圾邮件。
就计算质询来说,在一个实现中,质询发送者(消息接收者)可确定计算质询应是什么样的。但是,在另一实现中,质询唯一地由消息内容,消息的接收或发送时间,消息发送者,以及重要的是消息接受者的一些组合确定。例如,计算质询可以这些参量的单向散列为基础。如果允许质询发送者(消息接受者)选择质询,则垃圾邮件发送者(spammer)能够使用下述技术。他预订邮件发送清单或者以其它方式从用户产生邮件。从而,回应者向垃圾邮件发送者回送消息,垃圾邮件发送者用他选择的计算质询应答所述消息。特别地,垃圾邮件发送者可选择合法用户先前响应垃圾邮件向垃圾邮件发送者发送的质询。垃圾邮件发送者的质询的一定比例的接受者解答质询,从而允许垃圾邮件发送者随后应答发送给垃圾邮件发送者的质询。在一种实现中,计算质询以消息(包括时间和接受者标记)的单向散列为基础,使得发送者或接收者实际上不能确定该质询,但是使发送者和接收者都能够核实质询达到其预定目的。
质询组件120能够至少部分根据对质询的应答,修改电子邮件消息是垃圾邮件的相关概率。例如,当收到关于质询的恰当(例如正确)响应时,质询组件120可降低电子邮件消息是垃圾邮件的相关概率。在一个例子中,把电子邮件消息从垃圾邮件文件夹转移到合法电子邮件文件夹中。在另一例子中,把电子邮件消息从可疑垃圾邮件文件夹转移到合法电子邮件文件夹中。此外,当收到关于质询的不恰当(例如不正确)响应和/或在特定时段(例如4小时)内没有收到关于质询的响应时,质询组件120可提高电子邮件消息是垃圾邮件的相关概率。
在一个实现中,向用户提供选择质询的机会。例如,质询的选择可以筛选程序为基础。
此外,代替保存电子邮件消息,系统100可‘弹回’该消息,从而,使发送者必须随同关于质询的响应一起重新发送该消息。
虽然图1是图解说明系统100的组件的方框图,不过要认识到质询组件120可实现成一个或多个计算机组件(如同这里定义的该术语那样)。从而根据本发明,要认识到操作上可实现系统100和/或质询组件120的计算机可执行组件可保存在计算机可读介质上,包括(但不限于)ASIC(专用集成电路),CD(光盘),DVD(数字视频光盘),ROM(只读存储器),软盘,硬盘,EEPROM(电可擦可编程只读存储器)和记忆棒。
参见图2,图中图解说明了根据本发明一个方面的检测非请求型电子邮件的系统200。系统200包括电子邮件组件110,质询组件120和邮件分类器130。在同时待审的美国专利申请“A TECHNIQUE WHICHUTILIZES A PROBABILISTIC CLASSIFIER TO DETECT“JUNK”E-MAIL”(序列号09/120837)中更详细地陈述了例证的邮件分类器130,该专利申请作为参考包含于此。在一个例子中,邮件分类器130接收电子邮件消息,确定电子邮件消息是垃圾邮件的相关概率,并把电子邮件消息和相关概率保存在电子邮件组件110中。邮件分类器130关于指定接受者分析消息内容,并根据内容和接受者,区分垃圾邮件消息和合法(非垃圾邮件)消息,从而对该接受者的每个到来的电子邮件消息分类。
在另一例子中,首先分析每个到来的电子邮件消息(呈消息流的形式),评定该消息包含一组预定特征,尤其是垃圾邮件特性中的哪一(或哪些)特征。这些特征(例如“特征组”)包括基于简单单词的特征和手工特征,后者包括,例如特殊的多字词短语和电子邮件消息中的各种特征,例如非字词特点。一般来说,这些非字词特点都涉及当存在于消息中时,会表示出垃圾邮件征兆的格式化,写作,递送和/或通信属性-它们是垃圾邮件的特定域特征。举例来说,格式化属性可包括消息文本中的预定字词是否被大写,或者文本是否包含一系列的预定标点符号。举例来说,递送属性可包括消息是包含单一接受者的地址还是包含若干接受者的地址,或者传送该消息的时间(半夜发送的邮件更可能是垃圾邮件)。写作属性可包括,例如消息是否来自于特定的电子邮件地址。举例来说,通信属性可包括消息是否具有附件(垃圾邮件消息很少具有附件),或者消息是否由具有特定域类型的发送者发送(多数垃圾邮件看来起源于“.com”或“.net”域类型)。手工特征也可包括已知为侮辱性的,色情的或者无礼的语言符号或短语;或者均可能出现在垃圾邮件中的某些标点符号或分组,例如重复的感叹号或数字。一般单独地或者结合垃圾邮件消息的区别属性的经验分析,通过人的判断确定具体的手工特征。
利用该组中每个特征的一个元素,为每个到来的电子邮件消息产生一个特征矢量。所述元素只保存确定对应特征是否存在于消息中的二进制值。可以稀疏格式保存矢量(例如只保存一系列的肯定特征)。矢量的内容可用作概率分类器,最好是改进的支持矢量机(SVM)分类器的输入,所述概率分类器根据存在或者不存在于消息中的特征,产生关于该消息是否是垃圾邮件的概率量度值。随后比较该量度值和预设的阈值。对于任意消息来说,如果其相关概率量度值等于或超过阈值,则该消息被分类为垃圾邮件(例如保存在垃圾邮件文件夹中)。另一方面,如果该消息的概率量度值小于阈值,则该消息被分类为合法消息(例如保存在合法邮件文件夹中)。每个消息的分类也可作为独立字段被保存在该消息的矢量中。随后客户电子邮件程序(未示出)可显示合法邮件文件夹的内容,供用户选择和查看。只有依据具体的用户请求,客户电子邮件程序才会显示垃圾邮件文件夹的内容。
此外,可利用均被手动分类为合法邮件或垃圾邮件的一组M个电子邮件消息(例如“训练集合”,其中M是整数)训练邮件分类器130。特别地,分析这些消息中的每个消息,从而从既包括基于简单单词的特征又包括手动特征的相对较大范围的n个可能特征(这里称为“特征空间”),确定将包含在后续分类中使用的特征集合的那些N个特定特征(n和N都是整数,并且n>N)。具体地说,通过Zipf定律和共有信息的应用(下文中在必要的程度上详细说明了这两者),包含训练集的所有n个特征的结果的矩阵(一般为稀疏矩阵)的大小被减小,产生减小的N×m特征矩阵。所得到的N个特征构成将在后续分类中使用的特征集。随后把该特征集和训练集中每个消息的已知分类共同应用于邮件分类器130,用于训练邮件分类器130。
此外,如果接受者应手动把消息从一个文件夹转移到另一文件夹,并因此重新对该消息分类,例如从合法邮件文件夹转移到垃圾邮件文件夹,则可反馈任一文件夹或者这两个文件夹的内容,作为新的训练集,以便重新训练分类器,从而更新分类器。这种重新训练可作为每个消息重新分类的结果而产生;在一定数目的消息被重新分类后自动产生;在经过指定的使用时期(例如数周或数月)之后产生;或者根据用户请求而产生。有利的是,按照这种方式,分类器的行为可跟踪其特定用户的不断变化的主观感觉和偏爱。另一方面,电子邮件消息可被分成垃圾邮件的多个类别(子类)(例如商业垃圾邮件,色情垃圾邮件等等)。另外,消息可被分成和不同程度的垃圾邮件对应的类别(例如“确定的垃圾邮件”、“可疑的垃圾邮件”和“非垃圾邮件”)。
至少部分根据邮件分类器130提供的信息,质询组件120可向相关概率大于第一阈值的电子邮件消息的发送者发出质询。例如,质询可以至少部分地以嵌入质询内的代码为基础(例如字母数字代码)。响应该质询,电子邮件的发送者可用所述代码答复。发送者的系统(未示出)可适合于自动取出嵌入的代码,并应答该质询。另一方面和/或另外,可提示发送者应答该质询(例如手动)。基于嵌入代码的质询的应用可增大垃圾邮件发送者的带宽和/或计算负荷,从而起阻止垃圾邮件发送的作用。要认识到可采用适合于实现本发明的任意类型的质询(例如计算质询,人力质询,微支付请求),并且所有这些类型的请求在附加权利要求的范围之内。
质询组件120可至少部分根据对质询的响应,修改电子邮件消息是垃圾邮件的相关概率。例如,当收到关于质询的恰当(例如正确)响应时,质询组件120可降低电子邮件消息是垃圾邮件的相关概率。
当收到关于质询的不恰当(例如不正确)响应和/或在特定时段(例如4小时)内没有收到对质询的响应时,质询组件120可提高电子邮件消息是垃圾邮件的相关概率。要认识到邮件分类器130可以是如同这里所定义的计算机组件。
下面参见图3,图中图解说明了根据本发明一方面的检测非请求型电子邮件的系统300。系统300包括邮件分类器310,质询组件320,垃圾邮件文件夹330和合法电子邮件文件夹340。在一种实现中,垃圾文件夹330和/或合法电子邮件文件夹340可以是虚的,即保存和电子邮件消息相关的信息(例如相对于电子邮件消息的链接),而电子邮件消息保存在其它地方。在另一种实现中,代替文件夹,可以简单地设置消息的属性。
如前所述,邮件分类器310确定电子邮件消息是垃圾邮件的相关概率,并且把电子邮件消息保存在垃圾邮件文件夹330或合法电子邮件文件夹340中(例如根据第一阈值)。到来的电子邮件消息被应用于邮件分类器310的输入,邮件分类器310又以概率统计的方式把这些消息中的每个消息分为合法消息或垃圾消息。根据其分类,电子邮件消息被发送给垃圾邮件文件夹330或者合法电子邮件文件夹40。从而,相关概率小于或等于第一阈值的电子邮件消息被保存在合法电子邮件文件夹340中,而相关概率大于第一阈值的电子邮件消息被保存在垃圾邮件文件夹330中。第一阈值可以是固定的(以用户的偏爱为基础)和/或是自适应的(例如至少部分基于可用的计算资源)。
之后,质询组件320可向保存在垃圾邮件文件夹中的电子邮件消息(例如具有大于第一阈值的相关概率)的发送者发送质询。例如,质询可以至少部分以嵌入质询内的代码,计算质询、人力质询和/或微支付请求为基础。至少部分根据对质询的响应,质询组件320可把电子邮件消息从垃圾邮件文件夹330转移到合法电子邮件文件夹340。例如,当收到恰当的(例如正确的)质询响应时,质询组件320可把电子邮件消息从垃圾邮件文件夹330转移到合法电子邮件文件夹340。
当收到不恰当的(例如不正确的)质询响应和/或未能在特定时段(例如4小时)内收到质询响应时,质询组件320可从垃圾邮件文件夹330中删除该电子邮件消息和/或改变保存在垃圾邮件文件夹330中的电子邮件消息的属性。例如,可改变电子邮件消息的显示属性(例如颜色),从而使用户注意该电子邮件消息成为垃圾邮件的可能性增大。
现在参见图4,图中图解说明了根据本发明一方面的检测未请求型电子邮件的系统400。系统400包括邮件分类器310、质询组件320、垃圾邮件文件夹330和合法电子邮件文件夹340。系统400还包括合法电子邮件发送者存储库350和/或垃圾邮件发送者存储库360。合法电子邮件发送者存储库350保存和合法电子邮件的发送者相关的信息(例如电子邮件地址)。质询组件一般不质询来自于在合法电子邮件发送者存储库350中识别的发送者的电子邮件消息。因此,在一个例子中,如果电子邮件消息的发送者被保存在合法电子邮件发送者存储库350中,则邮件分类器310保存在垃圾邮件文件夹330中的电子邮件被转移到合法邮件文件夹340中。
可根据用户选择(例如,“不质询”特殊发送者命令),用户的地址簿,用户至少已向其发送指定数目的电子邮件消息的地址和/或由质询组件320,把信息(例如电子邮件地址)保存在合法电子邮件发送者存储库350中。例如,一旦电子邮件的发送者对质询作出正确应答,则质询组件320可把与发送者相关的信息(例如电子邮件地址)保存在合法电子邮件发送者存储库350中。
合法电子邮件发送者存储库350还保留与合法电子邮件的发送者相关的信任等级。质询组件320不质询具有小于或等于发送者的相关信任等级的相关概率的电子邮件消息,然而,质询组件320质询具有大于所述相关信任等级的相关概率的那些电子邮件消息。例如,信任等级至少可部分以发送者对其作出响应的最高相关概率质询为基础。
在一种实现中,可至少部分根据用户的操作(例如以垃圾邮件的形式删除来自于发送者的电子邮件消息),把该发送者从合法电子邮件发送者存储库350中除去。根据另一方面,在用户向发送者发送一个电子邮件消息之后,发送者被添加到合法电子邮件发送者存储库350中-这可用于邮件发送清单。
垃圾邮件发送者存储库360保存和垃圾邮件的发送者相关的信息(例如电子邮件地址)。信息可由用户和/或由质询组件320保存在垃圾邮件发送者存储库360中。例如,一旦用户以垃圾邮件的形式删除了特定的电子邮件消息,则与该电子邮件消息的发送者相关的信息可保存在垃圾邮件发送者存储库360中。在另一个例子中,与不正确应答质询和/或未能应答该质询的电子邮件消息的发送者相关的信息可保存在垃圾邮件发送者存储库360中。
图5图解说明了根据本发明一个方面的检测非请求型电子邮件的系统500。系统500包括邮件分类器510、质询组件520、垃圾邮件文件夹530、可疑垃圾邮件文件夹540和合法电子邮件文件夹550。如上所述,邮件分类器510确定电子邮件消息是垃圾邮件的相关概率,并把该电子邮件消息保存在垃圾邮件文件夹530、可疑垃圾邮件文件夹540或合法电子邮件文件夹550中。到来的电子邮件邮件被提供给邮件分类器510的输入端,邮件分类器510再依据概率把这些消息分类为合法电子邮件、可疑垃圾邮件或垃圾邮件。根据其分类,每条消息被发送给垃圾邮件文件夹530、可疑垃圾邮件文件夹540或合法电子邮件文件夹550之一。
具有小于或等于第一阈值的相关概率的电子邮件消息在合法电子邮件文件夹550中。相关概率大于第一阈值,但是小于或等于第二阈值的电子邮件消息保存在可疑垃圾邮件文件夹540中。另外,相关概率大于第二阈值的电子邮件消息保存在垃圾邮件文件夹530中。要认识到第一阈值和/或第二阈值可根据用户喜好被固定和/或是自适应的(例如至少部分根据可用的计算资源)。之后,质询组件520可向保存在可疑垃圾邮件文件夹540中的电子邮件消息的发送者发出质询。例如,质询至少可部分以嵌入该质询内的代码,计算质询,人力质询和/或微支付请求为基础。
至少部分根据对于质询的响应或者所述质询响应的缺少,质询组件520可把电子邮件消息从可疑垃圾邮件文件夹540转移到合法电子邮件文件夹550或垃圾邮件文件夹530。例如,当收到恰当的(例如正确的)质询响应时,质询组件520可把该电子邮件消息从可疑垃圾邮件文件夹540转移到合法电子邮件文件夹550。
此外,当收到不恰当的(例如不正确的)质询响应和/或在特定时段(例如4小时)内未能收到质询响应时,质询组件520可把电子邮件消息从可疑垃圾邮件文件夹540转移到垃圾邮件文件夹530。
现在参见图6,图中图解说明了根据本发明一方面的检测非请求型电子邮件的系统600。系统600包括邮件分类器510、质询组件520、垃圾邮件文件夹530、可疑垃圾邮件文件夹540和合法电子邮件文件夹550。系统600还包括合法电子邮件发送者存储库560和/或垃圾邮件发送者存储库570。
合法电子邮件发送者存储库560保存和合法电子邮件相关的信息(例如电子邮件地址)。质询组件520一般不质询来自于在合法电子邮件发送者存储库560中识别的实体的电子邮件消息。因此,在一个例子中,如果电子邮件消息的发送者被保存在合法电子邮件发送者存储库560中,则由邮件分类器510保存在垃圾邮件文件夹530或可疑垃圾邮件文件夹540中的该电子邮件消息被转移到合法邮件文件夹550中。
可根据用户选择(例如,“不质询”特殊发送者命令),用户的地址簿,用户至少已向其发送指定数目的电子邮件消息的地址和/或由质询组件320,把信息(例如电子邮件地址)保存在合法电子邮件发送者存储库660中。例如,一旦电子邮件的发送者正确应答质询,则质询组件520可把与发送者相关的信息(例如电子邮件地址)保存在合法电子邮件发送者存储库560中。
合法电子邮件发送者存储库560还可保留与合法电子邮件的发送者相关的信任等级。质询组件520不质询相关概率小于或等于发送者的相关信任等级的的电子邮件消息,然而,质询组件520质询相关概率大于所述相关信任等级的那些电子邮件消息。例如,信任等级至少可部分以发送者对其作出响应的最高相关概率质询为基础。
在一个例子中,至少可部分根据用户的操作(例如作为垃圾邮件删除来自于发送者的电子邮件消息),从合法电子邮件发送者存储库560中除去发送者。在另一例子中,在用户向发送者发送一个电子邮件消息之后,发送者被添加到合法电子邮件发送者存储库560中。
垃圾邮件发送者存储库570保存和垃圾邮件的发送者相关的信息(例如电子邮件地址)。信息可由用户和/或由质询组件520保存在垃圾邮件发送者存储库570中。例如,一旦用户以垃圾邮件的形式删除了特定的电子邮件消息,则与该电子邮件消息的发送者相关的信息可保存在垃圾邮件发送者存储库570中。在另一个例子中,与不正确应答质询和/或未能应答该质询的电子邮件消息的发送者相关的信息可保存在垃圾邮件发送者存储库570中。
在一个例子中,可在质询过程中交换唯一的ID(例如以便降低垃圾邮件发送者可利用真正发送者的地址发送垃圾邮件的可能性)。此外,发送者可利用消息签名。来自于合法电子邮件发送者存储库560的通常在消息上签名的发送者的未签名消息经受惯常处理和可能的质询。
在另一例子中,大容量电子邮件发送者定制他们的“寄件人”地址(例如用于一个接收者的唯一“寄件人”地址)。例如,“寄件人”地址可以发送者已知的全局保密密钥为基础,并利用接收者的电子邮件地址进行散列。另一方面,可为接收者产生并保存一个随机数。
在第三个例子中,在电子邮件消息中包含“每一接收者ID”(PRID)。PRID把发送者的独特信息附加在特殊消息报头字段中。要认识到不必基于每个发送者设置PRID。从而,当以团体为基础转发邮件时,合法电子邮件发送者存储库560的包含关系可得到继承。PRID可以是供公共密钥签名系统(例如OpenPGP或S/MIME)之用的公共密钥。
另外,电子邮件消息的发送者可包括质询请求(例如,以简化质询接收的时序安排)。例如,电子邮件消息可包括“CHALLENGE_ME_NOWTRUE”报头。这可使系统600自动发送质询,并且当收到正确响应时,使系统600把该发送者包含在合法电子邮件发送者存储库560中。
质询组件520能够适合于检测从邮件发送清单(例如适度的(moderated)邮件发送清单和/或非适度邮件发送清单)接收的电子邮件消息。例如,诸如“优先清单”或“优先整批”之类报头行可包含在从邮件发送清单接收的电子邮件消息中。在另一例子中,质询组件520可以至少部分根据与“寄件人”行不同的“发送者”行的检测,检测电子邮件消息是垃圾邮件。电子邮件消息报头一般包含两种不同的寄件人行位于上部的一个“寄件人”行(例如由SMTP使用的寄件人命令插入),和一个“寄件人”报头字段(例如通常向用户显示的“寄件人”报头字段)。对于邮件发送清单来说,这两个寄件人行可不同。
在一个例子中,质询组件520可检测来自于邮件发送清单的电子邮件消息,并向用户提供把邮件发送清单包含在合法电子邮件发送者存储库560中的机会。质询组件520还可包括与邮件发送清单相关的信任等级。
就邮件发送清单来说,要解决的一个问题是降低从邮件发送清单接收的有垃圾邮件特征的消息的可能性会产生相对于邮件发送清单的质询的邮件风暴。该问题因不同清单类型而不同。存在8种情形,不过它们中的许多共有相同的解决方案。具体地说,邮件发送清单可以是适度的或者非适度的,另外,可具有不同的应答质询的能力。这产生8种类型。
许多适度邮件发送清单包括“approved-by”报头。例如,对于适度的邮件发送清单来说,可假定所有消息都是有效邮件,或者都是垃圾邮件。对于非适度邮件发送清单来说,可假定一些垃圾邮件将被发送给邮件发送清单。从而,对于非适度邮件发送清单,质询组件520可允许用户设置确定是应显示具有垃圾邮件特征的消息,还是仅仅将其放入垃圾邮件文件夹530中的阈值。
例如,如果检测到来自邮件发送清单的电子邮件消息,则向用户提供确定与邮件发送清单相关的信任等级的机会。关心的是向邮件发送清单,尤其是不具有自动应答质询的能力的那些邮件发送清单发送过多的质询。例如,对于适度邮件发送清单,可提示用户把邮件发送清单包含在合法电子邮件发送者存储库560中。在另一例子中,邮件发送清单可应答来自于质询组件520的质询,并可包含在合法电子邮件发送者存储库560中。在第三个例子中,当预约邮件发送清单时,邮件发送清单提示用户把该邮件发送清单包含在用户的合法电子邮件发送者存储库560中。
对于非适度邮件发送清单,例如,可提示用户设置邮件发送清单的阈值。成为垃圾邮件的概率高于阈值的电子邮件消息被转移到垃圾邮件文件夹530和/或被删除。在另一例子中,邮件发送清单可应答来自于质询组件520的质询,并可被包含在合法电子邮件发送者存储库560中。在第三个例子中,当预约邮件发送清单时,邮件发送清单提示用户把该邮件发送清单包含在用户的合法电子邮件发送者存储库560中。
质询组件520可考虑不具备自动应答质询的能力的邮件发送清单。具体地说,对于适度邮件发送清单,质询组件520可把邮件发送清单包含在合法电子邮件发送者存储库560中。对于非适度邮件发送清单,质询组件520可简化邮件发送清单阈值的设置质询高于阈值的消息,允许低于阈值的消息通过。
可在恰当的时候,把邮件发送清单包含在合法电子邮件发送者存储库560中。对于邮件发送清单,可能用户不向该清单发送邮件。但是,基于从该清单接收的邮件数量较小,把该邮件发送清单包含在合法电子邮件发送者存储库560中是不合乎要求的。否则,垃圾邮件发送者会伪装成邮件发送清单,发送少量的消息(这些消息都不会作为垃圾邮件被删除),随后随意发送垃圾邮件。在一种实现中,如果首次发生来自邮件发送清单的邮件到达,并且不会作为垃圾邮件被删除的情况,则提示用户把该邮件发送清单以及相关的阈值一起添加到合法电子邮件发送者存储库560中。由于多数邮件发送清单包括欢迎消息,因此如果一些欢迎消息包含在训练数据中,则欢迎消息不可能被标记为垃圾邮件。
但是,如果到达的第一批消息基本上都具有垃圾邮件的特征,则该消息应被包含在垃圾邮件文件夹530中。具体地说,让某人伪装成邮件发送清单并发送垃圾邮件是不合乎要求的。从而,在邮件发送清单被包含在合法电子邮件发送者存储库560中之前,质询组件520可如前所述向邮件发送清单发送质询。如果消息具有垃圾邮件的特征,但是是合法的,则用户可以接收这些消息,也可不接收这些消息,取决于如何处理质询。如果未回答质询,则这些消息不会通过。从而,垃圾邮件应难以通过。最后,邮件发送清单会发送不具有垃圾邮件特征的消息,并提示用户建立关于邮件发送清单的策略。
要认识到邮件发送清单可具有寄件人地址,从而发送给该寄件人地址的邮件被发送给整个清单。如果清单表现为这种清单,则向其发送质询是不合乎需要的,因为实质上它们可被邮件发送清单的所有读者接收。在邮件发送清单被包含在合法电子邮件发送者存储库560中之前,来自这种邮件发送清单的明显垃圾邮件可简单地被忽略。可对于邮件发送清单修改合法电子邮件发送者存储库560中内含物的定义。在邮件发送清单上的寄件人行的条件下,对于每个发送者来说,甚至适度的邮件发送清单也不同,合法电子邮件发送者存储库560中的内含物可以报头的其它部分为基础。通常,邮件发送清单上的收件人行是邮件发送清单名称(从而全部应答适于整个清单)。从而对于邮件发送清单,合法电子邮件发送者存储库560中的内含物可以至少部分以收件人行为基础。除了寄件人行之外,这也可包含在合法电子邮件发送者存储库560中(例如,如果邮件发送清单的发送者在合法电子邮件发送者存储库560中,这也应是足够的)。要认识到邮件发送清单的其它报头行,例如发自行,也可包含在合法电子邮件发送者存储库560中。
为了确定电子邮件地址的有效性,垃圾邮件发送者依赖于“弹回”。如果电子邮件被寄往无效地址,则许多传统电子邮件服务器把电子邮件弹回其发送者。从而,对于电子邮件服务器来说,如果电子邮件消息未被弹回,则电子邮件地址的有效性增大。因此,垃圾邮件发送者可向未被弹回的地址发送更多的垃圾邮件消息。
对于弹回电子邮件的那些电子邮件服务器,本发明的质询不向垃圾邮件发送者提供任何附加信息(例如,无弹回是地址有效性的指示)。此外,电子邮件服务器本身可通过检测非请求型电子邮件的系统关于“半有效”地址(例如有效但未被监控的地址)发送质询。
对于不弹回送至无效地址的电子邮件的电子邮件服务器来说,电子邮件服务器本身同样能够通过检测非请求电子邮件的系统发送质询,使无效地址的行为类似于有效地址的行为。此外,在一个实现中,服务器系统向电子邮件是垃圾邮件的概率中增加一个随机化因子(例如,防止规避自适应垃圾邮件过滤程序的努力)。
现在参见图7,图中图解说明了根据本发明一方面的响应质询的系统700。系统700包括质询接收器组件710,质询处理器组件720和质询响应组件730。
质询接收器组件710接收质询(例如先前发送的电子邮件的质询)。例如,质询至少可部分以嵌入该质询内的代码,计算质询,人力质询和/或微支付请求为基础。
在一个例子中,质询接收器组件710确定若干质询模态中哪一质询模态将被转发给质询处理器组件720(例如,根据可用计算资源和/或用户喜好)。在另一例子中,质询接收器组件710向用户提供简化若干质询模态之一的选择的信息,从而允许用户选择该用户希望用于应答质询的哪一模态(有的话)。例如,质询接收器组件710可提供有助于用户选择恰当的响应模态的信息,例如,应答计算质询所需的计算资源的数量,微支付的数量和/或微支付账户的余额。一旦选择了质询模态,则质询被转发给质询处理器720。
要认识到在某些情况下,用户可能不希望应答质询,这种情况下,不向质询处理器组件720和/或质询响应组件730发送任何信息。
质询处理器组件720处理质询,并提供与处理的质询相关的输出。例如,当质询包括嵌入代码时,质询处理器组件720可向质询响应组件730提供包括嵌入代码的输出。在质询包括计算质询的情况下,质询处理器组件720可简化计算质询的解答的产生。
当质询包括人力质询时,质询处理器组件720可向用户提供便于解决人力质询的信息。在一个例子中,人力质询可包括人类易于解答,计算机较难解答的问题。在一个例子中,人力质询可包括字词的图像(例如GIF或JPG)。该字词部分被噪声遮掩。噪声使得难以自动开发读取该字词的计算机程序(或者至少使用现成组件),而不会使得人类难以阅读该字词。本例中,质询处理器组件720可向用户提供该字词的图像。用户随后把该字词回送给质询处理器组件720。质询处理器组件720向质询响应组件730提供包括字词的输出。
当质询包括微支付请求时,质询处理器组件720可便于向质询响应组件730提供输出。在一个例子中,对微支付质询的响应以可由发布机构发布的一次性“垃圾邮件证明书”为基础。质询处理器组件720可自动地或者根据用户输入,向质询响应组件730提供垃圾邮件证书编号。通过提供垃圾邮件证书编号,之后使垃圾证明书无效(例如一次性使用)。
在另一例子中,对微支付质询的响应以微支付账户为基础。每个这种响应导致从发布机构持有的微支付账户中除去一定的金额。质询处理器组件720可向质询响应组件730提供与微支付账户相关的信息。
质询响应组件730至少部分根据与处理的质询相关的输出,提供对该质询的响应。例如,对质询的响应可包括嵌入代码,对计算质询的解答,对人力质询的解答和/或微支付。
在一种实现中,例如,为了降低拒绝服务攻击的可能性,依据对于指定消息已处理的质询的数量,对计算质询排序。在处理具有更大数量的已处理质询的消息前,处理已处理质询数量较少的消息(例如当计算资源可用时)。从而,在消息被发送给邮件发送清单的情况下,在致力于导致拒绝服务攻击的过程中,接受者可发送计算质询。但是,一旦为该消息处理了一个或多个计算质询,则具有较少已处理质询的其它消息的计算质询可被赋予优先权,从而降低拒绝服务的可能性。
鉴于上面表示和说明的例证系统,参考图8、9、10和11的流程图,将更好地理解可根据本发明实现的方法。虽然为了简化说明,所述方法被表示和描述成一系列的方框,但是要明白和认识到本发明并不局限于所述方框的顺序,因为根据本发明,一些方框可按照不同的顺序产生和/或同时与不同于这里表示和描述的其它一些方框一起产生。此外,实现根据本发明的方法并不需要所有图解说明的方框。
可在由一个或多个组件执行的计算机可执行指令,例如程序模块的一般环境下描述本发明。一般来说,程序模块包括完成特定任务或实现特定抽象数据类型的例程、程序、对象、数据结构等。通常,程序模块的功能性可根据需要组合或分布在不同的实施例中。
参见图8和9,图中图解说明了根据本发明一方面的检测非请求型电子邮件消息的方法800。在804,接收电子邮件消息。在808,确定电子邮件消息是垃圾邮件的概率(例如由邮件分类器确定)。
在812,确定该电子邮件消息的发送者是否在合法电子邮件发送者存储库中。如果在812的确定结果为是,则在816继续处理。如果在812的确定结果为否,则在820确定该电子邮件消息的发送者是否在垃圾邮件发送者存储库中。如果在820的确定结果为是,则在824继续处理。如果在820的确定结果为否,则在828,确定该电子邮件消息是垃圾邮件的概率是否大于第一阈值。如果在828的确定结果为否,则在816继续处理。如果在828的确定结果为是,则在832,把一个或多个质询发送给该电子邮件消息的发送者。
在836,确定是否收到了质询的响应。如果在836的确定结果为否,则在836继续处理。如果在836的确定结果为是,则在840,确定接收的关于质询的响应是否正确。如果在840的确定结果为是,则在816继续处理。如果在840的确定结果为否,则在824继续处理。
在816,该电子邮件消息被识别为“非垃圾邮件”(例如,放入合法电子邮件文件夹中和/或降低相关概率)。随后,在844,把该电子邮件消息的发送者添加到合法电子邮件发送者存储库中,不进行进一步的处理。
在824,该电子邮件消息被确定为垃圾邮件(例如,放入垃圾邮件文件夹中,被删除和/或增大相关概率)。随后,在848,把该电子邮件消息的发送者添加到垃圾邮件发送者存储库,不进行进一步的处理。
现在参见图10,图中图解说明了根据本发明一方面的应答质询的方法1000。在1010,发送电子邮件消息。在1020,接收质询(嵌入的代码,计算质询,人力质询和/或微支付请求)。在1030,处理质询。在1040,发送关于质询的应答。
下面参见图11,图中图解说明了根据本发明一方面的应答质询的方法1100。在1110,发送电子邮件消息。在1120,接收质询(例如具有嵌入代码的各个质询,计算质询,人力质询和/或微支付请求)。在1130,至少部分根据具有较少已处理质询的消息在具有更多已处理质询的消息之前,对要处理的质询排序(例如以便降低拒绝服务攻击)。在1140,处理质询。在1150,发送对选择质询的响应。在1160,确定是否还存在要处理的质询。如果在1160的确定结果为是,则在1130继续处理。如果在1160的确定结果为否,则不进行其它处理。
参见图12,图中图解说明了根据本发明一方面的应答若干质询的例证用户界面1200。在该例证用户界面中,用下述消息提示用户你发送的电子邮件消息已被检测为可能的垃圾邮件。除非你正确应答下面确定的质询之一,否则该电子邮件消息会被确定为垃圾邮件和/或作为垃圾邮件被删除。
向用户提供三种选择计算机计算质询、人力质询和微支付。随后至少部分根据用户的选择,可处理选择的质询。
为了提供本发明各个方面的辅助环境。图13和下面的说明意图提供其中可实现本发明的各个方面的适当操作环境1310的简要的一般性说明。虽然在由一个或多个计算机或其它设备执行的计算机可执行指令,例如程序模块的一般环境下描述本发明,不过本领域的技术人员会认识到本发明也可结合其它程序模块被实现和/或实现为硬件和软件的组合。但是,一般来说,程序模块包括完成特定任务或实现特定数据类型的例程、程序、对象、组件、数据结构等。操作环境1310只是适当的操作环境的一个例子,并不意味着对本发明的使用范围或功能性的任意限制。适合于供本发明之用的其它众所周知的计算机系统、环境,和/或结构包括(但不限于)个人计算机、手持式设备或膝上型设备、多处理器系统、微处理器系统、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括上述系统或设备的分布式计算环境等等。
参见图13,实现本发明的各个方面的例证环境1310包括计算机1312。计算机1312包括处理器1314,系统存储器1316和系统总线1318。系统总线1318使系统组件(包括(但不限于)系统存储器1316)与处理器1314耦接。处理器1314可以是各种可获得的处理器中的任意一种。双微处理器和其它多处理器结构也可用作处理器1314。
系统总线1318可以是包括存储器总线或存储器控制器,外围总线或外部总线,和/或局部总线在内的数种总线结构中的任意一种。局部总线使用任意多种可用总线体系结构,包括(但不限于)13位总线,工业标准结构(ISA),微通道结构(MSA),扩展ISA(EISA),智能驱动电子设备(IDE),VESA局部总线(VLB),外设部件互连(PCI),通用串行总线(USB),先进图形端口(AGP),个人计算机存储卡国际协会总线(PCMCIA),和小型计算机系统接口(SCSI)。
系统存储器1316可包括易失性存储器1320和非易失性存储器1322。包含例如在启动过程中,在计算机1312内的部件之间传送信息的基本例程的基本输入/输出系统(BIOS)保存在非易失性存储器1322中。举例来说(但不是限制性的),非易失性存储器1322可包括只读存储器(ROM),可编程ROM(PROM),电可编程ROM(EPROM),电可擦ROM(EEPROM)或快速存储器。易失性存储器1320包括起外部高速缓冲存储器作用的随机存取存储器(RAM)。举例来说(但不是限制性的),RAM可以多种形式存在,例如同步RAM(SRAM),动态RAM(DRAM),同步DRAM(SDRAM),双数据速率SDRAM(DDRSDRAM),增强SDRAM(ESDRAM),同步链接DRAM(SLDRAM)和直接Rambus RAM(DRRAM)。
计算机1312还包括可拆卸的/不可拆卸的,易失性/非易失性计算机存储介质。例如,图13图解说明了磁盘存储器1324。磁盘存储器1324包括(但不限于)诸如磁盘驱动器、软盘驱动器、磁带驱动器、Jaz驱动器、Zip驱动器、LS-100驱动器、快速存储卡或记忆棒之类装置。另外,磁盘存储器1324可单独包括存储介质或者与其它存储介质组合,所述其它存储介质包括(但不限于)诸如光盘ROM装置(CD-ROM)、可记录的CD驱动器(CD-R驱动器)、可重写的CD驱动器(CD-RW驱动器)或者数字通用光盘ROM驱动器(DVD-ROM)之类光盘驱动器。为了简化磁盘存储器1324与系统总线1318的连接,可拆卸的或者不可拆卸的接口通常被用作接口1326。
要认识到图13描述了用作用户和在适当的操作环境1310中描述的基本计算机资源之间的中间物的软件。这种软件包括操作系统1328。可保存在磁盘存储器1324上的操作系统1328用于控制和分配计算机系统1312的资源。系统应用程序1330通过保存在系统存储器1316中或者保存在磁盘存储器1324上的程序模块1332和程序数据1334,利用操作系统1328进行的资源管理。要认识到本发明可和各种操作系统或操作系统的组合一起实现。
用户通过输入装置1336把命令或信息输入计算机1312中。输入装置1316包括(但不限于)诸如鼠标之类指示器、跟踪球、输入笔、触摸垫、键盘、麦克风、操纵杆、游戏垫、碟形卫星天线、扫描仪、TV调谐卡、数字相机、数字视频相机、web相机等。这些和其它输入装置借助接口端口1338,通过系统总线1318,与处理器1314连接。接口端口1338包括串行端口、并行端口、游戏端口和通用串行总线(USB)。输出装置1340使用和输入装置1336相同类型端口中的一些。从而,例如USB端口可用于向计算机1312提供输入,并且可把来自计算机1312的信息输出给输出装置1340。提供了输出适配器1342,以便举例说明在需要特殊适配器的输出装置1340之中,存在类似于监视器、扬声器和打印机的一些输出装置1340。举例来说,输出适配器1342包括(但不限于)提供输出装置1340和系统总线1318之间的连接手段的视频卡和音频卡。应注意其它装置和/或装置的系统既提供输入能力又提供输出能力,例如远程计算机1344。
计算机1312可在使用相对于一个或多个远程计算机,例如远程计算机1344的逻辑连接的网络环境中工作。远程计算机1344可以是个人计算机、服务器、路由器、网络PC、工作站、基于微处理器的器具、对等设备或者其它常见网络节点等,一般包括关于计算机1312描述的许多或全部部件。为了简洁起见,对于远程计算机1344,只图解说明了存储器存储装置1346。远程计算机1344通过网络接口1348与计算机1312逻辑连接,随后通过通信连接1350与计算机1312物理连接。网络接口1348包括诸如局域网(LAN)和广域网(WAN)之类通信网络。LAN技术包括光纤分布式数据接口(FDDI)、铜线分布式数据接口(CDDI)、以太网/IEEE 1302.3、令牌环/IEEE 1302.5等。WAN技术包括(但不限于)点对点链接、类似于综合业务数字网(ISDN)及其变体的线路交换网络,和数字用户线路(DSL)。
通信连接1350指的是用于连接网络接口1348和总线1318的硬件/软件。虽然为了清楚起见,通信连接1350被表示在计算机1312之内,不过通信连接也可在计算机1312之外。举例来说,与网络接口连接所必需的硬件/软件包括诸如包括正规电话级调制解调器、电缆调制解调器和DSL调制解调器的调制解调器,ISDN适配器和以太网卡之类的内部和外部技术。
上述说明包括本发明的多个例子。当然不可能描述用于说明本发明的组件或方法的每种可能组合,但是,本领域的普通技术人员会认识到本发明的许多其它组合和变更是可能的。因此,本发明意图包含落入附加权利要求的精神和范围内的所有这种变更、修改和变化。此外,就术语“包括”被用在详细说明或权利要求中来说,该术语意图以和当术语“包含”在权利要求中被用作过渡字词时,解释术语“包含”相似的方式包含一切。
权利要求
1.一种便于检测非请求型电子邮件的系统,包括接收或保存消息,并接收或计算电子邮件消息是垃圾邮件的相关概率的电子邮件组件;和向相关概率大于第一阈值的电子邮件消息的始发者发送质询的质询组件。
2.按照权利要求1所述的系统,还包括接收电子邮件消息并确定该电子邮件消息是垃圾邮件的相关概率的邮件分类器。
3.按照权利要求1所述的系统,质询组件还至少部分根据对质询的响应,修改电子邮件消息是垃圾邮件的相关概率。
4.按照权利要求1所述的系统,所述质询是嵌入代码。
5.按照权利要求1所述的系统,所述质询是计算质询。
6.按照权利要求5所述的系统,计算质询是包括时间标记和接收者标记的消息的单向散列。
7.按照权利要求1所述的系统,所述质询是人力质询。
8.按照权利要求1所述的系统,所述质询是微支付请求。
9.按照权利要求1所述的系统,给予用户质询的选择,所述质询的选择以过滤程序为基础。
10.按照权利要求1所述的系统,质询的难度至少部分以电子邮件消息是垃圾邮件的相关概率为基础。
11.一种便于检测非请求型消息的系统,包括接收到来的消息,并把到来的消息分成垃圾邮件或合法消息的邮件分类器;和如果消息被分类为垃圾邮件,则向该消息的发送者发出质询的质询组件。
12.按照权利要求11所述的系统,邮件分类器还把到来的消息保存在垃圾邮件文件夹或合法消息文件夹中。
13.按照权利要求12所述的系统,质询组件还至少部分根据对质询的响应,把消息从垃圾邮件文件夹转移到合法消息文件夹。
14.按照权利要求11所述的系统,质询是嵌入代码。
15.按照权利要求11所述的系统,质询是计算质询。
16.按照权利要求11所述的系统,质询是人力质询。
17.按照权利要求11所述的系统,质询是微支付请求。
18.按照权利要求11所述的系统,还包括保存和合法消息的发送者相关的信息的合法消息发送者存储库。
19.按照权利要求18所述的系统,如果质询被正确响应,则质询组件把与该消息的发送者相关的信息添加到合法消息发送者存储库中。
20.按照权利要求11所述的系统,还包括保存与垃圾邮件的发送者相关的信息的垃圾邮件发送者存储库。
21.一种便于检测非请求型电子邮件的系统,包括接收到来的电子邮件消息,并把到来的电子邮件消息分成垃圾邮件、可疑垃圾邮件或合法电子邮件的邮件分类器;和向被分类为可疑垃圾邮件的电子邮件消息的发送者发出质询的质询组件。
22.按照权利要求21所述的系统,邮件分类器还把到来的电子邮件消息保存在垃圾邮件文件夹、可疑垃圾邮件或合法邮件文件夹中。
23.按照权利要求22所述的系统,质询组件还至少部分根据对质询的响应,把电子邮件消息从可疑垃圾邮件文件夹转移到垃圾邮件文件夹或者合法邮件文件夹。
24.按照权利要求21所述的系统,质询至少是嵌入代码、计算质询、人力质询和微支付请求之一。
25.按照权利要求21所述的系统,还包括保存与合法电子邮件的发送者相关的信息的合法电子邮件发送者存储库。
26.按照权利要求21所述的系统,还包括保存与垃圾邮件的发送者相关的信息的垃圾邮件发送者存储库。
27.按照权利要求21所述的系统,电子邮件消息包括每一接收者ID。
28.按照权利要求21所述的系统,质询组件还适合于检测电子邮件消息是否来自于邮件发送清单。
29.按照权利要求28所述的系统,质询组件还适合于检测邮件发送清单是适度的还是非适度的。
30.一种检测非请求型电子邮件的方法,包括向被分类为可疑垃圾邮件的电子邮件消息的发送者发出质询;接收对该质询的响应;和至少部分根据对质询的响应,修改电子邮件消息的分类。
31.按照权利要求30所述的方法,还包括至少一个下述操作,接收电子邮件消息;把该电子邮件消息分类为垃圾邮件、可疑垃圾邮件或合法电子邮件;确定发送者是否被保存在合法电子邮件发送者存储库中;和确定发送者是否在垃圾邮件发送者存储库中。
32.按照权利要求30所述的方法,质询至少是嵌入代码、计算质询、人力质询和微支付请求之一。
33.一种响应电子邮件质询的方法,包括接收对电子邮件消息的质询;至少部分根据具有较少已处理质询的消息在具有更多质询的消息之前,对质询排序;处理具有较少质询的消息的质询;和发送对具有较少质询的消息的质询的响应。
34.一种在两个或更多的计算机组件之间传送的,便于非请求型电子邮件检测的数据分组,所述数据分组包括包含与质询相关的信息的数据字段,所述质询至少部分以电子邮件消息是垃圾邮件的相关概率为基础。
35.一种存储便于检测非请求型电子邮件的系统的计算机可执行组件的计算机可读介质,包括接收电子邮件消息,并确定该电子邮件消息是垃圾邮件的相关概率的邮件分类器组件;和向相关概率大于第一阈值的电子邮件消息的发送者发出质询的质询组件。
36.一种便于检测非请求型电子邮件的系统,包括确定电子邮件消息是垃圾邮件的相关概率的装置;和向相关概率大于第一阈值的电子邮件消息的发送者发出质询的装置。
全文摘要
提供一种利用质询简化非请求型电子邮件消息的检测的系统和方法。本发明包括一个电子邮件组件和一个质询组件。系统可接收电子邮件消息和该电子邮件消息是垃圾邮件的相关概率。至少部分根据所述相关概率,系统可向电子邮件消息的发送者发出质询。质询可以是嵌入代码、计算质询、人力质询和/或微支付请求。至少部分根据对质询的响应(或者响应的缺乏),质询组件可修改相关概率和/或删除电子邮件消息。
文档编号G06F21/00GK1467670SQ03131160
公开日2004年1月14日 申请日期2003年5月20日 优先权日2002年6月26日
发明者朱华·T·古德曼, 罗伯特·L·劳斯维特, L 劳斯维特, 朱华 T 古德曼 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1