一种垃圾电子邮件意图识别系统的制作方法

文档序号:7803053阅读:1000来源:国知局
一种垃圾电子邮件意图识别系统的制作方法
【专利摘要】本发明公开了一种垃圾电子邮件意图识别系统,包括意图抽取单元、意图判断及意图库维护单元,和意图库。本发明的一种垃圾电子邮件意图识别系统通过抽取电子邮件的显式URL地址、隐式URL地址、显示邮箱地址、隐式邮箱地址、QQ号码、银行账号、信用卡号、电话号码和公司名称等多种类型的意图,并在预先创建的意图库中对每个意图进行查询,之后将当前电子邮件的所有意图查询结果整合在一起进行综合分析判断,从而能够判断出当前电子邮件是否为垃圾邮件。本发明无需一一进入邮件正文中的超链接,并分析所链接的文本的意图,只需利用所述意图库即可高效地完成对电子邮件的意图分析和邮件属性判断,且所抽取的意图种类更多,意图分析结果更准确。
【专利说明】一种垃圾电子邮件意图识别系统
【技术领域】
[0001]本发明涉及反垃圾邮件技术,特别涉及一种垃圾电子邮件意图识别系统。
【背景技术】
[0002]电子邮件作为当今互联网应用最广泛的服务之一,其方便、快捷和经济等特点,得到了无数商务人士的青睐。人们用它来办公,娱乐等等,邮件逐渐成为日常生活中不可缺少的通信工具。但随着信息化的发展,由于互联网的开放性与传播性,垃圾邮件的泛滥也成为用户尤其是企业机构不可忽视的巨大威胁。垃圾邮件中的某些消息具有很强的循环性和攻击性。垃圾电子邮件正开始逐步的减弱电子邮件的可靠性。对于个人用户和企业用户来说,垃圾邮件收发浪费了大量的网络带宽,区分垃圾邮件和正常邮件也浪费了用户的大量时间,尤其对企业机构来说,垃圾邮件已造成了极大的经济效益损失。
[0003]大部分垃圾邮件背后的动机是使邮件接收者接受某物,例如登陆某个站点,拨打某个电话,或者购买某支股票。这些动机被称为该邮件的“意图”,而对邮件的这些特点的观察和分析称为“意图分析”。邮件的意图是一种不同于传统技术中所指的内容或行为的全新特征,它具有稳定性、不可伪装性和必要性。
[0004]现有的垃圾邮件意图分析方案,通常需要点击进入邮件中的URL超链接地址所指向的网站,并分析该网站的内容。该方案效率低下,且所抽取的意图类型单一,同时,许多垃圾邮件通常采用混淆手段(如在邮件中加入随机噪声)来避免被识别,而该方案并不能处理这种问题。

【发明内容】

[0005]本发明的目的在于克服现有技术之不足,提供一种垃圾电子邮件意图识别系统,通过抽取电子邮件的显式URL地址、隐式URL地址、显示邮箱地址、隐式邮箱地址、QQ号码、银行账号、信用卡号、电话号码和公司名称等多种类型的意图,并在预先创建的意图库中对断,从而能够判断出当前电子邮件是否为垃圾邮件,而所述意图库可通过所述意图判断及意图库维护单元实现更新和维护。
[0006]本发明解决其技术问题所采用的技术方案为:一种垃圾电子邮件意图识别系统,包括意图抽取单元、意图判断及意图库维护单元,和由所述意图判断及意图库维护单元创建的意图库;
[0007]所述意图抽取单元接收来自上级单元的电子邮件全文和包括意图分析命令或反馈学习命令的操作指令;若所述操作指令为意图分析命令,则所述意图抽取单元抽取该电子邮件中指定类型的意图、形成意图串,并将该意图串连同该操作指令一起传送给所述意图判断及意图库维护单元,之后接收来自意图判断及意图库维护单元的邮件属性判断结果,并将该判断结果反馈给上级单元;若所述操作指令为反馈学习命令,则所述意图抽取单元抽取该电子邮件中指定类型的意图、形成意图串,并抽取该电子邮件中预先标记的邮件属性,之后将该意图串、该邮件属性连同该操作指令一起传送给所述意图判断及意图库维护单元;
[0008]所述意图判断及意图库维护单元接收来自意图抽取单元的意图串和意图分析命令,或意图串、邮件属性和反馈学习命令;若所述意图判断及意图库维护单元接收到意图分析命令,则通过对接收到的意图串中的所有意图在所述意图库中进行查询而分析判断出邮件属性,并向所述意图抽取单元反馈邮件属性判断结果;若所述意图判断及意图库维护单元接收到反馈学习命令,则基于接收到的意图串和邮件属性进行反馈学习并更新意图库;
[0009]所述意图判断及意图库维护单元还包括在预置的时间间隔内自动维护意图库;
[0010]所述指定类型的意图包括显式URL地址、隐式URL地址、显示邮箱地址、隐式邮箱地址、QQ号码、银行账号、信用卡号、电话号码和公司名称;
[0011 ] 所述邮件属性包括垃圾邮件、正常邮件和未知邮件三种属性。
[0012]作为一种优选,所述意图库中存有意图文件,每个意图文件包括意图内容、意图种类、总频数、ham频数、spam频数、总文档数、ham文档数、spam文档数、生命值、ham %、spam %和特征向量;所述总频数为对应的意图内容在所述意图识别系统之前处理过的所有邮件中出现的次数,所述ham频数为对应的意图内容在所述意图识别系统之前处理过的正常邮件中出现的次数,所述spam频数为对应的意图内容在所述意图识别系统之前处理过的垃圾邮件中出现的次数,所述总文档数为所述意图识别系统之前处理过的所有邮件中存在对应的意图内容的邮件数,所述ham文档数为所述意图识别系统之前处理过的所有邮件中存在对应的意图内容的正常邮件数,所述spam文档数为所述意图识别系统之前处理过的所有邮件中存在对应的意图内容的垃圾邮件数,所述ham%为ham频数/总频数,所述spam %为spam频数/总频数,所述特征向量用于区分各个意图文件。
[0013]作为一种优选,所述意图抽取单元对所述指定类型的意图的抽取顺序为:首先抽取隐式URL地址和隐式邮箱地址,其次抽取显式URL地址和显示邮箱地址,然后抽取QQ号码、银行账号、信用卡号和电话号码,最后抽取公司名称。
[0014]作为一种优选,所述隐式URL地址和隐式邮箱地址的抽取过程包括如下步骤:
[0015]首先,读入一封电子邮件的html代码,并将该邮件的html代码整合为一个字符串;
[0016]其次,扫描当前的字符串,截取其中以“<a”开始、以“/a>”结尾的子字符串,若所述子字符串含有“href =”,则截取该子字符串中的href = “**”中引号间所包含的内容;
[0017]最后,若该截取内容中包括“mailto: ”,则以预先统计的邮箱后缀库为截断标准截取出“mailto: ”之后的邮箱地址,作为要抽取的隐式邮箱地址类意图;若该截取内容中包括“http”、“https”或“www.”,则以预先统计的域名后缀库为截断标准截取出“http”、“https”或“www.”之后的内容,作为要抽取的隐式URL地址类意图。
[0018]作为一种优选,所述显式URL地址和显式邮箱地址的抽取过程包括:读入一封电子邮件的正文,以一行为一个处理单元,按从上到下的顺序,抽取其中含有“http ”、“https”或“www.”的行,并以现有的域名后缀库为截断标准截取出“http”、“https”或“WWW.”之后的内容,作为要抽取的显式URL地址类意图;抽取其中含有“O”的行,从该行中的“O”往前和往后、以邮箱用户名的命名标准和现有的邮箱后缀库为截断依据,截取出邮箱地址段,作为要抽取的显式邮箱地址类意图。
[0019]作为一种优选,所述意图抽取单元对QQ号码、银行账号、信用卡号、电话号码这4种意图采用如下抽取算法:
[0020]I)预处理,包括:
[0021]Al.通过预先统计,建立QQ号码、银行账号、信用卡号、电话号码这4种意图的前缀库,和电话号码类意图的后缀库;
[0022]A2.针对已抽取所述显式URL地址和显示邮箱地址的电子邮件的正文,以一行为一个处理单元,将其中除了字母、数字、“:和”之外所有的单字节符号去掉,然后将其中用文字表示的数字和全角数字全部替换为半角数字,之后将和“/”都替换为“:”,最后消除日期、系统时间和IP地址;
[0023]2)提取:提取所述经过预处理的正文中所有仅包含数字的纯数字段,以及每个纯数字段的前缀和后缀;
[0024]3)针对所提取的所有纯数字段及其前缀和后缀,采用如下步骤:
[0025]B1.若其中一个纯数字段的前缀属于QQ号码的前缀库,则在所述经过预处理的正文中从该纯数字段的第一位开始,连续提取数字,直到遇到汉字或回车,所提取的纯数字段作为一个QQ号码类意图;
[0026]B2.若其中一个纯数字段的前缀属于银行卡号的前缀库,则在所述经过预处理的正文中从该纯数字段的第一位开始,连续提取19个数字,所提取的纯数字段作为一个银行账号类意图;
[0027]B3.若其中一个纯数字段的前缀属于信用卡号的前缀库,则在所述经过预处理的正文中从该纯数字段的第一位开始,连续提取数字,每增加一个数字就计算所提取的纯数字段是否符合Luhn算法,直到符合为止,则所提取的纯数字段作为一个信用卡号类意图;
[0028]B4.若其中一个纯数字段的前缀属于电话号码的前缀库或后缀属于电话号码的后缀库,则在经过所述预处理的正文中从该纯数字段的第一位开始往后连续提取11到14位数字、或从该纯数字段的最后一位开始往前连续提取11到14位数字,并结合国内电话号码区号、对应的电话号码位数表和手机号码位数判断所提取的纯数字段的合法性,若合法,则所提取的纯数字段作为一个电话号码类意图。
[0029]作为一种优选,所述公司名称意图的提取过程包括:
[0030]首先,针对已抽取显式URL地址、显不邮箱地址、QQ号码、银行账号、信用卡号和电话号码的电子邮件的正文,以一行为一个处理单元,抽取其中含有属于预先统计的外国公司名后缀库的关键词的行,以该关键词为截断依据,截取出公司名称;
[0031]其次,针对剩下的正文,去除其中所有的单字节符,并将所有汉字表示的数字和全角数字都替换为半角数字,之后,以一行为一个处理单元,按从上到下的顺序抽取其中含有属于预先统计的公司名前缀库的关键词的行,从该行中的该关键词开始往后查找,若找到属于预先统计的中国公司名后缀库的关键词,记为中国公司名后缀,则以所述中国公司名后缀为截断依据,截取出一个或多个公司名称;若找不到,则忽略该行;
[0032]最后,针对剩下的正文,以一行为一个处理单元,按从上到下的顺序,抽取其中含有属于预先统计的中国公司名后缀库的关键词的行,以该关键词为截断依据,并结合中国区域地理名称截取出公司名称。
[0033]作为一种优选,所述意图判断及意图库维护单元包括意图查询模块、意图反馈学习模块和意图库维护模块;若所述意图判断及意图库维护单元接收到来自意图抽取单元的意图串和意图分析命令,则调用所述意图查询模块;若所述意图判断及意图库维护单元接收到来自意图抽取单元的意图串、邮件属性和反馈学习命令,则调用意图反馈学习模块;所述意图库维护模块每隔所述预置的时间间隔,将所述意图库中所有意图文件的生命值都减1,并将所述意图库中生命值小于O且ham文档数小于第一预设值的意图文件删除。
[0034]作为一种优选,所述意图查询模块将接收到的意图串分割获取单个意图,并在所述意图库中查询每个意图;若所述意图库存在包含该意图的意图文件,则根据该意图文件向所述意图查询模块返回该意图的spam%和ham% ;所述意图查询模块查询完所有意图后,将所有意图的spam%相加得到spam%和,并将所有意图的ham%相加得到ham%和,如此,若所述spam%和大于第二预设值,则判断当前电子邮件为垃圾邮件,若所述spam%和小于所述ham%和,则判断当前电子邮件为正常邮件,其他情况,则判断当前电子邮件为邮件属性未知;其中所述第二预设值大于或等于0.5。
[0035]作为一种优选,所述意图反馈学习模块将接收到的意图串分割获取单个意图,并在所述意图库中查询每个意图,则:
[0036]若所述意图库存在包含该意图的意图文件,且当前电子邮件为垃圾邮件,则将相应的意图文件更新为原来的总频数加上此条意图在当前邮件中出现的频数,spam频数加上此条意图在当前邮件中出现的频数,总文档数加1,spam文档数加1,生命值加上此条意图在当前邮件中出现的频数,并对应更新spam% ;若总文档数大于第三预设值,则总文档数减半、spam文档数减半、ham文档数减半;
[0037]若所述意图库存在包含该意图的意图文件,且当前电子邮件为正常邮件,则将相应的意图文件更新为原来的总频数加上此条意图在当前邮件中出现的频数,ham频数加上此条意图在当前邮件中出现的频数,总文档数加上一个第四预设值,ham文档数也加上所述第四预设值,生命值减去此条意图在当前邮件中出现的频数,并对应更新ham% ;若总文档数大于所述第三预设值,则总文档数减半、spam文档数减半、ham文档数减半;
[0038]若所述意图库中不存在包含该意图的意图文件,且当前电子邮件为垃圾邮件,则在所述意图库中添加一个新的意图文件,将生命值赋值为一个第五预设值,总频数被赋值为此条意图在当前邮件中出现的频数,spam频数被赋值为此条意图在当前邮件中出现的频数,总文档数被赋值为I,spam文档数被赋值为I,并对应更新spam% ;
[0039]若所述意图库不存在包含该意图的意图文件,且当前电子邮件为正常邮件,则不对当前意图库做任何改变。
[0040]由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
[0041]1.本发明的一种垃圾电子邮件意图识别系统,通过抽取电子邮件的显式URL地址、隐式URL地址、显示邮箱地址、隐式邮箱地址、QQ号码、银行账号、信用卡号、电话号码和公司名称等多种类型的意图,并在预先创建的意图库中对每个意图进行查询,之后将当前电子邮件的所有意图查询结果整合在一起进行综合分析判断,从而能够判断出当前电子邮件是否为垃圾邮件,而所述意图库可通过所述意图判断及意图库维护单元实现更新和维护。本发明无需一一进入当前电子邮件正文中的超链接,并分析所链接的文本的意图,只需利用所述意图库即可高效地完成对电子邮件的意图分析和邮件属性判断,且本发明所抽取的意图种类更多,意图分析结果更准确。
[0042]2.本发明的一种垃圾电子邮件意图识别系统的QQ号码、银行账号、信用卡号和电话号码抽取算法能够有效抽取出各种正确的意图,即使在电子邮件的意图中加入干扰符号、半角数字用汉字或全角数字表示,也能够识别出来。
[0043]3.本发明的一种垃圾电子邮件意图识别系统的公司名称抽取算法能够有效抽取出各种正确的意图,即使在电子邮件的意图中加入干扰符号、半角数字用汉字或全角数字表示,也能够识别出来。
[0044]4.本发明的一种垃圾电子邮件意图识别系统还包括反馈学习机制,运维人员定期对电子邮件进行人工判断,并将该判断结果和该电子邮件以及反馈学习命令一起通过上级单元传给本发明所述的垃圾电子邮件意图识别系统,本发明的系统通过意图抽取单元接收这些内容,并抽取该电子邮件的指定类型的意图、形成意图串,之后将该意图串、该判断结果和反馈学习命令一起传送给意图判断及意图库维护单元,意图判断及意图库维护单元调用意图反馈学习模块,该模块根据接收到的意图串中的各个意图及该判断结果,更新意图库中的意图文件,从而能够提高本发明的系统对垃圾电子邮件的判断的正确率。
【专利附图】

【附图说明】
[0045]图1为本发明实施例的一种垃圾电子邮件意图识别系统示意图。
【具体实施方式】
[0046]实施例,
[0047]如图1所示,本发明提供了一种垃圾电子邮件意图识别系统,包括意图抽取单元
1、意图判断及意图库维护单元2,和由所述意图判断及意图库维护单元2创建的意图库3 ;
[0048]所述意图抽取单元I接收来自上级单元4的电子邮件全文和包括意图分析命令或反馈学习命令的操作指令;若所述操作指令为意图分析命令,则所述意图抽取单元I抽取该电子邮件中指定类型的意图、形成意图串,并将该意图串连同该操作指令一起传送给所述意图判断及意图库3维护单元2,之后接收来自意图判断及意图库3维护单元2的邮件属性判断结果,并将该判断结果反馈给上级单元4 ;若所述操作指令为反馈学习命令,则所述意图抽取单元I抽取该电子邮件中指定类型的意图、形成意图串,并抽取该电子邮件中预先标记的邮件属性,之后将该意图串、该邮件属性连同该操作指令一起传送给所述意图判断及意图库3维护单元2;
[0049]所述意图判断及意图库3维护单元2接收来自意图抽取单元I的意图串和意图分析命令,或意图串、邮件属性和反馈学习命令;若所述意图判断及意图库3维护单元2接收到意图分析命令,则通过对接收到的意图串中的所有意图在所述意图库3中进行查询而分析判断出邮件属性,并向所述意图抽取单元I反馈邮件属性判断结果;若所述意图判断及意图库3维护单元2接收到反馈学习命令,则基于接收到的意图串和邮件属性进行反馈学习并更新意图库3 ;
[0050]所述意图判断及意图库3维护单元2还包括在预置的时间间隔内自动维护意图库
3;
[0051]所述指定类型的意图包括显式URL地址、隐式URL地址、显示邮箱地址、隐式邮箱地址、QQ号码、银行账号、信用卡号、电话号码和公司名称;
[0052]所述邮件属性包括垃圾邮件、正常邮件和未知邮件三种属性。[0053]本实施例中,所述隐式URL地址和隐式邮箱地址为从电子邮件的html代码中提取的意图,所述显式URL地址、显式URL地址、QQ号码、银行账号、信用卡号、电话号码和公司名称为从电子邮件的正文中提取的意图。
[0054]作为一种优选,所述意图库3中存有意图文件,每个意图文件包括意图内容、意图种类、总频数、ham频数、spam频数、总文档数、ham文档数、spam文档数、生命值、ham%>spam%和特征向量;所述总频数为对应的意图内容在所述意图识别系统之前处理过的所有邮件中出现的次数,所述ham频数为对应的意图内容在所述意图识别系统之前处理过的正常邮件中出现的次数,所述spam频数为对应的意图内容在所述意图识别系统之前处理过的垃圾邮件中出现的次数,所述总文档数为所述意图识别系统之前处理过的所有邮件中存在对应的意图内容的邮件数,所述ham文档数为所述意图识别系统之前处理过的所有邮件中存在对应的意图内容的正常邮件数,所述spam文档数为所述意图识别系统之前处理过的所有邮件中存在对应的意图内容的垃圾邮件数,所述ham%为ham频数/总频数,所述spam%为spam频数/总频数,所述特征向量用于区分各个意图文件。本实施例中,所述意图库3中还包括意图索引文件,所述意图索引文件中的每条索引记录包括单个意图文件的意图内容及该意图文件在意图库3中的位置,所述意图索引文件中的索引记录与所述意图文件为一一映射关系。因此,所述意图判断及意图库3维护单元2只需在意图索引文件中查找意图,找到相应的索引记录,即可查找到相应的意图文件。
[0055]作为一种优选,所述意图抽取单元I对所述指定类型的意图的抽取顺序为:首先抽取隐式URL地址和隐式邮箱地址,其次抽取显式URL地址和显示邮箱地址,然后抽取QQ号码、银行账号、信用卡号和电话号码,最后抽取公司名称。
[0056]作为一种优选,所述隐式URL地址和隐式邮箱地址的抽取过程包括如下步骤:
[0057]首先,读入一封电子邮件的html代码,并将该邮件的html代码整合为一个字符串;
[0058]其次,扫描当前的字符串,截取其中以“<a”开始、以“/a>”结尾的子字符串,若所述子字符串含有“href =”,则截取该子字符串中的href = “**”中引号间所包含的内容;
[0059]最后,若该截取内容中包括“mailto: ”,则以预先统计的邮箱后缀库为截断标准截取出“mailto: ”之后的邮箱地址,作为要抽取的隐式邮箱地址类意图;若该截取内容中包括“http”、“https”或“www.”,则以预先统计的域名后缀库为截断标准截取出“http”、“https”或“www.”之后的内容,作为要抽取的隐式URL地址类意图。
[0060]所述预先统计的邮箱后缀库包括各种类型的邮箱后缀,所述预先统计的域名后缀库包括各个国家的国家域名、各类公司或组织的域名,还有电脑中各种文件的扩展名。
[0061]作为一种优选,所述显式URL地址和显式邮箱地址的抽取过程包括:读入一封电子邮件的正文,以一行为一个处理单元,按从上到下的顺序,抽取其中含有“http ”、“https”或“www.”的行,并以现有的域名后缀库为截断标准截取出“http”、“https”或“WWW.”之后的内容,作为要抽取的显式URL地址类意图;抽取其中含有“O”的行,从该行中的“O”往前和往后、以邮箱用户名的命名标准和现有的邮箱后缀库为截断依据,截取出邮箱地址段,作为要抽取的显式邮箱地址类意图。
[0062]本实施例中结合域名后缀库、利用boost库中正则表达式功能、构造一个正则表达式如下:[0063]" ( ?:(( ?:http https):\/\/) ? www\\.(( ?:http |https):\/\/))([0-9a-zA-Z\\.\/\\-_:] {3,100} ( ?: " + 域名后缀库中的词条
[0064]从而能够实现对显式URL地址的提取。
[0065]作为一种优选,所述意图抽取单元I对QQ号码、银行账号、信用卡号、电话号码这4种意图采用如下抽取算法:
[0066]I)预处理,包括:
[0067]Al.通过预先统计,建立QQ号码、银行账号、信用卡号、电话号码这4种意图的前缀库,和电话号码类意图的后缀库;
[0068]A2.针对已抽取所述显式URL地址和显示邮箱地址的电子邮件的正文,以一行为一个处理单元,将其中除了字母、数字、“:和”之外所有的单字节符号去掉,然后将其中用文字表示的数字和全角数字全部替换为半角数字,之后将和“/”都替换为“:”,最后消除日期、系统时间和IP地址;
[0069]2)提取:提取所述经过预处理的正文中所有仅包含数字的纯数字段,以及每个纯数字段的前缀和后缀;
[0070]3)针对所提取的所有纯数字段及其前缀和后缀,采用如下步骤:
[0071]B1.若其中一个纯数字段的前缀属于QQ号码的前缀库,则在所述经过预处理的正文中从该纯数字段的第一位开始,连续提取数字,直到遇到汉字或回车,所提取的纯数字段作为一个QQ号码类意图;
[0072]B 2.若其中一个纯数字段的前缀属于银行卡号的前缀库,则在所述经过预处理的正文中从该纯数字段的第一位开始,连续提取19个数字,所提取的纯数字段作为一个银行账号类意图;
[0073]B3.若其中一个纯数字段的前缀属于信用卡号的前缀库,则在所述经过预处理的正文中从该纯数字段的第一位开始,连续提取数字,每增加一个数字就计算所提取的纯数字段是否符合Luhn算法,直到符合为止,则所提取的纯数字段作为一个信用卡号类意图;
[0074]B4.若其中一个纯数字段的前缀属于电话号码的前缀库或后缀属于电话号码的后缀库,则在经过所述预处理的正文中从该纯数字段的第一位开始往后连续提取11到14位数字、或从该纯数字段的最后一位开始往前连续提取11到14位数字,并结合国内电话号码区号、对应的电话号码位数表和手机号码位数判断所提取的纯数字段的合法性,若合法,则所提取的纯数字段作为一个电话号码类意图。
[0075]作为一种优选,所述公司名称意图的提取过程包括:
[0076]首先,针对已抽取显式URL地址、显示邮箱地址、QQ号码、银行账号、信用卡号和电话号码的电子邮件的正文,以一行为一个处理单元,抽取其中含有属于预先统计的外国公司名后缀库的关键词的行,以该关键词为截断依据,截取出公司名称;
[0077]其次,针对剩下的正文,去除其中所有的单字节符,并将所有汉字表示的数字和全角数字都替换为半角数字,之后,以一行为一个处理单元,按从上到下的顺序抽取其中含有属于预先统计的公司名前缀库的关键词的行,从该行中的该关键词开始往后查找,若找到属于预先统计的中国公司名后缀库的关键词,记为中国公司名后缀,则以所述中国公司名后缀为截断依据,截取出一个或多个公司名称;若找不到,则忽略该行;
[0078]最后,针对剩下的正文,以一行为一个处理单元,按从上到下的顺序,抽取其中含有属于预先统计的中国公司名后缀库的关键词的行,以该关键词为截断依据,并结合中国区域地理名称截取出公司名称。
[0079]作为一种优选,所述意图判断及意图库3维护单元2包括意图查询模块、意图反馈学习模块和意图库3维护模块;若所述意图判断及意图库3维护单元2接收到来自意图抽取单元I的意图串和意图分析命令,则调用所述意图查询模块;若所述意图判断及意图库3维护单元2接收到来自意图抽取单元I的意图串、邮件属性和反馈学习命令,则调用意图反馈学习模块;所述意图库3维护模块每隔所述预置的时间间隔,将所述意图库3中所有意图文件的生命值都减1,并将所述意图库3中生命值小于O且ham文档数小于第一预设值的意图文件删除,以防止意图库3中“过期”意图文件残留,导致意图库3中意图文件数目激增。本实施例中,所述预置的时间间隔为I天,所述第一预设值为3。 [0080]作为一种优选,所述意图查询模块将接收到的意图串分割获取单个意图,并在所述意图库3中查询每个意图;若所述意图库3存在包含该意图的意图文件,则根据该意图文件向所述意图查询模块返回该意图的spam%和ham% ;所述意图查询模块查询完所有意图后,将所有意图的spam1^相加得到spam1^和,并将所有意图的ham1^相加得到ham1^和,如此,若所述spam%和大于第二预设值,则判断当前电子邮件为垃圾邮件,若所述spam%和小于所述ham%和,则判断当前电子邮件为正常邮件,其他情况,则判断当前电子邮件为邮件属性未知;其中所述第二预设值大于或等于0.5。
[0081]作为一种优选,所述意图反馈学习模块将接收到的意图串分割获取单个意图,并在所述意图库3中查询每个意图,则:
[0082]若所述意图库3存在包含该意图的意图文件,且当前电子邮件为垃圾邮件,则将相应的意图文件更新为原来的总频数加上此条意图在当前邮件中出现的频数,spam频数加上此条意图在当前邮件中出现的频数,总文档数加1,spam文档数加1,生命值加上此条意图在当前邮件中出现的频数,并对应更新spam% ;若总文档数大于第三预设值,则总文档数减半、spam文档数减半、ham文档数减半;本实施例中,所述第三预设值为50000 ;
[0083]若所述意图库3存在包含该意图的意图文件,且当前电子邮件为正常邮件,则将相应的意图文件更新为原来的总频数加上此条意图在当前邮件中出现的频数,ham频数加上此条意图在当前邮件中出现的频数,总文档数加上一个第四预设值,ham文档数也加上所述第四预设值,生命值减去此条意图在当前邮件中出现的频数,并对应更新ham% ;若总文档数大于所述第三预设值,则总文档数减半、spam文档数减半、ham文档数减半;本实施例中,所述第四预设值为100;
[0084]若所述意图库3中不存在包含该意图的意图文件,且当前电子邮件为垃圾邮件,则在所述意图库3中添加一个新的意图文件,将生命值赋值为一个第五预设值,总频数被赋值为此条意图在当前邮件中出现的频数,spam频数被赋值为此条意图在当前邮件中出现的频数,总文档数被赋值为1,spam文档数被赋值为I,并对应更新spam% ;本实施例中,所述第五预设值为200 ;
[0085]若所述意图库3不存在包含该意图的意图文件,且当前电子邮件为正常邮件,则不对当前意图库3做任何改变。
[0086]本发明的一种垃圾电子邮件意图识别系统的反馈机制是,运维人员定期对电子邮件进行人工判断,并将该判断结果和该电子邮件以及反馈学习命令一起通过上级单元4传给本发明所述的垃圾电子邮件意图识别系统,本发明的系统通过意图抽取单元I接收这些内容,并抽取该电子邮件的指定类型的意图、形成意图串,之后将该意图串、该判断结果和反馈学习命令一起传送给意图判断及意图库3维护单元2,意图判断及意图库3维护单元2调用意图反馈学习模块,该模块根据接收到的意图串中的各个意图及该判断结果,更新意图库3中的意图文件,从而能够提高本发明的系统对垃圾电子邮件的判断的正确率。
[0087] 上述实施例仅用来进一步说明本发明的一种垃圾电子邮件意图识别系统,但本发明并不局限于实施例,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均落入本发明技术方案的保护范围内。
【权利要求】
1.一种垃圾电子邮件意图识别系统,其特征在于,包括意图抽取单元、意图判断及意图库维护单元,和由所述意图判断及意图库维护单元创建的意图库; 所述意图抽取单元接收来自上级单元的电子邮件全文和包括意图分析命令或反馈学习命令的操作指令;若所述操作指令为意图分析命令,则所述意图抽取单元抽取该电子邮件中指定类型的意图、形成意图串,并将该意图串连同该操作指令一起传送给所述意图判断及意图库维护单元,之后接收来自意图判断及意图库维护单元的邮件属性判断结果,并将该判断结果反馈给上级单元;若所述操作指令为反馈学习命令,则所述意图抽取单元抽取该电子邮件中指定类型的意图、形成意图串,并抽取该电子邮件中预先标记的邮件属性,之后将该意图串、该邮件属性连同该操作指令一起传送给所述意图判断及意图库维护单元; 所述意图判断及意图库维护单元接收来自意图抽取单元的意图串和意图分析命令,或意图串、邮件属性和反馈学习命令;若所述意图判断及意图库维护单元接收到意图分析命令,则通过对接收到的意图串中的所有意图在所述意图库中进行查询而分析判断出邮件属性,并向所述意图抽取单元反馈邮件属性判断结果;若所述意图判断及意图库维护单元接收到反馈学习命令,则基于接收到的意图串和邮件属性进行反馈学习并更新意图库; 所述意图判断及意图库维护单元还包括在预置的时间间隔内自动维护意图库; 所述指定类型的意图包括显式URL地址、隐式URL地址、显示邮箱地址、隐式邮箱地址、QQ号码、银行账号、信 用卡号、电话号码和公司名称; 所述邮件属性包括垃圾邮件、正常邮件和未知邮件三种属性。
2.如权利要求1所述的一种垃圾电子邮件意图识别系统,其特征在于,所述意图库中存有意图文件,每个意图文件包括意图内容、意图种类、总频数、ham频数、spam频数、总文档数、ham文档数、spam文档数、生命值、ham%、spam%和特征向量;所述总频数为对应的意图内容在所述意图识别系统之前处理过的所有邮件中出现的次数,所述ham频数为对应的意图内容在所述意图识别系统之前处理过的正常邮件中出现的次数,所述spam频数为对应的意图内容在所述意图识别系统之前处理过的垃圾邮件中出现的次数,所述总文档数为所述意图识别系统之前处理过的所有邮件中存在对应的意图内容的邮件数,所述ham文档数为所述意图识别系统之前处理过的所有邮件中存在对应的意图内容的正常邮件数,所述spam文档数为所述意图识别系统之前处理过的所有邮件中存在对应的意图内容的垃圾邮件数,所述ham %为ham频数/总频数,所述spam %为spam频数/总频数,所述特征向量用于区分各个意图文件。
3.如权利要求1所述的一种垃圾电子邮件意图识别系统,其特征在于,所述意图抽取单元对所述指定类型的意图的抽取顺序为:首先抽取隐式URL地址和隐式邮箱地址,其次抽取显式URL地址和显示邮箱地址,然后抽取QQ号码、银行账号、信用卡号和电话号码,最后抽取公司名称。
4.如权利要求3所述的一种垃圾电子邮件意图识别系统,其特征在于,所述隐式URL地址和隐式邮箱地址的抽取过程包括如下步骤: 首先,读入一封电子邮件的html代码,并将该邮件的html代码整合为一个字符串; 其次,扫描当前的字符串,截取其中以“<a”开始、以“/a>”结尾的子字符串,若所述子字符串含有“href =”,则截取该子字符串中的href = “**”中引号间所包含的内容;最后,若该截取内容中包括“mailto: ”,则以预先统计的邮箱后缀库为截断标准截取出“mailto: ”之后的邮箱地址,作为要抽取的隐式邮箱地址类意图;若该截取内容中包括“http”、“https”或“www.”,则以预先统计的域名后缀库为截断标准截取出“http”、“https”或“穩.”之后的内容,作为要抽取的隐式URL地址类意图。
5.如权利要求3所述的一种垃圾电子邮件意图识别系统,其特征在于,所述显式URL地址和显式邮箱地址的抽取过程包括:读入一封电子邮件的正文,以一行为一个处理单元,按从上到下的顺序,抽取其中含有“http”、“https”或“WWW.”的行,并以现有的域名后缀库为截断标准截取出“http”、“https”或“WWW.”之后的内容,作为要抽取的显式URL地址类意图;抽取其中含有“ @”的行,从该行中的“ @”往前和往后、以邮箱用户名的命名标准和现有的邮箱后缀库为截断依据,截取出邮箱地址段,作为要抽取的显式邮箱地址类意图。
6.如权利要求3所述的一种垃圾电子邮件意图识别系统,其特征在于,所述意图抽取单元对QQ号码、银行账号、信用卡号、电话号码这4种意图采用如下抽取算法: 1)预处理,包括: Al.通过预先统计,建立QQ号码、银行账号、信用卡号、电话号码这4种意图的前缀库,和电话号码类意图的后缀库; A2.针对已抽取所述显式URL地址和显示邮箱地址的电子邮件的正文,以一行为一个处理单元,将其中除了字母、数字、“:和”之外所有的单字节符号去掉,然后将其中用文字表示的数字和全角数字全部替换为半角数字,之后将和“/”都替换为“:”,最后消除日期、系统时间和IP地址; 2)提取:提取所述经过 预处理的正文中所有仅包含数字的纯数字段,以及每个纯数字段的前缀和后缀; 3)针对所提取的所有纯数字段及其前缀和后缀,采用如下步骤: B1.若其中一个纯数字段的前缀属于QQ号码的前缀库,则在所述经过预处理的正文中从该纯数字段的第一位开始,连续提取数字,直到遇到汉字或回车,所提取的纯数字段作为一个QQ号码类意图; B2.若其中一个纯数字段的前缀属于银行卡号的前缀库,则在所述经过预处理的正文中从该纯数字段的第一位开始,连续提取19个数字,所提取的纯数字段作为一个银行账号类意图; B3.若其中一个纯数字段的前缀属于信用卡号的前缀库,则在所述经过预处理的正文中从该纯数字段的第一位开始,连续提取数字,每增加一个数字就计算所提取的纯数字段是否符合Luhn算法,直到符合为止,则所提取的纯数字段作为一个信用卡号类意图; B4.若其中一个纯数字段的前缀属于电话号码的前缀库或后缀属于电话号码的后缀库,则在经过所述预处理的正文中从该纯数字段的第一位开始往后连续提取11到14位数字、或从该纯数字段的最后一位开始往前连续提取11到14位数字,并结合国内电话号码区号、对应的电话号码位数表和手机号码位数判断所提取的纯数字段的合法性,若合法,则所提取的纯数字段作为一个电话号码类意图。
7.如权利要求3所述的一种垃圾电子邮件意图识别系统,其特征在于,所述公司名称意图的提取过程包括: 首先,针对已抽取显式URL地址、显示邮箱地址、QQ号码、银行账号、信用卡号和电话号码的电子邮件的正文,以一行为一个处理单元,抽取其中含有属于预先统计的外国公司名后缀库的关键词的行,以该关键词为截断依据,截取出公司名称; 其次,针对剩下的正文,去除其中所有的单字节符,并将所有汉字表示的数字和全角数字都替换为半角数字,之后,以一行为一个处理单元,按从上到下的顺序抽取其中含有属于预先统计的公司名前缀库的关键词的行,从该行中的该关键词开始往后查找,若找到属于预先统计的中国公司名后缀库的关键词,记为中国公司名后缀,则以所述中国公司名后缀为截断依据,截取出一个或多个公司名称;若找不到,则忽略该行; 最后,针对剩下的正文,以一行为一个处理单元,按从上到下的顺序,抽取其中含有属于预先统计的中国公司名后缀库的关键词的行,以该关键词为截断依据,并结合中国区域地理名称截取出公司名称。
8.如权利要求2所述的一种垃圾电子邮件意图识别系统,其特征在于,所述意图判断及意图库维护单元包括意图查询模块、意图反馈学习模块和意图库维护模块;若所述意图判断及意图库维护单元接收到来自意图抽取单元的意图串和意图分析命令,则调用所述意图查询模块;若所述意图判断及意图库维护单元接收到来自意图抽取单元的意图串、邮件属性和反馈学习命令,则调用意图反馈学习模块;所述意图库维护模块每隔所述预置的时间间隔,将所述意图库中所有意图文件的生命值都减1,并将所述意图库中生命值小于O且ham文档数小于第一预设值的意图文件删除。
9.如权利要求8所述的一种垃圾电子邮件意图识别系统,其特征在于,所述意图查询模块将接收到的意图串分割获取单个意图,并在所述意图库中查询每个意图;若所述意图库存在包含该意图的意图文件,则根据该意图文件向所述意图查询模块返回该意图的spam%和ham% ;所述意图查询模块查询完所有意图后,将所有意图的spam%相加得到spam%和,并将所有意图的ham%相加得到ham%和,如此,若所述spam%和大于第二预设值,则判断当前电子邮件为垃圾邮件,若所述spam%和小于所述ham%和,则判断当前电子邮件为正常邮件,其他情况,则判断当前电子邮件为邮件属性未知;其中所述第二预设值大于或等于0.5。
10.如权利要求8所述的一种垃圾电子邮件意图识别系统,其特征在于,所述意图反馈学习模块将接收到的意图串分割获取单个意图,并在所述意图库中查询每个意图,则: 若所述意图库存在包含该意图的意图文件,且当前电子邮件为垃圾邮件,则将相应的意图文件更新为原来的总频数加上此条意图在当前邮件中出现的频数,spam频数加上此条意图在当前邮件中出现的频数,总文档数加1,spam文档数加1,生命值加上此条意图在当前邮件中出现的频数,并对应更新spam% ;若总文档数大于第三预设值,则总文档数减半、spam文档数减半、ham文档数减半; 若所述意图库存在包含该意图的意图文件,且当前电子邮件为正常邮件,则将相应的意图文件更新为原来的总频数加上此条意图在当前邮件中出现的频数,ham频数加上此条意图在当前邮件中出现的频数,总文档数加上一个第四预设值,ham文档数也加上所述第四预设值,生命值减去此条意图在当前邮件中出现的频数,并对应更新ham% ;若总文档数大于所述第三预设值,则总文档数减半、spam文档数减半、ham文档数减半; 若所述意图库中不存在包含该意图的意图文件,且当前电子邮件为垃圾邮件,则在所述意图库中添加一个新的意图文件,将生命值赋值为一个第五预设值,总频数被赋值为此条意图在当前邮件中出现的频数,spam频数被赋值为此条意图在当前邮件中出现的频数,总文档数被赋值为1,spam文档数被赋值为I,并对应更新spam% ; 若所述意图库不存在包含该意图的意图文件,且当前电子邮件为正常邮件,则不对当前意图库做任何改变。
【文档编号】H04L12/58GK103944810SQ201410187923
【公开日】2014年7月23日 申请日期:2014年5月6日 优先权日:2014年5月6日
【发明者】李绍滋, 郭锋, 曹冬林 申请人:厦门大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1