一种邮件分类模型的构建方法、装置、终端设备和介质与流程

文档序号:19418811发布日期:2019-12-14 01:12阅读:184来源:国知局
一种邮件分类模型的构建方法、装置、终端设备和介质与流程

本发明涉及信息安全领域,尤其涉及一种邮件分类模型的构建方法、装置、终端设备和介质。



背景技术:

在当今社会中,电子邮件无论是在社交,还是在商务、金融等各方面都得到了普遍应用,但随之而来的还有垃圾邮件的泛滥。在2018年的邮件流量中,垃圾邮件的占比超过50%。垃圾邮件不仅占用了巨大的网络流量,耗费了收件人大量的时间、精力和金钱,而且很多垃圾邮件的恶意链接、恶意脚本、挂马附件也会导致用户的信息泄露,直接造成各种损失。

随着互联网的迅猛发展,垃圾邮件也从只包含单个单一类型的内容发展成包含多个多种类型的内容,如文本、图像、url链接、附件、javascript脚本等。传统的基于内容的垃圾邮件检测系统都是基于单个维度的垃圾信息检测,仅针对图片或者仅针对文字构建机器学习模型的检测,没有考虑到基于推广链接/恶意链接的url检测及邮件正文脚本跳转链接的检测。这些检测手段在多种类型特征融合的垃圾邮件检测上表现捉襟见肘,无法达到很好的检测效率,存在局限性。



技术实现要素:

本发明所要解决的技术问题在于,提供一种邮件分类模型的构建方法、装置、终端设备和介质,能够针对邮件中的多种数据建立一邮件分类模型,使得可通过此邮件分类模型对邮件进行多维度检测,实现邮件的高效分类。

为了解决上述技术问题,本发明提出了一种邮件分类模型的构建方法,包括:

利用样本邮件数据集,构建目标数据集和语料库;其中,所述目标数据集包括文本数据集、url链接数据集、脚本数据集、图像数据集和融合数据集,所述融合数据集包括文本数据、url链接数据、脚本数据和图像数据其中多种组合的数据集,所述语料库包括文本语料库、url链接语料库和脚本语料库;

将所述语料库用于训练与所述文本数据集、所述url链接数据集和所述脚本数据集一一对应的word2vec模型,并利用所述word2vec模型将所述文本数据集、所述url链接数据集和所述脚本数据集转换为特征向量;

构建与所述目标数据集中除所述融合数据集外的各数据集一一对应的分类器,并训练所述分类器,得到相应的分类模型;

将所述融合数据集用于训练所述分类模型,得到所述融合数据集中各种数据的决策权重;

根据所述决策权重,利用测试邮件数据集对所述分类模型进行指标评估验证和优化。

进一步地,所述文本语料库、所述url链接语料库和所述脚本语料库,分别为根据所述文本数据集、所述url链接数据集和所述脚本数据集构建所得。

进一步地,所述分类模型为深度学习模型。

进一步地,所述相应的分类模型,包括:

所述文本数据集、所述url链接数据集、所述脚本数据集、所述图像数据集的分类模型分别为cnn模型、rnn模型、lstm模型和cnn模型。

本发明还提出了一种邮件分类模型的构建装置,包括:

数据获取模块,用于利用样本邮件数据集,构建目标数据集和语料库;其中,所述目标数据集包括文本数据集、url链接数据集、脚本数据集、图像数据集和融合数据集,所述融合数据集包括文本数据、url链接数据、脚本数据和图像数据其中多种组合的数据集,所述语料库包括文本语料库、url链接语料库和脚本语料库;

向量转换模块,用于将所述语料库用于训练与所述文本数据集、所述url链接数据集和所述脚本数据集一一对应的word2vec模型,并利用所述word2vec模型将所述文本数据集、所述url链接数据集和所述脚本数据集转换为特征向量;

模型预建模块,用于构建与所述目标数据集中除所述融合数据集外的各数据集一一对应的分类器,并训练所述分类器,得到相应的分类模型;

权重获取模块,用于将所述融合数据集用于训练所述分类模型,得到所述融合数据集中各种数据的决策权重;

模型优化模块,用于根据所述决策权重,利用测试邮件数据集对所述分类模型进行指标评估验证和优化。

进一步地,所述文本语料库、所述url链接语料库和所述脚本语料库,分别为根据所述文本数据集、所述url链接数据集和所述脚本数据集构建所得。

进一步地,所述分类模型为深度学习模型。

进一步地,所述相应的分类模型,包括:

所述文本数据集、所述url链接数据集、所述脚本数据集、所述图像数据集的分类模型分别为cnn模型、rnn模型、lstm模型和cnn模型。

实施本发明的实施例,具有如下有益效果:

本发明的实施例,能够针对邮件中的多种数据建立一邮件分类模型,使得可通过此邮件分类模型对邮件进行多维度检测,实现邮件的高效分类。

本发明还提出了一种邮件分类模型的构建的终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述存储器与所述处理器耦接,且所述处理器执行所述计算机程序时实现如上所述的邮件分类模型的构建方法。

本发明还提出了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上所述的邮件分类模型的构建方法。

附图说明

图1为本发明第一实施例中的一种邮件分类模型的构建方法的流程示意图;

图2为本发明第二实施例中的一种邮件分类模型的构建装置的结构示意图。

具体实施方式

下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,文中的步骤编号,仅为了方便具体实施例的解释,不作为限定步骤执行先后顺序的作用。本实施例提供的方法可以由相关的服务器执行,且下文均以服务器作为执行主体为例进行说明。

第一实施例。请参阅图1。

如图1所示,第一实施例提供的一种邮件分类模型的构建方法,包括步骤s1~s5:

s1、利用样本邮件数据集,构建目标数据集和语料库;其中,所述目标数据集包括文本数据集、url链接数据集、脚本数据集、图像数据集和融合数据集,所述融合数据集包括文本数据、url链接数据、脚本数据和图像数据其中多种组合的数据集,所述语料库包括文本语料库、url链接语料库和脚本语料库。

s2、将所述语料库用于训练与所述文本数据集、所述url链接数据集和所述脚本数据集一一对应的word2vec模型,并利用所述word2vec模型将所述文本数据集、所述url链接数据集和所述脚本数据集转换为特征向量。

s3、构建与所述目标数据集中除所述融合数据集外的各数据集一一对应的分类器,并训练所述分类器,得到相应的分类模型。

s4、将所述融合数据集用于训练所述分类模型,得到所述融合数据集中各种数据的决策权重。

s5、根据所述决策权重,利用测试邮件数据集对所述分类模型进行指标评估验证和优化。

需要说明的是,所述样本邮件数据集包括正常邮件数据和垃圾邮件数据。

在具体的实施例当中,可通过邮件收发系统、邮件反恶意反垃圾系统、用户标记、专家标记等方式获取正常邮件和垃圾邮件。

可以理解的是,所述步骤s1,即利用所述样本邮件数据集中的所述文本数据构建所述文本数据集和所述文本语料库;利用所述样本邮件集中的所述url链接数据构建所述url链接数据集和所述url链接语料库;利用所述样本邮件数据集中的所述脚本数据构建所述脚本数据集和所述脚本语料库;利用所述样本邮件数据集中的所述图像数据构建所述图像数据集;利用所述样本邮件数据集中的所述文本数据、所述url链接数据、所述脚本数据和所述图像数据其中多种组合构建不同的所述融合数据集。

所述步骤s2,即利用所述文本语料库训练与所述文本数据集对应的所述word2vec模型,使该word2vec模型将所述文本数据集转换为特征向量;利用所述url链接语料库训练与所述url链接数据集对应的所述word2vec模型,使该word2vec模型将所述url链接数据集转换为特征向量;利用所述脚本语料库训练与所述脚本数据集的对应的所述word2vec模型,使该word2vec模型将所述脚本数据集转换为特征向量。

通过使用cbow或者skip-gram来训练所述word2vec模型,以将对应的数据转换成为计算机可以理解的向量。通过将所述文本数据集、所述url链接数据集和所述脚本数据集转换为计算机可以识别的向量,避免计算机因无法识别所述文本数据集、所述url链接数据集和所述脚本数据集而发生中断。

所述步骤s3,即根据已转换为特征向量的所述文本数据集构建所述分类器,并训练该分类器,得到对应于所述文本数据集的所述分类模型;根据已转换为特征向量的所述url链接数据集构建所述分类器,并训练该分类器,得到对应于所述url链接数据集的所述分类模型;根据已转换为特征向量的所述脚本数据集构建所述分类器,并训练该分类器,得到对应于所述和脚本数据集的所述分类模型;根据所述图像数据集构建所述分类器,并训练该分类器,得到对应于所述图像数据集的所述分类模型。其中,所述分类模型,均为单维度分类模型,只用于根据一种数据进行分类。

所述步骤s4,即利用所述融合数据集训练对应于所述文本数据集的所述分类模型,得到所述融合数据集中所述文本数据的决策权重;利用所述融合数据集训练对应于所述url链接数据集的所述分类模型,得到所述融合数据集中所述url链接数据的决策权重;利用所述融合数据集训练对应于所述脚本数据集的所述分类模型,得到所述融合数据集中所述脚本数据的决策权重;利用所述融合数据集训练对应于所述图像数据集的所述分类模型,得到所述融合数据集中所述图像数据的决策权重。

所述步骤s5,根据所述文本数据、所述url链接数据、所述脚本数据和所述图像数据的决策权重,利用测试邮件数据集对与所述文本数据集、所述url链接数据集、所述脚本数据集和所述图像数据集一一对应的所述分类模型进行指标评估验证和优化。

本实施例通过根据样本邮件中的文本数据、url链接数据、脚本数据和图像数据构建对应的单维度分类模型,并利用不同数据的决策权重融合各个单维度分类模型,从而得到多维度分类模型。

同样地,若要针对邮件中的其他数据进行分类,可根据该数据新增对应的单维度模型,并以该数据的决策权重增加耦合至本实施例中的所述多维度分类模型。

在具体的实施例当中,所述文本语料库、所述url链接语料库和所述脚本语料库,分别为根据所述文本数据集、所述url链接数据集和所述脚本数据集构建所得。

可以理解的是,根据所述文本数据集构建所述文本语料库;根据所述url链接数据集构建所述url链接语料库;根据所述脚本数据集构建所述脚本语料库。

在本实施例中,对于所述文本数据集,使用中文分词工具及中文停用词,进行分词以构建所述文本语料库;对于所述url链接数据集,使用链接地址符号“.”、“/”等url链接常用符号,进行划分以构建所述url链接语料库;对于所述脚本数据集,使用抽象语法树解析脚本,构建所述脚本语料库,例如javascript脚本,则使用esprima.js将对应的javascript代码解析成抽象语法树,进而构建javascript脚本语料库。

在具体的实施例当中,所述分类模型为深度学习模型。

可以理解的是,采用深度学习模型作为所述分类模型,有利于提高分类的准确性。且由于深度学习模型会自动提取初级特征并组合成高级特征用于学习,即无需额外人工干预特征提取,有利于提高分类效率。

在具体的实施例当中,所述步骤s3中的所述相应的分类模型,包括:所述文本数据集、所述url链接数据集、所述脚本数据集、所述图像数据集的分类模型分别为cnn模型、rnn模型、lstm模型和cnn模型。

可以理解的是,采用cnn模型作为所述文本数据集/所述图像数据集的分类模型,可以有效识别所述文本数据集/所述图像数据集中的局部特征;采用rnn模型作为所述url链接数据集的分类模型,可以有效识别所述url链接数据集中的时间序列特征;采用lstm模型作为所述脚本数据集的分类模型,可以有效识别所述脚本数据集中的上下文代码关联特征。

实施本发明的实施例,具有如下有益效果:

本发明的实施例,能够针对邮件中的多种数据建立一邮件分类模型,使得可通过此邮件分类模型对邮件进行多维度检测,实现邮件的高效分类。

第二实施例。请参阅图2。

如图2所示,第二实施例提供的一种邮件分类模型的构建装置,包括:数据获取模块21,用于利用样本邮件数据集,构建目标数据集和语料库;其中,所述目标数据集包括文本数据集、url链接数据集、脚本数据集、图像数据集和融合数据集,所述融合数据集包括文本数据、url链接数据、脚本数据和图像数据其中多种组合的数据集,所述语料库包括文本语料库、url链接语料库和脚本语料库;向量转换模块22,用于将所述语料库用于训练与所述文本数据集、所述url链接数据集和所述脚本数据集一一对应的word2vec模型,并利用所述word2vec模型将所述文本数据集、所述url链接数据集和所述脚本数据集转换为特征向量;模型预建模块23,用于构建与所述目标数据集中除所述融合数据集外的各数据集一一对应的分类器,并训练所述分类器,得到相应的分类模型;权重获取模块24,用于将所述融合数据集用于训练所述分类模型,得到所述融合数据集中各种数据的决策权重;模型优化模块25,用于根据所述决策权重,利用测试邮件数据集对所述分类模型进行指标评估验证和优化。

需要说明的是,所述样本邮件数据集包括正常邮件数据和垃圾邮件数据。

在具体的实施例当中,可通过邮件收发系统、邮件反恶意反垃圾系统、用户标记、专家标记等方式获取正常邮件和垃圾邮件。

可以理解的是,所述数据获取模块21,即利用所述样本邮件数据集中的所述文本数据构建所述文本数据集和所述文本语料库;利用所述样本邮件集中的所述url链接数据构建所述url链接数据集和所述url链接语料库;利用所述样本邮件数据集中的所述脚本数据构建所述脚本数据集和所述脚本语料库;利用所述样本邮件数据集中的所述图像数据构建所述图像数据集;利用所述样本邮件数据集中的所述文本数据、所述url链接数据、所述脚本数据和所述图像数据其中多种组合构建不同的所述融合数据集。

所述向量转换模块22,即利用所述文本语料库训练与所述文本数据集对应的所述word2vec模型,使该word2vec模型将所述文本数据集转换为特征向量;利用所述url链接语料库训练与所述url链接数据集对应的所述word2vec模型,使该word2vec模型将所述url链接数据集转换为特征向量;利用所述脚本语料库训练与所述脚本数据集的对应的所述word2vec模型,使该word2vec模型将所述脚本数据集转换为特征向量。

通过使用cbow或者skip-gram来训练所述word2vec模型,以将对应的数据转换成为计算机可以理解的向量。通过将所述文本数据集、所述url链接数据集和所述脚本数据集转换为计算机可以识别的向量,避免计算机因无法识别所述文本数据集、所述url链接数据集和所述脚本数据集而发生中断。

所述模型预建模块23,即根据已转换为特征向量的所述文本数据集构建所述分类器,并训练该分类器,得到对应于所述文本数据集的所述分类模型;根据已转换为特征向量的所述url链接数据集构建所述分类器,并训练该分类器,得到对应于所述url链接数据集的所述分类模型;根据已转换为特征向量的所述脚本数据集构建所述分类器,并训练该分类器,得到对应于所述和脚本数据集的所述分类模型;根据所述图像数据集构建所述分类器,并训练该分类器,得到对应于所述图像数据集的所述分类模型。其中,所述分类模型,均为单维度分类模型,只用于根据一种数据进行分类。

所述权重获取模块24,即利用所述融合数据集训练对应于所述文本数据集的所述分类模型,得到所述融合数据集中所述文本数据的决策权重;利用所述融合数据集训练对应于所述url链接数据集的所述分类模型,得到所述融合数据集中所述url链接数据的决策权重;利用所述融合数据集训练对应于所述脚本数据集的所述分类模型,得到所述融合数据集中所述脚本数据的决策权重;利用所述融合数据集训练对应于所述图像数据集的所述分类模型,得到所述融合数据集中所述图像数据的决策权重。

所述模型优化模块25,根据所述文本数据、所述url链接数据、所述脚本数据和所述图像数据的决策权重,利用测试邮件数据集对与所述文本数据集、所述url链接数据集、所述脚本数据集和所述图像数据集一一对应的所述分类模型进行指标评估验证和优化。

本实施例通过根据样本邮件中的文本数据、url链接数据、脚本数据和图像数据构建对应的单维度分类模型,并利用不同数据的决策权重融合各个单维度分类模型,从而得到多维度分类模型。

同样地,若要针对邮件中的其他数据进行分类,可根据该数据新增对应的单维度模型,并以该数据的决策权重增加耦合至本实施例中的所述多维度分类模型。

在具体的实施例当中,所述文本语料库、所述url链接语料库和所述脚本语料库,分别为根据所述文本数据集、所述url链接数据集和所述脚本数据集构建所得。

可以理解的是,根据所述文本数据集构建所述文本语料库;根据所述url链接数据集构建所述url链接语料库;根据所述脚本数据集构建所述脚本语料库。

在本实施例中,对于所述文本数据集,使用中文分词工具及中文停用词,进行分词以构建所述文本语料库;对于所述url链接数据集,使用链接地址符号“.”、“/”等url链接常用符号,进行划分以构建所述url链接语料库;对于所述脚本数据集,使用抽象语法树解析脚本,构建所述脚本语料库,例如javascript脚本,则使用esprima.js将对应的javascript代码解析成抽象语法树,进而构建javascript脚本语料库。

在具体的实施例当中,,所述分类模型为深度学习模型。

可以理解的是,采用深度学习模型作为所述分类模型,有利于提高分类的准确性。且由于深度学习模型会自动提取初级特征并组合成高级特征用于学习,即无需额外人工干预特征提取,有利于提高分类效率。

在具体的实施例当中,所述相应的分类模型,包括:所述文本数据集、所述url链接数据集、所述脚本数据集、所述图像数据集的分类模型分别为cnn模型、rnn模型、lstm模型和cnn模型。

可以理解的是,采用cnn模型作为所述文本数据集/所述图像数据集的分类模型,可以有效识别所述文本数据集/所述图像数据集中的局部特征;采用rnn模型作为所述url链接数据集的分类模型,可以有效识别所述url链接数据集中的时间序列特征;采用lstm模型作为所述脚本数据集的分类模型,可以有效识别所述脚本数据集中的上下文代码关联特征。

实施本发明的实施例,具有如下有益效果:

本发明的实施例,能够针对邮件中的多种数据建立一邮件分类模型,使得可通过此邮件分类模型对邮件进行多维度检测,实现邮件的高效分类。

第三实施例。

第三实施例提供的一种邮件分类模型的构建的终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述存储器与所述处理器耦接,且所述处理器执行所述计算机程序时实现如上所述的邮件分类模型的构建方法,并具有与所述邮件分类模型的构建方法相同的有益效果。

第四实施例。

第四实施例提供的一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上所述的邮件分类模型的构建方法,并具有与所述邮件分类模型的构建方法相同的有益效果。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

本领域普通技术人员可以理解实现上述实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1