一种邮件分类识别方法

文档序号:6630330阅读:302来源:国知局
一种邮件分类识别方法
【专利摘要】本发明涉及一种邮件分类识别方法。该方法以多种方式对邮件进行多层次分类识别,首先根据用户收发邮件时的表情和/或语音特征数据获得用户收发邮件的分类属性;对于无法确认类别的邮件构建多个分类器;将每个分类器的分类结果发送至决策中心,在决策中心采用投票算法对所述多个分类器得到的分类结果进行投票,得到最终分类结果;最后对所述多个分类器进行增量更新,并用最终分类结果更新预设表情和/或语音特征数据库,提高了分类属性的识别效率。该方法可以解决现有技术中邮件的分类识别方法对邮件的区分度和效率较低的问题。
【专利说明】一种邮件分类识别方法
[0001]【技术领域】时
[0002]本发明涉及一种邮件的分类识别方法,适用于网络内容监管、垃圾邮件过滤等领域。

【背景技术】
[0003]随着互联网应用的发展,电子邮件得到广泛的应用,已成为Internet上最基本的服务之一,用户可以通过电子邮件与远程用户进行经济、方便和快捷的信息交流。然而,就在电子邮件逐渐成为一种不可缺少的重要信息交流工具的同时,也正在成为一种商业广告手段。用户在收到有用信息的同时,还必须花费大量时间和精力多各种各样的邮件进行分类识别,以过滤“垃圾”邮件,而现有的邮件分类识别方法或采用较单一的分类识别方法而导致结果不准确,或使用过于复杂的识别方式而提高了时间成本。因此,如何提高邮件分类识别的准确率以及效率是目前研究的热点问题。
[0004]目前常用的分类方法有很多种,有基于概率的方法,如贝叶斯方法,其原理是通过概率计算,由待分类的数据对象的属性值求出最可能的分类目标值,即计算各个类别在给定这组属性值时的条件概率,并把输出条件概率值最大的类标号作为目标值。其缺点是前提条件不容易满足;基于实例的方法,如KNN方法,其基本原理是基于实例之间的距离,对每个实例来说,如果靠近它的实例都是某个类别,那么该实例也可能是这个类别。该方法的缺点是分类效率较低;基于统计学习的方法,如SVM等。SVM分类器是目前最好的文本分类器之一。其缺点是核函数的选择缺乏指导,难以针对具体问题选择最佳的核函数。另外SVM训练速度极大地受到训练集规模的影响,计算开销比较大。
[0005]虽然这些方法各自有各自的优势,但各自有不同的缺点,分类准确率最高在80%左右,还不能够满足实际使用的要求。
[0006]投票算法,其核心思想是:k(k为大于I的整数)个专家判断的有效组合应该优于某个专家个人的判断。投票算法主要有两种:Bagging算法和Boosting算法。
[0007]支持向量机作为一种分类工具已经被广泛的应用于各个领域。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。建立方向合适的分隔超平面使两个与之平行的超平面间的距离最大化。其假定为,平行超平面间的距离或差距越大,分类器的总误差越小。
[0008]当前的历史信息通过支持向量和与它们关联的权重来表示。因此,在每一次增量更新中,描述类边界信息的支持向量以及新到来的数据被作为新的数据集对支持向量机进行更新。
[0009]对支持向量机进行增量更新的技术包括误差驱动方法ED (Error-driventechnique),固定分割方法 FP(Fixed-partit1ntechnique),超间隔方法EM (Exceeding-margin technique),超间隔 + 误差方法 EM+E (Exceeding-margin+errortechnique)等。


【发明内容】

[0010]本发明的主要目的在于提供一种邮件的分类识别方法,利用多种方式对邮件进行多层次的分类识别,采用决策中心的投票方式得到准确分类结果;对已构建的分类器进行增量更新,以提高分类器的自适应能力;并用最终分类结果更新预设表情和/或语音特征数据库,提高分类属性的识别效率,可以解决现有技术中邮件的分类识别方法对邮件的区分度以及效率较低的问题。
[0011]为了实现上述目的,根据本发明的一个方面,提供了一种邮件分类识别方法,包括以下步骤:
[0012]步骤1,获取用户收发邮件时的表情和/或语音特征数据;并按照所述表情和/或语音特征数据获得用户收发的邮件的分类属性,所述分类属性包括:正常邮件、垃圾邮件和无法确认;
[0013]如果所获得的分类属性为正常邮件或垃圾邮件,则结束分类,否则执行步骤2。
[0014]进一步地,在步骤2之后还包括以下步骤:
[0015]步骤3,将每个分类器的分类结果发送至决策中心,在决策中心采用投票算法对所述多个分类器得到的分类结果进行投票,得到最终分类结果;
[0016]步骤4,对所述多个分类器进行增量更新,并用最终分类结果更新预设表情和/或语音特征数据库。
[0017]进一步地,在步骤I后,且步骤2前包括:
[0018]对邮件进行分词、特征向量提取、权重计算预处理;
[0019]其中,所述特征向量提取包括:邮件头特征向量提取、附件特征向量提取、以及正文特征向量提取;并且
[0020]提取的特征向量以数据库字段的方式存入特征向量数据库。
[0021]进一步地,所述分类器可采用基于决策树的学习算法构建。
[0022]进一步地,对所述多个分类器进行增量更新包括:
[0023]每收发一封邮件,获取该邮件的特征向量;
[0024]判断所述特征向量是否位于已构建分类器的分类间隔内;
[0025]若在所述分类间隔内,将该邮件暂时存储;
[0026]当存储的邮件数目达到预先设定数值时,将存储的邮件的特征向量与已构建分类器的支持向量共同作为新的训练样本集,对已构建的分类器进行增量更新;
[0027]删除暂时存储的邮件。
[0028]进一步地,所述多个分类器可包括:SVM分类器、KNN分类器和贝叶斯分类器。
[0029]进一步地,所述表情特征数据包括:眼睛位置信息、眼睛形状信息、眉毛位置信息、眉毛形状信息、嘴巴位置信息和嘴巴形状信息;
[0030]所述语音特征数据包括:声调信息、语速信息、以及过滤性关键词。
[0031]进一步地,所述步骤I中按照所述表情和/或语音特征数据获得用户收发的邮件的分类属性包括:
[0032]从预设表情和/或语音特征数据库查找与所述表情和/或语音特征数据相匹配的预设表情和/或语音特征数据;
[0033]当查找出所述表情和/或语音特征数据与第一预设表情和/或语音特征数据相匹配时,确定所述表情和/或语音特征数据对应的表情和/或语音数据为第一表情和/或语音数据,并确定所述用户收发的邮件的类型为第一类型,其中,所述第一预设表情和/或语音特征数据为所述预设表情和/或语音特征数据库中的任一表情和/或语音特征数据,所述预设表情和/或语音特征数据库中还存储有表情和/或语音特征数据与邮件类型的对应关系;以及
[0034]当查找出所述表情和/或语音特征数据与第二预设表情和/或语音特征数据相匹配时,确定所述表情和/或语音特征数据对应的表情和/或语音数据为第二表情和/或语音数据,并确定所述用户收发的邮件的类型为第二类型,其中,所述第二预设表情和/或语音特征数据为所述预设表情和/或语音特征数据库中的任一表情和/或语音特征数据,并且所述第二预设表情和/或语音特征数据与所述第一预设表情和/或语音特征数据为不同的表情和/或语音特征数据。
[0035]进一步地,在确定所述用户收发的邮件的类型为第二类型之后,还包括:
[0036]比较所述第一表情和/或语音数据和所述第二表情和/或语音数据的优先级;
[0037]在比较出所述第一表情和/或语音数据的优先级高于所述第二表情和/或语音数据的优先级时,控制所述第一类型的邮件排列在所述第二类型的邮件之前;以及
[0038]在比较出所述第一表情和/或语音数据的优先级低于所述第二表情和/或语音数据的优先级时,控制所述第一类型的邮件排列在所述第二类型的邮件之后。
[0039]进一步地,在比较所述第一表情和/或语音数据和所述第二表情和/或语音数据的优先级之前,还包括:
[0040]接收所述用户的设定指令;以及
[0041 ] 根据所述设定指令确定所述第一表情和/或语音数据和所述第二表情和/或语音数据的优先级。
[0042]本发明的邮件分类识别方法可实现以下有益效果:
[0043]第一,通过获取用户收发邮件时的表情和/或语音特征数据;以及按照表情和/或语音特征数据对用户收发的邮件进行分类。
[0044]一般而言,用户处理邮件时,情绪往往会因邮件内容而发生变化,或者本身已经处于一种情绪中,不同情绪会使得用户的表情特征数据不同,通过对用户收发邮件时的表情特征数据进行获取,继而基于获取到的表情特征数据对邮件进行分类,由于用户对自己对处理邮件时的情绪记忆比较深刻,因而可以通过与情绪相对应的表情特征数据较快地对邮件初步分类。
[0045]同时,对于一些垃圾邮件(例如广告),或者往往包括一些陌生的语音,或者存在很多商业推销用语、敏感词或者其他固定格式的语音,或者由于格式化录音而具有较平稳的语速及语调,而这些往往是较容易分类辨认的。
[0046]通过表情和/或语音识别,可以缩短分类识别时间,以实现邮件的初步分类识别。
[0047]第二,通过决策中心,采用投票算法对多个分类器得到的分类结果进行投票,得到精确的分类结果。
[0048]第三,可以对多个分类器进行增量更新,以提高分类器的自适应能力;并用最终分类结果更新预设表情和/或语音特征数据库,提高分类属性的识别效率。

【专利附图】

【附图说明】
[0049]构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0050]图1是根据本发明实施例的邮件分类识别方法的流程图。

【具体实施方式】
[0051]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
[0052]本发明实施例提供了一种邮件分类识别方法,以下对本发明实施例所提供的邮件分类识别方法进行具体介绍:
[0053]图1是根据本发明实施例的邮件分类识别方法的流程图,如图1所示,该方法包括如下的步骤:
[0054]步骤1,获取用户收发邮件时的表情和/或语音特征数据;并按照所述表情和/或语音特征数据获得用户收发的邮件的分类属性,所述分类属性包括:正常邮件、垃圾邮件和无法确认;
[0055]如果所获得的分类属性为正常邮件或垃圾邮件,则结束分类,否则执行步骤2 ;
[0056]步骤2,依次使用多个分类器对邮件进行分类。
[0057]作为优选,在步骤2之后还包括以下步骤:
[0058]步骤3,将每个分类器的分类结果发送至决策中心,在决策中心采用投票算法对所述多个分类器得到的分类结果进行投票,得到最终分类结果;
[0059]步骤4,对所述多个分类器进行增量更新,并用最终分类结果更新预设表情和/或语音特征数据库。
[0060]在本发明的优选实施例中,通过获取用户收发邮件时的表情和/或语音特征数据;以及按照表情和/或语音特征数据对用户收发的邮件进行初步的分类。
[0061]一般而言,用户处理邮件时,情绪往往会因邮件内容而发生变化,或者本身已经处于一种情绪中,不同情绪会使得用户的表情和/或语音特征数据不同,通过对用户收发邮件时的表情和/或语音特征数据进行获取,继而基于获取到的表情和/或语音特征数据对邮件进行分类,由于用户对自己对处理邮件时的情绪记忆比较深刻,因而可以通过与情绪相对应的表情和/或语音特征数据较快地对邮件初步分类。
[0062]同时,对于一些垃圾邮件(例如广告),或者往往包括一些陌生的语音,或者存在很多商业推销用语、敏感词或者其他固定格式的语音,而这些往往是较容易分类辨认的。
[0063]通过表情和/或语音识别,可以缩短分类识别时间。
[0064]通过决策中心,采用投票算法对多个分类器得到的分类结果进行投票,得到精确的分类结果;
[0065]可以对多个分类器进行增量更新,提高分类器的自适应能力,使分类识别结
[0066]果更准确;同时,用最终分类结果更新预设表情和/或语音特征数据库,可提
[0067]高分类属性的识别效率。
[0068]在本发明的优选实施例中,所述表情特征数据可以包括:眼睛位置信息、眼睛形状信息、眉毛位置信息、眉毛形状信息、嘴巴位置信息和嘴巴形状信息等比较易于辨认的表情特征数据;
[0069]所述语音特征数据可包括:声调信息、语速信息、过滤性关键词等。
[0070]其中,按照所述表情和/或语音特征数据获得用户收发的邮件的分类属性包括:
[0071]在获取到用户的表情和/或语音特征数据之后,从预设表情和/或语音特征数据库查找与所述表情和/或语音特征数据相匹配的预设表情和/或语音特征数据;其中,所述预设表情和/或语音特征数据库中存储有与表情和/或语音特征数据相对应的类型信息;
[0072]当查找出所述表情和/或语音特征数据与第一预设表情和/或语音特征数据相匹配时,确定所述表情和/或语音特征数据对应的表情和/或语音数据为第一表情和/或语音数据,并确定所述用户收发的邮件的类型为第一类型,其中,所述第一预设表情和/或语音特征数据为所述预设表情和/或语音特征数据库中的任一表情和/或语音特征数据,所述预设表情和/或语音特征数据库中还存储有表情和/或语音特征数据与邮件类型的对应关系;以及
[0073]当查找出所述表情和/或语音特征数据与第二预设表情和/或语音特征数据相匹配时,确定所述表情和/或语音特征数据对应的表情和/或语音数据为第二表情和/或语音数据,并确定所述用户收发的邮件的类型为第二类型,其中,所述第二预设表情和/或语音特征数据为所述预设表情和/或语音特征数据库中的任一表情和/或语音特征数据,并且所述第二预设表情和/或语音特征数据与所述第一预设表情和/或语音特征数据为不同的表情和/或语音特征数据。
[0074]其中,在确定所述用户收发的邮件的类型为第二类型之后,还包括:
[0075]比较所述第一表情和/或语音数据和所述第二表情和/或语音数据的优先级;
[0076]在比较出所述第一表情和/或语音数据的优先级高于所述第二表情和/或语音数据的优先级时,控制所述第一类型的邮件排列在所述第二类型的邮件之前;以及
[0077]在比较出所述第一表情和/或语音数据的优先级低于所述第二表情和/或语音数据的优先级时,控制所述第一类型的邮件排列在所述第二类型的邮件之后。
[0078]其中,在比较所述第一表情和/或语音数据和所述第二表情和/或语音数据的优先级之前,还包括:
[0079]接收所述用户的设定指令;以及
[0080]根据所述设定指令确定所述第一表情和/或语音数据和所述第二表情和/或语音数据的优先级。
[0081]在本发明的优选实施例中,获取用户的表情特征数据主要通过现有的人脸识别技术(比如区域特征分析算法)来进行匹配,利用已建成的人脸特征模板与获取到的用户表情特征数据进行特征分析,根据分析的结果来给出一个相似值,通过这个值即可确定是否为用户定义的某种表情。
[0082]在本发明的优选实施例中,获取用户的语音特征数据主要通过现有的语音识别技术来进行匹配,利用已建成的语音特征模板与获取到的用户语音特征数据进行特征分析,根据分析的结果来给出一个相似值,通过这个值即可确定是否为用户定义的某种语音;另夕卜,若邮件中包含一些常见的过滤敏感词、商业广告性宣传词汇,以及一些其他的用户自定义过滤性用语和词汇,可分类识别为垃圾邮件。
[0083]在本发明的优选实施例中,由于不同用户间各自情绪的定义和识别有很多复杂性和差异性,不同人可能表情和/或语音的表现和实际情绪之间会有很大差异。本发明优选实施例中,用户在自定义表情和/或语音特征数据时可以通过摄像头/麦克风提取用户当前表情和/或语音的特征信息,并同时设置这些表情和/或语音对应的表情和/或语音特征邮件,实现快捷方便的自定义设置表情和/或语音特征数据。引导用户自己定义表情和/或语音特征数据时,可以引导用户为不同的表情和/或语音特征数据分配一个唯一的ID,比如为开心、伤心、兴奋、厌恶、疑惑等各种情绪下分别表现出的表情和/或语音特征数据对应设置一个唯一的ID。
[0084]在本发明的优选实施例中,允许用户对表情和/或语音特征数据的设置可以预先由用户自定义设置,也可以在以下过程中设置:当用户收发邮件时,对用户此时的表情和/或语音特征数据进行实时获取,并查询预设表情和/或语音特征数据库以得到与获取到的表情和/或语音特征数据对应的预设表情和/或语音特征数据,进而确定出用户此时所收发的邮件的类型为查找到的预设表情和/或语音特征数据所对应的类型。
[0085]但是,当在预设表情和/或语音特征数据库中未找到与当前获取到的表情和/或语音特征数据相对应的预设表情和/或语音特征数据的话,则说明用户还未对目前这一表情和/或语音特征数据进行定义,此时步骤I中的分类属性为无法确认,即在表情和/或语音特征分类识别的步骤之后,如果不能确定邮件的分类属性是正常邮件还是垃圾邮件,则需要通过构建分类器对这些无法确认的邮件继续进行分类识别。
[0086]在本发明的优选实施例中,如果按照所述表情和/或语音特征数据获得用户收发的邮件的分类属性为无法确认,则:
[0087]可以对邮件进行分词、特征向量提取、权重计算预处理;
[0088]其中,所述特征向量提取包括:邮件头特征向量提取、附件特征向量提取、以及正文特征向量提取;并且
[0089]提取的特征向量以数据库字段的方式存入特征向量数据库。
[0090]然后,依次使用多个分类器对邮件进行分类。
[0091]作为优选,可将每个分类器的分类结果发送至决策中心,在决策中心采用投票算法对所述多个分类器得到的分类结果进行投票,得到最终分类结果;
[0092]然后,对所述多个分类器进行增量更新,并用最终分类结果更新预设表情和/或语音特征数据库。
[0093]在可选的实施例中,对所述多个分类器进行增量更新包括步骤:
[0094]每收发一封邮件,获取该邮件的特征向量;
[0095]判断所述特征向量是否位于已构建分类器的分类间隔内;
[0096]若在所述分类间隔内,将该邮件暂时存储;
[0097]当存储的邮件数目达到预先设定数值时,将存储的邮件的特征向量与已构建分类器的支持向量共同作为新的训练样本集,对已构建的分类器进行增量更新;
[0098]删除暂时存储的邮件。
[0099]在可选的实施例中,所述多个分类器可包括:SVM分类器、KNN分类器和贝叶斯分类器等。
[0100]在本发明的优选实施例中,所述分类器构建可以采用决策树学习算法,对邮件训练样本库中的邮件进行学习分类,提取出对垃圾邮件的识别规则。
[0101]邮件样本由垃圾邮件样本和正常邮件样本共同组成,数据挖掘学习方法就是通过统计分析垃圾邮件和正常邮件各自的结构特征、文本特征等信息来实现对正常邮件和垃圾邮件的分类识别。因此为了达到最好的挖掘效果,学习训练样本邮件的正常邮件与垃圾邮件的组成比例应该尽可能地贴近真实,反映真实的情况。
[0102]RFC822规定了电子邮件在网络中传输的基本格式,由20多个常用字段、字段值和正文组成。RFC1341在RFC822的基础上又扩充了多用途因特网扩展MME协议,这二者定义了目前广泛使用的邮件格式。
[0103]电子邮件属于半结构化的文本信息,其中的字段标志及取值提供了邮件从发送、转发到最后投递过程中的许多信息,如:发送者地址、收件人地址、发信时间、发送程序、编码的格式等。这些信息能够用于帮助判断一封邮件是否为垃圾邮件。为处理这些信息,本申请米用了向量空间模型(VSM) (wl,w2,…wn, C)来表不一封样本邮件。向量表不中的属性wl, w2,…wn为有助于区别正常邮件与垃圾邮件的η个特征属性,属性C则为样本邮件的分类属性。分类属性C的取值定义为:正常邮件、垃圾邮件和无法确认。本申请采用一封电子邮件离散化后用若干个特征属性来表示。
[0104]所述特征向量提取包括:邮件头特征向量提取、附件特征向量提取、以及正文特征向量提取。将提取的特征向量以数据库字段的方式存入特征向量数据库。
[0105]在本发明的优选实施例中,采用学习算法建立所述决策树以构建邮件分类器,所述决策树的学习算法采用贪心算法,自顶向下递归地构造决策树。
[0106]决策树以代表训练样本的单个节点开始;如果样本都在同一个类C,则该节点成为树叶,并用该类C标记该节点;否则,算法使用称为信息增益的基于熵的度量作为启发信息,选择能够最好地将样本分类的属性;该属性成为该节点的测试属性。对测试属性的每个已知的值,创建一个分枝,并据此划分样本。算法使用同样的过程,递归地形成每个划分上的样本判定树。一旦一个属性出现在一个节点上,就不必考虑该节点的任何后代上。递归划分的步骤仅当下列条件之一成立时停止:
[0107](I)给定节点的所有样本属于同一类。
[0108](2)没有剩余属性可以用来进一步划分样本,在此情况下,使用多数表决。并将给定的节点转化成树叶,并用样本集中的多数所在的类标记。
[0109](3)分支没有样本,在这种情况下,以样本中的多数所在的类创建一个树叶。算法开始的时候只有一颗空的决策树,并不知道如何根据属性将实例进行分类,所要做的就是根据训练实例集构造决策树来预测如何根据属性对整个实例空间进行划分。决策树学习的过程就是使得决策树对划分的不确定程度逐渐减小的过程。
[0110]上述算法通过对邮件训练样本库学习得到一颗邮件分类决策树,此外还需对该分类树进行测试评估,并通过邮件测试样本库的测试与评估对决策树进行修改和优化。测试评估时,对学习生成的决策树的每个分类结果不是“无法确认”的叶节点都设置一个二维变量(Kl,Κ2),变量Kl用于记录该点分类正确的测试邮件数目,变量Κ2则记录在该点分类错误的测试邮件数目。并计算该点的分类错误率error = K2/(K1+K2),对于那些分类结果为“垃圾邮件”,并且错误率大于可接受阈值的修改改点分类结果为“正常邮件”。
[0111]邮件分类器在对邮件的分类识别和过滤时,将学习得到的分类决策树转化为分类规则,使用该规则对垃圾邮件进行过滤识别。由分类决策树提取的规则是以if-then的形式表不。
[0112]提取规则时,从树的树根到树叶的每条路径穿件一个规则,该规则是一个合取项集,路径上的每个属性-值对应于规则的一个合取项。这些合取项构成规则的前件(“if”部分)。沿每条路径最终所到达的叶节点,便是该规则对邮件的分类识别的预测,叶节点的分类属性预测形成规则的后件(“then”部分)。
[0113]以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种邮件分类识别方法,其特征在于,该方法包括以下步骤: 步骤1,获取用户收发邮件时的表情和/或语音特征数据;并按照所述表情和/或语音特征数据获得用户收发的邮件的分类属性,所述分类属性包括:正常邮件、垃圾邮件和无法确认; 如果所获得的分类属性为正常邮件或垃圾邮件,则结束分类,否则执行步骤2 ; 步骤2,依次使用多个分类器对邮件进行分类。
2.根据权利要求1所述的邮件分类识别方法,其特征在于,在步骤2之后还包括以下步骤: 步骤3,将每个分类器的分类结果发送至决策中心,在决策中心采用投票算法对所述多个分类器得到的分类结果进行投票,得到最终分类结果; 步骤4,对所述多个分类器进行增量更新,并用最终分类结果更新预设表情和/或语音特征数据库。
3.根据权利要求2所述的邮件分类识别方法,其特征在于,在步骤I后,且步骤2前包括: 对邮件进行分词、特征向量提取、权重计算预处理; 其中,所述特征向量提取包括:邮件头特征向量提取、附件特征向量提取、以及正文特征向量提取;并且 提取的特征向量以数据库字段的方式存入特征向量数据库。
4.根据权利要求3所述的邮件分类识别方法,其特征在于,所述分类器可采用基于决策树的学习算法构建。
5.根据权利要求4所述的邮件分类识别方法,其特征在于,对所述多个分类器进行增量更新包括: 每收发一封邮件,获取该邮件的特征向量; 判断所述特征向量是否位于已构建分类器的分类间隔内; 若在所述分类间隔内,将该邮件暂时存储; 当存储的邮件数目达到预先设定数值时,将存储的邮件的特征向量与已构建分类器的支持向量共同作为新的训练样本集,对已构建的分类器进行增量更新; 删除暂时存储的邮件。
6.根据权利要求5所述的邮件分类识别方法,其特征在于,所述多个分类器可包括:SVM分类器、KNN分类器和贝叶斯分类器。
7.根据权利要求1-6中任一项所述的邮件分类识别方法,其特征在于, 所述表情特征数据包括:眼睛位置信息、眼睛形状信息、眉毛位置信息、眉毛形状信息、嘴巴位置信息和嘴巴形状信息; 所述语音特征数据包括:声调信息、语速信息、以及过滤性关键词。
8.根据权利要求7所述的邮件分类识别方法,其特征在于,所述步骤I中按照所述表情和/或语音特征数据获得用户收发的邮件的分类属性包括: 从预设表情和/或语音特征数据库查找与所述表情和/或语音特征数据相匹配的预设表情和/或语音特征数据; 当查找出所述表情和/或语音特征数据与第一预设表情和/或语音特征数据相匹配时,确定所述表情和/或语音特征数据对应的表情和/或语音数据为第一表情和/或语音数据,并确定所述用户收发的邮件的类型为第一类型,其中,所述第一预设表情和/或语音特征数据为所述预设表情和/或语音特征数据库中的任一表情和/或语音特征数据,所述预设表情和/或语音特征数据库中还存储有表情和/或语音特征数据与邮件类型的对应关系;以及 当查找出所述表情和/或语音特征数据与第二预设表情和/或语音特征数据相匹配时,确定所述表情和/或语音特征数据对应的表情和/或语音数据为第二表情和/或语音数据,并确定所述用户收发的邮件的类型为第二类型,其中,所述第二预设表情和/或语音特征数据为所述预设表情和/或语音特征数据库中的任一表情和/或语音特征数据,并且所述第二预设表情和/或语音特征数据与所述第一预设表情和/或语音特征数据为不同的表情和/或语音特征数据。
9.根据权利要求8所述的邮件分类识别方法,其特征在于, 在确定所述用户收发的邮件的类型为第二类型之后,还包括: 比较所述第一表情和/或语音数据和所述第二表情和/或语音数据的优先级; 在比较出所述第一表情和/或语音数据的优先级高于所述第二表情和/或语音数据的优先级时,控制所述第一类型的邮件排列在所述第二类型的邮件之前;以及 在比较出所述第一表情和/或语音数据的优先级低于所述第二表情和/或语音数据的优先级时,控制所述第一类型的邮件排列在所述第二类型的邮件之后。
10.根据权利要求9所述的邮件分类识别方法,其特征在于, 在比较所述第一表情和/或语音数据和所述第二表情和/或语音数据的优先级之前,还包括: 接收所述用户的设定指令;以及 根据所述设定指令确定所述第一表情和/或语音数据和所述第二表情和/或语音数据的优先级。
【文档编号】G06F17/30GK104361015SQ201410547075
【公开日】2015年2月18日 申请日期:2014年10月14日 优先权日:2014年10月14日
【发明者】罗阳, 陈虹宇, 王峻岭 申请人:四川神琥科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1