一种移动终端及其短信的过滤方法

文档序号:7754061阅读:170来源:国知局
专利名称:一种移动终端及其短信的过滤方法
技术领域
本发明涉及移动通讯领域,特别是指一种移动终端及其短信的过滤方法。
背景技术
近几年来,由于移动通信技术的快速发展,短信作为移动通信最流行的增值服务 之一,在为人们提供便捷的同时,也滋生了大量以传播色情、欺诈、广告等不良信息为目的 的垃圾短信。这些短信严重干扰了人们的生活,侵犯了消费者利益。垃圾短信的监管问题 受到社会各界的广泛重视,除了从立法层面加强对信息发布进行监管外,更重要的是从技 术层面探索对垃圾短信的防范技术。现有技术中,垃圾短信的过滤可以分为两种一是基于短信服务中心的过滤方式; 一是基于用户移动终端的过滤方式。传统的短信文本过滤技术主要还是停留在关键词阶段,无法通过研究文本的内容 特征进行分类,从而达到识别垃圾短信的效果,因此传统的过滤技术效果不是很理想。下面简单说明一下现有技术中基于用户移动终端的过滤方式一、基于关键词方案—种短消息过滤方法,用户在移动终端上设置过滤敏感词;移动终端接收到短消息 中心发送的消息并保存在内存中;移动终端根据敏感词对短消息内容进行字符串匹配,如果 有敏感词出现在短消息内容中,则丢弃该消息,并向短消息中心发送成功接收消息;如果在 短消息内容中没有发现敏感词,保存该消息。该方案虽然可以有效过滤用户不想看到的短消 息,防止被干扰;但是,基于关键词的过滤方法显得过于简单,效果也不是很好。该方案不具 备灵活性,对于纷繁芜杂的垃圾短信应对能力有限,经常也会对正常短信造成“误伤”。二、基于黑白名单的方案因为在每部移动终端上都有电话簿,而移动终端电话簿内的联系电话可以直接视 为短信过滤中的白名单,这样就可以确保凡是正常的联系人短信不会被文本分类错误地过 滤掉。而移动终端上一般没有黑名单列表,因此这需要专门在移动终端上建立黑名单列表, 并对黑名单列表进行维护。在建立了黑名单列表后,当一条新的短消息被接收后,首先从短 消息中获取短信发送方的号码,查询电话薄中是否有该号码,如果有该号码就直接把短信 作为正常短信接收到收件箱;如果没有该号码,查询该电话号码是否在于黑名单列表中,如 果是,就直接把短信作为垃圾短信放入垃圾箱中,从而实现短信的初级过滤。该方案具有初 步的过滤能力,但对于既不是来源于黑名单也不是来源于通讯录的短信则无能为力。虽然 这部分短信数量不多,但恰恰这部分短信容易给用户造成困扰和损失。对短信进行必要的内容过滤是营造健康移动终端环境的重要环节,但综上所述, 国内、外尚缺少高效、智能的短信内容过滤产品。

发明内容
有鉴于此,本发明的主要目的在于提供一种移动终端及其短信的过滤方法,以解决传统的短信过滤技术效果不是很理想的问题。为达到上述目的,本发明的技术方案是这样实现的本发明提供了一种短信过滤方法,该方法包括获取接收的短信的短信样本向量;依据所述短信样本向量对接收的短信的类型进行支持向量机(SVM)识别;所述识别结果为垃圾短信时,对发送所述垃圾短信的移动终端号码进行通讯录匹 配;若所述号码属于所述通讯录,则接收所述垃圾短信;否则,不接收所述垃圾短信;所述识别结果为正常短信时,对发送所述正常短信的移动终端号码进行黑名单匹 配;若所述号码属于所述黑名单,则不接收所述正常短信;否则,接收所述正常短信。获取接收的短信的短信样本向量,具体为根据预定义的特征词库,将接收的短信文本中的非特征词剔除;以所述特征词库为依据,采用机械分词方法中的正向最大匹配法对剔除非特征词 后的短信文本进行分词处理;对分词后的短信文本进行向量化和数字化,得到所述短信样本向量T<xl,χ2, χ3,. . . χΝ>,其中,2彡N彡特征词个数。对分词后的短信文本进行向量化和数字化,具体为采用特征提取算法对所述短信文本进行向量化;根据预定义的字符库,将所述短信文本中的特征词转化为对应的字符xN。采用特征提取算法对所述短信文本进行向量化,具体为采用期望交叉熵法对对所述短信文本进行向量化。对接收的短信进行SVM识别,具体为将所述短信样本向量T<xl,x2,χ3,...χΝ>作为输入向量带入分类函数
*,将计算结果记为分量y ;所述y = -ι,表示接收的短 /=1
信为垃圾短信;y = 1,表示接收的短信为正常短信;其中,Xi是支持向量的输入向量,1 ^ i ^n, η为支持向量库中支持向量的个数; Yi是支持向量的输出向量,指示Xi对应的短信的分类,yi = 1、或yi = -1 ;X为所述短信样 本向量T
; α i是SVM算法中每一个支持向量的Lagrange乘子,由算法自
动生成Y 二少y为支持向量库中选取的任意一个支持向量的输入向量,
Yj为输出向量,指示Xj对应的短信的分类,Yj = 1、或7」=-1。 所述 对接收的短信进行SVM识别后,该方法还包括将所述短信样本向量T<xl,χ2, χ3,... χΝ>作为输入向量,将所述分量y作为输出 向量,得到一组支持向量,并存入所述支持向量库中。对接收的短信进行SVM识别,具体为
对获取的所述短信样本向量进行支持向量库匹配,若所述短信样本向量与支持向 量库中某一组支持向量的输入向量匹配,则将所述输入向量对应的输出向量指示的分类作 为所述短信的分类;否则将所述短信样本向量带入所述分类函数。所述号码属于所述通讯录时,该方法还包括判定所述短信的分类错误,更新所述 支持向量库;所述号码不属于所述通讯录时,该方法还包括判定所述短信的分类正确,将发送 所述垃圾短信的移动终端号码添加到所述黑名单。所述号码属于所述黑名单时,该方法还包括判定所述短信的分类错误,更新所述 支持向量库。本发明还提供了一种移动终端,包括向量获取模块、SVM识别模块、和过滤模块, 其中所述向量获取模块,用于获取接收的短信的短信样本向量;所述SVM识别模块,依据所述短信样本向量对接收的短信的类型进行SVM识别;所述过滤模块,用于在所述SVM识别模块的识别结果为垃圾短信时,对发送所述 垃圾短信的移动终端号码进行通讯录匹配;若所述号码属于所述通讯录,则接收所述垃圾 短信;否则,不接收所述垃圾短信;还用于在所述识别结果为正常短信时,对发送所述正常 短信的移动终端号码进行黑名单匹配;若所述号码属于所述黑名单,则不接收所述正常短 信;否则,接收所述正常短信。所述向量获取模块包括文本预处理子模块,用于根据预定义的特征词库,将接收的短信文本中的非特征 词剔除;文本分词子模块,用于以所述特征词库为依据,采用机械分词方法中的正向最大 匹配法对剔除非特征词后的短信文本进行分词处理;文本向量化子模块,用于对分词后的短信文本进行向量化和数字化,得到所述短 信样本向量T<xl, x2, x3,... xN>,其中,2 ( N彡特征词个数。所述SVM识别模块,还用于将所述短信样本向量T<xl,x2, x3, . . . xN>作为输入
η
向量带入分类函数/O) =,将计算结果记为分量1 ;所述1
i=\
=-1,表示接收的短信为垃圾短信;y = 1,表示接收的短信为正常短信;其中,Xi是支持向量的输入向量,1 ^ i ^n, η为支持向量库中支持向量的个数; Yi是支持向量的输出向量,指示Xi对应的短信的分类,yi = 1、或yi = -1 ;X为所述短信样 本向量T<x 1,χ2,χ3,. . . χΝ> ; α i是SVM算法中每一个支持向量的Lagrange乘子,由算法自
动生成;f =力为支持向量库中选取的任意一个支持向量的输入向量,
Yj为输出向量,指示Xj对应的短信的分类,Yj = 1、或yj = -1 ;所述SVM识别模块,还用于将所述短信样本向量T<xl,χ2, χ3, . . . χΝ>作为输入向 量,将所述分量y作为输出向量,得到一组支持向量,并存入所述支持向量库中。所述SVM识别模块,还用于对获取的所述短信样本向量进行支持向量库匹配,若 所述短信样本向量与支持向量库中某一组支持向量的输入向量匹配,则将所述输入向量对
7应的输出向量指示的分类作为所述短信的分类;否则将所述短信样本向量带入所述分类函数。所述过滤模块,还用于在所述号码属于所述黑名单时,判定所述短信的分类错误, 并通知所述SVM识别模块更新所述支持向量库;还用于在所述号码属于所述通讯录时,判 定所述短信的分类错误,并通知所述SVM识别模块更新所述支持向量库;还用于在所述号 码不属于所述通讯录时,判定所述短信的分类正确,将发送所述垃圾短信的移动终端号码 添加到所述黑名单。本发明的短信的过滤方案,通过采用支持向量机算法对短信进行分类,同时,还具 有自反馈功能,基于已分类的短信进行简单的通讯录或黑名单匹配,对分类错误的短信进 行反馈学习、更新支持向量库;如此,使得支持向量库不断完善、过滤能力不断地自行调整、 并增强;由于支持向量机算法、以及通讯录或黑名单匹配的结合使用,使得本发明的方案可 以针对格式各样的短信,特别地,对于那些来源即不属于黑名单、也不属于通讯录的短信进 行了过滤。


图1为本发明短信过滤的方法流程示意图;图2为本发明实现短信过滤的移动终端结构示意图。
具体实施例方式下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。本发明的核心思想是采用支持向量机算法对短信进行分类、以及简单的通讯录 或黑名单匹配查询功能来实现移动终端短信的过滤。如图1所示,本发明短信过滤的流程包括首先要获取短信样本向量,如步骤101 103 步骤101,对接收到的短信进行预处理,将短信文本中的非特征词剔除。具体的,可 以预先定制一个特征词库,根据该特征词库,将短信内容中不属于该特征词库的非特征词 剔除,例如标点符号等,这些内容对于文本分类的意义有限,尽早剔除对于优化后续步骤大
有裨益。例如一条短信明天三桥广场华联超市做优惠活动,欢迎届时光临。经过剔词,得 到广场华联超市优惠活动欢迎届时光临。步骤102,以特征词库为依据,采用机械分词方法中的正向最大匹配法对剔除非特 征词后的短信文本进行分词处理。承接上述例子,对剔词得到的短信文本进行分词,得到 广场/华联超市/优惠/活动/欢迎/届时/光临。步骤103,对分词后的短信文本进行向量化和数字化。承接上述例子,分词后的短信文本广场/华联超市/优惠/活动/欢迎/届时/ 光临中特征词过多,向量化后维数过大,由SVM理论可知,这不利于SVM算法的高效执行。为 了解决该问题,本发明采用特征提取算法对短信文本进行向量化,现有的特征提取算法有 互信息、信息增益、文档频度、和期望交叉熵等,经过实践证明,期望交叉熵法效果最优;当 然,其他几种方法也可以采用,只是效果较期望交叉熵法稍差。
采用期望交叉熵法对剔词、分词后的短信文本进行向量化后的形式为T<xl, x2, x3, ... xN>、即短信样本向量,其中,2彡N彡特征词个数,经过期望交叉 熵法对短信进行向量化时,可以得到一个最优的N的取值。xN为特征词的数字化结果,对特 征词进行数字化时,如根据预先定义的字符库,将特征词转化为对应的字符;当然,也可以 采用现有技术中其他的数据化方法,只要能对特征词进行数字化即可。步骤104,依据短信样本向量对短信进行SVM识别。短信经过向量化和数字化后,得到一个短信样本向量T<xl,χ2, χ3, . . . χΝ> (最优 的),经过SVM识别后,得到与T对应的该短信的分类y,y = -1,表示垃圾短信;y = 1,表示 正常短信。将短信样本向量T作为输入向量,将分量y作为输出向量,由此得到一组支持向 量,记为S= (T,y),多组支持向量组成了一个支持向量库,记为Si = (xi; Yi) ;1 ^ i ^n, η为支持向量库中支持向量的个数;则Xi表示支持向量的输入向量T,yi为支持向量的输出 向量,指示Xi对应的短信的分类,Yi = 1、或71 = -1。在实际应用时,移动终端中会预先保存一个支持向量库,作为对新接收的短信进 行SVM识别的根据;当然,理论上移动终端也可以不预先存储支持向量(此时移动终端在接 收到短信时就无法进行SVM识别),而是在接收到了若干条短信之后,对这些短信进行SVM 训练,从而得到一个支持向量库,这样,后续接收的短信就可以进行SVM识别。根据支持向量库Si = (xi; yi),对短信进行SVM识别时,有两种方式方式一将短信样本向量T<xl,χ2, χ3, ... χΝ>作为输入向量带入下列分类函数, 对该短信进行分类分类函数为 其中,Xi是支持向量的输入向量
η为支持向量库中支持向量的个数; Yi是支持向量的输出向量,指示Xi对应的短信的分类,Yi = 1、或Yi = -1 ;X为所述短信样 本向量T<x 1,χ2,χ3,. . . χΝ> ; α i是SVM算法中每一个支持向量的Lagrange乘子,由算法自
动生成=Jy+— g乃A0^), ~为支持向量库中选取的任意一个支持向量的输入向量,
Yj为输出向量,指示Xj对应的短信的分类,Yj = 1、或yj = -1。将通过分类函数得到的计算结果记为分量y,y = -1,表示垃圾短信;y = 1,表示 正常短信。由此便得到了一组新的支持向量,存入支持向量库中,使支持向量库处于不断地 更新中。该公式为SVM算法线性不可分情况下的分类函数;K(*)为核函数,起到维数转化 的作用,从而使线性不可分情况下的问题在更高维的空间里可分。为了适应上述SVM算法线性不可分情况下的分类函数
进一步地,本发明还可以把短信样本向量T映射到一 i=\
个高维特征空间H,并在此空间中运用原空间的分类函数来实现内积运算,这样将非线性问 题转换成另一空间的线性问题来获得一个样本的归属。根据泛函的有关理论,只要一种核 函数满足Mercer条件,它就对应某一空间中的内积,因此只要采用适当的内积函数就可以实现这种线性不可分的分类问题。本发明中的核函数K(*)为混合核函数,也称作高斯核函数(径向基函数(RBF)) 和多项式核函数的结合,其中
—Ilx — X 2高斯核函数次(x,x;)= expl--^-}σ .
2σ多项式核函数=Kpoly= ((X*Xi) +1) \则混合核函数为=Kmix= λ Kpoly+(I-X)Krbf,其中:q = 2,λ =0.5, σ =0. 3。方式二 对短信样本向量T<xl,χ2, χ3, ... χΝ>进行支持向量库匹配,如果当前的 短信样本向量T<xl,χ2, χ3, ... χΝ>与支持向量库Si = (xi; Yi)中某一组支持向量的输入 向量匹配、即一致,则该组支持向量中YiW值就指示了当前短信的类型;否则采用方式一进 行SVM识别。步骤105,如果进行SVM识别的结果为y = 1,则表示当前短信为正常短信。抽取该 短信的移动终端号码,进行黑名单匹配;若属于黑名单,则为错分短信,然后进行反馈学习、 即更新支持向量库,移动终端不接收该短信;若不属于黑名单,则正常接收之,此时,是否将 该号码添加入通讯录有用户决定。步骤106,如果进行SVM识别的结果为y = _1,则表示当前短信为垃圾短信。抽取 该短信的移动终端号码,进行通讯录匹配;若属于通讯录,则为错分短信,然后进行反馈学 习、更新支持向量库,移动终端接收该短信;若不属于通讯录,则抛弃该短信,并将其移动终 端号码添加到黑名单。通过上述方法可知,本发明通过对已分类的短信进行简单的通讯录或黑名单匹配 来确认分类是否正确,并基于分类错误的短信进行反馈学习、即更新支持向量库,由此使得 支持向量库不断完善、过滤功能不断地自行调整、并增强;同时,对于那些来源即不属于黑 名单、也不属于通讯录的短信进行了过滤。为了实现上述方法,本发明提供了一种移动终端,如图2所示包括向量获取模 块、SVM识别模块、和过滤模块,其中向量获取模块,用于获取接收的短信的短信样本向量;SVM识别模块,依据短信样本向量对接收的短信的类型进行SVM识别;过滤模块,用于在SVM识别模块的识别结果为垃圾短信时,对发送垃圾短信的移 动终端号码进行通讯录匹配;若号码属于通讯录,则接收垃圾短信;否则,不接收垃圾短 信;还用于在识别结果为正常短信时,对发送正常短信的移动终端号码进行黑名单匹配; 若号码属于黑名单,则不接收正常短信;否则,接收正常短信。向量获取模块包括文本预处理子模块,用于根据预定义的特征词库,将接收的短信文本中的非特征 词剔除;文本分词子模块,用于以特征词库为依据,采用机械分词方法中的正向最大匹配 法对剔除非特征词后的短信文本进行分词处理;文本向量化子模块,用于对分词后的短信文本进行向量化和数字化,得到短信样 本向量T<xl, χ2, χ3,· · · xN>,其中,2 ( N彡特征词个数。SVM识别模块,还用于将短信样本向量T<xl,χ2, χ3, . . . χΝ>作为输入向量带入分
10类函数/0) = Σ};^ Κηι χ(Χ^Χ )+Κ ,将计算结果记为分量y ;y = -1,表示接收的 /=1
短信为垃圾短信;y = 1,表示接收的短信为正常短信;其中,Xi是支持向量的输入向量,1 ^ i ^n, η为支持向量库中支持向量的个数; Yi是支持向量的输出向量,指示Xi对应的短信的分类,yi = 1、或yi = -1 ;X为所述短信样 本向量T<x 1,χ2,χ3,. . . χΝ> ; α i是SVM算法中每一个支持向量的Lagrange乘子,由算法自
动生成=yj-tyicci{XiXjyxi为支持向量库中选取的任意一个支持向量的输入向量,
Yj为输出向量,指示Xj对应的短信的分类,Yj = 1、或7」=-1。SVM识别模块,还用于将短信样本向量T<xl,x2,x3,. . . χΝ>作为输入向量,将所述 分量y作为输出向量,得到一组支持向量,并存入所述支持向量库中。SVM识别模块,还用于对获取的短信样本向量进行支持向量库匹配,若支持向量库 中存在与获取的短信样本向量匹配的短信样本向量,则使用匹配的短信样本向量对应的y 值标记接收的短信的类型;否则,将获取的短信样本向量带入分类函数。过滤模块,还用于在号码属于黑名单时,判定短信的分类错误,并通知SVM识别模 块更新支持向量库;还用于在号码属于通讯录时,判定短信的分类错误,并通知SVM识别模 块更新支持向量库;还用于在号码不属于通讯录时,判定短信的分类正确,将发送垃圾短信 的移动终端号码添加到黑名单。以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
权利要求
一种短信过滤方法,其特征在于,该方法包括获取接收的短信的短信样本向量;依据所述短信样本向量对接收的短信的类型进行支持向量机(SVM)识别;所述识别结果为垃圾短信时,对发送所述垃圾短信的移动终端号码进行通讯录匹配;若所述号码属于所述通讯录,则接收所述垃圾短信;否则,不接收所述垃圾短信;所述识别结果为正常短信时,对发送所述正常短信的移动终端号码进行黑名单匹配;若所述号码属于所述黑名单,则不接收所述正常短信;否则,接收所述正常短信。
2.根据权利要求1所述短信过滤方法,其特征在于,获取接收的短信的短信样本向量, 具体为根据预定义的特征词库,将接收的短信文本中的非特征词剔除; 以所述特征词库为依据,采用机械分词方法中的正向最大匹配法对剔除非特征词后的 短信文本进行分词处理;对分词后的短信文本进行向量化和数字化,得到所述短信样本向量T<xl,χ2, χ3,. . . χΝ>,其中,2 ^ N彡特征词个数。
3.根据权利要求2所述短信过滤方法,其特征在于,对分词后的短信文本进行向量化 和数字化,具体为采用特征提取算法对所述短信文本进行向量化;根据预定义的字符库,将所述短信文本中的特征词转化为对应的字符xN。
4.根据权利要求2所述短信过滤方法,其特征在于,采用特征提取算法对所述短信文 本进行向量化,具体为采用期望交叉熵法对对所述短信文本进行向量化。
5.根据权利要求1所述短信过滤方法,其特征在于,对接收的短信进行SVM识别,具体为将所述短信样本向量T<xl,χ2,χ3,. . . χΝ>作为输入向量带入分类函数 ,将计算结果记为分量y ;所述y = -1,表示接收的短信为垃圾短信;y = 1,表示接收的短信为正常短信;其中,Xi是支持向量的输入向量,1 ^ i ^η,η为支持向量库中支持向量的个数;yi是 支持向量的输出向量,指示Xi对应的短信的分类,Ii = 1、或71 = -1 ;χ为所述短信样本向 量T<x 1,x2,x3,. . . xN> ; α i是SVM算法中每一个支持向量的Lagrange乘子,由算法自动生 Xi为支持向量库中选取的任意一个支持向量的输入向量,Yj为输出向量,指示Xj对应的短信的分类,Yj = 1、或yj = -1。
6.根据权利要求5所述短信过滤方法,其特征在于, 所述 Kmix= λ Kpoly+(I-A)Krbf ; 所述尺财(χ, X,) = exp{- 11 o ; 1 }σ ;
7.根据权利要求5或6所述短信过滤方法,其特征在于,对接收的短信进行SVM识别 后,该方法还包括将所述短信样本向量T<xl,x2,x3,. . . xN>作为输入向量,将所述分量y作为输出向量, 得到一组支持向量,并存入所述支持向量库中。
8.根据权利要求7所述短信过滤方法,其特征在于,对接收的短信进行SVM识别,具体为对获取的所述短信样本向量进行支持向量库匹配,若所述短信样本向量与支持向量库 中某一组支持向量的输入向量匹配,则将所述输入向量对应的输出向量指示的分类作为所 述短信的分类;否则将所述短信样本向量带入所述分类函数。
9.根据权利要求8所述短信过滤方法,其特征在于,所述号码属于所述通讯录时,该方法还包括判定所述短信的分类错误,更新所述支持向量库;所述号码不属于所述通讯录时,该方法还包括判定所述短信的分类正确,将发送所述 垃圾短信的移动终端号码添加到所述黑名单。
10.根据权利要求8所述短信过滤方法,其特征在于,所述号码属于所述黑名单时,该方法还包括判定所述短信的分类错误,更新所述支持向量库。
11.一种移动终端,其特征在于,包括向量获取模块、SVM识别模块、和过滤模块,其中所述向量获取模块,用于获取接收的短信的短信样本向量; 所述SVM识别模块,依据所述短信样本向量对接收的短信的类型进行SVM识别; 所述过滤模块,用于在所述SVM识别模块的识别结果为垃圾短信时,对发送所述垃圾 短信的移动终端号码进行通讯录匹配;若所述号码属于所述通讯录,则接收所述垃圾短信; 否则,不接收所述垃圾短信;还用于在所述识别结果为正常短信时,对发送所述正常短信的 移动终端号码进行黑名单匹配;若所述号码属于所述黑名单,则不接收所述正常短信;否 则,接收所述正常短信。
12.根据权利要求11所述移动终端,其特征在于,所述向量获取模块包括文本预处理子模块,用于根据预定义的特征词库,将接收的短信文本中的非特征词剔除;文本分词子模块,用于以所述特征词库为依据,采用机械分词方法中的正向最大匹配 法对剔除非特征词后的短信文本进行分词处理;文本向量化子模块,用于对分词后的短信文本进行向量化和数字化,得到所述短信样 本向量T<xl, χ2, χ3,· · · xN>,其中,2 ( N彡特征词个数。
13.根据权利要求11或12所述移动终端,其特征在于,所述SVM识别模块,还用于将所述短信样本向量T<xl,χ2, χ3,... χΝ>作为输入向量带η入分类函数/O) = Z^qUx* + Κ ,将计算结果记为分量y ;所述y = -l,表/=1示接收的短信为垃圾短信;y = 1,表示接收的短信为正常短信;其中,Xi是支持向量的输入向量,1 ^ i ^η,η为支持向量库中支持向量的个数;yi是3支持向量的输出向量,指示Xi对应的短信的分类,Yi = 1、或71 = "I ;X为所述短信样本向 量T<x 1,x2,x3,. . . xN> ; α i是SVM算法中每一个支持向量的Lagrange乘子,由算法自动生 成;b*=yj一nΣi=1yiαi(xixj),xj为支持向量库中选取的任意一个支持向量的输入向量,yj为 /=1输出向量,指示Xj对应的短信的分类,Yj = 1、或yj = -1 ;所述SVM识别模块,还用于将所述短信样本向量T<xl,χ2, χ3, ...χΝ>作为输入向量, 将所述分量y作为输出向量,得到一组支持向量,并存入所述支持向量库中。
14.根据权利要求13所述移动终端,其特征在于,所述SVM识别模块,还用于对获取 的所述短信样本向量进行支持向量库匹配,若所述短信样本向量与支持向量库中某一组支 持向量的输入向量匹配,则将所述输入向量对应的输出向量指示的分类作为所述短信的分 类;否则将所述短信样本向量带入所述分类函数。
15.根据权利要求14所述移动终端,其特征在于,所述过滤模块,还用于在所述号码属于所述黑名单时,判定所述短信的分类错误,并通 知所述SVM识别模块更新所述支持向量库;还用于在所述号码属于所述通讯录时,判定所 述短信的分类错误,并通知所述SVM识别模块更新所述支持向量库;还用于在所述号码不 属于所述通讯录时,判定所述短信的分类正确,将发送所述垃圾短信的移动终端号码添加 到所述黑名单。
全文摘要
本发明公开了一种移动终端及其短信过滤的方法,通过采用支持向量机算法对短信进行分类,同时,还具有自反馈功能,基于已分类的短信进行简单的通讯录或黑名单匹配,对分类错误的短信进行反馈学习、更新支持向量库;如此,使得支持向量库不断完善、过滤能力不断地自行调整、并增强;由于支持向量机算法、以及通讯录或黑名单匹配的结合使用,使得本发明的方案可以针对格式各样的短信,特别地,对于那些来源即不属于黑名单、也不属于通讯录的短信进行了过滤。
文档编号H04M1/275GK101902523SQ20101022527
公开日2010年12月1日 申请日期2010年7月9日 优先权日2010年7月9日
发明者孙知信, 朱佳佳, 查敦林, 董昊 申请人:中兴通讯股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1