一种应用于短信数据安全的管理方法与流程

文档序号：24528473发布日期：2021-04-02 10:06阅读：68来源：国知局

【技术领域】

本发明涉及数据安全管理技术领域，具体涉及一种应用于短信数据安全的管理方法。

背景技术：

短信在人们生活中作为一种重要的交流方式，已然获得了高度广泛的现实应用。手机短信既是人们喜爱的交流工具,又是各种不良信息的传播手段,短信的泛滥对网络产生冲击,更造成严重的不良社会影响.加强短信,特别是垃圾短信的过滤拦截是维护短信市场的正常秩序,保障信息安全的关键。当短信进入了大批量、各范畴的使用领域时，其中却瑕瑜互见地混杂有某些经由不法商户制造形成的带有欺诈行为性质的短信内容。

目前对垃圾短信的过滤技术有黑白名单过滤,短信长度及流量门限过滤、以及运用文本分类算法的人工智能过滤方法,但各类方法均有利弊,对垃圾短信的过滤效果不佳，如何提高垃圾短信的过滤效果，提升短信数据的安全性，已成为了亟需解决的技术问题。

技术实现要素：

本申请提供了一种应用于短信数据安全的管理方法，以解决上述提到的一种或多种技术问题，本申请利用基于文本内容和机器学习的短信分类算法,本发明基于文本内容和机器学习的短信分类算法,设计基于短信接收者个性化选择和服务器端集中监控过滤的二层分类模型,实现了高精度短信智能分类。

本申请所采用的技术方案如下：

一种应用于短信数据安全的管理方法，该方法应用于短信数据安全管理系统中，该短信数据安全管理系统包括短信数据安全管理远程服务器和用户终端，短信数据个性化分类引擎运行在用户终端上，短信数据个性化分类引擎将用到存储在用户终端并与短信数据安全管理远程服务器实现同步更新的数据；

该管理方法包括如下步骤：

步骤1、短信数据安全管理远程服务器收到短信后，进行短信文本预处理操作，将预处理后的短信文本送入公共分类器，依据公共特征库对短信进行第一层过滤，未通过第一层过滤的垃圾短信被屏蔽；通过第一层过滤的短信送入个性分类器；

步骤2、通过第一层过滤的短信送入个性分类器后，依据个性化特征库，应用贝叶斯分类进行第二层个性化分类，并将分类结果通过短信数据安全管理远程服务器发送短信通知接收方用户是否接收该类型短信；如果接收方用户选择接收，则将短信转发至接收方用户的用户终端，否则短信数据安全管理远程服务器屏蔽该短信；

步骤3、接收方用户接收到经过二层分类过滤的短信后，根据接收方用户的用户终端上的个性化分类引擎和分类特征库，调用分词处理模块和贝叶斯分类模块，将短信进行第一次初分类，并呈现给接收方用户；

步骤4、接收方用户根据自己的需求来确定短信分类类别，将短信进行第二次个性分类；

步骤5、通过网络向短信数据安全管理远程服务器反馈短信的第二次个性分类类别、信息发送者号码、发送时间、以及接收者号码信息；

步骤6、短信数据安全管理远程服务器接收用户反馈信息，调用贝叶斯训练模块，更新个性化特征库；

步骤7、接收方用户通过网络定期从短信数据安全管理远程服务器下载更新的个性化特征库，并采用更新后的个性化特征库对新收到的短信进行分类判别。

进一步的，所述短信文本预处理操作，具体包括如下步骤：

步骤101、将短信读入内存中，使用整型变量记录读入的每一个字符对应的ascii编码，读入第一个字符；

步骤102、判断读入字符的数值范围，若该数值范围在中文字符集中的中文字符编码范围内，则将读入字符加入到字符串变量中，否则，该读入字符为字符串变量，并添加一个空格；

步骤103、返回步骤101，直到短信的所有字符均被读入后，结束预处理操作。

进一步的，所述贝叶斯分类具体包括如下步骤：

步骤201、读入训练样本短信，并统计各类短信数目；

步骤202、读入分词词典，对训练样本短信进行分词处理，得到各词条及对应的文档频率df值；

步骤203、根据特征向量选取方法，按文档频率df值从大到小，各类选前50个特征词形成特征向量；

步骤204、读入训练样本短信，对贝叶斯分类器进行训练；

步骤205、读入待分类短信，用训练后的贝叶斯分类器进行识别，并给出分类结果。

进一步的，所述贝叶斯分类器的计算步骤包括：

步骤301、数据样本短信经文本分词后，应用向量空间模型，将其表示为一个n维特征向量x(w1,w2,w3,……,wn)，其中wi为绝对词频；

步骤303、首先计算p(ci)=si/s，其中si为类ci中的样本数，s为训练样本总数；

步骤304、再计算p(x|ci)，给定具有多属性的数据集，计算p(x|ci)的开销，假定各类型相互独立，这样，其中可由训练样本计算得出；

步骤305、对未知样本x分类，分别对每个类ci,计算p(x|ci)p(ci)，则x属于p(x|ci)p(ci)值最大的类ci。

进一步的，短信数据安全管理远程服务器包括特征库维护更新模块和短信内容处理模块；

特征库维护更新模块，用于公共特征库和个性化特征库的维护更新；

短信内容处理模块，包括短信预处理模块、分词处理模块、特征提取模块，所述短信预处理模块，用于对短信文本进行预处理操作；所述分词处理模块，用于对短信进行分词；所述特征提取模块，用于提取短信长度特征、频率特征、规则特征、文本特征信息。

进一步的，所述维护更新包括两种方式，第一种是训练学习方式，接收用户终端反馈的短信分类信息后，触发机器训练算法进行机器学习，更新个性化特征库；第二种是在短信数据安全管理远程服务器维护公共特征库，由人工更新公共特征库。

进一步的，公共特征库为所有用户共有，设置黑白名单过滤特征库和关键词库，由人工随时更新。

进一步的，个性化特征库为每个用户私有，以用户的手机号码为关键字，系统为每个用户建立个性化分类器，生成二个表：个性分类类别表和类别特征表，分别存储用户个性分类的类别。

进一步的，用户终端通过网络向服务器端传输反馈的个性分类信息，包括短信分类类别、是否垃圾短信、信息发送者号码、发送时间、接收者号码信息。

进一步的，公共特征库由服务器端人工以及根据用户终端反馈的短信分类信息维护，定期或随时更新黑白名单以及关键词表；个性化特征库则由服务器端接收客户终端反馈的短信分类信息，进行增量学习，收到用户反馈的短信后自动触发机器训练算法，进行机器学习，更新个性化特征库。

通过本申请实施例，可以获得如下技术效果：本发明基于文本内容和机器学习的短信分类算法,设计基于短信接收者个性化选择和服务器端集中监控过滤的二层分类模型,实现了高精度短信智能分类。

【附图说明】

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法的管理方法的流程示意图。

【具体实施方式】

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本申请保护的范围。

本发明的方法应用于短信数据安全管理系统中，该系统采用基于文本内容和机器学习的短信分类算法，基于短信接收者个性化选择和短信数据安全管理远程服务器端集中过滤分类的二层分类模型，实现高精度短信智能分类和管理。

该短信数据安全管理系统包括短信数据安全管理远程服务器和用户终端分类引擎，将核心分类算法部署在短信数据安全管理远程服务器端，将个性化分类引擎布置在用户终端；

短信数据安全管理远程服务器从用户终端上收集分类的短信信息，然后对它们进行机器学习。机器学习后将更新特征库（公共特征库和个性化特征库），用户终端从短信数据安全管理远程服务器下载这些更新后的特征库，用户终端上的个性化分类引擎会根据更新后的特征库进行适应性调整。

短信数据个性化分类引擎运行在用户终端上，以后台服务的方式运行，短信数据个性化分类引擎将用到存储在用户终端并与短信数据安全管理远程服务器实现同步更新的数据，即个性化短信特征库。短信数据个性化分类引擎具有以下功能：

（1）由用户根据自己的喜好自行决定短信分类类别。当短信到达时，根据个性化短信特征库，调用用户终端上的分词模块和贝叶斯分类模块，将短信分类；

（2）通过网络向短信数据安全管理远程服务器反馈短信的分类类别，信息发送者号码、发送时间、接收者号码等信息；

（3）通过网络定期从短信数据安全管理远程服务器下载更新的个性化特征库，在下一条短信到达终端时，采用更新后的特征库进行分类判别。

短信数据安全管理远程服务器实现的是一种分布式的短信分类学习模式，短信数据安全管理远程服务器包括特征库维护更新模块和短信内容处理模块；

特征库维护更新模块，用于公共特征库和个性化特征库的维护更新；

所述维护更新包括两种方式，第一种是训练学习方式，接收用户终端反馈的短信分类信息后，触发机器训练算法进行机器学习，更新个性化特征库；第二种是

第二种是在短信数据安全管理远程服务器维护公共特征库，由人工更新公共特征库；

短信内容处理模块，包括短信预处理模块、分词处理模块、特征提取模块；

所述短信预处理模块，用于对短信文本进行预处理操作；

所述分词处理模块，用于对短信进行分词；

所述特征提取模块，用于提取短信长度特征、频率特征、规则特征、文本特征信息；

图1为本发明方法的管理方法的流程示意图，该方法包括如下步骤：

步骤4、接收方用户根据自己的需求来确定短信分类类别，将短信进行第二次个性分类；

步骤5、通过网络向短信数据安全管理远程服务器反馈短信的第二次个性分类类别、信息发送者号码、发送时间、以及接收者号码信息；

步骤6、短信数据安全管理远程服务器接收用户反馈信息，调用贝叶斯训练模块，更新个性化特征库；

所述短信文本预处理操作，具体包括如下步骤：

步骤101、将短信读入内存中，使用整型变量记录读入的每一个字符对应的ascii编码，读入第一个字符；

步骤102、判断读入字符的数值范围，若该数值范围在中文字符集中的中文字符编码范围内，例如19800-41000，则将读入字符加入到字符串变量中，否则，该读入字符为字符串变量，并添加一个空格；

步骤103、返回步骤101，直到短信的所有字符均被读入后，结束预处理操作。

所述贝叶斯分类具体包括如下步骤：

步骤201、读入训练样本短信，并统计各类短信数目；

步骤202、读入分词词典，对训练样本短信进行分词处理，得到各词条及对应的文档频率df值；

步骤203、根据特征向量选取方法，按文档频率df值从大到小，各类选前50个特征词形成特征向量；

步骤204、读入训练样本短信，对贝叶斯分类器进行训练；

步骤205、读入待分类短信，用训练后的贝叶斯分类器进行识别，并给出分类结果。

所述贝叶斯分类器的计算步骤包括：

步骤301、数据样本短信经文本分词后，应用向量空间模型，将其表示为一个n维特征向量x(w1,w2,w3,……,wn)，其中wi为绝对词频；

步骤303、首先计算p(ci)=si/s，其中si为类ci中的样本数，s为训练样本总数；

步骤304、再计算p(x|ci)，给定具有多属性的数据集，计算p(x|ci)的开销，假定各类型相互独立，这样，其中可由训练样本计算得出；

步骤305、对未知样本x分类，分别对每个类ci,计算p(x|ci)p(ci)，则x属于p(x|ci)p(ci)值最大的类ci。

对接收到的新短信，短信数据安全管理远程服务器首先进行如上步骤的文本预处理，根据预处理结果并结合公共特征库来判断接收到的新短信是否属于垃圾短信，如果是垃圾短信则屏蔽过滤，否则将短信发到接收方用户的用户终端，并在接收方用户的用户终端再次进行短信文本处理。

要实现短信的智能分类，首先必须理解短信的内容。对于中文文本而言，要理解短信内容，必须对中文文本进行分词。针对预处理之后的短信文本，分别在服务器端和客户端进行分词。现在的分词算法主要包括二类：一类是机械式分词法，一般以分词词典为依据，通过文档中的汉字串和词表中的词逐一匹配来完成词的切分；另一类是理解式分词法，即利用汉语的语法知识和语义知识进行分词，需要建立分词数据库、知识库和推理库。由于理解式分词法在语义分析和语法分析等方面远未成熟，因此现有分词系统多采用机械式分词法。

考虑到短信文本中所用的词汇一般都为常用词，且服务器端对短信处理实时性的要求，以及用户终端存储和处理能力的限制，对分词词典进行了精简和压缩，减少了词典规模，最终分词词典包含约4万条左右的词条，占用215m左右存储空间，完全满足服务器端和用户终端的分词需求。

系统在服务器端维护二个特征库，分别为公共特征库和个性化特征库。公共特征库为所有用户共有，设置黑白名单过滤特征库和关键词库，由人工随时更新。个性化特征库为每个用户私有，以用户的手机号码为关键字，系统为每个用户建立个性化分类器，生成二个表：个性分类类别表和类别特征表，分别存储用户个性分类的类别，如房产类别、汽车类别、股票类别等，以及每个类别所包含的50个特征词。用户终端通过网络向服务器端传输反馈的个性分类信息，包括短信分类类别、是否垃圾短信、信息发送者号码、发送时间、接收者号码信息。

公共特征库由服务器端人工以及根据用户终端反馈的短信分类信息维护，定期或随时更新黑白名单以及关键词表。个性化特征库则由服务器端接收客户终端反馈的短信分类信息，进行增量学习，收到用户反馈的短信后自动触发机器训练算法，进行机器学习，更新个性化特征库。

系统在短信数据安全管理远程服务器设置了两个贝叶斯分类器：一个用于短信的实时分类，当用户短信到达短信中心，由服务器调用，对短信进行分类判断；另外一个作为后台服务程序，定期轮询每个用户，根据用户反馈的信息进行训练学习，并更新每个用户的个性化特征库。系统在用户终端上同样启用了贝叶斯分类器，对到达用户终端的短信进行分类判断，然后提示用户做出选择判断。

对本申请的管理方法进行测试，根据运营商提供的黑白名单和关键词建立公共特征库，将测试短信送入短信数据安全管理系统中运行，在服务器端实现第一层的短信过滤，共过滤出垃圾短信472条。经查验，其中包括色情类205条、诈骗类45条、谣言类80条、公共安全类130条、广告类12条，与人工标注垃圾短信中除去广告类短信的数目完全相符，说明第一层的公共特征库对垃圾短信的过滤效果良好。

对第二层的个性化分类性能的测试中，将测试短信分为3类：汽车类、房产类、股票类，从所有测试数据中挑选3类短信作为测试样本，其中汽车类200条，房产类300条，股票类500条对第二层的个性化分类性能采用分类准确率来衡量，对汽车类的分类准确率、对房产类的分类准确率、对股票类的分类准确率均达到了90%以上，这说明系统具有较好的分类性能，具有较好的实用价值。

在一些实施例中，计算机程序的部分或者全部可以经由rom而被载入和/或安装到设备上。当计算机程序加载并被执行时，可以执行上文描述的方法的一个或多个步骤。

本发明中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列（fpga）、专用集成电路（asic）、专用标准产品（assp）、芯片上系统的系统（soc）、负载可编程逻辑设备（cpld）等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（ram）、只读存储器（rom）、可擦除可编程只读存储器（eprom或快闪存储器）、光纤、便捷式紧凑盘只读存储器（cd-rom）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曾永明
技术所有人：深圳市诚立业科技发展有限公司
我是此专利的发明人

上一篇：一种安全性较高且喷洒范围广的农业杀虫用喷药器的制作方法
上一篇：一种用于污水处理的辅助装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。