一种短信行为的大数据采集与分析方法及系统的制作方法

文档序号:9924225阅读:1250来源:国知局
一种短信行为的大数据采集与分析方法及系统的制作方法
【技术领域】
[0001]本发明涉及信息处理技术领域,尤其涉及一种短信行为的大数据采集与分析方法及系统。
【背景技术】
[0002]短信作为一种快捷、经济、有效的通信方式得到了广泛的应用,然而垃圾短信的不断泛滥也造成了用户的很大困扰。研制智能短信过滤的技术方案,为手机用户建立起一个可靠、准确、高效的短信管制过滤平台具有重要的社会价值。
[0003]目前短信过滤的方式一般分为两种,从技术上分,一种是基于关键词,只要短信中包括的敏感词汇超过一定的数目就被认定为垃圾信息;另一种是基于短信内容的过滤采用机器学习方法把短信自动分为正常短信和垃圾短信,目前用于短信自动分类的机器学习方法主要有朴素贝叶斯、SVM、KNN、人工神经网络算法等。
[0004]如申请号为:201010618534.2的中国专利所公开的一种垃圾短信监控与处理的系统、系统及方法,该垃圾短信监控与处理的方法,设置基本关键词规则、关键词衍生序列及垃圾短信疑似度,该方法包括接收短信,采用所设置的基本关键词规则对短信内容进行匹配,确定是否匹配成功,如果是,将该短信作为垃圾短信并删除,如果否,采用所设置的关键词衍生序列对该短信内容疑似值范围内,将该短信作为疑似垃圾短信,如果计算的垃圾短信疑似值大于等于设置的垃圾短信疑似度上范围,将该短信作为垃圾短信,如果小雨等于设置的垃圾短信疑似度下范围,将该短信作为非垃圾短信发送。该方法主要的是根据事先设置的关键词进行判断短信是否为垃圾短信,虽然设置了疑似度范围,但是实际情况中,垃圾短信不仅仅通过改变关键词传播,所以该方法拦截的垃圾短信范围较小,仅依赖关键词的判断拦截短信可靠程度低。
[0005]又如申请号为:201310018709.X的中国专利所公开的垃圾短信过滤方法及系统,方法包括:获取短消息:确定所述短消息的至少两种特征信息的可疑度;根据所述至少两种特征信息的可疑度以及每种所述特征信息对应的权值,确定所述短消息的可疑度阀值;若所述短信息的所述可疑度阀值大于设定阀值,则对所述短信进行过滤。该方法通过将短信与所设定的特征信息进行比对,从而来对短信进行过滤,但实际情况中垃圾短信的内容多种多样,所设定的特征信息有一定的局限性和滞后性,实用性较低,而且需经过一系列的比对,工作效率不高。

【发明内容】

[0006]为克服现有技术中存在的面对大量的短信业务时工作效率不高,且短信过滤可靠性程度低等问题,本发明提供了一种短信行为的大数据采集与分析方法及系统。
[0007]本发明所采取的技术方案是:
[0008]—种短信行为的大数据采集与分析方法,其特征在于:包括以下步骤:步骤1:集合所有短信的数据信息;步骤2:统计所有短信的行为特征并输出;步骤3:根据步骤2的输出结果判断出最优短信过滤结果;步骤4:根据步骤3的判断结果进行短信过滤。
[0009]在此基础上,所述步骤I基于大数据平台实现,具体步骤如下:
[0010]步骤11:将操作数据进行实时记录,并将操作数据存储至本地存储器中;
[0011 ]步骤12:读取本地存储器中的操作数据,并对操作数据进行预处理;
[0012]步骤13:将预处理数据定时定量的远程发送至远程存储器中;
[0013]步骤14:读取远程存储器中的预处理数据,并按照短信的发送者和接收者对预处理数据进行分类处理,再将分类处理获得的分类数据存储至面向大数据的数据库;
[0014]步骤15:按照分类有序读取数据库中的分类数据。
[0015]在此基础上,所述步骤12中的预处理包括剔除无效数据和整合重复数据。
[0016]在此基础上,所述步骤2中短信行为特征为对应的短信接收者的数量。
[0017]在此基础上,所述步骤2:短信行为特征的提取基于Hadoop平台和MapReduce函数完成,具体步骤如下:
[0018]步骤21:从采集到的数据中将短信的发送者和接收者列表提取作为输入;
[0019]步骤22:通过Map函数并行的将短信的发送者和接收者记录转换成发送者和每个接收者一对一的发送关系;
[0020]步骤23:通过Reduce函数计算每个发送者对应的短信接收者的个数;
[0021 ]步骤24:输出每个发送者对应的短信接收者的个数。
[0022]在此基础上,所述步骤3中的最优短信过滤结果判断策略包括,其中,M<N:
[0023]I)当每个发送者对应的短信接收者的个数2 N时,将该短信定为无效短信;
[0024]2)当每个发送者对应的短信接收者的个数< M时,将该短信定为有效短信;
[0025]3)M<当每个发送者对应的短信接收者的个数 <圈寸,将该短信定为待定短信。
[0026]在此基础上,所述步骤4中的过滤策略包括:
[0027]I)当该短信为无效短信时,将短信直接删除;
[0028]2)当该短信为有效短信时,将短信发用给相应接收者;
[0029]3)当该短信为待定短信时,将短信储存并告之接收者,接收者回复可查看,否则直接储存并定期删除。
[0030]在此基础上,所述短信行为特征还包括短信回复率、发送成功率和平均发送短信的数量。
[0031]本发明的另一个目的是提供一种短信行为的大数据采集与分析方法的系统,其创新点在于:包括信息采集部件、统计部件、判断部件和执行部件,所述信息采集部件和统计部件相连,所述统计部件和判断部件相连,所述判断部件和执行部件相连,所述信息采集部件采集短信数据信息,所述统计部件提取信息采集部件提供的信息,并统计每个短信的行为特征信息,所述判断部件获取统计部件的统计结果,并给出判断结果,所述执行部件进行短信过滤。
[0032]在此基础上,所述执行部件为云存储管理系统。
[0033]与现有技术相比,本发明的有益效果是:
[0034]1、本发明的数据采集基于大数据平台,大数据是大量、高速、多变的信息,配合新型的处理方式促成了更强的决策能力、洞察力与最佳化处理,运用大数据平台可以获得更为深刻、全面的洞察能力,也提供了前所未有的空间与潜力。
[0035]2、本发明是基于Hadoop平台和MapReduce函数进完成的,可以快速地并行化过滤短息,这意味着本发明可以同时处理大量的短信,从而提高短信的过滤效率。Hadoop平台能够自动保存数据的多副本,并且能够自动将失败的任务重新分配,具有高容错性,同时Hadoop平台为分布式平台具有高伸缩性。
[0036]3、本发明中短信过滤判断策略的端点值可以调整,可以根据实际情况进行适当调整,能够精确控制短信过滤的数量和质量,且判断策略简单易懂,若出错容易修复,适应性强,伸缩性好。
[0037]4、本发明可以同时提取多个短信的行为特征,并根据多个行为特征的判断结果来进行短信过滤,加强了短信过滤的可靠性;并且多个行为特征是并行提取的,也加快了短信过滤的速度,适用于处理大量短信业务,提高了短信过滤的质量。
[0038]5、本发明中短信过滤时可保存,并且可以根据用户的需求进行调用查看。查看的同时具有优先级功能,可以根据重要、紧急和加急的不同紧急程度,进行优先调用查看,人性化程度高;另外还具备阅后即焚的查看模式,可以有效保护用户的隐私问题。
[0039]6、本发明中执行部件为云存储管理系统,云存储管理系统能够进行海量的并行扩容,对于应用端开发十分便利,执行机构可以同时完成相应计费采集、业务管理、网络管理等功能,且云存储管理系统负载均衡,也容易管理。
【附图说明】
[0040]图1是本发明中短信过滤方法的流程示意图;
[0041]图2是本发明中大数据平台采集数据的流程示意图
[0042]图3是本发明中短信行为特征统计的流程示意图;
[0043]图4是本发明中短信过滤策略的流程示意图;
[0044]图5是本发明中短信过滤系统的结构示意图。
【具体实施方式】
[0045]以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0046]如图1所示,一种短信行为的大数据采集与分析方法,包括以下步骤:步骤1:集合所有短信的数据信息;步骤2:统计所有短信的行为特征并输出;步骤3:根据步骤2的输出结果判断出最优短信过滤结果;步骤4:根据步骤3的判断结果进行短信过滤。
[0047]其中步骤I基于大数据平台实现,如图2所示,具体步骤如下:
[0048]步骤11:将操作数据进行实时记录,并将操作数据存储至本地存储器中;
[0049]步骤12:读取本地存储器中的操作数据,并对操作数据进行预处理,包括剔除无效数据和整合重复数据等;
[0050]步骤13:将预处理数据定时定量的远程发送至远程存储器中;
[0051]步骤14:读取远程存储器中的预处理数据,并按照短信的发送者和接收者对预处理数据进行分类处理,再将分类处理获得的分类数据存储至面向大数据的数据库;
[0052]步骤15:按照分类有序读取数据库中的分类数据。
[0053]其中,步骤2:短信行为特征的提取基于Hadoop平台和MapReduce函数完成。使用Hadoop平台和MapReduce函数可以快速地并行化过滤短息,这意味着本发明可以同时处理大量的短信,从而提高短信的过滤效率。Hadoop平台能够自动保存数据的多副本,并且能够自动将失败的任务重新分配,具有高容错
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1