一种短信行为的大数据采集与分析方法及系统的制作方法_2

文档序号:9924225阅读:来源:国知局
性,同时Hadoop平台为分布式平台具有高伸缩性。
[0054]如图3所示,具体步骤如下:
[0055]步骤21:从采集到的数据中将短信的发送者和接收者列表提取作为输入,发送者-接收者列表包含一系列的发送者-接收者记录,优选地,将步骤2中短信行为特征设置为对应的短信接收者的数量。比如〈senderI ,receiverI,receive3,...>,其意义为,发送者senderl给接收者receiverl、接收者receiver3....发送了一个短信;
[0056]步骤22:通过Map函数并行的将短信的发送者和接收者记录转换成发送者和每个接收者一对一的发送关系;
[0057 ] Map函数的输入〈键,值〉:〈缺省的每行偏移量,短信的发送者_接收者记录〉。
[0058]Map函数的输出〈键,值>:〈发送者接收者,1>
[0059]Map函数的处理过程:将输入的每条邮件发送者-接收者记录切分成发送者及各个接收者,然后将发送者和每个接收者拼接起来作为输出的键,输出的值为I。
[0000]步骤23:通过Reduce函数计算每个发送者对应的短信接收者的个数;
[0061]Reduce函数的输入〈键,值 >:〈发送者接收者,List(l,1,....1)>
[0062]Reduce函数的输出〈键,值〉:〈发送者,对应的邮件接收者数量〉
[0063]Reduce函数的处理过程:切分输入记录的键(“发送者接收者”),提取发送者,然后使用一个全局变量计数具有相同发送者数量;
[0064]步骤24:输出每个发送者对应的短信接收者的个数。
[0065]其中,短信行为特征还包括短信回复率、发送成功率和平均发送短信的数量等,提取过程与短信接收者数量的提取相似,均可以从发送者-接收者的记录中获得。本发明可以同时提取多个短信的行为特征,并根据多个行为特征的判断结果来进行短信过滤,加强了短信过滤的可靠性;并且多个行为特征是并行提取的,也加快了短信过滤的速度,适用于处理大量短信业务,提高了短信过滤的质量。
[0066]如图4所示,步骤3中的最优短信过滤结果判断策略包括,其中,M<N:
[0067]I)当每个发送者对应的短信接收者的个数2 N时,将该短信定为无效短信;
[0068]2)当每个发送者对应的短信接收者的个数< M时,将该短信定为有效短信;
[0069]3)M<当每个发送者对应的短信接收者的个数 <圈寸,将该短信定为待定短信。
[0070]本发明中短信过滤判断策略的端点值可以调整,可以根据实际情况进行适当调整,能够精确控制短信过滤的数量和质量,且判断策略简单易懂,若出错容易修复,适应性强,伸缩性好。
[0071]当多个行为特征同时提取后,将获得的判断结果整合比较,若判断结果中无效短信居多,则最终判断结果就为无效短信;若判断结果中有效短信居多,则最终判断结果就为有效短信;若判断结果中待定短信居多,则最终判断结果就为待定短信。当只提取一个行为特征,直接输出判断结果。另外由于是基于Hadoop平台和MapReduce函数完成,可以增加更多的行为特征。
[0072]如图4所示,步骤4中的过滤策略包括:
[0073]I)当该短信为无效短信时,将短信直接删除;
[0074]2)当该短信为有效短信时,将短信发用给相应接收者;
[0075]3)当该短信为待定短信时,将短信储存并告之接收者,接收者回复可查看,否则直接储存并定期删除。
[0076]本发明中短信过滤时可保存,并且可以根据用户的需求进行调用查看。查看的同时具有优先级功能,可以根据重要、紧急和加急的不同紧急程度,进行优先调用查看,人性化程度高;另外还具备阅后即焚的查看模式,可以有效保护用户的隐私问题。
[0077]如图5所示,一种短信行为的大数据采集与分析系统,包括信息采集部件701、统计部件702、判断部件703和执行部件704,信息采集部件701和统计部件702相连,所述统计部件702和判断部件703相连,所述判断部件703和执行部件704相连,信息采集部件701采集短信数据信息,所述统计部件702提取信息采集部件701提供的信息,并统计每个短信的行为特征信息,所述判断部件703获取统计部件704的统计结果,并给出判断结果,所述执行部件704进行短信过滤。各部件之间可通过数据线相连,易可通过无线相连。
[0078]执行部件704设置为云存储管理系统,云存储管理系统能够进行海量的并行扩容,对于应用端开发十分便利,执行部件可以同时完成相应计费采集、业务管理、网络管理等功能,且云存储管理系统负载均衡,也容易管理。
[0079]上述说明示出并描述了本发明的优选实施例,如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
【主权项】
1.一种短信行为的大数据采集与分析方法,其特征在于:包括以下步骤:步骤1:集合所有短信的数据信息;步骤2:统计所有短信的行为特征并输出;步骤3:根据步骤2的输出结果判断出最优短信过滤结果;步骤4:根据步骤3的判断结果进行短信过滤。2.根据权利要求1所述的一种短信行为的大数据采集与分析方法,其特征在于:所述步骤I基于大数据平台实现,具体步骤如下: 步骤11:将操作数据进行实时记录,并将操作数据存储至本地存储器中; 步骤12:读取本地存储器中的操作数据,并对操作数据进行预处理; 步骤13:将预处理数据定时定量的远程发送至远程存储器中; 步骤14:读取远程存储器中的预处理数据,并按照短信的发送者和接收者对预处理数据进行分类处理,再将分类处理获得的分类数据存储至面向大数据的数据库; 步骤15:按照分类有序读取数据库中的分类数据。3.根据权利要求2所述的一种短信行为的大数据采集与分析方法,其特征在于:所述步骤12中的预处理包括剔除无效数据和整合重复数据。4.根据权利要求1所述的一种短信行为的大数据采集与分析方法,其特征在于:所述步骤2中短信行为特征为对应的短信接收者的数量。5.根据权利要求4所述的一种短信行为的大数据采集与分析方法,其特征在于:所述步骤2:短信行为特征的提取基于Hadoop平台和MapReduce函数完成,具体步骤如下: 步骤21:从采集到的数据中将短信的发送者和接收者列表提取作为输入; 步骤22:通过Map函数并行的将短信的发送者和接收者记录转换成发送者和每个接收者一对一的发送关系; 步骤23:通过Reduce函数计算每个发送者对应的短信接收者的个数; 步骤24:输出每个发送者对应的短信接收者的个数。6.根据权利要求1所述的一种短信行为的大数据采集与分析方法,其特征在于:所述步骤3中的最优短信过滤结果判断策略包括,其中,M<N: 1)当每个发送者对应的短信接收者的个数IN时,将该短信定为无效短信; 2)当每个发送者对应的短信接收者的个数<M时,将该短信定为有效短信; 3)M<当每个发送者对应的短信接收者的个数<圈寸,将该短信定为待定短信。7.根据权利要求1所述的一种短信行为的大数据采集与分析方法,其特征在于:所述步骤4中的过滤策略包括: 1)当该短信为无效短信时,将短信直接删除; 2)当该短信为有效短信时,将短信发用给相应接收者; 3)当该短信为待定短信时,将短信储存并告之接收者,接收者回复可查看,否则直接储存并定期删除。8.根据权利要求1所述的一种短信行为的大数据采集与分析方法,其特征在于:所述短信行为特征还包括短信回复率、发送成功率和平均发送短信的数量。9.一种用于权利要求1?8任意一项所述的短信行为的大数据采集与分析方法的系统,其特征在于:包括信息采集部件(701)、统计部件(702)、判断部件(703)和执行部件(704),所述信息采集部件(701)和统计部件(702)相连,所述统计部件(702)和判断部件(703)相连,所述判断部件(703)和执行部件(704)相连,所述信息采集部件(701)采集短信数据信息,所述统计部件(702)提取信息采集部件(701)提供的信息,并统计每个短信的行为特征信息,所述判断部件(703)获取统计部件(702)的统计结果,并给出判断结果,所述执行部件(704)进行短彳g过滤。10.根据权利要求9所述的一种短信行为的大数据采集与分析系统,其特征在于:所述执行部件(704)为云存储管理系统。
【专利摘要】本发明提供了一种短信行为的大数据采集与分析方法及系统,该系统包括信息采集部件、统计部件、判断部件和执行部件,所述信息采集部件采集短信数据信息,所述统计部件提取采集部件提供的信息,并统计每个短信的行为特征信息,所述判断部件获取统计部件的统计结果,并给出判断结果,所述执行部件进行短信过滤。本发明基于大数据Hadoop平台,利用MapReduce计算模型将短信过滤并行化,从而大大提高了大规模短信的过滤效率。本发明还可以同时基于多个短信的行为特征进行短信的过滤,提高了短信过滤的准确性。
【IPC分类】H04W12/12, H04W4/14
【公开号】CN105704689
【申请号】CN201610016941
【发明人】陈磊, 吴长福, 张如兵, 高宏翔, 方俊湘
【申请人】深圳市深讯数据科技股份有限公司
【公开日】2016年6月22日
【申请日】2016年1月12日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1