移动智能设备流式大数据实时处理方法

文档序号:10572662阅读:455来源:国知局
移动智能设备流式大数据实时处理方法
【专利摘要】本发明提供一种针对移动智能设备的流式大数据的实时处理方法,包括:来自移动客户端的流式数据传送至服务端后,服务端通过并发内容匹配、条件过滤和转换传送方式降低数据量,最后将处理后得到的数据用于后续应用。本发明所述的方法可以使初始获得的海量数据量大幅度地减少,从而大幅度地提升计算的速度和效率,最终使得在特定场景下有效、有意义的数据能够被后端应用或服务实时处理。本发明还提供了能完成所述的数据处理方法的系统。
【专利说明】
移动智能设备流式大数据实时处理方法
技术领域
[0001]本发明涉及一种数据处理方法,尤其涉及一种智能设备间流式大数据的实时处理方法。
【背景技术】
[0002]随着物联网(例如:移动医疗和车联网)的飞速发展,约有几十亿的智能设备(包括计算机和智能手机)联入了互联网,并且这一数字还在成指数级增长。伴随这些设备的接入,随时随地会有大量的数据产生,以移动医疗为例,海量的可穿戴或者智能医疗设备接入互联网,患者的问诊信息(电子病历)、身体状态信息(健康档案)、地理位置信息、用药信息、所处位置的环境信息(例如:天气)等各种海量信息都会以格式化或者非格式化的方式被收集、存储。如何利用大数据分析技术对这些数据进行分析和处理,尤其是实时分析,将会成为挑战,分析的结果将会对患者或者病人的病情监护、干预甚至治疗提供更加精准、及时的依据和洞察力,从而改变当前迟缓、被动及片面的医疗状况。
[0003]海量的实时数据流(LiveData Stream),使用传统的计算机技术(例如:Java和Ruby)很难处理,移动智能设备获得的数据更是具有场景和地理位置的多变性,传统的处理方法已经远远不能满足需求。因此在物联网快速发展的背景下,有必要提出一种针对物联网中智能设备产生的流式大数据的处理方法,以提高数据的利用效率,为人们工作和生活的诸多领域带来便利。

【发明内容】

[0004]本发明的目的在于:提供一种数据处理方法,对于大量接入互联网的移动智能设备高并发产生的海量流式大数据能够进行简单、高效地处理。
[0005]本发明的上述目的通过以下技术方案实现:
[0006]提供一种针对移动智能设备的流式大数据的实时处理方法,包括:来自移动客户端的流式数据传送至服务端后,服务端通过并发内容匹配、条件过滤和转换传送方式降低数据量,最后将处理后得到的数据用于后续应用。
[0007]本发明所述的移动智能设备的流式大数据的实时处理方法,具体包括以下步骤:
[0008]I)消息接收处理(Message Pre-processing)
[0009]从移动智能设备收集到的包括地理位置信息的海量数据,通过发布、订阅消息中间件传送至服务端;
[0010]2)并发内容匹配(Parallel Content Matching)
[0011]在所述的服务端,以大数据并发计算平台作为实时计算引擎,将步骤I)传送来的实时数据流分成1/2?I秒一个批次。
[0012]3)条件过滤
[0013]3.1)根据场景需要,定义基于地理信息的目标范围规则,保留目标范围内的数据,过滤掉目标范围外的无意义数据;
[0014]3.2)将步骤3.1)保留的数据分类,并将相同场景中相关度权重排在前50%的类别信息相融合,进一步降低待处理的数据量;
[0015]4、转换(Transformat1n)
[0016]对经过步骤3)处理后的数据进行传送方式的转换,所述的传送方式的转换包括以下三种中的任意一种或两种以上的组合:
[0017]4.1)降低数据传送频率;数据传送频率过高会产生大量重复无意义的数据,为数据处理带来困难,因此需要降低传送频率;
[0018]4.2)仅传送发生变化的数据;应用开发者往往只需要关注海量数据中发生改变的数据,因此可以放弃大量不发生变化的数据的无效传送;
[0019]或者
[0020]4.3)根据预设规则划分数据子群并仅传送处理成本相对低的子群数据;通常可以将数据按照各种预设的规则划分为表现相反或相对的两个数据子群,直接处理成本相对低的子群数据,则可以在显著减少处理量的同时实现对全部数据的掌握。
[0021]5、将步骤4)处理后的数据集提交给后续的应用。
[0022]本发明的方法中,来自移动客户端的海量的数据信息通过上述步骤的处理、过滤和转换,达到大幅减少数量、提高计算效率的目的,从而解决流式实时海量数据无法及时准确分析处理的问题。
[0023]本发明所述的方案中,步骤I)所述的从移动智能设备收集到的包括地理位置信息的海量数据,可以通过现有的多种发布、订阅消息中间件传送至服务端,本发明优选通过消息队列遥测传输(MQTT)模块将数据传送至服务端。
[0024]本发明所述的方案中,步骤2)所述的实时计算引擎可以采用现有的多种计算框架完成,本发明优选采用Spark Streaming实时计算框架。该计算框架可以通过大数据的处理方法在一定程度上预先过滤、转换和快速处理来自移动智能设备的海量数据信息。
[0025]本发明优选的一种方案中,步骤3.1)是根据场景需要确定感兴趣的地理位置区域特征,以所述的特征定义地理围栏,保留地理围栏内的数据,过滤掉地理围栏外的无意义数据;
[0026]所述的地理围栏的定义,可以通过多种方式实现。例如,在获取的移动客户端地理位置信息分布可视化界面上,以感兴趣区域内最显著特征所在点为圆心,以固定半径划定圆形地理围栏;或者,通过计算机系统对所获得的移动客户端地理位置信息进行实时数据分析,基于获得的移动客户端地理位置信息与感兴趣区域特征的匹配关系来精确划定多边形地理围栏。不同的地理围栏定义方式可以满足不同场景下的不同精确度或实时性要求。
[0027]本发明所述的方案中,步骤3.2)所述的分类和排序可以通过分析实时数据后根据既定场景要求将类别权重进行排序,也可以先基于少量数据完成模型训练后对所有数据进行类别的权重排序。
[0028]本发明进一步优选的方案中,步骤3.2)针对所述的排序设定应用准确度阀值,实时反馈应用准确度,当应用准确度低于阀值时,对所述的排序进行调整。
[0029]本发明所述的方案中,步骤4.1)所述的降低数据传送频率可以通过平均值、最小值、最大值或中值数据运算方法确定最终数据传送频率。
[0030]此外,本发明还提出一种能够实现所述的移动智能设备流式大数据实时处理的系统,主要包括移动客户端和服务端;所述的移动客户端用于采集包括地理位置信息的实时数据;所述的服务端用于处理来自移动客户端的实时流式数据;所述的客户端和服务端之间通过无线传输方式交流;
[0031]所述的服务端进一步包括数据接收及预处理模块、并发内容匹配模块、条件模块、转换模块和执行模块;
[0032]所述的数据接收及预处理模块,用于接收来自移动智能设备的包括地理位置信息的海量数据;所述的接收可通过发布、订阅消息中间件完成;
[0033]所述的并发内容匹配模块,用于将接收到的流式数据实时划分批次;
[0034]所述的条件模块,用于过滤实时流式数据中不必处理的数据;所述的条件模块进一步包括地理围栏单元和上下文信息融合单元;
[0035]所述的转换模块,用于进一步降低传送数据量,以筛选获得值得处理的数据;所述的转换模块进一步包括降低频率单元、仅传递变化数据单元和多维度异常点检测单元;
[0036]所述的执行模块,用于将处理后的数据集提交给后续的应用或触发后续的动作。
[0037]目前,快速发展的移动医疗、车联网等智能设备传感器往往会产生高频次的海量数据,然而现有的手机或者Web应用采用的企业级或互联网技术(例如:Java或Ruby等)无法及时处理由智能设备产生的高频海量数据(如:170Hz振动传感器的数据、50Hz的PMU电源管理传感器的数据或者10Hz石油勘探传感器的数据)。本发明的方法及系统提供了适合用于移动智能设备采集的实时大量流式数据的处理方法,尤其是含有地理位置信息的实时流式数据的处理。地理位置信息对于移动医疗设备、车联网、物联网设备日益重要,并且越来越多的LBS信息会随着互联网及移动终端设备的应用而生产。本发明方法中,通过提供圆形、方形和多边形的地理围栏信息,可以定义基于地理信息的范围规则,从而降低数据量。在此基础上,本发明进一步通过降低数据采样频次、变换数据采样样本和数据采样条件来达到进一步过滤和删减数据量的目的。通过本发明所述的条件模块的过滤,以及转化模块的数据变形和转换后,初始获得的海量数据量会大幅度地减少,从而大幅度地提升计算的速度和效率,最终使得在特定场景下有效、有意义的数据能够被后端应用或服务实时处理。
【附图说明】
[0038]图1是本发明所述的数据处理方法的基本流程图。
【具体实施方式】
[0039]以下通过实施例的方式进一步详细阐述本发明的内容,但本发明的范围不限于以下实施例。
[0040]实施例1
[0041]—种针对来自移动医疗智能设备的流式大数据的实时处理方法,具体包括以下步骤:
[0042]I)消息接收处理(Message Pre-processing)
[0043]从可穿戴的血压和心电动态监测装置采集到的包括地理位置信息的海量数据,通过MQTT传送至服务端;
[0044]2)并发内容匹配(Parallel Content Matching)
[0045]在所述的服务端,以SparkStreaming模块作为实时计算引擎,将步骤I)传送来的实时数据流分成1/2秒一个批次。
[0046]3)条件过滤
[0047]3.1)场景设置:
[0048]在低气压天气状况下,对高原地区的高血压或心律不齐患者进行告警。
[0049]3.2)地理围栏过滤
[0050]在服务端获取的移动客户端地理位置信息分布可视界面上,以气象数据中低气压地区和地理数据中的高海拔地区的重叠区域为感兴趣区域,以感兴趣区域内最低气压且最高海拔的位置作为圆心,以10km为半径划定圆形地理围栏,保留目标范围内的数据,过滤掉目标范围外的数据;
[0051 ] 3.3)将步骤3.2)保留的数据分为“大气压信息”、“包括患者血压和心律状况的体征信息”、以及” GPS地理位置信息”;根据步骤3.1)既定场景,将类别权重进行排序,并将相同场景中相关度权重排在前50%的类别信息相融合,进一步降低待处理的数据量,具体包括:给出的先验的权重是患者体征信息占50 %,大气压信息占30 %和GPS地理位置信息占20%,融合过程是对各个类别值和权重值的算术乘积取和,根据患者体征信息(例如高血压、心律不齐的患者值为100,以此类推)与相关权重50 %的乘积,天气状况的值(例如:气压低的天气值为100,以此类推)与相关30 %权重的乘积,地理位置值(例如:海拔在1500m以上的高原地区的地理位置值为100,以此类推)与相关权重20%的乘积,最后将这三个值求和。此外,还对所述排序设定一个“应用准确度阀值”,并实时反馈应用准确度,当应用准确度低于阀值时,对所述的排序进行调整。
[0052]4、转换(Transformat1n)
[0053]对经过步骤3)处理后的数据进行传送方式的转换,所述的传送方式的转换包括:
[0054]4.1)降低数据传送频率;将数据采集和发送的频度从毫秒级变为秒级或者1/2秒级;
[0055]4.2)仅采集和传送相同类别中发生了变化的那部分数据;
[0056]5、将步骤4)处理后的数据集通过Kafka提交给后续的报表系统,并且根据报表结果触发消息推送服务,将告警提示信息实时、准确地发送至处于高原地带且患有高血压和心脏病的患者的移动客户端,提醒其注意防控,降低突然发病的几率。
[0057]实施例2
[0058]一种针对来自车联网智能设备的流式大数据的实时处理方法,具体包括以下步骤:
[0059]I)消息接收处理(Message Pre-processing)
[0060]从车载OBD系统通过3G/4G信号收集到的汽车内部CAN总线和K总线的数据,与其地理位置信息一起组成数据集,通过MQTT传送至服务端;
[0061 ] 2)并发内容匹配(Parallel Content Matching)
[0062]在所述的服务端,以SparkStreaming模块作为实时计算引擎,将步骤I)传送来的实时数据流分成I秒一个批次。
[0063]3)条件过滤
[0064]3.1)场景设置:
[0065]在极端雨雪天气情况下,针对危险、连续转弯或事故多发路段设置地理围栏,通知行驶车辆注意道路情况,安全驾驶;
[0066]3.2)地理围栏过滤:
[0067]通过计算机系统对所获得的移动客户端地理位置信息进行实时数据分析,基于获得的移动客户端地理位置信息与雨雪气象特征和陡坡、多弯等既有路况特征的匹配关系来精确划定多边形地理围栏,保留目标范围内的数据,过滤掉目标范围外的数据;
[0068]3.3)将步骤3.1)保留的数据分为“天气”、“驾驶习惯”以及“GPS地理位置”几个类另IJ,先基于少量数据完成模型训练后对所有数据进行类别的权重排序,并将相同场景中相关度权重排在前50%的类别信息相融合,进一步降低待处理的数据量;具体包括:给出的先验的权重是天气占50%,GPS地理位置信息占30%和驾驶习惯占20%,融合过程是对各个类别值和权重值的算术乘积取和,根据天气恶略程度值(例如极端雨雪天气时天气恶略程度值为100,以此类推)与相关权重50%的乘积,并且根据GPS的路段状况值(例如:连续转弯或事故多发的危险路段的路段状况值为100,以此类推)与相关30%权重的乘积,驾驶员驾驶习惯值(例如:常有“猛打方向盘”或者“急刹车”的,驾驶习惯值为100,以此类推)与相关权重20%的乘积,最后将这三个值求和。另外还针对上述排序设定一个“应用准确度阀值”,实时反馈应用准确度,当应用准确度低于阀值时,对所述的排序进行调整。
[0069]4、转换(Transformat1n)
[0070]对经过步骤3)处理后的数据进行传送方式的转换,所述的传送方式的转换包括:
[0071]4.1)降低数据传送频率;将数据采集和发送的频度从毫秒级变为秒级或者1/2秒级;
[0072]4.2)仅采集和传送相同类别的数据中发生了变化的那部分数据;以及
[0073]4.3)根据预设规则划分数据子群并仅传送处理成本相对低的子群数据;通常可以将数据按照各种预设的规则划分为表现相反或相对的两个数据子群,直接处理成本相对低的子群数据,则可以在显著减少处理量的同时实现对全部数据的掌握;具体可以是:刹车片的散热或其他工况通过传感器反映为不同的颜色,车载智能客户端通过颜色来判断相关设备的工作状态,当所述预设规则是要给红色状况的客户端发送消息时,则将数据分为红色或非红色的子群,然后判断哪一子群处理成本更低,则选择该子群进行相应的处理。
[0074]5、将步骤4)处理后的数据集通过Kafka提交给后续的报表系统,并且根据报表结果触发消息推送服务,将天气和路况信息实时、准确地发送至需要特别提醒的驾驶员的车载移动客户端,以提醒其注意安全,减少交通事故发生几率。
【主权项】
1.一种来自移动智能设备的流式大数据的实时处理方法,具体包括以下步骤: 1)消息接收处理 从移动智能设备收集到的包括地理位置信息的海量数据,通过发布、订阅消息中间件传送至服务端; 2)并发内容匹配 在所述的服务端,以大数据并发计算平台作为实时计算引擎,将步骤I)传送来的实时数据流分成1/2?I秒一个批次; 3)条件过滤 3.1)根据场景需要,定义基于地理信息的目标范围规则,保留目标范围内的数据,过滤掉目标范围外的无意义数据; 3、2)将步骤3.1)保留的数据分类,并将相同场景中相关度权重排在前50%的类别信息相融合,进一步降低待处理的数据量; 4、采样转换 对经过步骤3)处理后的数据进行传送方式的转换,所述的传送方式的转换包括以下三种方式中的任意一种或两种以上的组合: 4.1)降低数据传送频率; 4.2)仅传送发生变化的数据; 或者 4.3)根据预设规则划分数据子群并仅传送处理成本相对低的子群数据。 5、将步骤4)处理后的数据集提交给后续的应用。2.权利要求1所述的方法,其特征在于:步骤I)所述的从移动智能设备收集到的包括地理位置信息的海量数据,通过消息队列遥测传输(MQTT)模块将数据传送至服务端。3.权利要求1所述的方法,其特征在于:步骤2)所述的实时计算引擎采用SparkStreaming实时计算框架。4.权利要求1所述的方法,其特征在于:步骤3.1)是根据场景需要确定感兴趣的地理位置区域特征,以所述的特征定义地理围栏,保留地理围栏内的数据,过滤掉地理围栏外的无意义数据。5.权利要求4所述的方法,其特征在于:所述的地理围栏的定义,是在获取的移动客户端地理位置信息分布界面上,以感兴趣区域内最显著特征所在点为圆心,以固定半径划定圆形地理围栏。6.权利要求4所述的方法,其特征在于:所述的地理围栏的定义,是通过计算机系统对所获得的移动客户端地理位置信息进行实时数据分析,基于获得的移动客户端地理位置信息与感兴趣区域特征的匹配关系来精确划定多边形地理围栏。7.权利要求1所述的方法,其特征在于:步骤3.2)所述的分类和排序可以通过分析实时数据后根据既定场景要求将类别权重进行排序,或者,先基于少量数据完成模型训练后对所有数据进行类别的权重排序。8.权利要求1或7所述的任意一种方法,其特征在于:步骤3.2)针对所述的排序设定应用准确度阀值,实时反馈应用准确度,当应用准确度低于阀值时,对所述的排序进行调整。9.权利要求1所述的方法,其特征在于:步骤4.1)所述的降低数据传送频率通过计算数据的平均值、最小值、最大值或中值来确定最终数据传送频率。10.—种能够实现权利要求1所述的移动智能设备流式大数据实时处理的系统,主要包括移动客户端和服务端;所述的移动客户端用于采集包括地理位置信息的实时数据;所述的服务端用于处理来自移动客户端的实时流式数据;所述的客户端和服务端之间通过无线传输方式交流; 所述的服务端进一步包括数据接收及预处理模块、并发内容匹配模块、条件模块、转换模块和执行模块; 所述的数据接收及预处理模块,用于接收来自移动智能设备的包括地理位置信息的海量数据;所述的接收可通过发布、订阅消息中间件完成; 所述的并发内容匹配模块,用于将接收到的流式数据实时划分批次; 所述的条件模块,用于过滤实时流式数据中不必处理的数据;所述的条件模块进一步包括地理围栏单元和上下文信息融合单元; 所述的转换模块,用于进一步降低传送数据量,以筛选获得值得处理的数据;所述的转换模块进一步包括降低频率单元、仅传递变化数据单元和多维度异常点检测单元; 所述的执行模块,用于将处理后的数据集提交给后续的应用或触发后续的动作。
【文档编号】H04L29/06GK105933308SQ201610245587
【公开日】2016年9月7日
【申请日】2016年4月20日
【发明人】高旸, 张冰, 胡易
【申请人】北京章鱼智数科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1