一种基于移动通信运营数据的城市群体行为监测系统的制作方法

文档序号:12477653阅读:370来源:国知局
一种基于移动通信运营数据的城市群体行为监测系统的制作方法与工艺

本发明属于智能电子系统技术领域,具体涉及一种基于移动通信运营数据的城市群体行为监测系统。



背景技术:

随着社会和科学技术的-发展,以智能手机为载体的移动互联网的兴起,不仅极大地方便了人与人之间的通信和交往,而且还在逐渐影响和改变人们的生活方式和社会的组织形式。由于智能手机通常都是随身携带的,智能手机与基站的交互不仅记录了基站周围的人口密度,同时还记录了人的位置信息。进一步,将一段时间的位置信息串联起来,则能得到人的运动轨迹。将许多人的运动轨迹集合起来,则能得到群体的行为模式和密度分布。显然,对从移动通信运营数据中提取出的位置轨迹数据进行分析和利用,为解决城市问题提供了一种新的思路。比如,这些数据可以用于监控道路环境,改进交通服务,检测城市动态和评估城市规划。

已有科学研究表明使用位置轨迹数据是可以预测人的行为模式的。Chaoming Song等人2010年发表在《Science》上的论文显示对人行为的预测准确率可以达到93%,并且最低的预测准确率也达到了80%。著名媒体《华尔街日报》曾专门撰文(The Really Smart Phone,2011)指出,通过分析手机数据我们可以得到一个人的社会活动状况,旅行情况,患病风险和政治倾向等信息。《MIT Technology Review》在其一篇文章中,更是将电话数据比喻为一座金矿。随着移动电话,尤其是智能手机的普及,各种基于地理位置的服务(LBS,Location Based Services)应运而生,从商业的角度看,目前的LBS应用大多集中在社交和推荐领域。如果从社会公共服务的角度思考,我们会发现LBS可以应用于很多方面,典型的有:估计人口密度,估计发生在城市不同区域内的活动类型,估计不同的区域(团体)之间的联系手段和频率,估计居住和工作区域,估计用户之间的往来模式,预测异常的个体和团体活动以及预测潜在的犯罪活动。

由于对个体行为的监测分析涉及到法律和隐私等方面的约束,而且除了公安等特定部门外,对个体行为的监测也没有什么实用意义。但是对于整个区域的群体行为的监测,分析和预测则对城市建设和规划,以及诸多决策都有很多参考意义。比如目前已经有很多景区实施了相应的监测工程,一方面可以防止人员流入过多导致踩踏等恶性事件的发生,另一方面根据人员的流动和驻留情况可以优化配套服务设施的部署。

为了更好地分析和使用移动通信运营数据,并为城市以及特定区域的规划和决策提供科学参考,我们提出并公开一种基于移动通信运营数据的城市群体行为监测系统的具体实施方法。通过使用本发明公开的方法,软件开发者可以基于不同的开发环境和开发语言实现具体的目标任务



技术实现要素:

本发明的目的是提供一种基于移动通信运营数据的城市群体行为监测系统的实现方法,该系统主要使用特征提取,数据可视化,轨迹分析和群体行为预测等技术,为城市规划,政策制定,行为决策等提供科学的数据支撑,并对可能发生的群体事件进行预测,是“智慧城市”建设中重要的一环。

为了实现上述目的,本发明采用的技术方案为:

一种基于移动通信运营数据的城市群体行为监测系统,所述监测系统包括数据采集模块、数据预处理模块、数据显示与可视化模块、群体行为实时监测模块、群体行为分析预测模块、警报与日志模块和数据库;

上述所有模块分别位于服务器端和客户端:所述数据采集模块和所述数据预处理模块运行于服务器端;所述数据显示与所述可视化模块运行于客户端,所述群体行为实时监测模块、群体行为分析预测模块和警报与日志模块运行于客户端和服务器端,两端协同工作;数据库位于专用的数据库服务器,所述数据库服务器和运行数据采集模块的服务器端程序部署在同一台服务器上。

优选地,所述数据采集模块用于从运营商的存储系统中采集数据。

优选地,所述数据采集模块采用数据复制的方式从运营商的存储系统中将需要的数据通过网络传送到本发明所公开的目标系统的存储设备上。

优选地,所述数据预处理模块主要完成四大功能: 数据去噪声、数据格式化、目标字段提取和数据结构化存储;所述数据采集模块采集到的数据以纯文本格式存储,数据预处理模块对这些纯文本文件逐一处理:首先,数据预处理模块根据文本首行记录的字段和索引位置检测每一条记录字段是否完整,剔除掉空行,字段不完整的行以及缺少首行描述等的不规范记录;其次,根据业务类型,数据预处理模块从大量字段记录中抽取出需要的字段,并将这些字段组成的新记录写入到数据库中,同时将原始记录保存到指定的存储目录,并做文本索引,便于以后查询;最后,数据预处理模块将得到的只有目标字段组成的完整记录通过网络传送到客户端程序进一步处理。

优选地,所述数据预处理模块既可以是传统的C/S形式的服务器端程序,也可以是WebService程序。

优选地,所述数据显示与可视化模块是一个地理信息系统,所述模块在系统初始化时加载地图切片,在系统工作区显示当前指定区域的地图信息,同时将指定区域类的基站根据用户导入的位置信息显示到地图上,并初始化生成热度图层,标签图层,轨迹图层和其他信息显示图层;该模块在收到所述数据预处理模块发送过来的记录后,根据其中的基站编号信息找到GIS中的基站位置,将基站覆盖半径范围内的总人数加一;如前所述,在GIS的基底地图图层上,所述城市群体行为检测系统在初始化时还生成了热度图层用不同颜色及颜色深度的变化来显示区域的人数变化,生成了标签图层用文本来显示基站和区域的属性信息,生成了轨迹图层用带箭头的线条来展示指定时间区间内人员的流动轨迹和方向,生成了其他信息显示图层用于用户设置的备注信息的显示以及用户标注的显示。

优选地,所述群体行为实时监测模块是对实时数据进行解析,将一条一条的记录转化为各类动态统计信息,并调用所述数据显示与可视化模块展示出来,不仅调用数据显示与可视化模块动态更新区域统计信息,动态更新热度图,同时,实时监测模块还会根据用户对某些区域设置的阈值发出实时警报,不同时期的实时统计结果还为用户设置阈值提供参考数据。

优选地,所述群体行为分析预测模块结合当前数据信息和历史数据信息,使用统计和概率的方法,完成对当前行为模式的判断和对未来可能行为的预测。

优选地,所述警报与日志模块用于显示系统的实时警报信息和记录历史日志,便于管理员管理和追踪。

优选地,所述数据库用于存储系统运行中需要和生成的各种信息,数据库服务器以及表结构可以根据用户的实际情况客观选择,对数据库的操作使用标准的SQL语言。

本发明提供的基于移动通信运营数据的城市群体行为监测系统,具有以下直观的效果:

本发明提供的一种基于移动通信运营数据的城市群体行为监测系统,对于人口密度分析,交通状态分析和热点事件分析提供了科学的数据基础,提供了一种城市群体行为的预测方法,通过对历史事件中监测数据的特征提取以及与当前状态的比较,可以使用概率模型预测城市群体可能的行为,比如大型集会,流动路径和群体组成等,有效预测对于道路分流优化和城市公共安全具有重要意义,同时,准确的统计和预测结果对于城市规划和商业选址也有很大的参考意义;同时提供了一种“智慧城市”的建设思路。智慧城市就是运用信息和通信技术手段感测、分析、整合城市运行核心系统的各项关键信息,从而对包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能响应。显然,本发明所公开的系统和实施方法符合智慧城市的建设思路;进一步挖掘了移动运营数据的价值,运营商每天都在产生海量数据,但是这些数据中的绝大部分都只是被存储起来,除了很少的查询外几乎没有其他价值,本发明所公开的系统从移动运营数据中提取出有价值的字段加以分析,便能造福于众。

附图说明

图1为本发明一种基于移动通信运营数据的城市群体行为监测系统的结构框图;

图2为本发明一种基于移动通信运营数据的城市群体行为监测系统的移动通信数字核心网络结构示意图;

图3为本发明一种基于移动通信运营数据的城市群体行为监测系统的数据预处理模块工作流程图;

图4为本发明一种基于移动通信运营数据的城市群体行为监测系统的基站集合关系图;

图5为本发明一种基于移动通信运营数据的城市群体行为监测系统的目标基站集合求解示意图。

具体实施方式

下面详细说明本发明的实施例。以下所述实施例是示例性的,旨在解释本发明,而不应理解为对本发明的限制。

以下实施例结合附图和具体实施例对本发明的技术方案进行详细的说明,以使本发明的特性和优点更为明显。

本发明所公开的一种基于移动通信运营数据的城市群体行为监测系统右多个功能模块共同完成。这些功能模块分别是:数据采集模块,数据预处理模块,数据显示与可视化模块,群体行为实时监测模块,群体行为分析预测模块,警报与日志模块和数据库。这些模块又分别位于服务器端和客户端。其中,数据采集模块和数据预处理模块运行于服务器端;数据显示与可视化模块运行于客户端,群体行为实时监测模块,群体行为分析预测模块和警报与日志模块运行于客户端和服务器端,两端协同工作;数据库位于专用的数据库服务器,为了方便描述,本发明中数据库服务器和运行数据采集模块的服务器端程序部署在同一台服务器上。

所述数据采集模块用于从运营商的存储系统中采集数据。为了不影响运营商对原始数据的后续处理,数据采集模块采用数据复制的方式从运营商的存储系统中将需要的数据通过网络传送到本发明所公开的目标系统的存储设备上。运营商的存储系统中会生成多种多样的数据,比如位置更新数据,电话号码记录以及计费信息等。随着业务的变化,数据的类型也会随之改变。为了描述的准确性,在本发明中我们以运营商计费信息为例进行说明。数据采集模块以客户端/服务器的方式工作,数据采集模块客户端工作在运营商存储管理服务器中,监测运营商存储器的变化,当有新记录生成时,将该记录写入临时文件,每隔指定的时间,比如1秒,关闭临时文件写入,并将文件通过网络传送到数据采集模块服务器。数据采集模块服务器工作在本发明所述目标系统的服务器端,在指定的端口监听并接收数据采集模块客户端发送过来的文件。为了便于数据的存储和后续处理,数据采集模块使用纯文本形式传输数据,不同的字段在文本中使用制表符分隔,并且在每个文本的首行指定字段的意义和索引。数据采集模块在没有外力干预的情况下,不间断工作。

所述数据预处理模块主要完成四大功能: 数据去噪声,数据格式化,目标字段提取和数据结构化存储。如前所述,数据采集模块采集到的数据以纯文本格式存储,数据预处理模块对这些纯文本文件逐一处理。首先,数据预处理模块根据文本首行记录的字段和索引位置检测每一条记录字段是否完整,剔除掉空行,字段不完整的行以及缺少首行描述等的不规范记录。其次,根据业务类型,数据预处理模块从大量字段记录中抽取出需要的字段,并将这些字段组成的新记录写入到数据库中,同时将原始记录保存到指定的存储目录,并做文本索引,便于以后查询。最后,数据预处理模块将得到的只有目标字段组成的完整记录通过网络传送到客户端程序进一步处理。所述数据预处理模块既可以是传统的C/S形式的服务器端程序,也可以是WebService程序。为了描述清楚,在本发明中我们以传统的C/S形式为例进行说明。

所述数据显示与可视化模块是一个地理信息系统(Geographic Information System,GIS)。该模块在系统初始化时加载地图切片,在系统工作区显示当前指定区域的地图信息,同时将指定区域类的基站根据用户导入的位置信息显示到地图上,并初始化生成热度图层,标签图层,轨迹图层和其他信息显示图层。该模块在收到所述数据预处理模块发送过来的记录后,根据其中的基站编号信息找到GIS中的基站位置,将基站覆盖半径范围内的总人数加一。如前所述,在GIS的基底地图图层上,本发明所公开系统在初始化时还生成了热度图层用不同颜色及颜色深度的变化来显示区域的人数变化;生成了标签图层用文本来显示基站和区域的属性信息,比如位置信息,面积信息和人口信息等;生成了轨迹图层用带箭头的线条来展示指定时间区间内人员的流动轨迹和方向;生成了其他信息显示图层用于用户设置的备注信息的显示以及用户标注的显示等。

所述群体行为实时监测模块是系统的核心部分之一,通过该模块对实时数据的解析,将一条一条的记录转化为各类动态统计信息,并调用所述数据显示与可视化模块展示出来。在本发明所公开的系统中,实时监控模块不仅调用数据显示与可视化模块动态更新区域统计信息,动态更新热度图。同时,实时监测模块还会根据用户对某些区域设置的阈值发出实时警报,比如用户设置某一广场周围2km内人数超过一万人时实时发出警报。最后,不同时期的实时统计结果还为用户设置阈值提供参考数据。

所述群体行为分析预测模块是系统的另一核心部分,与所述群体行为实时监测模块比起来,该模块的重点不在于统计和展示,而是结合当前数据信息和历史数据信息,使用统计和概率的方法,完成对当前行为模式的判断和对未来可能行为的预测。该模块使用的详细技术手段将在后文重点说明。

所述警报与日志模块同于显示系统的实时警报信息(比如,人数超限,系统异常,预测到可疑行为等)和记录历史日志,便于管理员管理个追踪。

所述数据库用于存储系统运行中需要和生成的各种信息,比如,用户名和口令,用户希望以后等快速检索的数据记录和用户的配置信息等。数据库服务器以及表结构可以根据用户的实际情况客观选择,对数据库的操作使用标准的SQL语言。

本发明所公开的一种基于移动通信运营数据的城市群体行为监测系统从软件功能来分,主要有数据采集模块,数据预处理模块,数据可视化模块,群体行为实时监测模块,群体行为分析预测模块和警报与日志模块。其中数据采集模块运行在运营商设备和本地(相对于运营商而言)服务器上,数据预处理模块运行在本地服务器上,数据可视化模块运行在本地客户端,群体行为实时监测模块,群体新闻分析预测模块和警报与日志模块由本地服务器和客户端共同运行。由此,从图1可以看出,系统中涉及到运营商设备,本地服务器,本地客户端和用户。本地服务器既有负责数据处理的服务,又有负责数据存储的服务,为了便于描述,将二者合在一起说明。接下来便从各个模块的工作机制来详细说明本发明所公开的一种基于移动移动通信运营数据的城市群体行为监测系统的技术细节。由于警报与日志模块在技术实现角度没有需要特别说明的,因此下文主要描述其它五个模块的实施要点。

本发明通过以下的方法实施所述要点:

数据采集模块的技术细节。数据采集模块是一个网络文件传输系统。首先,位于运营商端的程序循环检测运营商目标位置的记录更新,每当更新的记录条数达到预先设置的数值(比如5万条)以后便复制这些记录到文本文件,随后将该文本文件通过网络传送到本地服务器。本地服务器端程序接收到文件后保存到指定目录。为了便于后续处理,所有的记录被保存成纯文本格式传送。文本中各个字段通过制表符分隔。同时,为了便于以后对文本的维护,文本的首行给出了每个字段所代表的含义。以从运营商采集计费信息为例进一步说明。

图2所示为3G核心网PS(报文交换)域计费网关的结构图,图中与计费相关的节点有四个:CG(Charging Gateway)表示的是计费网关;BS(Billing System)为计费系统;SGSN(Serving GPRS Support Node)为服务GPRS支持节点;GGSN(Gateway GPRS Support Node)为关口GPRS支持节点。基本的计费流程为:SGSN产生S-CDR(话单记录),GGSN产生G-CDR,两种CDR被送给CG,CG把多个SGSN和GGSN传过来的CDR通过共同的C-ID(上下文计费标示)进行合并,最后把合并后的话单发送到BS(Billing System)统一处理。于是,我们可以在BS服务器采集计费信息数据。采集到的原始计费信息主要见表1所示的一些关键字段:

表1计费信息主要组成字段表

数据采集模块将右表1所示的主要字段组成的记录逐条写入文本文件,字段之间用制表符隔开,并且在文本的首行加上对字段的描述后发送到本地服务器进一步处理。

数据预处理模块的技术细节。数据采集模块采集到的原始数据中包含很多关键字字段,这些字段并不是每一个都能为我们提供进行群体行为分析的必要信息,所以数据预处理模块的主要内容是分析话单字段中的有效信息,过滤一些不需要的字段比如设备信息运营商内部使用的编号等,保留有效信息的字段,根据需要添加其他必要的字段,预处理流程图如图3所示。

(1) 话单文件统一编码。由于获取的很多话单组成的是一个个txt文本,从不同的CG获取的话单格式可能不同,我们需要把话单的文本文件统一编码成UTF-8方便我们对数据的后续处理。

(2) 对获取的话单数据进行分析。话单数据的格式如表2第一行所示,其中RT(Record Type),PDP Type为话单合并是所必要的字段,对于我们进行群体行为分析没有用所以要过滤掉;IMSI和IMEI为手机sim卡标识和手机设备标识,我们识别用户是通过MSISDN(即用户手机号码),所以这两个字段要过滤掉;PDP Type标识的PDP承载网络的类型也与我们后续处理无关。最后记过筛选后保留的字段有MSISDN(Mobile Subscriber International ISDN/PSTN number)它是指主叫用户为呼叫GSM PLMN中的一个移动用户所需拨的号码,是移动用户的唯一识别码;LAC(Local Area Code)位置区域标识,唯一的标识一个基站的位置信息,用2个字节的16进制表示,例如L1L2L3L4(范围0000~FFFF,可定义65536个不同的位置区);CELL-ID(Cell Indentity)小区基站编号,一般基站位于蜂窝正六边形的中心,采用全向天线,称为中心激励,所以一个CELL-ID也唯一的标识一个基站;ROT(Record Opening Time)记录打开时间,也就是我们要得到的用户地理位置信息中的时间维度。提取字段后的话单格式如表2第二行所示。

表2数据格式表示例

(3) 补充新字段。表2中显示的是筛选过后的数据集字段但是里面并没有表示地理位置信息的字段,要获取用户的GIS信息就需要用到基站定位技术,通过获取用户所在的基站位置来识别用户位置,要获取基站的位置信息首先要获得基站的标识。LAC字段和CELL-ID字段可以唯一的标识一个基站,一般用LAC+CELL来确定一个位置,通过读取LAC+CELL和经纬度的映射文件就可以确定一个基站的真实的经纬度,表2最后一行为LAC+CELL与LNG(经度)+LAT(纬度)的映射关系,字段添加完以后的数据集格式如表2第三行所示。

(4) 数据的格式化。将上一步得到的数据字段进行格式的统一化:MSISDN、LAC、CELL-ID字段保持格式不变;ROT字段使用统一的时间格式:YYYY-MM-DD hh:mm:ss(例如2011-05-01 23:59:59);O_LAT和O_LNG统一格式为小数点后3位(例如104.241),因为太高的精度会在计算基站位置时会增加很大的时间开销,而且对我们计算群体的分布不会有太大的影响。

(5) 频繁数据过滤。在真实移动通信场景用户的上网行为是不可控的,例如有些用户可能在很短的时间内频繁的进行网络连接,这就造成在同一个用户在很短的时间内在同一个话单文本文件中出现多条记录并且都出现在同一基站,这种频繁出现的话单记录不但对我们分析群体分布没有太大的帮助,而且会造成大量的无用工作,严重影响系统性能。通过我们对2000个用户进行的统计发现,在1分钟内用户发生过基站切换的只有56人。由此估计用户在1分钟内不发生基站切换的概率为97.2%。所以如果用户在一分钟内连续的出现在同一基站,我们只保留第一条记录。

最后,将这些由新字段组成的新记录写入到数据库中,同时将原始记录保存到指定的存储目录,并做文本索引,便于以后查询。

数据可视化模块的技术细节。数据可视化模块是一个GIS系统。数据可视化模块负责将接收到的数据中的时空信息联系起来,并通过以地图为主,其他控件为辅的图形化程序显示出来。当监测区域比较大以后,系统在单位时间内需要处理大量数据,而系统管理员往往更关心的是群体整体的行为,所以数据可视化模块可视化显示的数据基础主要是统计信息,比如,每隔3秒更新区域人数热度图,更新的数据依据便是过去3秒内统计信息的变化。

数据可视化模块也作为群体用户实时监测模块的显示主要界面。从使用者的角度看,二者在功能呈现上有很多重合的地方。但是从系统实现的角度看,二者是相互独立的软件模块,因此,本小节重点从数据可视化模块的技术实现层面说明。

数据可视化模块由三部分组成,分别是地图(Map),图层(Overlay)和标记(Markers)。这三部分以分层的形式叠加,其中Map层位于最底下,是唯一的,由地图切片组成,用于显示建筑,道路,河流和山脉等地图基本元素。Overlay层可以看作是透明的层,就像玻璃一样叠加在Map层之上,由于Overlay的画布是透明的,根据实际需要,在一个数据可视化模块中可以叠加多个Overlay层,比如,用一层显示人口数量热度图,用另外一层显示区域边界。Markers位于最上层,用于显示用户标记和一些需要置顶显示的信息,比如,文字化的统计信息和工作区注释等。

最底层为Map可以接入不同的地图数据源,如百度地图和谷歌地图等;中间层为Overlay,它如同一个完全透明的画布一样平铺到Map 层上面;最上面一层为Markers层,该层为我们要显示的标签、路径、多边形和网格等。想要把我们定义的标签添加到数据可视化模块上显示出来需要如下三个步骤:

(1)首先定义我们要添加的Markers,并定义一个Overlay。

(2)其次将所有Markers添加到定义的Overlay当中。

(3)最后将Overlay添加到已经添加到窗体中的Map Control当中,并通知窗体刷新控件就可以显示出来。

群体行为实时监测模块的技术实现。群体行为分析的基础是发现群体聚集行为。群体事件可以简单地定义为有多人在什么时间什么地点持续活动了多长时间。由于数据中已经包含了时间信息,地点信息可以通过基站位置映射到GIS系统中,所以群体行为的实时监测在于发现群体聚集行为,而在本发明所公开的系统中,群体的聚集是从区域内人口的密度来判断的。系统实时统计出区域内的人口密度后,要判断是什么样的行为,还需要训练样本来说明。具体地,系统在初始运行阶段需要先进行学习,由管理员“教”给系统什么样的统计结果表示什么事件,系统将管理员的教导作为记忆存储在数据库中。系统在正常工作时,每次更新统计信息后,都会与数据库中的记录做对比,如果当前统计结果符合之前学习的某种事件的条件,则判断为某事件发生。

在现实生活中,一定范围内的人群每时每刻都在变化当中,想要建立一个万能的模型来反映这个范围的用户的聚集情况是不现实的。比如要对同一区域的用户分布进行统计,工作日和周末或白天和晚上得出的统计结果中用户的总数可能差距很大,同样的用户分布对于工作日来说是正常的,而对于周末来说就有可能有聚集行为发生,因此需要分情况对历史数据进行统计,下面具体讲述了分哪些情况分别统计用户数据。

首先要区分的是周末和工作日,因为周末和周日人们的生活习惯大不相同,用户在周日和周末同一时间段且同一区域的人员分布情况也会大不相同,主要原因是在工作日和周末人们的行为有很大差异:在工作日早上上班晚上下班这是大部分人都生活规律,因此无论是在周一还是周五,人们的日常作息时间都是相似的因此我们不在区分周一到周五每一天而是把他们统一成工作日的整体作为一个划分;而在周末无论是周六还是周日人们的行为习惯也是相似的,因此我们把周六和周日作为一个整体(周末)。这样我们就把一周分成了两部分来分别统计当天的人员分布情况。

其次要区分的是每一天中的不同时段,比如对于工作日来说,要划分0点到7点,7点到9点,9点到12点,12点到13点等等的不同时间段。然后分别统计不同的时间段的人群分布情况。以上的划分原则是,在工作日0点到7点上睡觉时间,7点到9点是人们的上班时间,9点到12点是上午工作时间,12点到13点是人们午饭时间等等。

按照以上原则划分好时段后就开始对历史数据进行统计,统计原则是根据上面划分的每个时间段单独做统计,我们用Ta表示工作日,Tb表示周末,Ta(0-7)表示工作日的0点到7点时间段,而Tb(8-12)表示周末的8点到12点时间段。我们要统计的是每一个时间段的人员正常分布的平均值,e(Ta(0-7))表示在某一天中某个基站的一个小区S(0-6号)在Ta(0-7)时段的人群的人数均值(该均值是通过每隔一小时进行一次采样计算而得),E(Ta(0-7))表示的是小区S内所有正常分布的e(Ta(0-7))值的均值,用以下公式表示:

其中d1到dn表示1-n天每一天在Ta(0-7)时段都是正常的人群分布,也就是说没有群体聚集事件,n为总的天数。

把周末和工作日的每一个时段都按照上面的公式计算出该时段的正常分布的均值,从而得到了正常情况下的人群分布模型。每一天的每一个时间段的人员分布情况都可以在人群分布模型中找到。

得到了群体在历史上的正常平均分布模型后,就需要找到一个方法来判断当前的群体分布情况是否符合正常分布模型。本发明所使用的方法是,通过计算当前监控区域的人员总数Sx和正常分布时监控区域内的人员总数的差值Dx,如果差值大于一定的阀值我们就认为该区域有群体事件发生,所以选择合适的阀值是我们判断准确与否的关键。

得到阀值T后,当Dx>T时就可以认为该监事区域有群体聚集行为,T不是固定不变的,每当有群体事件发生时就需要阀值进行一次更新。以上计算的空间单位是一个大区La,该大区中包括了若干个基站Base,而每一个基站又分成了六个小区Sa。本发明是通过热图的方式来直观的显示当前用户总数和均值的差值,热图系统是以Sa为单位进行用户总数的差值计算,虽然以Sa为单位计算会提高了计算的复杂度,但是可以更精确的显示发生群体聚集事件的具体位置。我们通过查看热图中不同部分的颜色深浅来人群的聚集程度,有利于快速定位到聚集事件发生的准确位置。

群体行为分析预测模块的技术实现。对群体聚集行为的预测主要是为了提前发现公共场所的人群异常情况,要对人群未来的走势进行预测就需要用到可以用于对人群未来走势的预测模型,本发明采用的是个体预测法通过加权Markov模型预测单个用户的移动轨迹,进而得出群体的移动趋势。

要对用户移动轨迹进行预测,首先要做的就是根据用户的历史轨迹数据构造用户在预测时刻之前移动的路径。在构造用户路径时需要考虑一下因素:一是对于路径终点的确定,因为用户在与基站进行移动通信时产生的记录并不是连续的,所以我们在确定用户终点时考虑一下几种情况,当用户在某个基站的驻留时间超过长超过了一定的阀值,也就是说用户在两个基站连续产生两条记录的时间间隔超过了一定阀值我们就可以把前一个基站作为上一条路径的终点,当用户在一个基站长时间没有产生下一条记录可能是用户关机或关闭了移动网络,这时也认为用户移动到达了终点,当用户移动到划分的时间段的界限时也把此时的位置作为用户的路径终点;二是时间段划分,因为用户的移动规律和时间有着密不可分的关系,用户在不同的时间段对路径的选择也会不同,比如用户在吃饭的时候和用户上下班时在路径的选择上有很大的不同,所以本发明在构造路径时会根据不同的时间段分别构造用户路径。

时间段的划分也要考虑实际情况,如果定义的时间段时间间隔过短的话会降低我们构建Markov模式时的概率转移矩阵中概率的准确性,如果定义的时间段的时间间隔过大的话划分时间段的意义就不大。通过考虑以上因素,本发明将一天的24小时按表3所示的方式划分:

表3 时间段划分表

通过Markov模型预测用户的移动轨迹,主要是通过模型中的转移概率矩阵来评估用户移动到下一基站的可能性。虽然用户的真实移动估计是连续的运动轨迹但在移动通信环境中,用户的移动过程表现为不同的基站之间的切换过程,在该过程所产生的基站位置和时间的二元组是离散的数据。Markov链还有一个重要性质是时间和状态都是离散的,这一点正符合我们要分析的移动通信环境中所产生的数据的特点。模型建立时的状态集合则为建立模型所用到的每一个基站编号,例如用户处于基站i,用模型表示就是用户当前的状态为i。

在进行用户轨迹预测前需要先得到用户之前走过的轨迹,因为用户的下一步要移动到的基站是由用户之前走过的轨迹和通过对历史数据统计出的转移概率矩阵共同决定的。转移概率矩阵统计出来后就是一个定值,想要提高轨迹的预测准确性就需要从用户之前走过的轨迹入手,很显然用户的走过的轨迹中越接近现在时刻的状态对预测起到的作用越大,而很早之前的数据对预测的影响几乎可以忽略不计而且太多轨迹数据也会影响预测的效率,所以在预测过程中只保留用户当前位置信息和离现在最近的k-1条位置信息,总共k条数据。k条数据对预测结果的不同影响可以通过加权的方式来反应到计算当中。

想要得到未来一段时间T后区域内的群体分布,就需要对一定区域内的所有的有效用户的都要单独进行轨迹预测。单个用户的预测方法已知,后面的关键是确定建立模型时的状态集合的,即基站集合。要预测某区域内的人群体分布,首先要确定要进行轨迹预测的目标人群,假设该目标人群所在基站的集合为B,B有两部分组成:第一部分为要监控区域的所有基站的集合,记为B1;第二部分为集合B1附近的基站集合,记为B2,在B2基站集合中的用户在未来一段时间可能到达集合B1或者B1中的用户在未来一段时间可能到达集合B2中的基站。B1、B2和B的关系图如下图4所示。图中灰色部分为集合B2,中间的白色部分为集合B1,B为整个大圆部分,可以表示为B=B1∪B2。

因为监控区域的基站集合是已知的所以B1为已知的,下面主要分析B2集合的求解,B2可以有两种常用的求法:第一种是通过统计历史数据找到所有在时间T内可以到达目标区域的记录,把记录所在的基站添加到B2中,最终得到集合B2;第二种方法是通过计算基站之间距离的方法找到所有满足从基站X出发经过T时间后用户可以移动到目标区域的基站X的集合,该集合就是我们要求的集合B2,其计算过程如图5所示。图中L表示的是基站X与目标区域中离基站X最近的基站A之间的距离,S表示的是用户从基站X移动到基站A时所用的最短距离,现假设人类的移动速度上限为V=120km/h,所以要保证用户从基站X在时间T内移动到基站A必须满足不等式S≤T×V,在假设基站的覆盖范围的半径为R,我们只需要找到所有基站集合中满足L≤T×V+2×R,的基站就可以得到集合B2。

本发明提供的一种基于移动通信运营数据的城市群体行为监测系统,对于人口密度分析,交通状态分析和热点事件分析提供了科学的数据基础,提供了一种城市群体行为的预测方法,通过对历史事件中监测数据的特征提取以及与当前状态的比较,可以使用概率模型预测城市群体可能的行为,比如大型集会,流动路径和群体组成等,有效预测对于道路分流优化和城市公共安全具有重要意义,同时,准确的统计和预测结果对于城市规划和商业选址也有很大的参考意义;同时提供了一种“智慧城市”的建设思路。智慧城市就是运用信息和通信技术手段感测、分析、整合城市运行核心系统的各项关键信息,从而对包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能响应。显然,本发明所公开的系统和实施方法符合智慧城市的建设思路;进一步挖掘了移动运营数据的价值,运营商每天都在产生海量数据,但是这些数据中的绝大部分都只是被存储起来,除了很少的查询外几乎没有其他价值,本发明所公开的系统从移动运营数据中提取出有价值的字段加以分析,便能造福于众。

最后应当说明的是:本发明并不仅限于上述实施方式,任何针对本发明的具体实施方式进行的未脱离本发明精神和范围的修改或者等同替换均在本发明申请待批的权利要求保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1