基于移动通信信令数据的人口行为轨迹数字化编码方法与流程

文档序号:20265929发布日期:2020-04-03 18:23阅读:215来源:国知局

本发明涉及移动通信技术领域,尤其涉及一种利用移动通信信令数据进行人口行为轨迹数字化编码的方法。



背景技术:

通信运营商拥有的大数据具有全面性、多维性、中立性、完整性,是其它企业很难比拟的,如果在确保客户信息安全的条件下,建立一种合法合理有效的共享数据,可以连接个人、企业和政府,则可让运营商的大数据真正服务于社会。但这需要一套标准的、可管理、且具备高效计算能力的编码体系,对用户进行全景认知,为各种大数据分析、服务、商业、复杂事件管理等提供数据基础

通信运营商数据虽然丰富巨量,存什么样的数据和怎么存,来自不同信息系统的人口数据,存在数据量巨大、格式、语义等不一致等问题,数据挖掘的准确性和速度成为难点问题。人口统计数据维度多,用户分类直接按统计数据的维度进行分类,存在分类数据难以收敛聚合的难题。



技术实现要素:

本发明的目的在于以多源数据基于时空融合为基础,提出一种人口行为轨迹的数字化编码技术,解决传统统计数据不能直接作为用户个性化信息分类与编码的原型与依据。

本发明的技术方案如下:

一种基于移动通信信令数据的人口行为轨迹数字化编码方法,其特征在于:

(1)立足于人口统计学数据、行为数据以及内容数据定向体系,利用多接口的静态及动态数据,对多源数据进行融合,并时间空间化数据;

(2)利用上述数据,对用户行为事实与习惯归纳分析,挖掘用户喜好、兴趣,抽象出特征标签,通过特征标签聚类细分用户群,抽取特征标签并进行标准化编码。

上述步骤(1)中对多源数据进行融合,并时间空间化数据,具体方法是:

(11)梳理人、位置、时间、复杂事件各自的特征,建立人、位置、时间、复杂事件四个维度的基本特征数据库;

(12)建立人与人、人与位置、人与时间、人与事件、时间与位置、时间与时间、位置与位置间的相关性特征库数据库。

本发明提供了一套标准的、可管理、且具备高效计算能力的编码体系,可对用户进行全景认知,为各种大数据分析、服务、商业、复杂事件管理等提供数据基础。

具体实施方式

本发明包括以下步骤:

(1)立足于人口统计学数据、行为数据以及内容数据定向体系,利用多接口的静态数据(事件统计数据)及动态数据(路径跟踪),对多源数据进行融合,并时间空间化数据;

(2)通过用户行为事实与习惯归纳分析,挖掘用户喜好、兴趣,抽象出特征标签,通过特征标签聚类细分用户群,抽取特征标签并进行标准化编码。

具体实现方式如下:

(1)梳理人、位置、时间、复杂事件各自的特征,建立人、位置、时间、复杂事件四个维度的基本特征数据库(点);

(2)建立人与人、人与位置、人与时间、人与事件、时间与位置、时间与时间、位置与位置间的相关性特征库数据库(线);

(3)深度挖掘建立,人在时空中的事件全景信息的特征数据库(面);

(4)对上述所有特征数据进行标签化;

(5)对标签进行标准化编码。

上述方法中,所述多源数据,包括用户人口统计数据、通信信令数据、网络工程数据、无线信号覆盖数据、地图poi数据、室内定位数据、上网数据等以及航班数据、天气数据等等;

所述多源数据融合,是基于用户、时间、位置等基础数据及关联机制,时间空间化所有数据;

时间空间化所有数据,是基于地图,对数据的进行时空描像,空间时间化所有数据是把这些数据融合起来基础。

人口统计学数据,即去个人隐私化。

行为数据:包括用户的实际生活空间中的全量路径,其中分为“驻点”数据和“路径”边数据。

驻点是指:工作地、居住地、商业地等有效驻留了一段时间后(>=15分钟)的位置数据,一切行为轨迹基于空间和时间上的描像;

路径是指:按时序排列,两个驻点数据之间的联系,包含时段分布上、时间花费上、行进速度、路径上的场景(单独、多人)等信息;

动态数据:把驻点和路径链接起来,空间驻留特性,时空上的转移特性。

例如:夏季,某日下午,天气晴朗,青年女性、8:00上班,居住地-工作地,花费54分钟,其中在地点a堵了15分钟,中午12:10出现在商场a,逗留45分钟,13:05工作地,18:00离开工作地,19:30到居住地,地点c堵了20分钟…….

通过用户行为事实与习惯归纳分析,挖掘用户喜好、兴趣,抽象出特征标签,通过特征标签聚类细分用户群,抽取特征标签并进行标准化编码:

标签包括:

a、基础标签,男女、年龄等基础属性,标识用户的基本身份(去隐私化),便于对人群常规性聚类分析即人口统计学数据。

例如:某人0102202xxxx0101008600100001;

性别:01(编码格式xx,00,代表男性,01代表女性);

年龄:02202xxxx(编码格式xxxxxxxxx,022-代表真实年龄,02-代表成年,xxxx,扩展字段,分析人员可自定义,或自动分类存入临时结果);

星座:01(编码格式xx,01,山羊…….);

生肖:01(编码格式xx,01,老鼠…….);

国籍:0086(编码格式xxxx,0086,中国);

居住城市:0010(编码格式xxxx,0010,北京);

居住区域:0001(编码格式xxxx,0001,某区);

…….

以此类推。

b、社会标签,如职业、收入水平、外地务工人员、来源地等等,标识用户的社会身份,便于对人群多维度聚类分析。

c、行为标签,行为事实及行为轨迹描述,标识用户的行为特征,因人而异,因群而分,通过数据挖掘算法,不受个人喜好属性所支配,受社会及周边环境所影响。

行为事实:居住地、工作地、商娱地、旅游地、医院等。

编码格式xxxxyyyyzzzzmmmm,

xxxx地理位置编号(10*10米的栅格号),如:

yyyy行为属性,如,0000居住地、0001工作地、0003商娱地;

zzzz位置属性,如,0000写字楼、0001医院、0003景区;

mmmm驻留属性,如,具体数值(分日、周、月、等)

行为轨迹描述:起点、终点、空间跨度(距离)、时间开销、发生的时间段、例如工作地-居住地:

编码格式xxxxyyyyzzzz;

xxxx工作时长,如,0015;

yyyy工作感知,如,0001差;

zzzz工作规律,如,0000长期加班、0101不加班;

定性值是根据定量值按照一定的规则计算得到,一般分为2-5个等级;

例如,特定空间下,单位面积人数为0.2-0.3m2/人,平均用户间距0.6m或以下时,安检排队时长8分钟以上,用户体验差(0001);

d、喜好标签:能反映出主观个性特征,多维度提炼群体特征、社区、工作区等;

包括且不限于:路径偏好、工作习惯、生活起居习惯、出行时间方式、商业习惯,随行情况、交通工具、互联网习惯等等;

e、标签变化标签:历史溯源,能反映出用户社会背景、生活工作诉求以及行为习惯变化规律及转移等;

用户行为轨迹包括:

居住-工作时空分布特征;

居住-商娱时空间分布特征;

工作-商娱时空分布特征。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1