基于出行和话单数据分析的重点关系人发现方法与流程

文档序号:17537479发布日期:2019-04-29 14:09阅读:524来源:国知局
基于出行和话单数据分析的重点关系人发现方法与流程
本发明属于数据挖掘分析领域,涉及一种基于出行和话单数据分析的重点关系人发现方法。
背景技术
:随着城市交通信息化水平的提高,交通信息采集和挖掘在综合交通调查中的作用日益凸显。居民出行信息在交通规划、交通控制管理等方面起着至关重要的作用,它揭示了城市土地利用、商业活动、人文风俗、公交线网管理的规律,被广泛的应用于城市综合交通规划、智能交通系统等领域。城市综合交通规划具有对城市及其交通未来长远发展方向的前瞻性与导向性,其重要性已经成为社会各界的普遍共识。居民出行调查是城市综合交通规划工作的重要内容,通过对居民出行入户问卷调查数据的整理和分析,是全面掌握城市居民出行需求和出行特征的主要手段之一,并为建立交通需求预测模型提供基础数据,是合理地制定交通发展战略和提出交通资源配置策略,极具科学说服力的定量依据。在开展城市综合交通规划过程中,对现状居民出行特征的准确了解,有利于定性判断现状城市及其交通的突出问题,对未来发展变化大致趋势的正确把握,同时对交通规划需求模型参数的标定起着定量作用。然而居民出行入户问卷调查存在过程复杂,投入成本大,样本量较小、时效性差等问题。传统居民出行特征获取主要依赖于入户问卷调查,存在工作协调难度大,耗费大量时间和人工成本,且数据样本量小、精度不高、时效性差等问题。运用所定位数据进行挖掘,以得到可靠的居民出行时空分布特征,可为城市的交通规划提供准确的出行现状数据。时间分布、出行流量及方向,其能够反映居民的交通需求在时间、空间上的分布,不仅能为城市的交通规划提供出行现状数据信息,也能为解决交通拥堵、提高道路通行效率等提供数据支持。其中,有效、实时的交通信息的获取是交通规划及决策的基础。而传统的交通信息采集方法(人工调查法和固定式交通信息采集技术)具有调查及维护成本高、传感器损坏率高、实时性较差及采集的交通数据精度较低等缺点。现有技术基于手机信令定位数据,数据源为来自手机中gps模块提供的手机状态信息数据。且对于手机gps信号具有严格的要求。满足要求的才能够进行出行方式的识别,否则无法识别。由于识别的出行方式为步行、公交车、小汽车,对于轨道交通无法进行有效识别。在手机移动数据挖掘中,虽然显示了数据点的位置信息,但无法直观地表示手机用户在交通区域的运动情况。当基站分布数量较多时,切换干扰多,将难以保证手机信令定位数据位置信息的准确性,导致获取的出行信息误差较大。手机移动出行方式识别方法是通过bp神经网络,需要大量的样本进行训练,然后才能利用训练好的模型进行出行方式识别。算法复杂、运算量太大,不易推广。在居民特征分析中,调查内容完整全面,可以获取出行次数、出行目的、出行方式、出行分布。不足之处在于调查获取的数据不确定性以及颗粒度较大;总体耗时长,投入较多人力,且需要多部门协调;其od调查的区域需要事先确立,如果要扩大调查的范围,则需要投入更多的人力物力,其调查成本高等等。样本量一般为总人口的5%以内,样本量偏小对于人口和就业岗位分布、出行率和出行分布(od矩阵)的获取,存在一定难以消除的偏差;调查成本大,导致数据时效性往往滞后数年。出行空间分布通常使用出行量的期望线来表示,它能表征出行的流量和方向。而出行量的期望范围内所有出行起点(o)和终点(d)之间的出线基于od矩阵获得。根据od矩阵及期望线所得的早晚高峰进出城方向比例和全市出行发生与吸引量这两项出行空间分布特征数据。然后对定位数据进行预处理,对所研究的交通区域进行小区划分,在此基础上提取居民的出行时空分布特征,并将所得的结果进行扩样,得到城市总体人群的出行时空分布特征。居民的出行时空分布特征主要包括居民的出行,数据预测居民的出行路径选择。随着现有数据获取技术手段的提高,获取的各种人类行为数据量剧增,话单数据、出行数据是其中的典型代表。用户通话产生的详细话单数据具有丰富的时空信息和社交信息,这些信息在一定程度上反映了用户的生活习惯和社交模式。通过手机话单数据出行特征样本量可以涵盖绝大多数人口。获取人口和就业岗位分布、出行活动特征分析等,成为全新可靠地技术选择方式。话单数据是运营商计费所产生的。话单数据有被动产生、覆盖范围广、成本低、分析周期短等优点。手机话单数据中含有丰富的时空信息和社交信息,话单数据中潜藏着各种类型的人物关系,这些人物关系可支撑嫌疑人查找、团伙发现、商品推销等应用,如何从这些海量数据中挖掘人物关系及其类型变得尤为重要。利用话单数据进行关系人发现是比较常用的方法,一般是将通话次数多、通话时间长的人员列为重点关系人。然而现在网购已经成了大家的习惯,随之而来的快递员、外卖送餐员越来越多。如果目标人物经常网购买东西或者定外卖,那么其与快递员或者外卖送餐员的通话次数就很多,利用传统分析方法,很容易将快递员或者外卖送餐员等日常关系人判断为目标人物的重点关系人,产生误判;另外还存在某些重点关系人和目标人物通话次数并不多的情况,利用传统分析方法,这些重点关系人就被过滤掉了,产生漏判。所以话单数据仅适合发现通联度高的关系人。通过手机话单数据提取用户的出行特征具有可行性。然而,手机话单数据的稀疏性对提取居民出行时间特征造成困难。通过对手机话单数据的挖掘分析识别居民职住地,得到居民特征通勤序列,进而基于早、晚不同情况对居民通勤特征进行描述和分析发现,计算匿名手机用户移动轨迹混乱程度(熵),用户93%的出行可预测,进而可以得到手机话单数据得到的居民通勤距离和时间特征与居民出行调查结果较为一致,说明可用以描述居民通勤特征。关系人发现主要是从大量数据中挖掘出潜在的、不为人所知的、人与人之间的各种关系。同一数据不同来源数据质量不一,既有结构化的也有非结构化的不同的数据访问点和数据集成。传统方法在进行关系人发现时仅采用单一数据源进行处理,只利用话单数据进行重点关系人发现,其缺点是容易出现漏判和误判情况。当然也可以利用航班和火车交通量与话单数据导出交通量的差值,得到一些没有携带手机人群的出行交通量。设某一区域人均手机标示id数量为各个车站、航班所吸引的腹地范围在估计实际的交通量后,可将实际交通量作为基础运量标准值来预测未来航班、铁路规划年度的腹地间总运量。现有技术基于手机信令定位数据的出行时空分布特征提取方法的文献较多,但对交通出行特征获取定位数据的研究还较少,已有研究中缺乏对获取交通出行特征方法的描述。虽然利用航班和火车等出行数据也可以进行重点关系人发现,但也可能存在误判和漏判的情况。经常一起出行的人大多可认为是重点关系人,但也存在两个没有任何关系的出差达人经常一起出行的情况;另外不是所有的关系人都会经常一起出行。所以出行数据仅适合发现同行度高的关系人。技术实现要素:针对上述问题,本发明提出一种能够提高重点关系人发现的正确率,减少误判和漏判情况,基于出行和话单数据分析的重点关系人发现方法。以解决上述
背景技术
中提出的问题和只利用单一的数据源进行重点关系人发现不准确、不完备的问题。实现本发明上述目的的技术方案为:一种基于出行和话单数据分析的重点关系人的发现方法,其特征在于包括以下步骤:同行关系人发现模块利用航班和火车出行数据,采用同行规律挖掘算法挖掘与目标人物姓名一起出现的同行关系人姓名,根据识别、分析和筛选特征数据,构建与目标人物一起出行的同行关系人特征数据列表;通联关系人发现模块利用话单数据,进行话单关系分析、话单时序分析,采用通联规律统计算法布局时间序列,计算目标人物所有通话记录的通联频次和通联时长,利用通联频次降序排列构建通联关系人特征数据列表1,利用通联时长降序排列构建通联关系人特征数据列表2;重点关系人发现模块根据规则管理模块生成的重点关系人发现规则,对出行数据和话单数据进行双重判定,将处理过程进行融合,从同行关系人特征数据列表与通联关系人特征数据列表抽取特征数据,构建重点关系人特征数据列表;关系人类型判定模块进一步利用话单数据,分析目标人物的停留时空规律,进行目标人物居住地和工作地的判定,分析重点关系人特征数据列表人员的停留时空规律,根据规则管理模块生成的关系人类型判定规则,判定重点关系人的类型,得到带有关系人类型的重点关系人特征数据列表。本发明相比于现有技术具有如下有益效果。本发明利用话单数据所包含的时空信息和社交信息,提取用户特征,发现与目标人物关系密切的通联关系人,利用话单数据,采用通联规律统计算法布局时间序列,进行话单关系分析和话单时序分析,计算目标人物所有通话记录的通联频次和通联时长,通过通联频次降序排列构建通联关系人特征数据列表1;,通过通联时长降序排列构建通联关系人特征数据列表2。本发明利用出行数据包含的出行信息,采用同行规律挖掘算法挖掘与目标人物经常一起出行的同行关系人,构建与目标人物一起出行的同行关系人特征数据列表。从多角度对用户间的关系性进行表达,避免了只采用话单数据或者只采用出行数据进行后续分析的特征单一性问题。本发明根据重点关系人发现规则,对出行数据和话单数据进行双重判定,从同行关系人特征数据列表与通联关系人特征数据列表抽取特征数据,构建重点关系人特征数据列表;重点关系人发现模块采用多数据源进行关系人发现,将处理过程进行融合,得到既互相补充又交叉验证的重点关系人特征数据列表,提高了重点关系人发现的正确率,减少了误判和漏判情况。本发明增加了关系人类型判定方法,关系人类型判定模块进一步利用话单数据,分析目标人物和重点关系人特征数据列表人员的停留时空规律,根据关系人判定规则判定重点关系人的关系类型,得到带有关系人类型的重点关系人特征数据列表。这种采用多数据源的融合方式解决了传统方法采用单一数据源,只利用话单数据进行重点关系人发现,存在误判和漏判的情况。由于话单数据是根据预设的事件触发而记录的,因此其真实性更高。话单数据所提供的基站小区代码,就可以指示出行者发生移动台事件时所在的小区位置。同时本发明通过挖掘得到可靠的居民出行时空分布特征,提取居民出行时空分布特征,作为现有的交通数据采集技术的重要补充,在时间分布、出行流量及方向,其能够反映居民的交通需求在时间、空间上的分布,不仅能为城市的交通规划提供出行现状数据信息,也能为解决交通拥堵、提高道路通行效率和城市的交通规划等提供准确的出行现状数据提供了很好的技术支持。附图说明图1是本发明基于出行和话单数据分析的重点关系人发现方法的流程示意图。图2是本发明同行规律挖掘算法流程图。图3是本发明通联频次统计算法流程图。图4是本发明通联时长统计算法流程图。具体实施方式参阅图1。根据本发明,同行关系人发现模块利用航班和火车出行数据,采用同行规律挖掘算法挖掘与目标人物姓名一起出现的同行关系人姓名,根据识别、分析和筛选特征数据,构建与目标人物一起出行的同行关系人特征数据列表;通联关系人发现模块利用话单数据,进行话单关系分析、话单时序分析,采用通联规律统计算法布局时间序列,计算目标人物所有通话记录的通联频次和通联时长,利用通联频次降序排列构建通联关系人特征数据列表1,利用通联时长降序排列构建通联关系人特征数据列表2;重点关系人发现模块根据规则管理模块生成的重点关系人发现规则,对出行数据和话单数据进行双重判定,将处理过程进行融合,从同行关系人特征数据列表与通联关系人特征数据列表抽取特征数据,构建重点关系人特征数据列表;关系人类型判定模块进一步利用话单数据,分析目标人物的停留时空规律,进行目标人物居住地和工作地的判定,分析重点关系人特征数据列表人员的停留时空规律,根据规则管理模块生成的关系人类型判定规则,判定重点关系人的类型,将处理过程进行融合,得到带有关系人类型的重点关系人特征数据列表。优选的,所述重点关系人发现规则由规则管理模块生成,包括,规则1:重点关系人发现模块将同时存在于同行关系人特征数据列表和通联关系人特征数据列表的关系人,加入重点关系人特征数据列表中;规则2:重点关系人发现模块将只存在于同行关系人特征数据列表,同行次数排序前10的关系人,加入重点关系人特征数据列表中;规则3:重点关系人发现模块将存在于通联关系人特征数据列表1,通联频次排序前10的关系人,加入重点关系人特征数据列表中;规则4:重点关系人发现模块将存在于通联关系人特征数据列表2,通联时长排序前10的关系人,加入重点关系人特征数据列表中;规则5:重点关系人发现模块将只存在于通联关系人特征数据列表,通联频次或通联时长排序前10,但是目标人物与此关系人存在如下通联规律的关系人从重点关系人特征数据列表移除:通话时间点规律经常在中午11:00~13:00期间,通话位置在同一基站位置内,且通话前后目标人物位置相对固定,但关系人位置在不停变化。此关系人疑似外卖送餐员。优选的,重点关系人发现模块需将经过重点关系人发现规则得到的重点关系人特征数据列表根据证件号码进行去重处理。优选的,所述通话时间点规律,具体为:重点关系人发现模块将00:00~24:00区间分成若干个时间段,将用户号码每次通话的事件发生日期时间映射到每个时间段、统计每个时间段的通话次数,得出通话时间点规律。优选的,所述停留时空规律,具体为:关系人类型判定模块根据话单数据的基站位置信息,统计话单对象某段时间内在某个基站位置满足停留规则的停留次数和停留时长,得到其停留时空规律。优选的,所述停留规则由规则管理模块生成,具体为:规则1:话单对象在同一个基站下停留时间≥停留时长阈值tlscyz;规则2:话单对象在相邻基站之间来回切换持续时间≥停留时长阈值tlscyz。停留时长阈值tlscyz可以根据实际需求进行设置,作为本发明的一个实施例,此处停留时长阈值tlscyz设置为30分钟。优选的,所述停留次数和停留时长的获得方法,具体为:关系人类型判定模块按照时间顺序遍历话单数据,针对某个基站,获得进入该基站的时间和离开该基站的时间,离开时间减去进入时间即为话单对象在该基站位置的停留时长,每得到一个满足停留规则的停留时长,总停留时长累加,停留次数加1,最终得到总的停留次数和停留时长。优选的,所述关系人类型判定模块进一步利用话单数据,分析目标人物的停留时空规律,进行目标人物居住地和工作地的判定,具体为:关系人类型判定模块利用话单数据的基站位置信息统计得到目标人物在居住地时间段jzdsjd内的停留时空规律,取出目标人物停留次数最多和停留时长最长的地点,判定为目标人物的居住地;关系人类型判定模块利用话单数据的基站位置信息统计得到目标人物在工作地时间段gzdsjd内的停留时空规律,取出目标人物停留次数最多和停留时长最长的地点,判定为目标人物的工作地。居住地时间段jzdsjd,工作地时间段gzdsjd,可以根据实际需求进行设置,作为本发明的一个实施例,居住地时间段jzdsjd设置为0:00-6:00,工作地时间段gzdsjd设置为9:00-18:00。优选的,所述根据关系人类型判定规则判定重点关系人的类型,具体为:关系人类型判定模块利用话单数据的基站位置信息统计得到重点关系人在居住地时间段jzdsjd内的停留时空规律,如果关系人经常停留在目标人物的居住地,则判定此关系人为目标人物的家庭关系人;关系人类型判定模块利用话单数据的基站位置信息统计得到重点关系人在工作地时间段gzdsjd内的停留时空规律,如果关系人经常停留在目标人物的工作地,则判定此关系人为目标人物的工作关系人。在以下描述的实施例中,基于出行和话单数据分析的重点关系人发现方法流程,按以下步骤:步骤s1,同行关系人发现模块利用航班和火车出行数据,采用同行规律挖掘算法得到与目标人物一起出行的同行关系人特征数据列表;步骤s2,通联关系人发现模块利用话单数据,采用通联规律统计算法得到与目标人物有通话的通联关系人特征数据列表;步骤s3,规则管理模块生成重点关系人发现规则、停留规则、关系人类型判定规则,各个规则可以进行增删改查操作;步骤s4,重点关系人发现模块根据规则管理模块生成的重点关系人发现规则从同行关系人特征数据列表与通联关系人特征数据列表得到重点关系人特征数据列表;步骤s5,关系人类型判定模块进一步利用话单数据,首先分析目标人物的停留时空规律,进行目标人物居住地和工作地的判定,然后分析重点关系人特征数据列表人员的停留时空规律,根据规则管理模块生成的关系人类型判定规则判定重点关系人的类型,得到带有关系人类型的重点关系人特征数据列表。在步骤s1中,同行关系人发现模块采用同行规律挖掘算法得到与目标人物一起出行的同行关系人特征数据列表,同行关系人特征数据列表格式如表1所示,表1同行关系人特征数据列表格式所述同行规律挖掘算法,具体为:相关概念如下:k-项集:如果事件a中包含k个元素,那么称这个事件a为k项集。频繁项目集:事件a满足最小支持度阈值的事件;支持度:指事件a和事件b同时发生的概率。参阅图2。同行规律挖掘算法的实现流程如下。同行规律挖掘算法模块读取出行数据,对出行数据中的旅客姓名进行排序,排序后,扫描整个排序数据集,首先生成一个只包含一个项目的候选项集,计算在数据集中的支持度,并据此生成初始的单项目的频繁1-项集f1,接下来搜索整个数据集,得到频繁k-项集fk:crm同行规律挖掘算法模块将第(k-1)轮搜索生成的频繁(k-1)-项集fk-1作为种子集合,合并两个频繁(k-1)-项集fk-1,得到k-候选项集c;判断k-候选项集c的前k-2个项目是否相同,否则转入计算出候选项集集合ck中每个候选项集的支持度,是则将合并后的频繁k-1项集fk-1加入候选项集集合ck中,再判断k-候选项集c的所有(k-1)-子集是否都属于频繁(k-1)-项集fk-1,否则将c从候选集ck中删除,是则计算ck中每个候选项集c的支持度,本轮搜索的最后,将满足最小支持度的候选项集c加入频繁k-项集fk,使k=k+1,然后判断fk-1是否为空或是否k>2,否则返回合并两个频繁(k-1)-项集fk-1,获取k-候选项集c,是则迭代结束,返回生成的所有频繁项目集合,结束。同时,在整个计算过程中,并不需要将整个数据集加载入内存,只需要在内存中保留一条事务记录,这一特点使得同行规律挖掘算法模块可以用于处理非常巨大的数据集。算法仅需对数据集扫描k次,k是最大项集的大小,在本实施例中,k=2。针对时间效率这一挑战,为了确保频繁项目集生成的高效性,本挖掘算法模块算法首先对航班和火车出行数据中的旅客姓名进行排序,同时,本算法采用逐级搜索,所以很方便就能够在某一轮搜索完成后就停止。这一点在实际应用中很重要,因为很多情况下过长的频繁项目集或规则并无实际应用,无需将它们找出。参阅图3。在步骤s2中,采用通联规律统计算法得到与目标人物有通话的通联关系人特征数据列表;在通联频次统计中,通联频次统计模块读取话单数据,查询话单数据得到目标人物的全部通话记录,遍历全部通话记录,统计所有对端号码的通联频次,通联频次降序排列,得到如表2所示格式的通联关系人特征数据列表1。表2通联关系人特征数据列表1格式参阅图4。在步骤s2中,采用通联规律统计算法得到与目标人物有通话的通联关系人特征数据列表;在通联时长统计中,通联时长统计模块读取话单数据,查询话单数据得到目标人物的全部通话记录,遍历全部通话记录,统计所有对端号码的通联时长,通联时长降序排列,得到如表3所示格式的通联关系人特征数据列表2。表3通联关系人特征数据列表2格式在步骤s4中,所述重点关系人发现规则如表4所示,包括,规则1:重点关系人发现模块将同时存在于同行关系人特征数据列表和通联关系人特征数据列表的关系人,加入重点关系人特征数据列表中;规则2:重点关系人发现模块将只存在于同行关系人特征数据列表,同行次数排序前10的关系人,加入重点关系人特征数据列表中;规则3:重点关系人发现模块将存在于通联关系人特征数据列表1,通联频次排序前10的关系人,加入重点关系人特征数据列表中;规则4:重点关系人发现模块将存在于通联关系人特征数据列表2,通联时长排序前10的关系人,加入重点关系人特征数据列表中;规则5:重点关系人发现模块将只存在于通联关系人特征数据列表,通联频次或通联时长排序前10,但是目标人物与此关系人存在如下通联规律的关系人从重点关系人特征数据列表移除:通话时间点规律经常在中午11:00~13:00期间,通话位置在同一基站位置内,且通话前后目标人物位置相对固定,但关系人位置在不停变化。此关系人疑似外卖送餐员。进一步的,将经过重点关系人发现规则得到的重点关系人特征数据列表根据证件号码进行去重处理。所述通话时间点规律,具体为:重点关系人发现模块将00:00~24:00区间分成若干个时间段,将用户号码每次通话的事件发生日期时间映射到每个时间段、统计每个时间段的通话次数,得出通话时间点规律。表4重点关系人发现规则表在步骤s5中,所述停留时空规律,具体为:关系人类型判定模块根据话单数据的基站位置信息,统计话单对象某段时间内在某个基站位置满足停留规则的停留次数和停留时长,得到其停留时空规律。所述停留规则,具体为:规则1:话单对象在同一个基站下停留时间≥停留时长阈值tlscyz;规则2:话单对象在相邻基站之间来回切换持续时间≥停留时长阈值tlscyz。停留时长阈值tlscyz可以根据实际需求进行设置,作为本发明的一个实施例,此处停留时长阈值tlscyz设置为30分钟。所述停留次数和停留时长的获得方法,具体为:关系人类型判定模块按照时间顺序遍历话单数据,针对某个基站,获得进入该基站的时间和离开该基站的时间,离开时间减去进入时间即为话单对象在该基站位置的停留时长,每得到一个满足停留规则的停留时长,总停留时长累加,停留次数加1,最终得到总的停留次数和停留时长。在步骤s5中,所述进行目标人物居住地和工作地判定,具体为:关系人类型判定模块利用话单数据的基站位置信息统计得到目标人物在居住地时间段jzdsjd内的停留时空规律,取出目标人物停留次数最多和停留时长最长的地点,判定为目标人物的居住地;关系人类型判定模块利用话单数据的基站位置信息统计得到目标人物在工作地时间段gzdsjd内的停留时空规律,取出目标人物停留次数最多和停留时长最长的地点,判定为目标人物的工作地。居住地时间段jzdsjd,工作地时间段gzdsjd,可以根据实际需求进行设置,作为本发明的一个实施例,居住地时间段jzdsjd设置为0:00-6:00,工作地时间段gzdsjd设置为9:00-18:00。在步骤s5中,所述关系人类型判定规则由规则管理模块生成,关系人类型判定规则如表5所示。表5关系人类型判定规则表在步骤s5中,所述根据关系人类型判定规则判定重点关系人的类型,具体为:关系人类型判定模块利用话单数据的基站位置信息统计得到重点关系人在居住地时间段jzdsjd内的停留时空规律,如果关系人经常停留在目标人物的居住地,则判定此关系人为目标人物的家庭关系人;关系人类型判定模块利用话单数据的基站位置信息统计得到重点关系人在工作地时间段gzdsjd内的停留时空规律,如果关系人经常停留在目标人物的工作地,则判定此关系人为目标人物的工作关系人。在步骤s5中,所述带有关系人类型的重点关系人特征数据列表格式如表6所示。表6重点关系人特征数据列表格式目标人物姓名目标人物证件号码重点关系人姓名重点关系人证件号码关系人类型…………………………作为本发明的一个实施例,针对出行数据和话单数据,采用上述方法搭建了一个重点关系人发现演示系统。演示系统还具有关系网络展示功能。把出行数据和话单数据提交给演示系统进行重点关系人发现。系统最终给出重点关系人特征数据列表,并以关系网络图的形式展示目标人物的关系网络。经过对比分析,系统给出的结果相比采用单一数据源进行重点关系人发现得到的结果更加准确,完备。本发明所属
技术领域
中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1