一种基于大数据的测试方法与流程

文档序号:25601773发布日期:2021-06-25 12:03阅读:68来源:国知局
一种基于大数据的测试方法与流程

1.本发明涉及电学技术领域,具体涉及一种基于大数据的测试方法。


背景技术:

[0002]“大数据”正是新形势下技术融合型发展和应用智能化理念的集中体现,具 有应对数据体量巨大、数据类型繁多、价值密度低和处理速度快等数据特征的 技术架构,及以行业内外高附加值的内容增值服务为目标的应用模式,其核心 就是信息资源的开发利用。
[0003]
本申请依据大数据资源,通过建模等方法步骤,建立一种测试人员轨迹的 方法。


技术实现要素:

[0004]
针对上述现有技术中的不足,本申请的目的是提供一种基于大数据的测试 方法及其系统和应用,实时、有效地实现人员异常轨迹识别与预警,模型的召 回率能达到90%,为社区治安管理部分的人员管控工作提供技术支持。
[0005]
一种基于大数据的测试方法,所述方法包括如下步骤:
[0006]
s1:建立大数据知识库;
[0007]
s2:大数据预处理,根据数据建立模型;
[0008]
s3:根据模型类型,进行特征提取,提取代表性特征数据;
[0009]
s4:根据提取的代表性特征数据,与知识库进行匹配,并基于模糊综合评 价法建立计算模型,进行测试。
[0010]
所述步骤具体为:
[0011]
步骤s1、建立了人员异常轨迹模式知识库;
[0012]
步骤s2、通过对人员的实时定位信息进行标定和序列化建模,构建动态行 为链;
[0013]
步骤s3、提供多种行为模式判别模型,基于人员的动态行为链,识别包括 昼伏夜出、频繁活动、同类聚集在内的多种行为模式;
[0014]
步骤s4、将人员的风险特征、行为模式与知识库进行匹配,并基于模糊综 合评价法建立轨迹异常性计算模型,计算人员的轨迹异常程度。
[0015]
步骤s1中所述人员异常轨迹模式知识库构建了人员在社区范围内的各类异 常轨迹模式,包括人员静态属性、场所类别、时间背景、行为模式四个维度在 内的属性信息,通过不同维度的特征的组合,形成了异常轨迹模式。
[0016]
步骤s2中所述实时定位信息标定和序列化建模,首先利用st

dbscan聚 类算法和观测点法将实时、连续的定位信息反向地理编码,转换为地址或地名 描述,然后按照时间先后顺序建立人员的动态行为链,行为链的属性包括人员 名称、地点名称、地点类型、轨迹开始时间、轨迹结束时间、同行人员、伴随 物品、交通工具在内的信息。
[0017]
步骤s3中的所述行为模式判别模型提供多种异常行为模式识别方法,所述 异常行为模式识别方法包括基于地理位置的判别方法、基于长期轨迹记录进行 统计分析的方法,所述异常行为识别模式方法能够识别“进出某场所”、“频繁进 出”、“长时间未出”、“长
时间未归”在内的行为模式;同时也提供基于轨迹大数 据挖掘的方法。
[0018]
所述基于轨迹大数据挖掘的方法为利用协同过滤算法识别“同类聚集”以及
ꢀ“
灰色人群”与人员相似的轨迹模式。
[0019]
步骤s4中的所述轨迹异常性计算模型以模糊综合评价模型为主体,在结合 人员风险特征与行为模式匹配的基础上,将人员的静态威胁性、社会背景时期 的政治敏感性也作为轨迹异常性的评价指标,计算得出综合轨迹异常性,预警 的召回率达到90%。
[0020]
一种基于大数据的测试方法的系统,所述系统包括四个模块,即人员异常 轨迹模式知识库模块,动态轨迹标定与序列化建模模块,行为模式识别模块和 轨迹异常性计算模型模块;其中,所述人员异常轨迹模式知识库模块,用于构 建人员在社区范围内的各类异常轨迹模式,包括人员静态属性、场所类别、时 间背景、行为模式四个维度的属性信息;所述动态轨迹标定与序列化建模模块 的用于将实时、连续的定位信息反向地理编码,转换为地址或地名描述,并基 于此建立动态行为链;所述行为模式识别模块首先识别人员的行为模式,然后 结合人员的静态属性、活动发生的场所、行为模式等信息,在人员异常轨迹模 式知识库中进行匹配,最后通过模糊综合评价法得到对应的风险值,对超过风 险阈值的轨迹进行预警;所述轨迹异常性计算模型模块,首先利用模糊综合评 价法确定各类型人员与各种异常轨迹模式搭配下的轨迹异常程度,然后结合人 员的静态属性和背景时期等信息,对异常轨迹分析模型的七种特征变量进行标 准化,建立异常轨迹分析模型。
[0021]
所述的一种基于大数据的测试方法的系统应用,所述动态轨迹标定与序列 化建模模块连接与行为模式识别模块和轨迹异常性计算模型模块连接,所述轨 迹异常性计算模型模块与所述人员异常轨迹模式知识库模块连接,当所述轨迹 异常性计算模块中得出的结果,与所述人员异常轨迹模式知识库模块进行匹配。 本发明首先建立了人员异常轨迹模式知识库,其次利用动态轨迹标定模块对人 员的实时定位信息进行轨迹标定,并建立动态行为链,然后基于动态行为链挖 掘人员的行为模式,并将人员的风险特征、行为模式在知识库中进行匹配,最 后基于模糊综合评价法计算人员动态轨迹的综合异常性,实现对异常轨迹进行 识别与预警。
[0022]
步骤s1、建立了人员异常轨迹模式知识库
[0023]
人员异常轨迹模式知识库构建了人员在社区范围内的各类异常轨迹模式, 如表1所示,包括人员静态属性、场所类别、时间背景、行为模式四个维度的 属性信息。各个维度的属性信息具体为:
[0024]
(1)人员的静态属性:人员的类型,例如a类型人员、b类型人员、c类 型人员、d类型人员、e类型人员、f类型人员和g类型人员,人员的性别,人 员与场所之间所属关系等。
[0025]
(2)场所类别:居民区,学校,经营场所,娱乐场所,车站及交通枢纽, 加油站,政府机关,企事业机关,公园绿地等。
[0026]
(3)时间背景:普通时期,节假日,政治敏感时期等。
[0027]
(4)行为模式:入访、离开、昼伏夜出、频繁出入、同类人员聚集、访客 频繁、单独活动、多日未归、多日未出、出行距离过长、长时间不移动等。
[0028][0029]
步骤s2、通过对人员的实时定位信息进行标定和序列化建模,构建动态行为 链;
[0030]
动态轨迹标定与序列化建模模块的主要功能是,将实时、连续的定位信息反 向地
理编码,转换为地址或地名描述,并基于此建立动态行为链,具体地:
[0031]
(1)动态轨迹标定,本发明提供两种轨迹标定方法,第一种是利用 st

dbscan算法对实时、连续的“北斗”定位信息或gps定位信息进行聚类与 降维,st

dbscan算法同时考虑了轨迹点的时间和空间上的间隔,从而避免错 误地将空间相邻而时间间隔很大的gps轨迹点聚类为同一类,表2为 st

dbscan算法的计算过程。
[0032]
表2st

dbscan算法计算过程
[0033][0034]
第二种是基于观测点对动态轨迹进行标定,其基本思路为:在重要的地点、 路线、区域等,设置若干观测点,当高危人员进入或离开观测点的观测区域时, 便生成一条轨迹标定记录。每个观测点拥有“名称”、“经度”、“纬度”、“类型”、
ꢀ“
覆盖范围半径。观测点分为:封闭式场所出入口、重要的路口、经营场所、娱 乐场所、公园绿地、企事业单位、政府机关、学校、加油站九种类型。其中根 据经纬度计算两点之间的距离方法如公式1所示:
[0035]
d=6.371*106*arcos[cosy1*cosy2*cos(x1‑
x2)+siny1*siny2]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0036]
其中d为两点之间的距离,单位为米,(x1,y1)为gps轨迹点的经纬度坐标, (x2,y2)为观测点的经纬度坐标。
[0037]
(2)动态轨迹序列化建模,由于不同种类的轨迹数据的格式和所包含的信 息存在差异,因此需要对多源异构的轨迹数据进行融合,并形成统一的、序列 化的轨迹数据。根据动态轨迹标定结果将高危人员一个周期的轨迹划分为若干 个子行为,然后以人员身份为索引,将子行为按时间顺序排列,构建“动态行为 链”,以便于基于“行为链”进行异常轨迹分析和识别。子行为的属性如表2所示, 包括高危人员名称,子行为的开始时间、结束时间、维持时间,访问的地点名 称及类型,同行人员,伴随物品和出行方式等九种属性。其中地点类型有居民 区、学校、经营场所等九种属性;同行人员根据人数划分为四个等级,分别为 单人、小规模同行(2

5人)、中规模聚集(6

20人)和大规模聚集(20人以上)。 将每个子行为按照时间串联,形成行为链如式(2),(3)所示。
[0038]
behavior=(time_start,time_stop,time_hold,place_name,
[0039]
place_type,accompany,concomitant,transportation)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0040]
behavior_chain={name:[behavior1,behavior2,...,behavior
n
]}
ꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0041]
其中behavior
i
表示高危人员的子行为,behavior

chain表示给高危人员的行为
链。
[0042]
表3动态行为链属性表
[0043][0044][0045]
步骤s3、提供多种行为模式判别模型,基于人员的动态行为链,识别昼伏夜 出、频繁活动、同类聚集等多种行为模式;
[0046]
异常轨迹判别模块首先识别人员的行为模式,然后结合人员的静态属性、活 动发生的场所、行为模式等信息,在人员异常轨迹模式知识库中进行匹配,最 后通过模糊综合评价法得到对应的风险值,对超过风险阈值的轨迹进行预警。
[0047]
具体地:
[0048]
(1)行为模式识别:人员的行为模式可分为简单行为模式(出现、经过、 离开)和复杂行为模式(频繁出入、同类聚集、昼伏夜出),简单的行为模式 可直接通过轨迹标定结果得到,而识别复杂的行为模式则需要通过综合分析该 人员以及其他人员在一段时期内的轨迹记录。本发明提供的基于地理位置的判 别方法、基于长期轨迹记录进行统计分析的方法,能够有效地识别“进出某场所”、
ꢀ“
频繁进出”、“长时间未出”、“长时间未归”等行为模式;同时也提供基于轨迹 大数据挖掘的方法,例如利用协同过滤算法识别“同类聚集”以及“灰色人群”与人 员相似的轨迹模式。
[0049]
(2)异常轨迹模式知识库匹配:在异常轨迹模式知识库中,只有特定类型 的人员匹配特定的行为模式时,其轨迹才会被系统判定为异常。例如人员类型 为“异常上访人员”,且系统检测到其行为模式为“同类聚集”,则该人员的身份类 型与行为模式形成了匹配,系统判定其轨迹为异常。若同一名人员具有多种人 员特征[p1,p2],且人员特征[p1,p2]同时能与行为模式b形成匹配,则该人员的 异常轨迹模式匹配结果为[p1b,p2b]。
[0050]
步骤s4、将人员的风险特征、行为模式与知识库进行匹配,并基于模糊综 合评价法建立轨迹异常性计算模型,计算人员的轨迹异常程度。
[0051]
计算动态轨迹风险,首先利用模糊综合评价法确定各类型人员与各种异常 轨迹模式搭配下的轨迹异常程度,然后结合人员的静态属性和背景时期等信息, 对异常轨迹分析模型的7种特征变量进行标准化,并根据上文中各个影响因素 的权重,建立异常轨迹分析模型定义为:
[0052]
y=attraction
t
·
risk_source
·
(w1*time)
·
(w2*frequency)
·
[0053]
(w3*age+w4*sex+w5*insider+ξ)
ꢀꢀꢀꢀ
(4)
[0054]
其中y指的是异常轨迹分析模型计算的异常性得分,其高低程度代表人员的异 常程度,(attraction,risk_source,time,frequency,age,sex,insider)分别为如表3所示的风 险源吸引力、风险源特征、入访的时间、入访频率、年龄、性别、空间归属关 系,{w1,w2,
……
,w5}分别对应为入访时间、入访频率、年龄、性别和空间所属关 系5种变量的权重,ξ代表残差项。将所得y进行归一化,公式为:
[0055][0056]
其中是归一化后的异常性得分,是原始的异常性得分,分别是异常性得分的 最大值和最小值。根据的数值分布的80%和95%的异常性范围作为分级的标准, 划定入访人员的行为异常性等级,如表3所示:0

0.5代表该人员的行为异常程 度较低,0.5

0.8代表该人员的行为异常程度较高,0.8

1.0代表该人员的行为异 常程度非常高。
[0057]
表4轨迹异常性等级表
[0058]
附图说明
[0059]
图1是基于观测点方法对动态轨迹进行标定的计算流程图;
[0060]
图2是基于大数据的测试系统整体工作流程示意图;
[0061]
图3a

图3c是geolife数据集中三名人员动态轨迹的人员空间分 布图;其中,图3a是人员a的动态轨迹可视化结果,图3b是人员b 的动态轨迹可视化结果,图3c是人员c的动态轨迹可视化结果;
[0062]
图4a

图4c是基于st

dbscan聚类算法的动态轨迹标定结果; 其中,图4a是人员a的驻留点提取结果,图4b是人员b的驻留点提 取结果,图4c人员c的驻留点提取结果;
[0063]
图5为高危人员b入访清华大学的异常轨迹分析结果;
[0064]
图6a

图6d是高危人员b入访清华大学、北京大学、北京体育大 学和北京航空航天大学的异常轨迹分析结果;其中,图6a是入访清 华大学,图6b是入访北京大学,图6c是入访北京体育大学,图6d 是入访北京航空航天大学。
具体实施方式
[0065]
实施例1
[0066]
如图1本发明基于大数据的测试系统工作流程示意图所示。本发 明基于人员实时的定位信息,对其进行轨迹标定与序列化建模,构建 动态行为链,然后识别人员的行为模式,并利用人员的静态属性信息 与行为模式,在异常行为模式知识库中进行匹配,若匹配成功,则结 合异常行为模式风险大小、人员的背景信息、背景时期风险,计算综 合风险的大小并进行预警。
[0067]
1.实例数据准备
[0068]
本文利用geolife动态轨迹数据集中的部分人员的gps轨迹进 行实例研究。表5为geolife的数据属性表。本文从geolife动态轨 迹数据集中选取3名人员进行试验,三名人员在原数据集中的编号分 别为36、96、101,别分表示为人员a、人员b、人员c,其动态轨迹 空间分布如图3所示。选取该三名人员的原因是:他们的日常活动区 域都集中在北京市某个大学城区域内,且除了经常活动的区域外,同 时存在一些较为异常的动态轨迹,满足试验的要求。
[0069]
表5geolife数据集属性表
[0070][0071]
表6st

dbscan聚类算法最优参数
[0072][0073]
2.动态轨迹标定与序列化建模
[0074]
本文使用了基于聚类算法和基于观测点的两种方法对三名人员的 动态轨迹进行标定。其中基于聚类算法的标定结果如图4所示,每个 子图中x,y轴分别为经度和纬度,z轴为时间,每个点代表聚类所得 的驻留点。
[0075]
表7人员b的动态行为链片段
[0076][0077]
然而当高危人员长时间在某个空间范围内徘徊或逗留时,会产生 较多冗余的驻留点,为了进一步降低动态轨迹的数据维度,本文在第 一次聚类结果的基础上对提取到的驻留点进行二次聚类,在第二次聚 类过程中,满足聚类时空阈值的相邻驻留点,被聚类成为同一类,并 用同一种颜色标记,经过调参得到了如表6所示在此场景下最优的聚 类参数。
[0078]
本文基于动态轨迹标定结果,对高危人员的动态轨迹进行序列化 建模,构建了高危人员的行为链。人员b在2008年10月3日的动态 行为链如表7所示:b于早上从qh出发,途经若干交通路口和场所, 最后与晚上回到qh,人员b的行为链在时空上形成了闭环。表7展 示了人员b一天的行为链,附图6展示了人员b多天的行为异常性分 析结果。
[0079]
3.行为模式挖掘与轨迹异常性计算
[0080]
以高危人员b为例,其入访qh的异常轨迹分析结果如图3所示, 附图5代表五种特征信息的风险值(入访场所与风险源特征匹配情况 风险值、空间所属关系风险值、高危人员性别风险值,入访时间风险 值、入访频次风险值)随入访次数的变化情况,附图6a

附图6d代表 每次入访行为的异常性分值随入访次数的变化情况。
[0081]
各项特征信息中,性别、年龄是高危人员的静态属性决定的,不 会随着入访行为发生变化。空间所属关系、入访场所与风险源特征匹 配情况的风险值由高危人员与入访空间共同决定,若高危人员与入访 的地点存在居住关系或工作关系等,空间所属关系风险值较小,若二 者是外来访客关系,则空间关系风险值较大。人员b风险源特征为risk_source=[0,1,0,0,0,0],入访场所对风险源的吸引力为 attraction=[0,1,1,1,0,1],进行矩阵点积运算:attraction
t
·
risk_source, 其结果表示高危人员与入访空间的空间匹配情况,此处高危人员b入 访qh的行为在空间上存在盗窃风险(“1”表示存在、“0”表示不存在)。 入访时间风险值和入访频次风险值是动态变化的,不同的时间入访同 一个地点具有不同的风险值,在n为20,50,70,85附近均存在时间异 常“波峰”(如子图3所示),而行为异常性得分仅在n为20,50附近 存在异常的“波峰”(如子图6所示),且前者的异常性得分比后者更 高,是因为随着入访频次的增高,入访行为的频次异常性会先增高然 后衰减,当入访频次特别高时,即使时间异常值较高,轨迹总体的异 常值仍然很低。
[0082]
同时本文也利用异常轨迹分析模型对高危人员4入访其他地点 的轨迹进行了分析,所得结果如图6a

图6d所示,子图a

d分别为人 员b入访qh(作为对照)、bj、bt和bh时,轨迹异常性得分以观 察到,第12次入访bt和第12

14次入访值随入访的次数的变化情况。 在子图b,c,d中可bt和第12

14次入访bd时,存在两个明显的轨迹 异常性波峰,且分值超过0.8,根据轨迹异常程度划分标准,其异常 程度属于“高”,应当对人员的行为进行干预。
[0083]
在该实施例中,对高危人员的异常轨迹漏识率平均值低于10% (异常行为漏识率=1

成功识别的异常轨迹/异常轨迹总和),异常 行为误判率低于20%(异常行为误判率=无效预警次数/预警总次 数)。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1