一种适用于高速公路风险评估的多维分布式数据分析系统的制作方法

文档序号：30307875发布日期：2022-06-05 07:44阅读：158来源：国知局

1.本发明涉及交通安全技术领域，具体为一种适用于高速公路风险评估的多维分布式数据分析系统。

背景技术：

2.高速公路上交通事故的发生受多维因素影响，因此，对高速公路交通事故数据进行深入分析，寻找出风险致因与事故之间的内在规律以针对性地进行事故预防管理，对保护人民生命财产安全具有重要意义。
3.专利cn 112308434 a公开了一种交通安全风险评估方法及系统，利用交通事故数据训练神经网络模型，然后将某一行程的交通运行数据输入神经网络，利用神经网络模型计算行程风险值。
4.专利cn 112562337 a公开了一种基于深度学习的高速公路交通事故风险评估方法，该方法将高速公路划分若干路段，根据采集的道路、气象和事故等信息训练深度学习模型，计算交通事故风险水平，评估高速公路交通事故风险。
5.现有高速公路风险评估方法多是根据数据库中的数据建立交通事故与安全影响因素的关系模型，但在这些影响因素中，哪些因素集合对交通事故造成的影响最大，哪些因素可以被忽略尚不明确，若能筛选出关键因素，从而建立精准的风险评估模型对于提升高速公路的行车安全性意义重大。
6.随着机器学习的发展，数据挖掘算法被应用于交通安全分析领域。数据挖掘算法能够发现事件中频繁发生的属性集，用于识别影响高速公路交通事故的要素集，进而有效地分析风险事件的成因和规律。

技术实现要素：

7.本发明的目的是：针对现有技术中难以对高速公路的风险进行评估，进而导致高速公路交通安全性差的问题，提出一种适用于高速公路风险评估的多维分布式数据分析系统。
8.本发明为了解决上述技术问题采取的技术方案是：
9.一种适用于高速公路风险评估的多维分布式数据分析系统，包括：交通事故数据库子系统、交通事故成因分析子系统和交通事故风险评估子系统；
10.所述交通事故数据库子系统用于对高速公路交通事故数据进行集成，并将集成后的数据通过维表和事实表的形式存入多维分布式数据库；
11.所述交通事故成因分析子系统用于根据多维分布式数据库中的信息识别影响交通事故发生的要素；
12.所述交通事故风险评估子系统用于根据影响交通事故发生的要素建立贝叶斯网络，并结合多维分布式数据库评估交通事故发生的风险。
13.进一步的，所述高速公路交通事故数据包括：当事人数据、事故车辆数据、公路几
何线形数据、事故环境数据、事故时间数据以及事故原因数据。
14.进一步的，所述交通事故数据库子系统具体执行如下步骤：
15.步骤一一：获取高速公路交通事故数据，然后将高速公路交通事故数据分别存入对应的局部数据库中，所述局部数据库包括道路信息数据库、交通流信息数据库、环境信息数据库以及交通事故数据库；
16.步骤一二：将局部数据库中的数据统一存入高速公路数据仓库中；
17.步骤一三：将高速公路数据仓库中数据的属性进行离散化处理；
18.步骤一四：根据离散化处理后的数据建立事实表和维表，然后连接事实表和维表，得到每次事故发生时影响因素的具体情况，最后将每次事故发生时影响因素的具体情况以及事实表和维表存入多维分布式数据库。
19.进一步的，所述步骤一三中离散化处理包括：
20.将时间按照年、月、日、时分层定义；
21.将道路按照路面情况、路表情况、道路线形分层定义。
22.进一步的，所述交通事故成因分析子系统具体执行如下步骤：
23.步骤二一：扫描多维分布式数据库中每一个影响交通安全的要素，并将所有影响交通安全的要素与事故发生要素集成到一个集合中，然后设定要素长度m为1，得到备选要素集合c1；
24.步骤二二：基于备选要素集合c1，并结合多维分布式数据库中的事实表计算每个影响交通安全的要素发生的频率，然后将每个影响交通安全的要素发生的频率作为该要素的支持度，之后设置最小支持度，保留支持度大于最小支持度的影响交通安全的要素形成频繁要素集合l1；
25.步骤二三：将频繁要素集合l1中的两个频繁要素子集进行连接形成要素长度m为2的备选要素集合c2，然后去除备选要素集合c2中不含事故发生要素的要素子集，之后，基于去除不含事故发生要素的要素子集的备选要素集合c2，并根据多维分布式数据库中的事实表计算每个影响交通安全的要素子集发生的频率，然后将每个影响交通安全的要素发生的频率作为该要素的支持度，最后设置最小支持度，保留支持度大于最小支持度的要素，形成频繁要素集合l2；
26.步骤二四：基于步骤二三，令l1＝l2、m＝m+1进行迭代，直至频繁要素集合中只有一项要素子集，然后将此时的频繁要素集合作为最终频繁要素集合；
27.步骤二五：针对最终频繁要素集合，得到所有要素子集对事故发生的置信度，之后设置最小置信度，然后保留置信度不小于最小置信度的要素子集，最后从保留的要素子集中选取置信度最大的要素子集作为强关联规则子集，即影响交通事故发生的要素。
28.进一步的，所述步骤二二中支持度表示为：
[0029][0030]
其中，si表示备选要素集合中含有i个要素子集，p()表示出现的次数，allitems表示数据库中事故。
[0031]
进一步的，所述步骤二五中置信度表示为：
[0032][0033]
其中，f1，f2，
…
，fm表示最终频繁要素集合中要素子集中的风险致因，acc表示事故发生结果。
[0034]
进一步的，所述交通事故风险评估子系统具体执行如下步骤：
[0035]
步骤三一：根据强关联规则子集构建三层贝叶斯网络，所述三层贝叶斯网络中先验概率、条件概率表和概率分布的确定步骤为：
[0036]
步骤三一一：确定强关联规则子集中每个影响交通事故发生要素的概率，并将该概率作为先验概率；
[0037]
步骤三一二：利用best-worst method方法确定三层贝叶斯网络中非根节点的条件概率表；
[0038]
步骤三一三：根据先验概率和非根节点的条件概率表，并利用全概率公式得到非根节点的概率分布；
[0039]
步骤三二；利用构建好的三层贝叶斯网络进行风险评估。
[0040]
进一步的，所述全概率公式表示为：
[0041]
p(a)＝p(a|b1)p(b1)+p(a|b2)p(b2)+...p(a|bn)p(bn)
[0042]
其中，a表示非根节点，b1,b2,...bn表示父节点各种状态组合。
[0043]
进一步的，所述步骤三一二具体为：
[0044]
对某种父节点状态组合，构建一个m
×
1的条件概率向量，m代表某非根节点的状态取值数量,确定向量ab＝(a
b1 a
b2 ... a
bn
)
t
和aw＝(a
1w a
2w ... a
nw
)
t
，a
bi
表示该非根节点最大概率状态取值优于其他取值的程度，a
iw
表示该非根节点其他取值优于最小概率状态取值的程度；
[0045]
根据a
bi
以及a
iw
构建如下数学规划问题，得到最优条件概率向量表示为：
[0046]
minξ
[0047]
s.t.
[0048][0049][0050][0051]
pi≥0,for all i
[0052]
对所有父节点状态组合，得到其对应的最优条件概率向量，然后将所有最优条件
概率向量组合，即得到该非根节点的最优条件概率表
[0053]
其中，表示在某种父节点状态组合下，该非根节点各种状态取值的概率，ξ表示需极小化的变量，pb表示最优条件概率向量中概率值最大者，pw表示最优条件概率向量中概率值最小者，pi表示最优条件概率向量中第i个概率值，p
mn*
表示某种父节点状态组合下，非根节点各种状态取值的概率。
[0054]
本发明的有益效果是：
[0055]
本技术集成高速公路交通事故相关多源数据，揭示事故发生规律，基于贝叶斯网络进行高速公路风险评估，可以准确预测高速公路行车风险等级，可用于高速公路交通事故预防，提高高速公路交通安全性，极大地避免了高速公路事故的发生，对高速公路的行车安全性意义重大。
附图说明
[0056]
图1为本技术的整体流程图；
[0057]
图2为本技术多维分布式数据库系统形成示意图；
[0058]
图3为本技术多维分布式数据库数据结构模型示意图；
[0059]
图4为本技术高速公路交通事故影响因素挖掘流程图；
[0060]
图5为高速公路车辆运行风险评估模型示意图；
[0061]
图6为贝叶斯网络模型示意图1；
[0062]
图7为贝叶斯网络模型示意图2。
具体实施方式
[0063]
需要特别说明的是，在不冲突的情况下，本技术公开的各个实施方式之间可以相互组合。
[0064]
具体实施方式一：参照图1具体说明本实施方式，本实施方式所述的一种适用于高速公路风险评估的多维分布式数据分析系统，包括：交通事故数据库子系统、交通事故成因分析子系统和交通事故风险评估子系统；
[0065]
所述交通事故数据库子系统用于对高速公路交通事故数据进行集成，并将集成后的数据通过维表和事实表的形式存入多维分布式数据库；
[0066]
所述交通事故成因分析子系统用于根据多维分布式数据库中的信息识别影响交通事故发生的要素；
[0067]
所述交通事故风险评估子系统用于根据影响交通事故发生的要素建立贝叶斯网络，并结合多维分布式数据库评估交通事故发生的风险。
[0068]
具体实施方式二：本实施方式是对具体实施方式一的进一步说明，本实施方式与具体实施方式一的区别是所述高速公路交通事故数据包括：当事人数据、事故车辆数据、公路几何线形数据、事故环境数据、事故时间数据以及事故原因数据。
[0069]
具体实施方式三：本实施方式是对具体实施方式二的进一步说明，本实施方式与
具体实施方式二的区别是所述交通事故数据库子系统具体执行如下步骤：
[0070]
步骤一一：获取高速公路交通事故数据，然后将高速公路交通事故数据分别存入对应的局部数据库中，所述局部数据库包括道路信息数据库、交通流信息数据库、环境信息数据库以及交通事故数据库；
[0071]
步骤一二：将局部数据库中的数据统一存入高速公路数据仓库中；
[0072]
步骤一三：将高速公路数据仓库中数据的属性进行离散化处理；
[0073]
步骤一四：根据离散化处理后的数据建立事实表和维表，然后连接事实表和维表，得到每次事故发生时影响因素的具体情况，最后将每次事故发生时影响因素的具体情况以及事实表和维表存入多维分布式数据库。
[0074]
所述事实表中包括交通事故的离散化取值，所述维表中包括交通事故影响因素的离散化取值。
[0075]
具体实施方式四：本实施方式是对具体实施方式三的进一步说明，本实施方式与具体实施方式三的区别是所述步骤一三中离散化处理包括：
[0076]
将时间按照年、月、日、时分层定义；
[0077]
将道路按照路面情况、路表情况、道路线形分层定义。
[0078]
具体实施方式五：本实施方式是对具体实施方式四的进一步说明，本实施方式与具体实施方式四的区别是所述交通事故成因分析子系统具体执行如下步骤：
[0079]
步骤二一：扫描多维分布式数据库中每一个影响交通安全的要素，并将所有影响交通安全的要素与事故发生要素集成到一个集合中，然后设定要素长度m为1，得到备选要素集合c1；
[0080]
步骤二二：基于备选要素集合c1，并结合多维分布式数据库中的事实表计算每个影响交通安全的要素发生的频率，然后将每个影响交通安全的要素发生的频率作为该要素的支持度，之后设置最小支持度，保留支持度大于最小支持度的影响交通安全的要素形成频繁要素集合l1；
[0081]
步骤二三：将频繁要素集合l1中的两个频繁要素子集进行连接形成要素长度m为2的备选要素集合c2，然后去除备选要素集合c2中不含事故发生要素的要素子集，之后，基于去除不含事故发生要素的要素子集的备选要素集合c2，并根据多维分布式数据库中的事实表计算每个影响交通安全的要素子集发生的频率，然后将每个影响交通安全的要素发生的频率作为该要素的支持度，最后设置最小支持度，保留支持度大于最小支持度的要素，形成频繁要素集合l2；
[0082]
步骤二四：基于步骤二三，令l1＝l2、m＝m+1进行迭代，直至频繁要素集合中只有一项要素子集，然后将此时的频繁要素集合作为最终频繁要素集合；
[0083]
步骤二五：针对最终频繁要素集合，得到所有要素子集对事故发生的置信度，之后设置最小置信度，然后保留置信度不小于最小置信度的要素子集，最后从保留的要素子集中选取置信度最大的要素子集作为强关联规则子集，即影响交通事故发生的要素。
[0084]
具体实施方式六：本实施方式是对具体实施方式五的进一步说明，本实施方式与具体实施方式五的区别是所述步骤二二中支持度表示为：
[0085]
[0086]
其中，si表示备选要素集合中含有i个要素子集，p()表示出现的次数，n表示备选要素集合中要素子集个数；allitems表示数据库中事故，i＝1-n。
[0087]
具体实施方式七：本实施方式是对具体实施方式六的进一步说明，本实施方式与具体实施方式六的区别是所述步骤二五中置信度表示为：
[0088][0089]
其中，f1，f2，
…
，fm表示最终频繁要素集合中要素子集中的风险致因，acc表示事故发生结果。
[0090]
具体实施方式八：本实施方式是对具体实施方式七的进一步说明，本实施方式与具体实施方式七的区别是所述交通事故风险评估子系统具体执行如下步骤：
[0091]
步骤三一：根据强关联规则子集构建三层贝叶斯网络，所述三层贝叶斯网络中先验概率、条件概率表和概率分布的确定步骤为：
[0092]
步骤三一一：确定强关联规则子集中每个影响交通事故发生要素的概率，并将该概率作为先验概率；
[0093]
步骤三一二：利用best-worst method方法确定三层贝叶斯网络中非根节点的条件概率表；
[0094]
步骤三一三：根据先验概率和非根节点的条件概率表，并利用全概率公式得到非根节点的概率分布；
[0095]
步骤三二；利用构建好的三层贝叶斯网络进行风险评估。
[0096]
具体实施方式九：本实施方式是对具体实施方式八的进一步说明，本实施方式与具体实施方式八的区别是所述全概率公式表示为：
[0097]
p(a)＝p(a|b1)p(b1)+p(a|b2)p(b2)+...p(a|bn)p(bn)
[0098]
其中，a表示非根节点，b1,b2,...bn表示父节点各种状态组合。
[0099]
具体实施方式十：本实施方式是对具体实施方式九的进一步说明，本实施方式与具体实施方式九的区别是所述步骤三一二具体为：
[0100]
对某种父节点状态组合，构建一个m
×
1的条件概率向量，m代表某非根节点的状态取值数量,确定向量ab＝(a
b1 a
b2 ... a
bn
)
t
和aw＝(a
1w a
2w ... a
nw
)
t
，a
bi
表示该非根节点最大概率状态取值优于其他取值的程度，a
iw
表示该非根节点其他取值优于最小概率状态取值的程度，均用于表示风险严重程度，i＝1-n；
[0101]
根据a
bi
以及a
iw
构建如下数学规划问题，得到最优条件概率向量表示为：
[0102]
minξ
[0103]
s.t.
[0104][0105]
[0106][0107]
pi≥0,for all i
[0108]
对所有父节点状态组合，得到其对应的最优条件概率向量，然后将所有最优条件概率向量组合，即得到该非根节点的最优条件概率表
[0109]
其中，表示在某种父节点状态组合下，该非根节点各种状态取值的概率，ξ表示需极小化的变量，pb表示最优条件概率向量中概率值最大者，pw表示最优条件概率向量中概率值最小者，pi表示最优条件概率向量中第i个概率值，p
mn*
表示某种父节点状态组合下，非根节点各种状态取值的概率。
[0110]
实施例：
[0111]
高速公路的几何线形数据、交通量数据和交通事故数据等信息分别由高速公路管理部门、交警部门等政府部门管理，为便于对数据的处理和分析，将数据集成存储，包括如下步骤：
[0112]
步骤一：通过数据抽取平台，将各部门所管理的数据分别存入道路信息数据库、交通流信息数据库、环境信息数据库、交通事故数据库等局部数据库中。
[0113]
步骤二：通过数据归集平台，将步骤一中得到的各局部数据库的数据统一存入高速公路数据仓库中。
[0114]
步骤三：将数据仓库中的数据的属性进行离散化处理，如时间按照[年]、[月]、[日]、[时] 分层定义，道路按照[路面情况]、[路表情况]、[道路线形]分层定义。
[0115]
步骤四：建立事实表和维表，事实表中包括交通事故的离散化取值，维表中包括交通事故影响因素的离散化取值，连接事实表和维表，即得到每次事故发生时各影响因素的具体情况。
[0116]
与高速公路交通事故相关的数据包括当事人数据、事故车辆数据、公路几何线形数据、事故环境数据、事故时间数据、事故原因数据。将交通事故相关数据存入数据库之前将其进行分层定义并进行离散化处理，存入数据库时采用星型结构进行存储。对每次事故建立星型结构，星型模型结构需建立一个事实表和六个维表，事实表与维表之间用主键连接，事实表即为事故本身，各维表分别包含上述六种数据。交通事故成因分析子系统是根据数据库中的信息，采用改进apriori算法，以设置的最小支持度和最小置信度指标，识别影响交通事故发生的要素。改进apriori算法先扫描上述高速公路交通事故数据库，获得频繁项集，再根据频繁项集获得事故发生的强关联规则。第一次扫描高速公路交通事故数据库，产生长度为1的备选频繁要素集合，根据最小支持度阈值得到长度为1的频繁项集。以后每个频繁项集的获取都经过上级频繁项集和长度为1的频繁项集连接和剪枝两步，直至没有频繁项集输出或频繁项集只有一项。在获得的频繁项集中，计算其各非空子集对事故发生的置信度，以最小置信度阈值选择强关联规则，即交通事故成因。交通事故风险评估子系统是根据频繁项集中各风险致因建立贝叶斯网络，结合交通事故多维分布式数据库评估一般和特殊情况下交通事故发生的风险。各因素的先验概率由专家估计等方法确定，各非根节
点的条件概率表由bwm方法确定；由各节点的先验概率和各非根节点的条件概率表计算各非根节点的边缘概率，以此表示风险大小；由事故发生概率进行分级，评估事故发生风险，分级判断原则为：
[0117]
若事故发生概率为75％-100％，则判定为高风险；
[0118]
若事故发生概率为50％-75％，则判定为较高风险；
[0119]
若事故发生概率为25％-50％，则判定为一般风险；
[0120]
若事故发生概率为0％-25％，则判定为低风险。
[0121]
参照图4具体说明交通事故成因分析子系统，交通事故成因分析子系统是指用多维 apriori算法得到与高速公路交通事故指标的强关联要素子集，包括如下步骤：
[0122]
步骤一：扫描高速公路交通事故数据库中每一个影响交通安全的要素，将其与事故发生这一要素集成到一个集合中，作为要素长度为1的备选要素集合c1。
[0123]
步骤二：基于备选要素集合c1，根据数据库中的事故事实表计算每个要素发生的频率，将其作为此要素的支持度，考虑预先设置的最小支持度，支持度大于最小置信度的要素保留，支持度小于最小置信度的要素去除，形成一个新的要素集合频繁要素集合l1，支持度计算如下式：
[0124][0125]
步骤三：频繁要素集合lk中某一子集l
k-1
若不含事故发生这一要素，则将之去除。将频繁要素集合lk中的两个频繁要素子集进行连接形成长度为k+1的备选要素集合c
k+1
，根据数据库中的事故事实表计算每个要素发生的频率，将其作为此要素的支持度，考虑预先设置的最小支持度，支持度大于最小支持度的要素保留，支持度小于最小支持度的要素去除，形成一个新的要素集合频繁要素集合l
k+1
。
[0126]
步骤四：重复步骤三，不断产生新的频繁要素集合lk，如果新的频繁要素集合lk为空集，则l
k-1
作为输出的频繁要素集合，如果新的频繁要素集合lk中只有一项，则lk作为输出的频繁要素集合。
[0127]
步骤五：对输出的频繁要素集合，去掉事故发生这一要素，然后求出其所有的非空子集，计算所有非空子集对事故发生的置信度，考虑预先设置的最小置信度，所有置信度小于最小置信度的子集去除，所有置信度大于最小置信度的子集保留，从中选取置信度最大的要素子集作为强关联规则子集，置信度计算如下式：
[0128][0129]
步骤六：对满足要求的强关联规则子集中的所有影响因素，计算其支持度，输出满足最小支持度的影响因素集合。
[0130]
交通事故风险评估子系统通过建立车辆运行风险贝叶斯网络来评估事故风险，包括以下步骤：
[0131]
步骤一：确定各风险致因的先验概率，如驾驶员疲劳，确定其发生和不发生各自的概率作为先验概率；
[0132]
步骤二：使用best-worst method(bwm)方法确定非根节点的条件概率表。
[0133]
对一个m
×
n的条件概率矩阵，m代表该节点的状态取值数量，n代表该节点的父节
点状态组合数，将最高概率元素与其他所有元素进行比较，利用9标度法进行打分，矩阵向量其中a
bij
代表最高概率元素cb与元素c
ij
相比的重要程度；同理，将其他所有元素与最低概率元素进行比较，利用9标度法进行打分，确定其他每个元素相较于最低概率元素的重要程度，矩阵向量其中a
ijw
代表元素c
ij
与最低概率元素cw相比的重要程度。
[0134]
构建如下数学规划问题，以得到最优条件概率矩阵：
[0135]
minξ
[0136]
s.t.
[0137][0138][0139][0140]
pi≥0,for all i
[0141]
求解该数学规划问题，可得最优条件概率表
[0142]
步骤三：由各风险致因的先验概率和非根节点的条件概率表，使用全概率公式计算非根节点的概率分布，全概率公式如下：
[0143]
p(a)＝p(a|b1)p(b1)+p(a|b2)p(b2)+...p(a|bn)p(bn)
[0144]
步骤四；由事故发生的概率对事故发生风险进行风险评估，确定是否要采取管控措施。
[0145]
采用以下实施例验证本发明的有益效果：
[0146]
对某高速公路三年的交通事故数据进行该方法的应用效果展示，验证本发明的有益效果：
[0147]
构建高速公路交通事故多维分布式数据库，在此基础上获得高速公路交通事故影响因素集合，其满足最小支持度和最小置信度阈值的关联规则及置信度如表1所示：
[0148]
表1关联规则及置信度
[0149][0150]
从关联规则看出，影响高速公路交通事故发生的关键致因有驾驶员、车辆、环境三方面的因素，各具体影响因素概率分布情况如表2所示：
[0151]
表2影响因素的概率分布情况
[0152][0153]
高速公路车辆运行风险评估模型如图5所示：
[0154]
以车辆风险节点为例，求解数学规划问题，得到其最优条件概率矩阵为：
[0155][0156]
其条件概率表如表3所示：
[0157]
表3车辆风险节点条件概率表
[0158][0159]
该节点发生概率为23.1％，以此概率代表该节点风险大小，同理，用上述方法计算所有非根节点的概率大小，得到图6所示贝叶斯网络模型：
[0160]
在已知某些信息的情况下，可通过事故发生概率来评估风险水平，如已知驾驶员疲劳，驾龄为0-3年，不超速，车型为小汽车，车辆无故障，天气有雪，照明不良，则此时贝叶斯网络模型如图7所示：发生事故概率为61％，属于较高风险。
[0161]
需要注意的是，具体实施方式仅仅是对本发明技术方案的解释和说明，不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的，仍应落入本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马艳丽吴振超张宿峰周年发栗萍李旭雯
技术所有人：黑龙江省公路建设中心
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。