一种交通排放配额分配过程中离群数据识别的优化方法

文档序号:31364362发布日期:2022-08-31 15:16阅读:122来源:国知局
一种交通排放配额分配过程中离群数据识别的优化方法

1.本发明涉及环境管理领域,更具体地涉及一种交通排放配额分配过程中离群数据识别的优化方法。


背景技术:

2.交通引发的污染、气候变化问题是城市治理面临的一大难题。随着我国加强污染物和碳排放的管控,交通作为城市污染和碳排放的主要来源之一将承担重要的减排责任。污染及碳排放控制的市场机制是低成本实现排放控制目标的有效政策工具。在世界范围内,已有多个国家和地区建立排放权交易市场,例如美国实施so2和no
x
排污权交易市场,中国多个城市开展了so2排污权交易市场试点,25个国家和地区已实施co2交易市场。排放权交易的本质是政府制定污染物或碳排放权总量上限,然后发放排放权配额。配额分配对排放权交易机制的运行至关重要,因为排放权配额和被管控主体的利益高度相关,关系到政策导向、激励效果和政治可接受度。
3.数据包络分析方法(data envelopmentanalysis,dea)是一个运筹学与数理经济学的交叉研究领域,是典型的数据驱动的非参数基准技术,已被广泛用于配额分配研究。它是根据多项投入指标和多项产出指标,利用线性规划的方法,对具有可比性的同类型的被评估对象进行相对效率的评价的一种非参数分析方法。这些被评估对象称为决策单元(decision making unit,dmu)。每一个dmu使用h种投入生产出k种产出,其中,这些dmu中里,保持现有的投入获得的最大的产出或保持现有的产出消耗最小所对应的dmu称为高效的dmu,高效的dmu所形成的曲线(面)被称为效率前沿。dea作为一种非参数绩效评估方法,不需要对整合投入和产出的权重以及效率前沿的形式进行预先估计或假定,从而避免了各种主观因素的影响。广义dea模型在具有传统dea客观确定权重及效率前沿的特性之外,一个重要推广是用于形成效率前沿的dmu与被评价dmu的分离。参考集是指用于形成效率前沿以评估决策dmu的dmu集合。对于传统的dea模型,参考集和被评估dmu是同一集合,而广义dea模型参考集可以由被评估dmu本身或由其他dmu组成。参考集中的dmu可以是策者感兴趣的标准或对象。广义dea方法可以为决策者提供多个视角来衡量dmu的效率。
4.但dea对极端值或离群值很敏感,因为dea可能根据极端的dmu估计效率前沿,这样通常会导致对其他dmu的效率得分的估计存在严重偏差。因此,应先调查所使用的数据是否包含离群值,然后去除离群值以提高效率前沿估计的准确性。由于离群值可以分为高效离群值和低效离群值,而影响效率前沿的是高效离群值,因此后文所指的离群值均为高效离群值。
5.数据包络分析模型已广泛应用在排放权配额分配的研究中。在排放权配额分配的背景下,dmu可以视为待分配配额的个体,其应该分配得到的配额可作为效率指标中的投入或产出。如果离群值参与形成效率前沿,则容易导致效率评价产生偏差,从而使分配配额的对象产生不合理的配额缺口,严重影响排放交易市场的正常运行。因此需要在效率前沿的形成过程对离群值进行剔除,避免对配额分配造成过大负面影响。
6.关于dea模型的离群值识别可以分为独立于dea模型外的离群值识别和基于dea模型进行的离群值识别。基于dea模型进行的离群值识别有以下几种。超效率法是先测量去除某个dmu后对效率前沿的影响,然后假设造成较大影响的dmu为离群值。超效率法创始人banker和gifford建议从中随机地消除一定百分比的数据。虽然该方法操作简单,但此类结果可能会受到“掩蔽”效应的影响,这里的“掩蔽”是指数据集中存在会隐藏其他离群值的离群值。因为超效率模型只能逐次对单个离群值进行识别,若出现离群值聚集的情况,判断离群值的效率前沿本身可能就包含邻近的离群值,因此容易产生“掩盖”效应。具体来说,如果两个或更多的dmu在多维空间中彼此靠近,但是远离其他dmu,则超效率模型可能无法识别出离群值。此外,超效率法识别离群值的准确性以及错误识别所导致的影响也暂未明确。order-m方法虽然不会产生“掩蔽”效应,但该方法操作繁琐、复杂,需要预定义参数并需要大量的人工检查。khezrimotlagh等提出的方法虽然也可以避免“掩蔽”效应,但需要多次运行标准dea模型,在处理大型数据集时需要消耗大量的运算资源与时间。
7.独立于dea方法以外的离群值识别方法,有一些经典的统计方法,即通过使用分布假设在数据集中预先识别离群值。bogetoft和otto提出了数据云的方法。但这个方法的缺点是没有考虑dmu在多维空间中的位置,因此必须对所有可能的dmu组合单独执行一次该方法。smirlis和despotis借助箱线图识别dmu的各个投入和产出中的极值并通过集成分段凹函数进行修正。这种方法的问题在于,一方面不正确的数据可能并没有被修正到,另一方面,具有极端值但完全正常的dmu可能被改变。上文提到的方法都有各自不可避免的缺陷。基于dea模型方法的缺点是离群值的识别过程受离群值本身的影响,或需要大量人工判断,或需要耗费大量的计算资源;独立于dea本身的离群值识别方法过于笼统,没有考虑到dea分析的特殊性。
8.随着科技的蓬勃发展,大数据时代已经来临。交通工具由于数量多、移动频繁,在配额分配的过程中将会使用大量的有关交通工具出行、排放的时空大数据。现有的关于数据包络分析的离群值识别方法一定程度存在高效处理大数据的困境,一些方法离群值识别效果有限,另一些方法属于非自动化方法,需要大量人工干预。因此,我们提出了一种组合方法,它是基于孤立森林方法和超效率模型的、面向dea模型的离群值识别优化方法,在配额分配过程以自动化、相对快速且准确的方式识别离群值。


技术实现要素:

9.为解决现有技术缺陷,本发明提出一种交通排放配额分配过程中离群数据识别的优化方法,该方法能够在配额分配过程以自动化、相对快速且准确的方式识别离群值。
10.为实现上述目的,本发明的技术方案如下;
11.本发明一种交通排放配额分配过程中离群数据识别的优化方法,包括如下步骤:
12.s1.构建交通排放配额分配模型;
13.s2.计算参考集d中各车辆各投入的单位产出投入值;
14.s3.采用孤立森林模型-广义超效率模型组合方法对离群车辆进行识别;
15.s4.将最终离群车辆从参考集d中移除,得到完成离群车辆剔除处理的参考集d”。
16.进一步地,上述交通排放配额分配过程中离群数据识别的优化方法,所述步骤s1具体为:
17.s1-1设置配额分配对象;
18.s1-2设置配额分配模型的投入指标和产出指标;
19.s1-3设置用于形成效率前沿的参考集d,选取一段较长的历史时期的出行车辆的集合作为参考集d;
20.s1-4设置配额分配模型的距离函数,距离函数有径向距离、至前沿最远距离、至弱/强有效前沿最近距离、方向距离函数;
21.进一步地,上述交通排放配额分配过程中离群数据识别的优化方法,所述s1-1设置配额分配对象为某个区域及时间范围的个体车辆的配额。
22.进一步地,上述交通排放配额分配过程中离群数据识别的优化方法,所述s1-2设置配额分配模型的投入指标为车辆的污染物排放量、二氧化碳排放量和行驶时间。
23.进一步地,上述交通排放配额分配过程中离群数据识别的优化方法,所述s1-2设置配额分配模型的产出指标为车辆的行驶里程。
24.进一步地,上述交通排放配额分配过程中离群数据识别的优化方法,s1-4所述的距离函数为径向距离。
25.进一步地,上述交通排放配额分配过程中离群数据识别的优化方法,s1-5设置规模报酬类型时,当选取时间为日或月尺度的范围时为规模报酬不变;当选取时间为年尺度的范围时为规模报酬可变。
26.进一步地,上述交通排放配额分配过程中离群数据识别的优化方法,s1-6确定配额分配模型时
27.当满足规模报酬不变时,对待分配配额车辆p有以下模型:
[0028][0029]
上述模型的最优解θ
*
代表待分配配额车辆p的效率分数,λ
m*
为效率前沿车辆的线性组合系数,θ
*
x
p
为配额量,x
p
、y
p
表示第p辆待分配配额车辆的投入、产出指标值,表示第m辆位于参考集的车辆的投入、产出指标值。投入指标为车辆的污染物排放量、二氧化碳排放量和行驶时间。产出指标为车辆的行驶距离。
[0030]
当满足规模收报酬可变时,在公式4中增加约束条件∑mλm=1,其余设定不变。
[0031]
进一步地,上述交通排放配额分配过程中离群数据识别的优化方法,所述步骤s2具体为:
[0032]
按照s1-2中的投入、产出项,对于每一项投入,计算每一项投入的单位产出投入值,具体如下:
[0033][0034]
其中,e
h,k,p
是待分配配额车辆p的第h种投入的数值和第k种产出数值的比值,input
h,p
是第h种投入的数值,output
k,p
是第k种产出的数值。
[0035]
进一步地,上述交通排放配额分配过程中离群数据识别的优化方法,所述步骤s3具体为:
[0036]
s3-1运行孤立森林模型对参考集d中的离群车辆进行预识别;各车辆相当于是在一个h*k维空间中的一个点,采用孤立森林算法识别多维空间中的离群车辆;
[0037]
孤立森林模型参数设置为默认值itree的数量t=100,和子采样大小=256;
[0038]
对于各车辆将会得到相应的异常分数,表征车辆数值离群程度,异常分数大于0.6的视为潜在的离群车辆。
[0039]
s3-2将潜在离群车辆从参考集d中移除,得到参考集d’;
[0040]
s3-3基于广义超效率dea模型对参考集d中的最终离群车辆进行识别,以参考集d’中的车辆为广义超效率dea模型的参考集,评价参考集d中的车辆的超效率分数;
[0041]
当满足规模报酬不变为例,广义超效率dea模型的规划式如下:
[0042][0043]
上述模型中,为超效率分数,λ
r*
为效率前沿车辆的线性组合系数,表示第r辆参考集d’中车辆的投入、产出指标值,表示第t辆位于参考集d的车辆的投入、产出指标值,投入指标为车辆的污染物排放量、二氧化碳排放量和行驶时间,产出指标为车辆的行驶距离;
[0044]
当满足规模收报酬可变时,在公式6中增加约束条件∑rλr=1,其余设定不变;
[0045]
将超效率分数大于1的确认为最终离群车辆。
[0046]
与现有技术相比,本发明交通排放配额分配过程中离群数据识别的优化方法具有如下优点及有益效果:
[0047]
1、本发明交通排放配额分配过程中离群数据识别的优化方法能够高效率地检测离群值,在配额分配过程以自动化、相对快速且准确的方式识别离群值。
[0048]
2、本发明交通排放配额分配过程中离群数据识别的优化方法优于传统超效率模型方法,并较大程度减少了误差。
[0049]
3、本发明交通排放配额分配过程中离群数据识别的优化方法中准确度高且自动化程度高,需要的人工干预较少。
附图说明
[0050]
图1为本发明交通排放配额分配过程中离群数据识别的优化方法流程图。
[0051]
图2为本发明交通排放配额分配模型流程图。
[0052]
图3为本发明识别配额分配参考集中离群车辆的流程图
[0053]
图4本发明交通排放配额分配过程中离群数据识别的模拟数据分布示意图。
具体实施方式
[0054]
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本技术的实施例及实施例中的特征可以相互组合。
[0055]
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
[0056]
在本说明书中,对某些术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、步骤、方法或者特点可以在任一个或多个实施例或示例中以合适的方式结合。
[0057]
下面结合图1-图4和实施例对本发明的技术方案做进一步的说明。
[0058]
实施例1
[0059]
如图1,本实施例一种交通排放配额分配过程中离群数据识别的优化方法,具体包括以下步骤:
[0060]
s1.构建交通排放配额分配模型;
[0061]
s2.计算参考集d中各车辆各投入的单位产出投入值;
[0062]
s3.采用孤立森林模型-广义超效率模型组合方法对离群车辆进行识别;
[0063]
s4.将最终离群车辆从参考集d中移除,得到完成离群车辆剔除处理的参考集d”。
[0064]
如图2,其中s1.构建交通排放配额分配模型具体为:
[0065]
s1-1设置配额分配对象:在本发明中是一定时空范围内被分配配额的车辆(例如某个区域、某一天个体车辆的配额)。
[0066]
s1-2设置配额分配模型的投入及产出指标:配额分配模型基于广义dea方法的基本框架进行构建。车辆获得的配额根据车辆的效率分数确定。车辆的效率分数根据车辆投入指标和产出指标,经过基于广义dea构建的配额分配模型计算而得。投入指标为车辆的各类污染物排放量、温室气体排放量、行驶时间,产出指标为车辆的行驶里程。
[0067]
s1-3设置用于形成效率前沿的参考集:效率前沿是用于评价车辆效率分数的评价标准。在本发明中,形成效率前沿所依据的是一段较长的历史时期的出行车辆的集合,以充分体现区域内的长期的车辆行驶和排放特征。初始的参考集为d。
[0068]
s1-4设置配额分配模型的距离函数:该距离和效率前沿共同决定了车辆获得的配额数量。可选择的距离函数有径向距离、至前沿最远距离、至弱/强有效前沿最近距离、方向距离函数等。本发明将距离函数设置为相关文献普遍使用的径向距离。
[0069]
s1-5设置规模报酬类型。对于车辆排放来说,规模效应的可以体现在,由于车辆随着行驶距离的增加,由于劣化效应等原因车辆排放强度会随着行驶距离的变化而发生变化。在时间为日或月尺度的范围内可视为无劣化效应,可假设为规模报酬不变;在时间为年尺度的范围内可视为有劣化效应,可假设为规模报酬可变。
[0070]
s1-6确定配额分配模型。
[0071]
假设有r辆待分配配额的车辆和s辆位于参考集的车辆,车辆h种投入指标(i=1,2,3...h)和k种产出指标(j=1,2,3...k)表示如下:x
p
=(x
1p
,x
2p
,...,x
hp
)
t
表示第p辆待分配配额车辆的投入指标值,y
p
=(y
1p
,y
2p
,...,y
kp
)
t
表示第p辆待分配配额车辆的产出指标
值;表示第m辆位于参考集的车辆的投入、产出指标值。投入指标为车辆的污染物排放量、二氧化碳排放量和行驶时间。产出指标为车辆的行驶距离。ω=(ω1,ω2,...,ωh)
t
表示投入指标的权重,μ=(μ1,μ2,...,μk)
t
表示产出指标的权重。
[0072]
将待分配配额p的排放效率表示通过规划式选取适当的权重系数使车辆p的排放效率最大。当满足规模收益不变时,对待分配配额车辆p有以下模型:
[0073][0074]
将公式7进行对偶变换,可以表示如下:
[0075][0076]
上述模型的最优解θ
*
代表待分配配额车辆p的效率分数λ
m*
为效率前沿车辆的线性组合系数,相当于将待分配配额车辆p与在效率前沿上的投入为产出为的高效车辆相比较。θ
*
越小,代表与效率前沿相比,可以减少的投入更大,排放效率越落后。本研究以效率前沿上的也就是θ
*
x
p
作为配额量,则可以实现在排放效率越落后,配额量越小的效果,从而实现惩罚落后,鼓励先进的效果。
[0077]
当满足规模收益可变时,可在公式8中增加约束条件∑mλm=1,其余设定不变。
[0078]
s2计算参考集中各车辆各投入的单位产出投入值。按照s1-2中的投入、产出项,对于每一项投入,计算每一项投入的单位产出投入值,具体如下
[0079][0080]
其中,e
h,k,p
是待分配配额车辆p的第h种投入的数值和第k种产出的数值的比值,input
h,p
是第h种投入的数值,output
k,p
是第k种产出的数值。
[0081]
如图3,s3.采用孤立森林模型-广义超效率模型组合方法对离群车辆进行识别具体;
[0082]
s3-1运行孤立森林模型对参考集中的离群车辆进行预识别。各车辆相当于是在一个h*k维空间中的一个点。采用孤立森林算法识别多维空间中的离群车辆。孤立森林模型参数可设置为默认值(itree的数量t=100,和子采样大小=256)。对于各车辆将会得到相应的异常分数,表征车辆数值离群程度。大于一定异常分数的车辆可以视为离群车辆。孤立森林模型参数可设置为默认值(itree的数量t=100,和子采样大小=256)。表征车辆数值离
群程度的异常分数的范围在0和1之间.车辆的异常分数越接近1,越有可能异常。异常分数越接近0,越有可能是正常的。当异常分数约等于0.5,即样本的路径平均长度与树的平均路径长度相近时,则很难区分是不是离群。0.6可以作为识别潜在离群车辆的参考性阈值,即异常分数大于0.6的可以视为潜在的离群车辆。这里需要对数据集运行多次孤立森林算法,取多次标记结果的交集作为潜在离群车辆并标记。
[0083]
s3-2将潜在离群车辆从参考集d中移除。从完整参考集d中剔除标记的潜在离群车辆,得到移除潜在离群车辆的参考集d’。
[0084]
s3-3基于参考集d’的广义超效率dea模型对参考集d中的最终离群车辆进行识别。基于广义超效率dea模型的框架,以参考集d的车辆为效率分数的评价对象,参考集d’的车辆为参考集,运行广义超效率dea模型,评价参考集d中的车辆的效率分数。其方向距离函数、规模收益设置与s1-4、s1-5的一致。以径向距离、规模报酬不变为例,广义超效率dea模型的规划式如下:
[0085][0086]
上述模型中,为超效率分数,λ
r*
为效率前沿车辆的线性组合系数,表示第r辆参考集d’中车辆的投入、产出指标值,表示第t辆位于参考集d的车辆的投入、产出指标值,投入指标为车辆的污染物排放量、二氧化碳排放量和行驶时间,产出指标为车辆的行驶距离;
[0087]
当满足规模收报酬可变时,在公式10中增加约束条件∑rλr=1,其余设定不变;
[0088]
将超效率大于一定阈值的的确认为高效离群车辆,阈值的默认值为1。
[0089]
s4将最终离群车辆从参考集d中移除,得到完成离群车辆剔除处理的参考集d”[0090]
实施例2
[0091]
结合图1至图4,本实施例各步骤如下。
[0092]
(一)实施步骤
[0093]
s1-1设置配额分配对象:为下述数据集中由效率前沿上以及在前沿内的dmu集合。
[0094]
s1-2设置配额分配模型的投入及产出指标:设投入指标为1种投入x,产出指标为一种产出y。x和y的取值按下述方式进行。本实例假设生成一个具有一个投入和一个产出的效率前沿,该前沿由定义域在(1,3]的三次函数y=x
3-12x2+48x-37构成。为了易于观察,本实例将区间(1,3]统一转移到10,100],并使其具有相同对应的产出。假设本实例从这个真实的效率前沿随机选择1000个dmu,这些dmu正好位于效率前沿上,因此它们的效率分数(规模效率可变)都等于1。然后,本实例在这1000个dmu中随机选择10%的点作为离群dmu。换句话说,本实例假设dmu被噪声污染(即形成离群dmu)的概率是10%。对于每一个离群dmu,本实例首先使用半正态分布exp(|n(μ,σ2)|)的指数生成一个随机噪声分数,其中μ=0,σ在(0,0.1]中随机选取。再将离群dmu对应的产出乘以该随机噪声分数。因此对于离群dmu而
言,它们在假设的效率前沿之外,效率得分大于1。对于剩余的90%的在效率前沿上的dmu与离群dmu同样的随机噪声分数生成方式,将对应的产出除以该分数,以生成低效的dmu。测试数据示意图如图4,在1000个数据点中,有100个为高效离群dmu,剩余900个为在效率前沿上以及在前沿内的dmu。
[0095]
s1-3设置用于形成效率前沿的参考集:上述1000个dmu为未剔除离群dmu的配额分配初始参考集d。
[0096]
s1-4设置配额分配模型的距离函数:以径向距离为例。
[0097]
s1-5设置规模报酬类型:以规模报酬可变为例。
[0098]
s1-6确定配额分配模型。
[0099][0100]
上述模型的最优解θ
*
代表dmu p的效率分数,λ
m*
为dmu的线性组合系数,配额量为θ
*
x
p

[0101]
s2.计算参考集中dmu各投入的单位产出投入值,即x与y的比值。
[0102]
s3-1.运行孤立森林模型对参考集中的离群dmu进行预识别。将各dmu具有一个特征值(x/y),各dmu相当于是在一个一维空间中的一个点。采用孤立森林算法识别的离群dmu。孤立森林模型参数设置为默认值(itree的数量t=100,和子采样大小=256),将异常分数大于0.6的视为潜在离群dmu。这里需要对数据集运行10次孤立森林算法,取10次标记结果的交集作为潜在离群dmu并标记。
[0103]
s3-2.将潜在离群dmu从参考集d中移除。从完整参考集d中剔除标记的潜在离群dmu,得到移除潜在离群dmu的参考集d’。参考集d中1000个dmu中的153个被识别为潜在离群dmu,移除潜在离群dmu后剩余847个dmu为移除潜在离群dmu的参考集d’。
[0104]
s3-3.基于参考集d’的广义超效率dea模型对参考集d中的最终离群dmu进行识别。以上述数据集为例,以参考集d中1000个dmu为评价对象,参考集d’的847个dmu为参考集,运行广义超效率dea模型,评价参考集d中1000个dmu的效率分数(径向距离、规模报酬可变)。得到1000个dmu的超效率分数,其中97个dmu的超效率分数大于1,标记为最终离群dmu。广义超效率dea模型的规划式如下:
[0105][0106]
s4.将97个最终离群dmu从参考集d1000个dmu中移除,得到完成离群dmu剔除处理的参考集d”,具有903个dmu。
[0107]
(二)不同离群dmu识别方式的效果对比
[0108]
对不同的离群dmu识别方法的效果进行对比。
[0109]

真实效率分数:由效率前沿上的dmu以及在前沿内的低效dmu经过普通dea模型评价后得到的分数作为“真实分数”。
[0110]

未剔除离群dmu情况下的效率分数:由全体1000个dmu采用普通dea模型进行评价后得到的分数。
[0111]

采用传统超效率模型剔除离群dmu后的效率分数:由全体1000个dmu采用传统超效率dea模型进行评价后,将效率分数大于1的视为离群dmu并剔除,将剩余的dmu运行普通dea模型,得到采用传统超效率模型剔除离群dmu后的效率分数。
[0112]

采用本发明方法剔除离群dmu后的效率分数:由全体1000个dmu采用本发明识别的最终离群dmu后,剔除最终离群dmu,将剩余的dmu运行普通dea模型,得到采用本发明方法剔除离群dmu后的效率分数。
[0113]
这里引入均方误差和平均绝对误差两个指标表征





三个分数与真实分数

之间的接近程度。均方误差如公式14所示是反映估计量与被估计量之间差异程度的一种度量,设某个dmu的真实分数为δ,分数





为为以对于具有分数

和分数

的dmu集合为例,该集合的分数

和分数

平均绝对误差(meanabsolute deviation,mad)公式如13所示。
[0114][0115]
均方误差(mean squared error,mse)则可以避免误差相互抵消的问题,如公式14所示。
[0116][0117]
由上述两个公式可知,均方误差和平均绝对误差越小,代表方法得到的分数与真实分数越接近。本实例设置了3种不同离群dmu概率的场景,分别是离群dmu概率5%、10%和15%,并为每个场景依照上文所提及的数据生成方法生成了50份测试数据。对不同离群dmu概率场景的分别形成的50份测试数据结果求取平均值如下表所示。如下表所示,在各离群dmu概率场景下本发明的方法均优于传统超效率模型方法,并较大程度减少了误差。
[0118]
表1不同离群dmu剔除方法的效果对比
[0119][0120]
实施例3
[0121]
本实施例采用某市交通系统的2018年5月15日-30日出行的190717辆汽车的出行及排放数据作为案例数据集,该数据集已采用khezrimotlagh等的离群dmu识别方法(见文献anonparametric framework to detect outliers in estimating production frontiers.european journal of operational research,2020.286(1):p.375-388.)对离群车辆进行标记,以用于对比本发明的效果。khezrimotlagh等开发的离群dmu方法优点在于准确度高且自动化程度高,需要的人工干预较少,但需要耗费的计算资源较多。
[0122]
(一)实施步骤
[0123]
s1-1设置配额分配的对象:2018年5月30日出行的51887辆汽车(51887个dmu)。
[0124]
s1-2设置配额分配模型的投入及产出指标:本研究将车辆的hc、co、pm、no
x
、co 2
排放及行驶时间作为投入。车辆行驶距离作为产出。
[0125]
s1-3设置用于形成效率前沿的参考集:参考集选取2018年5月15日-29日138830辆汽车(只存在单日出行或多日均有出行的车辆均视为一个dmu,因此参考集中有138830个dmu)。
[0126]
s1-4设置配额分配模型的距离函数:以径向距离为例。
[0127]
s1-5设置规模报酬类型:以规模报酬不变为例。
[0128]
s1-6确定配额分配模型:
[0129][0130]
上述模型的最优解θ
*
代表车辆p的效率分数,λ
m*
为车辆的线性组合系数,配额量为θ
*
x
p

[0131]
s2计算参考集中车辆各投入的单位产出投入值:计算单位行驶距离hc排放、单位
行驶距离co排放、单位行驶距离pm排放、单位行驶距离no
x
排放、单位行驶距离co2排放、单位行驶距离时间。
[0132]
s3-1运行孤立森林模型对参考集中的离群车辆进行预识别:根据s2中计算的各车辆的六个特征值,各车辆相当于是在一个六维空间中的一个点。采用孤立森林算法识别的离群车辆。孤立森林模型参数设置为默认值(itree的数量t=100,和子采样大小=256),得到各车辆的异常分数。将异常分数大于0.6的视为潜在离群车辆。这里需要对数据集运行10次孤立森林算法,取10次标记结果的交集作为潜在离群车辆并标记。
[0133]
s3-2.将潜在离群车辆从参考集d中移除:识别为潜在离群车辆的车辆,从完整参考集d中剔除标记的潜在离群车辆,得到移除潜在离群车辆的参考集d’。以上述数据集为例,参考集d中138830辆车辆中的8463辆被识别为潜在离群车辆,移除潜在离群车辆后剩余130367辆车辆为已移除潜在离群车辆的参考集d’。
[0134]
s3-3基于参考集d’的广义超效率dea模型对参考集d中的最终离群车辆进行识别。以上述数据集为例,以参考集d中138830辆车辆为效率分数评价对象,参考集d’的130367辆车辆为参考集,运行广义超效率dea模型,评价参考集d中138830辆车辆的效率分数(径向距离、规模报酬不变)。得到138830辆车辆的超效率分数,其中5472辆车辆的超效率分数大于1,标记为最终离群车辆。广义超效率dea模型的规划式如下:
[0135][0136]
s1.将5472辆最终离群车辆从参考集d 138830辆车辆中移除,得到完成离群车辆剔除处理的参考集d”,具有133358辆车辆。
[0137]
(二)不同离群车辆识别方式的效果对比
[0138]
1.离群车辆识别效果
[0139]
本实施例采用与实施例2同样的对比方式进行对比。
[0140]

真实效率分数:由配额分配参考集中非离群车辆经过普通dea模型评价后得到的分数作为“真实分数”。
[0141]

未剔除离群车辆情况下的效率分数:由配额分配参考集全体138830辆车辆采用普通dea模型进行评价后得到的分数。
[0142]

采用传统超效率模型剔除离群车辆后的效率分数:由配额分配参考集全体138830辆车辆采用传统超效率dea模型进行评价后,将效率分数大于1的视为离群车辆并剔除,将剩余的配额分配参考集车辆运行普通dea模型,得到采用传统超效率模型剔除离群车辆后的效率分数。
[0143]

采用本发明方法剔除离群车辆后的效率分数:由配额分配参考集全体138830个车辆采用本发明识别的最终离群车辆后,剔除最终离群车辆,将剩余的配额分配参考集车辆运行普通dea模型,得到采用本发明方法剔除离群车辆后的效率分数。
[0144]
如下表所示,在各离群车辆概率场景下本发明的方法均优于传统超效率模型方法,并较大程度减少了误差。
[0145]
表2不同离群车辆剔除方法的效果对比
[0146][0147]
2.不同离群车辆识别方法运行时间
[0148]
随机抽取了不同车辆数量的集合测试不同方法的离群车辆识别时间,本发明比khezrimotlagh的离群值识别方法运行时间少约75%,比超效率模型高约50%。以下测试均在配置为cpu为intel core i5-7500,内存为8gb,操作系统为win 10的电脑中进行。
[0149]
表不同方法识别离群车辆的时间(min)
[0150][0151]
3.离群车辆识别前后配额分配的效果差别
[0152]
以下为以2018年5月30日某市交通系统出行及排放数据进行的配额分配效果分析。其中参考集是采用5月15日-5月29日长时间车辆出行及排放数据,并进行离群车辆识别及剔除。以下是不同离群车辆识别方法的配额分配效果。配额盈余/缺口由以下公式进行计算:
[0153]
配额盈余/缺口=车辆配额量-车辆排放量
ꢀꢀ
(公式17)
[0154]
效果表明,本研究提出的框架相比传统超效率方法可减少配额分配的不合理的缺口,整体缺口总量减少10个百分点,缺口极端值车辆减少幅度6个百分点。因此,本研究可以使配额分配更加合理。
[0155]
表3不同离群车辆识别方法对配额分配结果的影响
[0156]
[0157][0158]
此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0159]
值得说明的是,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1