一种基于共享平台货运出行数据的扩样校核方法与流程

文档序号:18943682发布日期:2019-10-23 01:21阅读:291来源:国知局
一种基于共享平台货运出行数据的扩样校核方法与流程
本发明涉及货运管理统计
技术领域
,具体而言,涉及一种基于共享平台货运出行数据的扩样校核方法。
背景技术
:现有技术中,在居民出行调查和车辆拥有分布方面,均存在相应的扩样校核方法。所涉及到的数据包括入户调查数据,如家庭信息、个人信息和个人出行信息,还涉及到户外调查数据,如道路流量和载客率调查数据、公交客流调查数据和轨道客流调查数据,这些大部分需要人工进行采集。目前没有针对货运出行数据的扩样校核方法,由于货运管理所涉及到的数据与居民出行调查和车辆拥有分布存在很大的不同,因此难以依据这两方面的扩样校核方法进行处理,需要设计一种全新的扩样校核方法。技术实现要素:本发明实施例在于提供一种基于共享平台货运出行数据的扩样校核方法,其能够缓解上述问题,对全国货运量和周转量分布情况进行扩样分析,并利用各省市产销量数据、各省货物分类运输比例、各省汽车保有量等宏观数据进行校核修正。为了缓解上述的问题;本发明实施例采取的技术方案如下:本发明实施例提供的一种基于共享平台货运出行数据的扩样校核方法,包括:s1、以共享平台货运出行数据为抽样对象,依次通过三个阶段,进行逐级抽样,最终得到平台抽样样本,确定平台抽样样本容量;s2、数据预处理,对平台抽样样本进行分类,包括货车分类和货物分类;s3、偏差分析及修正,对平台抽样样本进行缺失数据补全,并输出缺失数据部分的扩样样本;s4、在数据预处理以及偏差分析基础上,按照不同省份od对间确定扩样系数,并根据该扩样系数对平台抽样样本进行扩样;s5、扩样数据校核,包括s51、利用各省份分货类年产销量宏观数据对扩样后各省份、各货类、各货运量进行校核,并进行误差分析:其中,j表示第j种货物类型,j=1,2,…,17,产销量宏观数据来自货物产销量统计机构,货运量扩样数据是扩样后的平台抽样样本中的数据;s52、利用各省份年汽车保有量宏观数据对扩样后各省份货车类型进行校核,并进行误差分析:其中,l表示第l种货车类型,l=1,2,3,4;汽车保有量宏观数据来自汽车保有量统计机构,货运车辆扩样数据是扩样后的平台抽样样本中的数据;s53、利用各省份分燃油类型市场占有率数据对燃油类型进行校核,并进行误差分析:其中,y表示第y种燃油类型,y=1,2,3;分燃油类型市场占有率宏观数据来自燃油类型市场占有率统计机构,分燃油类型货运车辆扩样数据是扩样后的平台抽样样本中的数据;s54、根据综合交通调查扩样校核成功经验,在可接受误差范围内,即平均误差在10%以下,输出完整扩样数据。在本发明实施例中,结合共享平台货运出行数据,进行货运数据的目标性抽取,并对原始数据进行清洗处理、修正完善,在此基础上,完成货运调查的扩样研究,并采用宏观标量对扩样数据进行交叉校核,确定扩样误差,最大程度的减少了货运扩样结果与实际货运调查的偏差,货运扩样结果的科学合理,精准的呈现了的货运出行特征。可选地,步骤s1具体包括:s11、第一阶段抽样,采用分层抽样法,按照时间分层和地域分层的方式,以共享平台货运出行数据为抽样对象而进行分层抽样,得到第一阶段样本,并计算出第一阶段样本容量n1;s12、第二阶段抽样,采用等比例抽样法,根据货物类型,按照等比例原则,从第一阶段样本中直接抽取若干单位组成第二阶段样本,并计算出第二阶段样本容量n2;s13、第三阶段抽样,采用随机抽样法,按照随机原则从第二阶段样本中直接抽取若干样本作为第三阶段样本,第三阶段样本即为平台抽样样本,计算出第三阶段样本容量n3,并作为平台抽样样本容量。在本发明实施例中,依次逐级采用了分层抽样法、等比例抽样法和随机抽样法三阶段抽样方法,能够很好的匹配城市od对间货运调查的调查对象规模大、调查范围广的特性,兼顾了科学性与可操作性。可选地,步骤s11中第一阶段样本容量n1根据公式(1)或者公式(2)进行计算式中,n是共享平台货运出行数据中的一段时间总样本量,t代表概率度za/2,是组内平均方差,δ代表极限误差,代表成数的平均组内方差。可选地,分层抽样中,各层应抽取的样本单位数采用等比例法进行分配,计算公式为:mi=n1ni/n(1-3)式中,mi为第i层应抽取的样本数,ni为第i层样本总数。可选地,步骤s12中第二阶段样本容量n2根据公式(4)进行计算n2=n1t2p(1-p)/n1δ2+t2p(1-p)(1-4)式中,p(1-p)表示成数方差。可选地,步骤s13中第三阶段样本容量n3的计算方法是按照区间估计理论,在事先明确对估计量的要求时,反推解析得出所需的样本量,该计算方法包括两种:第一种按绝对精度决定样本量:假设给定绝对精度λ,即要求在1-α置信度下,满足即对照区间估计的结果,得到:式中,u1-α/2是n(0,1)分布的分位数,是估计的均方偏差,s2是总体方差;第二种按相对精度决定样本量:给定相对精度ε,即在1-α置信度下,满足对照区间估计的结果,得到:可选地,步骤s3具体包括:s31、将数据预处理后的平台抽样样本分月份且按货物类型进行分省份od分析,查看各省份od之间缺失货物种类;s32、结合各出发省份年度货物产销量数据、各省份月度货物类型公路货运比例,确定各省份各月部分缺失货物种类是否异常;s33、针对异常货物种类,在省份od中对缺失货物进行增补,以该异常货物所涉省份公路od运量占该异常货物所涉省份货运总量的比例,对缺失货物类型货运量进行od分解,生成包含出发省份、到达省份、货物类型、货运总量的数据列表;s34、结合平台抽样样本中该类异常货物对应车型、货车自重、货车载重比例,对货运总量进一步分解,生成包含出发省份、到达省份、货物类型、货运总量、车型、货车自重、货车载重的数据列表;s35、利用年城市间货运总量、高速公路道路流量等确定城市od货运量,在城市od维度上对货运总量进行分解,生成包含出发省份、出发城市、到达省份、到达城市、货物类型、货运总量、车型、货车自重、货车载重的数据列表;s36、利用平台抽样样本分车型和分燃油类型所占比例,按车型、燃油类型分解货运量,生成包含出发省份、出发城市、到达省份、到达城市、货物类型、货运总量、车型、燃油类型的数据列表;s37、根据平台抽样样本中各省份各类货物年平均装载率,通过货车载重与平均装载率得到货物重量,将货运总量分解为货物重量与货物运输趟次,生成包含出发省份、出发城市、到达省份、到达城市、货物类型、货运总量、车型、燃油类型、货物重量、货物运输趟次的数据列表;s38、输出缺失数据部分的扩样样本。可选地,步骤s4具体包括:s41、确定扩样系数公式k=k0*kcargo*kvehicle*kfuel(4-1)其中,ko为扩样初始系数,kcargo为货物波动系数,kvehicle为各货物类对应车型波动系数,kfule为分车型燃油类型波动系数;s42、确定koko=q/q(4-2)其中,q为od对年宏观货运量,从货物产销量统计机构获取,q为平台抽样样本数据中的年货运量;s43、确定kcargokcargo=qcargo/qr(4-3)其中,qcargo为平台抽样样本第r月某类货物在od对间的月货运量,qr为平台抽样样本中od对间第r月月货运量;s44、确定kvehiclekvehicle=qvehicle/qr(4-4)其中,qvehicle为平台抽样样本中第r月某类货物对应车型在od对间的货运量;s45、确定kfulekfule=qfuel/qr(4-5)其中,qfuel为平台抽样样本中第r月某燃油类型在od对间的货运量;s46、根据公式(4-1)计算并输出扩样系数k,利用修正后的扩样系数k对平台抽样样本进行扩样。为使本发明的上述目的、特征和优点能更明显易懂,下文特举本发明实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1是本发明所述基于共享平台货运出行数据的扩样校核方法流程图;图2是本发明中扩样系数的推导流程图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。请参照图1,本发明实施例提供的一种基于共享平台货运出行数据的扩样校核方法,包括:s1、考虑到调查成本和数据精度要求,城市od对间货运调查主要采用抽样调查方法,鉴于城市od对间货运调查的调查对象规模大、调查范围广,在调查方法的选择上要兼顾科学性与可操作性,综合考虑多方因素,并对共享平台货运出行数据(如o2o货运平台母体数据库)中的相关属性信息进行分析后,确定总体上采用三阶段抽样方法,因此以共享平台货运出行数据为抽样对象,依次通过三个阶段,进行逐级抽样,最终得到平台抽样样本,确定平台抽样样本容量;s2、数据预处理,对平台抽样样本进行分类,包括货车分类和货物分类;其中货物分类是根据j/t19-2001《运输货物分类和代码》进行的,共得到17种货物类型,货物分类情况表1所示:表1编号货物类型编号货物类型1农林牧渔业产品10矿物性建筑材料2轻工、医药产品11煤炭及制品3粮食12木材4非金属矿石13水泥5肥料及农药14盐6钢铁15石油、天然气及其制品7化工原料及制品16有色金属8机械设备、电器17其他9金属矿石货车分类为从商车网(https://www.cn357.com/)等商用网站收集到的不同品牌货车技术参数统计数据,根据货车品牌字段结合所收集的外部数据按车长、载重、自重对货车进行分类,货车分类情况见表2所示,这里省略了车长、载重、自重等数据:表2编号货车类型编号货车类型1自卸车4轻型车2普通车3牵引车s3、偏差分析及修正,对平台抽样样本进行缺失数据补全,并输出缺失数据部分的扩样样本;s4、在数据预处理以及偏差分析基础上,按照不同省份od对间确定扩样系数,并根据该扩样系数对平台抽样样本进行扩样;s5、扩样数据校核,包括s51、利用各省份分货类年产销量宏观数据对扩样后各省份、各货类、各货运量进行校核,并进行误差分析:其中,j表示第j种货物类型,j=1,2,…,17,产销量宏观数据来自货物产销量统计机构,货运量扩样数据是扩样后的平台抽样样本中的数据;s52、利用各省份年汽车保有量宏观数据对扩样后各省份货车类型进行校核,并进行误差分析:其中,l表示第l种货车类型,l=1,2,3,4;汽车保有量宏观数据来自汽车保有量统计机构,货运车辆扩样数据是扩样后的平台抽样样本中的数据;s53、利用各省份分燃油类型市场占有率数据对燃油类型进行校核,并进行误差分析:其中,y表示第y种燃油类型,y=1,2,3;分燃油类型市场占有率宏观数据来自燃油类型市场占有率统计机构,分燃油类型货运车辆扩样数据是扩样后的平台抽样样本中的数据,表3为示出了三种燃油类型;表3编号燃油类型1柴油2汽油3天然气s54、根据综合交通调查扩样校核成功经验,在可接受误差范围内,即平均误差在10%以下,输出包含误差的完整扩样数据,可参考表5、表6、表7中所示数据。在本发明的扩样数据校核过程中,各省份分货类年产销量宏观数据主要来自中国公路指数网,各省份统计局、统计信息网发布的年度国民经济和社会发展统计公报,各省市发改委网站发布的年度及月度经济运行情况,各省市工、农业资料发布计划,各省市统计年鉴;各省份年汽车保有量宏观数据主要来自国际统计局和中国汽车工业协会;各省份分燃油类型市场占有率数据主要来自中国燃油市场年度报告。可选地,步骤s1具体包括:s11、第一阶段抽样,采用分层抽样法,按照时间分层和地域分层的方式,以共享平台货运出行数据为抽样对象而进行分层抽样,得到第一阶段样本,并计算出第一阶段样本容量n1;时间分层是按照自然月将全年分为12个月进行操作,地域分层是按照我国大陆地区行政区域划分将全国分为31个地区来操作;s12、第二阶段抽样,采用等比例抽样法,根据货物类型,按照等比例原则,从第一阶段样本中直接抽取若干单位组成第二阶段样本,并计算出第二阶段样本容量n2;s13、第三阶段抽样,采用随机抽样法,按照随机原则从第二阶段样本中直接抽取若干样本作为第三阶段样本,第三阶段样本即为平台抽样样本,计算出第三阶段样本容量n3,并作为平台抽样样本容量。在本发明实施例中,依次逐级采用了分层抽样法、等比例抽样法和随机抽样法三阶段抽样方法,能够很好的匹配城市od对间货运调查的调查对象规模大、调查范围广的特性,兼顾了科学性与可操作性。可选地,步骤s11中第一阶段样本容量n1根据公式(1)或者公式(2)进行计算式中,n是共享平台货运出行数据中的一段时间总样本量,t代表概率度za/2,是组内平均方差,δ代表极限误差,代表成数的平均组内方差。可选地,分层抽样中,各层应抽取的样本单位数采用等比例法进行分配,计算公式为:mi=n1ni/n(1-3)式中,mi为第i层应抽取的样本数,ni为第i层样本总数。可选地,步骤s12中第二阶段样本容量n2根据公式(4)进行计算n2=n1t2p(1-p)/n1δ2+t2p(1-p)(1-4)式中,p(1-p)表示成数方差。可选地,步骤s13中第三阶段样本容量n3的计算方法是按照区间估计理论,在事先明确对估计量的要求时,反推解析得出所需的样本量,该计算方法包括两种:第一种按绝对精度决定样本量:假设给定绝对精度λ,即要求在1-α置信度下,满足即对照区间估计的结果,得到:式中,u1-α/2是n(0,1)分布的分位数,是估计的均方偏差,s2是总体方差;第二种按相对精度决定样本量:给定相对精度ε,即在1-α置信度下,满足对照区间估计的结果,得到:借鉴我国城市居民出行调查抽样、公路货物运输量调查抽样等成功经验,规定本发明方法在95%的置信度下,抽样目标量估计的极限相对误差范围为10%到15%。因此根据以上三阶段抽样方法的抽样样本容量公式可以依次算出最后本发明方法中货运城市od对扩样调查所需的样本量。抽样样本量大小最后以按月份od货运量形式展示,以2018年为例,如表4所示,样本抽样规模约为xxx万吨货运量,抽样率约为xxx%,本次货运调查抽样率接近理论值,符合大样本条件下的抽样率要求。表4月份样本量(万吨)月份样本量(万吨)2018年1月xxx万2018年7月xxx万2018年2月xxx万2018年8月xxx万2018年3月xxx万2018年9月xxx万2018年4月xxx万2018年10月xxx万2018年5月xxx万2018年11月xxx万2018年6月xxx万2018年12月xxx万可选地,步骤s3具体包括:s31、将数据预处理后的平台抽样样本分月份且按货物类型进行分省份od分析,查看各省份od之间缺失货物种类;s32、结合各出发省份年度货物产销量数据、各省份月度货物类型公路货运比例,确定各省份各月部分缺失货物种类是否异常;s33、针对异常货物种类,在省份od中对缺失货物进行增补,以该异常货物所涉省份公路od运量占该异常货物所涉省份货运总量的比例,对缺失货物类型货运量进行od分解,生成包含出发省份、到达省份、货物类型、货运总量的数据列表;s34、结合平台抽样样本中该类异常货物对应车型、货车自重、货车载重比例,对货运总量进一步分解,生成包含出发省份、到达省份、货物类型、货运总量、车型、货车自重、货车载重的数据列表;s35、利用年城市间货运总量、高速公路道路流量等确定城市od货运量,在城市od维度上对货运总量进行分解,生成包含出发省份、出发城市、到达省份、到达城市、货物类型、货运总量、车型、货车自重、货车载重的数据列表;s36、利用平台抽样样本分车型和分燃油类型所占比例,按车型、燃油类型分解货运量,生成包含出发省份、出发城市、到达省份、到达城市、货物类型、货运总量、车型、燃油类型的数据列表;s37、根据平台抽样样本中各省份各类货物年平均装载率,通过货车载重与平均装载率得到货物重量,将货运总量分解为货物重量与货物运输趟次,生成包含出发省份、出发城市、到达省份、到达城市、货物类型、货运总量、车型、燃油类型、货物重量、货物运输趟次的数据列表;s38、输出缺失数据部分的扩样样本。可选地,如图2所示,步骤s4具体包括:s41、确定扩样系数公式k=k0*kcargo*kvehicle*kfuel(4-1)其中,ko为扩样初始系数,kcargo为货物波动系数,kvehicle为各货物类对应车型波动系数,kfule为分车型燃油类型波动系数;s42、确定koko=q/q(4-2)其中,q为od对年宏观货运量,从货物产销量统计机构获取,q为平台抽样样本数据中的年货运量;s43、确定kcargokcargo=qcargo/qr(4-3)其中,qcargo为平台抽样样本第r月某类货物在od对间的月货运量,qr为平台抽样样本中od对间第r月月货运量;s44、确定kvehiclekvehicle=qvehicle/qr(4-4)其中,qvehicle为平台抽样样本中第r月某类货物对应车型在od对间的货运量;s45、确定kfulekfule=qfuel/qr(4-5)其中,qfuel为平台抽样样本中第r月某燃油类型在od对间的货运量;s46、根据公式(4-1)计算并输出扩样系数k,利用修正后的扩样系数k对平台抽样样本进行扩样。表5、表6、表7为本发明的扩样结果部分示例:表52018年各省份货运量及误差统计(单位:万吨)省份1月误差2月误差3月误差4月误差5月误差6月误差上海3211.30.0182851.2680.0529353406.6520.0656663124.7570.0752843157.0180.0772822914.9820.153695云南7915.330.0256899.4040.11241511076.10.02770911489.770.0138589718.4820.1144759855.580.023075内蒙古8816.990.0676249.1320.06222711307.450.02541210782.970.04989612119.180.07061712651.410.060751北京1140.640.013982.77720.1429741203.7050.0243381686.3560.0703551525.7090.1804352033.3510.001303吉林2940.860.0141322.2130.0172342816.5430.0406373883.8820.0067254198.7720.0081524252.9010.005431四川11657.420.0036726.2780.0937711252.390.06164112318.110.04131213566.690.0875912694.130.003377天津2233.930.0842139.0810.1374042690.1670.045662936.7850.0392322801.8180.1296242983.7620.073142宁夏1891.340.1831616.3890.0356422317.7450.0782032981.4950.0347163269.5760.0389732684.3360.17571安徽15186.480.1259952.9660.13554123917.20.00464922388.610.07215224926.260.01479320659.390.118377山东15621.10.06513830.780.02958722968.770.08895723310.590.07457625443.040.05199724663.480.05938山西8049.510.0175178.1490.0579075700.9260.0905258129.0130.0440388626.0310.05656910005.8930.012784广东17966.80.0421319.080.01486520722.690.04745122610.250.00635824309.850.02385323229.320.031842广西10044.30.056242.1630.03954310249.410.03693711212.440.01342811729.320.04822810827.560.048436新疆4404.070.081981.4630.0759736188.4940.0569626301.4380.0894346249.5710.012875529.8590.275439江苏7079.250.0427199.4690.09841410991.540.028711005.350.02410739.310.11450410739.290.035357江西10230.620.025176.9890.08248211025.810.01489111030.740.0118099432.0080.08142410568.910.010322河北12444.940.0817360.870.10272315493.690.02157715186.770.16015417524.060.1381517428.630.082128河南14331.350.0975863.2560.06630212294.710.13138113840.160.09485715149.240.07965816675.880.089837浙江9544.460.0238501.8520.0089579564.7370.14242613979.520.096819135990.01191212295.930.015377海南886.630.008846.18530.001401875.50460.000566874.44220.002925883.70240.001926912.68370.003634表62018年分货物类型货运量(单位:万吨)货物种类1月2月3月4月5月6月7月8月9月10月11月12月008.56626.02510000.7412500.652140.702310其他5621.5622324.2134119.6924872.4724258.0146591.6854613.5535998.2255009.25915.4126194.124765.357农林牧渔业产品58515.3449942.164051.9276107.9485497.5573686.0496018.5190998.186677.8890290.5696751.779125.48化工原料及制品8823.1296698.36810518.611726.5611782.9411136.9811895.5910556.5711692.8610369.5311355.1110632.82有色金属239.02822891.9391884.2594693.6697715.893300.74475393.46143041.264448.71363085.7993269.311433.7968木材332.2003587.54583307.7282736.6421110.8422051.6741356.4064561.0434162.7624462.8654771.9374057.054机械设备、电器23976.0716399.2132934.3831965.9328900.7830525.4239009.0937576.538762.436940.8640209.0235007.18水泥5033.209130.703241.2424256.5611162.36745868.631286.5022439.20287415.718448.6254467.7347355.141煤炭及其制品8738.4825368.4354967.6788139.92610047.3611764.597379.8815434.96915564.845251.5524389.86414081.22盐126.0978148.382613.71945129.9412238.5026141.40446.30471226.7375251.2598227.829236.8429237.421石油、天然气及其制品858.42721595.7923728.1162955.8721786.284866.94241939.271922.382982.6431921.7735938.9019946.4748矿物性建筑材料11949.084280.23312968.9211055.317648.64314717.217142.84322451.9423877.2322875.7924575.5323314.12粮食5730.271985.6513695.2624332.9124127.1617583.8693383.7784921.3328128.4765051.6364566.8177085.13肥料及农药4948.1042329.1534716.1975059.4724698.9466487.7822571.953227.0864594.5293280.9253707.5594057.353轻工、医药产品78051.1357375.7291566.0397409.49101647.695336.0886198.3385195.2196503.5884940.7191332.2789727.94金属矿石10396.895277.7878846.79910311.1610932.9913002.5112674.98978.38112424.099181.1569159.75911933.5钢铁10595.6311450.277866.94210904.1522213.6312853.9628839.5130355.312483.5330226.7432529.5610988.54非金属矿石8041.3656631.8710270.0810273.5310192.459578.6257852.74214482.9614868.6414886.9515265.0214172.22表72018年车型统计(趟次)货车车型1月2月3月4月5月6月7月8月9月10月11月12月普通车66109637496773698682198664473254534113926687211589261951003129029758890610031290210548734793493249牵引车542388093902359866195318771471678243964563549596112738487664173984753024766417398330929180310032自卸车52369848390141096235652347257096408545975286121974971678660822475225970866082248823055572433316轻型车13149939108765501845748613625979113698621324627615486952264543519230245226484352238658918532760以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1