一种计算货运市场活跃度指数的方法及系统与流程

文档序号:14749031发布日期:2018-06-22 09:51阅读:539来源:国知局

本发明涉及大数据、货运市场技术领域,尤其是涉及一种基于海量货车轨迹点数据计算货运市场活跃度指数的方法及系统。



背景技术:

面对当前分析全国各省货运市场运力水平过程中,现有技术往往采用小样本分析方法,而导致分析结果不准确。

中国发明专利公开号CN102568195A提供一种能够准确预判车辆行驶轨迹和目的地的方法和系统。所述预判车辆行驶轨迹的方法包括如下步骤:为车辆安装定位终端;获取车辆的多个行驶轨迹历史记录;获取车辆当前行驶轨迹;将车辆当前行驶轨迹和行驶轨迹历史记录对比,从而对车辆下一时间段的行驶轨迹做出预先判断;发布判断结果。该发明通过统计车辆的以往行驶记录,并同车辆当前的运行轨迹对比,并对车辆后续的运行轨迹做出判断,使货主和货运公司可以准确找到合适车辆执行运输任务,也可以为车辆管理企业,例如危险品运输企业来管理所辖车辆的运行状态是否正常提供重要参考手段。

但是,目前并没有结合货运平台货车轨迹点数据来计算活跃度指数的技术。



技术实现要素:

为解决以上问题,本发明通过分析全国每个省内平板车、牵引车、自卸车运营情况,计算各车型的活跃度指数,反映相应的运力水平。

具体的,本发明提供了一种计算货运市场活跃度指数的方法,基于海量货车轨迹点数据,包括:

数据提取步骤,提取数据;

数据清洗及预处理步骤,对上述数据进行清洗和预处理;

特征工程步骤,创建计算活跃度指数的相关特征;

权重确定步骤,基于特征标准差,确定计算货运市场活跃度指数公式中每个特征的权重;

计算基准水平步骤,确定所述指数的基准水平;

计算活跃度指数步骤,计算所述活跃度指数。

优选的,所述数据包括海量货车历史轨迹点数据和全国各省物流园位置坐标数据。

优选的,所述数据清洗及预处理步骤包括以下步骤:

过滤海量货车历史轨迹点数据中的错误数据;

通过傅里叶滤波修正偏移点的经纬度;

按时间顺序重新整理数据,重新排序补传的数据。

优选的,所述特征工程步骤包括以下步骤:

通过海量货车历史轨迹点数据和全国各省物流园位置坐标数据,计算每辆车每个月在不同省份中行驶的运营里程数及运营停靠次数;

聚合统计如下六个特征:各省份每月的月省内运营车辆数X1、月省内停靠车辆数X2、月省内运营里程X3、月省内停靠次数X4、月省内运营车辆中外籍车占比X5、月省内停靠车辆中外籍车占比X6。

优选的,所述权重确定步骤包括以下步骤:

对所有特征做归一化处理,公式如下:X’=(X–Xmin)/(Xmax–Xmin),其中Xmax表示特征最大值,Xmin表示特征最小值;

计算归一化后各特征的标准差δi,根据公式计算权重Wi=δi/∑δi(i=1,2,3,4,5,6)。

优选的,以某一年平均的X1、X2、X3、X4、X5、X6作为所述基准水平,记为Yi(i=1,2,3,4,5,6)。

优选的,各省每月的货运市场活跃度指数Index计算方式如下:

Index=Wi*Xi/Yi(i=1,2,3,4,5,6),其中Xi是每月该省相应特征的值,Wi是特征的权重,Yi是该省的基准水平。

根据本发明的另一个方面,本发明还提供了一种计算货运市场活跃度指数的系统,包括顺序连接的如下模块:

数据提取模块,用于提取数据;

数据清洗及预处理模块,用于对上述数据进行清洗和预处理;

特征工程模块,用于创建计算活跃度指数的相关特征;

权重确定模块,基于特征标准差,确定计算货运市场活跃度指数公式中每个特征的权重;

计算基准水平模块,用于确定所述指数的基准水平;

计算活跃度指数模块,用于计算所述活跃度指数。

优选的,所述数据包括海量货车历史轨迹点数据和全国各省物流园位置坐标数据。

优选的,所述数据清洗及预处理模块包括以下单元:

过滤单元,用于过滤海量货车历史轨迹点数据中的错误数据;

修正单元,用于通过傅里叶滤波修正偏移点的经纬度;

整理单元,用于按时间顺序重新整理数据,重新排序补传的数据。

优选的,所述特征工程模块包括以下单元:

计算单元,用于通过海量货车历史轨迹点数据和全国各省物流园位置坐标数据,计算每辆车每个月在不同省份中行驶的运营里程数及运营停靠次数;

聚合单元,用于聚合统计如下六个特征:各省份每月的月省内运营车辆数X1、月省内停靠车辆数X2、月省内运营里程X3、月省内停靠次数X4、月省内运营车辆中外籍车占比X5、月省内停靠车辆中外籍车占比X6。

优选的,所述权重确定模块包括以下单元:

归一化单元,用于对所有特征做归一化处理,公式如下:X’=(X–Xmin)/(Xmax–Xmin),其中Xmax表示特征最大值,Xmin表示特征最小值;

权重单元,用于计算归一化后各特征的标准差δi,根据公式计算权重Wi=δi/∑δi(i=1,2,3,4,5,6)。

优选的,所述计算基准水平模块以某一年平均的X1、X2、X3、X4、X5、X6作为所述基准水平,记为Yi(i=1,2,3,4,5,6)。

优选的,所述计算活跃度指数模块计算各省每月的货运市场活跃度指数Index的方式如下:

Index=Wi*Xi/Yi(i=1,2,3,4,5,6),其中Xi是每月该省相应特征的值,Wi是特征的权重,Yi是该省的基准水平。

本发明由于结合了海量的真实货车轨迹点数据,通过特征工程技术,创建了可以直接反应当月省内运力水平的特征,并应用这些特征来量化活跃度,所以增加了结果的准确性。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1为本发明基于海量货车轨迹点数据计算货运市场活跃度指数的方法流程图;

图2为本发明中数据清洗及预处理步骤流程图;

图3为本发明中特征工程步骤流程图;

图4示出了本发明中活跃度指数在网页上的效果图;

图5为本发明基于海量货车轨迹点数据计算货运市场活跃度指数的系统结构图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施方式。虽然附图中显示了本发明的示例性实施方式,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明提出结合海量货车轨迹点数据,提取创建与运力水平相关的特征,可以直观地分析各省份内所有运营货车的运力情况,再通过计算特征标准差给各特征赋权重,最后根据指数公式计算出各省的运力水平,即活跃度指数。

图1为本发明基于海量货车轨迹点数据计算货运市场活跃度指数的方法的匹配流程图,包括如下步骤:

A1.数据提取步骤:提取数据;

A2.数据清洗及预处理步骤:用于提高建模数据的质量;

A3.特征工程步骤:用于创建计算活跃度指数的相关特征,如在每个月在各省内运营车辆的里程数;

A4.权重确定步骤:基于特征标准差,确定计算货运市场活跃度指数公式中每个特征的权重;

A5.计算基准水平步骤:用于确定各省指数的基准水平,基准水平的指数值为1,则之后每个月的指数值如果大于1,则说明当月该省货运市场比其货运市场的基准水平活跃。反之,则说明不如基准水平活跃;

A6.计算活跃度指数步骤:用于计算各省的活跃度指数。

如此,本发明与海量货车轨迹点数据进行结合,量化每月各省份各车型货运市场的活跃度,可以更加准确全面把握货运市场的运力情况。

实施例1

如图1所示,基于海量货车轨迹点数据计算货运市场活跃度指数发明,包括:

1、数据提取。这个步骤需要提取两个数据:

提取历史轨迹点数据中2016年1月至2017年11月的行驶轨迹数据。提取来源可以是本领域公开的免费货车轨迹获取平台,也可以是半开源的例如中交货运平台的数据。

提取全国各省物流园位置坐标数据。提取来源可以是本领域公开的免费物流园位置获取平台,也可以是半开源的例如中交货运平台的数据。

2、数据清洗及预处理。如图2所示,这个步骤具体包括以下三个步骤:

过滤轨迹中的错误数据,如速度报错、经纬度报错等;

通过傅里叶滤波等方法将偏移点的经纬度修正;

按时间顺序将数据重新整理,补传的数据进行重新排序,解决补传数据位置错误问题。

3、特征工程。这个步骤具体包括以下两个步骤:

通过轨迹点数据与全国各省物流园位置坐标数据,可以计算2016年1月至2017年11月每辆车每个月在不同省份中行驶的运营里程数(货车当月在某省份行驶里程大于5km才算在该省运营)及运营停靠次数(货车在物流园方圆200m内停留10分钟才算运营停靠)。

如图3所示,聚合统计出各省份每月的月省内运营车辆数X1、月省内停靠车辆数X2、月省内运营里程X3、月省内停靠次数X4、月省内运营车辆中外籍车占比X5、月省内停靠车辆中外籍车占比X6。例如,山东省2016年1月月省内运营车辆为135224辆,月省内停靠车辆数98321辆,月省内运营里程为13726459.2383km,月省内停靠次数为23834572次,月省内运营车辆中外籍车占比为27%,月省内停靠车辆中外籍车占比16%。

4、权重确定。这个步骤具体包括以下两个步骤:

对所有特征做归一化处理,公式如下:X’=(X–Xmin)/(Xmax–Xmin),其中Xmax表示特征最大值,Xmin表示特征最小值。

计算归一化后各特征的标准差δi,根据公式计算权重Wi=δi/∑δi(i=1,2,3,4,5,6)。

5、计算基准水平

本发明以2016年平均的X1、X2、X3、X4、X5、X6作为基准水平,记为Yi(i=1,2,3,4,5,6)。则Yi=(2016年1月Xi+…+2016年12月Xi)/12。

6、计算活跃度指数

从2016年1月开始,按照后面的公式计算各省每月的活跃度指数,Index=Wi*Xi/Yi(i=1,2,3,4,5,6),其中Xi是每月该省相应特征的值,Wi是特征的权重,Yi是该省基准水平。如图4所示,为根据本发明的基于海量货车轨迹点数据计算货运市场活跃度指数方法获得的活跃度指数曲线图。从图上可以看出,使用本发明的方法,可以直观地分析各省份内所有运营货车的运力情况。

如图5所示,根据本发明的另一个方面,本发明还提供了一种计算货运市场活跃度指数的系统100,包括顺序连接的如下模块:

数据提取模块110,用于提取数据;所述数据包括海量货车历史轨迹点数据和全国各省物流园位置坐标数据。

数据清洗及预处理模块120,用于对上述数据进行清洗和预处理;所述数据清洗及预处理模块120包括以下单元:过滤单元121,用于过滤海量货车历史轨迹点数据中的错误数据;修正单元122,用于通过傅里叶滤波修正偏移点的经纬度;整理单元123,用于按时间顺序重新整理数据,重新排序补传的数据。

特征工程模块130,用于创建计算活跃度指数的相关特征;所述特征工程模块130包括以下单元:计算单元131,用于通过海量货车历史轨迹点数据和全国各省物流园位置坐标数据,计算每辆车每个月在不同省份中行驶的运营里程数及运营停靠次数;聚合单元132,用于聚合统计如下六个特征:各省份每月的月省内运营车辆数X1、月省内停靠车辆数X2、月省内运营里程X3、月省内停靠次数X4、月省内运营车辆中外籍车占比X5、月省内停靠车辆中外籍车占比X6。

权重确定模块140,基于特征标准差,确定计算货运市场活跃度指数公式中每个特征的权重;所述权重确定模块140包括以下单元:归一化单元141,用于对所有特征做归一化处理,公式如下:X’=(X–Xmin)/(Xmax–Xmin),其中Xmax表示特征最大值,Xmin表示特征最小值;权重单元142,用于计算归一化后各特征的标准差δi,根据公式计算权重Wi=δi/∑δi(i=1,2,3,4,5,6)。

计算基准水平模块150,用于确定所述指数的基准水平;所述计算基准水平模块以某一年平均的X1、X2、X3、X4、X5、X6作为所述基准水平,记为Yi(i=1,2,3,4,5,6)。

计算活跃度指数模块160,用于计算所述活跃度指数。所述计算活跃度指数模块计算各省每月的货运市场活跃度指数Index的方式如下:Index=Wi*Xi/Yi(i=1,2,3,4,5,6),其中Xi是每月该省相应特征的值,Wi是特征的权重,Yi是该省的基准水平。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1