一种基于lightgbm的车联网风险因子的提取方法与流程

文档序号：23762286发布日期：2021-01-29 19:10阅读：234来源：国知局

[0001]
本发明涉及一种车联网风险因子的提取方法，具体为一种基于lightgbm的车联网风险因子的提取方法，属于传感器和数据处理技术领域。

背景技术：

[0002]
当前，车联网数据在保险、金融、电商、社交等领域得到了越来越广泛的应用。车联网数据包括车辆信息、行驶记录、道路信息、气候信息等种类繁多的数据，如何根据不同的业务需求选择合适的车联网数据来进行高效使用是当前产业界研究的热点之一，基于此，本申请提出一种基于lightgbm的车联网风险因子的提取方法。

技术实现要素：

[0003]
本发明的目的就在于为了解决问题而提供一种基于lightgbm的车联网风险因子的提取方法，通过结合车联网数据和保险理赔数据，采用lightgbm算法模型实现了车联网数据风险因子的快速判定和高效地抽取。同时，本发明适用于车联网数据对其它业务的风险因子重要性评估和抽取。
[0004]
本发明通过以下技术方案来实现上述目的：一种基于lightgbm的车联网风险因子的提取方法，包括以下步骤：
[0005]
步骤一、车联网数据的获取，根据车联网前装设备、车联网后装设备、用户手机提供的卫星定位数据等获取车联网数据；
[0006]
步骤二、保险数据的获取，根据车联网中的车辆编号获取车辆的相关投保和理赔数据；
[0007]
步骤三、数据预处理，对车联网数据异常值进行处理，车联网数据清洗，剔除无效行程；
[0008]
步骤四、生成风险因子，根据清洗后的车联网数据，生成风险因子；
[0009]
步骤五、组合车联网风险因子和保险数据生成模型数据集，以车联网风险因子作为自变量，保险理赔中赔付金额作为目标变量，根据车辆编号进行数据合并，组合形成数据模型的数据集；
[0010]
步骤六、采用lightgbm进行风险因子的重要性评估；
[0011]
步骤七、对各个风险因子重要性的评估值数据进行业务评估；
[0012]
步骤八、根据抽取的高质量的风险因子辅助投保金额的确定。
[0013]
作为本发明再进一步的方案：所述步骤一中，所获取的车联网数据包括：行程时间、行程轨迹、道路状况、车辆维修信息、行程车速、车辆急弯次数等。
[0014]
作为本发明再进一步的方案：所述步骤二中，所获取的保险数据包括：保单开始时间、保单结束时间、出险率、赔付率和签单保费等。
[0015]
作为本发明再进一步的方案：所述步骤三中，在对数据进行清理时，剔除有效行程距离很少的车辆数据；按照车辆行程为单元，对相关数据进行汇总。
[0016]
作为本发明再进一步的方案：所述步骤四中，生产的风险因子包括：行程数、节假日行程占比、黄昏行程占比、疲劳驾驶行程数占比、超速占比、恶劣天气行程占比、活动半径等。
[0017]
作为本发明再进一步的方案：所述步骤六中，lightgbm的优势在于：
[0018]
1)直接支持category数据；
[0019]
2)采用直方图的方式离散化样本；
[0020]
3)基于标签残差迭代的学习方式；
[0021]
4)根据带深度限制的leaf-wise的叶子生长策略来进行模型的训练；
[0022]
5)特征数据可以并行运行；
[0023]
采用lightgbm对车联网风险因子和保险数据组合生成的数据集进行模型训练，并采用gridsearchcv网格参数搜索的方式，找到学习率、控制器学习器的数量等超参数的最佳值，当模型预测准确率满足预定期望时，得到该场景时各个车联网风险因子的重要性评估值。
[0024]
作为本发明再进一步的方案：所述步骤七中，风险因子的业务评估标准为：根据当前数据集中，行程数、每天行程数、长距离行程的占比等因子进行判断。
[0025]
作为本发明再进一步的方案：所述步骤八中，根据抽取的风险因子辅助投保金额的确定包括：抽取前15个重要的车联网因子，根据lightgbm将车辆用户分成10个等级。每个等级设置一个乘法因子，用于投保金额的计算。而乘法因子的确定可以根据用户保险投保的历史数据拟合学习获取。
[0026]
本发明的有益效果是：该基于lightgbm的车联网风险因子的提取方法设计合理，给出了车联网数据风险因子重要性测度、风险因子抽取和风险因子效果验证的完整流程，采用的lightgbm算法可进行数据模型的分布式部署和进行模型的分布式学习，更重要的是，该算法可以直接支持离散数据，可以一次性获取所有风险因子的重要性评估值。基于本发明，将大大提高现有车联网用户获取数据的有效性，以及降低进一步的业务模型训练所需的数据规模，提高业务决策的准确率。
附图说明
[0027]
图1为本发明整体流程示意图；
[0028]
图2为本发明针对风险因子重要性评估和抽取的流程示意图。
具体实施方式
[0029]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0030]
请参阅图1～2，一种基于lightgbm的车联网风险因子的提取方法，包括以下步骤：
[0031]
步骤s10，车联网数据的获取。
[0032]
在本实施例中，从车联网前装设备、车联网后装设备、用户手机提供的卫星定位数据等设备和系统获取车联网数据，包括：行程时间、行程轨迹、道路状况、车辆维修信息、行
程车速、车辆急弯次数等。
[0033]
步骤s20，保险数据的获取。
[0034]
根据车联网中的车辆编号获取车辆的相关投保和理赔数据，包括：保单开始时间、保单结束时间、出险率、赔付率和签单保费等。
[0035]
步骤s30，数据预处理。
[0036]
车联网数据异常值处理，剔除无效行程；车联网数据清洗，剔除有效行程距离很少的车辆数据；按照车辆行程为单元，对相关数据进行汇总等。
[0037]
步骤s40，车联网风险因子的生成。
[0038]
根据清洗后的车联网数据，生成风险因子：行程数、节假日行程占比、黄昏行程占比、疲劳驾驶行程数占比、超速占比、恶劣天气行程占比、活动半径等。
[0039]
步骤s50，组合车联网风险因子和保险数据生成数据集。
[0040]
以车联网风险因子作为自变量，保险理赔中赔付金额作为目标变量，根据车辆编号进行数据合并，组合形成数据模型的数据集。
[0041]
步骤s60，采用lightgbm进行风险因子的重要性评估。
[0042]
合并车联网风险因子和保险理赔中的赔付金额数据形成数据集后，就可以开始进行基于lightgbm算法进行模型训练、模型验证和模型测试，获取车联网数据风险因子的重要性评估值。图2描述了本实施例中的详细步骤。
[0043]
s6001：读取数据集。从数据库中读取步骤s50中生成并入库的数据集。
[0044]
s6002：变量分割。将数据集分割为车联网因子和保险赔付金额。其中车联网因子作为模型的自变量，保险赔付金额作为模型的目标变量。
[0045]
s6003：数据集分割。将数据集分割为训练集、验证集和测试集，其中测试集占比可设置为10％～20％。
[0046]
s6004：设置lightgbm的超参数。模型超参数的设置值会影响模型的收敛速度，根据网格搜索算法gridsearchcv选取合适的学习率和子模型数量等超参数，并进行初始化设置。
[0047]
s6005：模型回归。根据lightgbm的回归算法在训练集和验证集上进行模型学习。
[0048]
s6006：测试集验证。判断测试集的准确率符合预期，则转到步骤s6007，否则转到步骤s6004。
[0049]
s6007：保存各风险因子的重要性估值。将获取的各车联网风险因子的重要性估值保存，提供给该领域的业务专家进行评估。
[0050]
s6008：保存模型。将模型参数进行保存，便于后续进行模型的迭代开发。
[0051]
步骤s70，风险因子的业务评估。
[0052]
判断模型分析的结果是否符合真实的业务定义。根据模型抽取结果，当前数据集中，行程数、每天行程数、长距离行程占比等因子重要性高，而节假日行程比例、后半夜行程比例、平均速度等因子重要性低，这也符合业务专家的评估：行程次数越多，行程距离越长，车子出风险的概率也越高；节假日当中车辆出风险的概率基本和平时差不多，另外由于所处路况不一致，驾驶水平不一样，速度也不是风险判定的关键性因素。
[0053]
步骤s80，根据抽取的风险因子辅助投保金额的确定。
[0054]
抽取前15个重要的车联网因子，根据lightgbm将车辆用户分成10个等级。每个等
级设置一个乘法因子，用于投保金额的计算。而乘法因子的确定可以根据用户保险投保的历史数据进一步拟合学习获取。
[0055]
对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
[0056]
此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：尹志武;王魁锋;周俊杰
技术所有人：上海评驾科技有限公司
我是此专利的发明人

上一篇：一种层叠养禽设备的集蛋机的制作方法
上一篇：一种快速测量圆锥型内腔机匣直径测具的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。