一种基于机器学习及多源信息的房屋租价预测方法与流程

文档序号:21185419发布日期:2020-06-20 18:05阅读:600来源:国知局
一种基于机器学习及多源信息的房屋租价预测方法与流程

本发明属于数据预测技术领域,特别涉及一种基于机器学习及多源信息的房屋租价预测方法。



背景技术:

目前房屋租价预测方法单一,预测精度较差。

其中,房屋租价预测所使用的预测样本特征简单,大多仅仅涉及房屋的基本属性特征,没有考虑到房屋周边特征、关注热度以及同期国民经济运行的宏观状况。同时,房屋租价的预测模型较简单,预测的精度较差。



技术实现要素:

本发明的目的在于提供一种基于机器学习及多源信息的房屋租价预测方法,以解决上述问题。

为实现上述目的,本发明采用以下技术方案:

一种基于机器学习及多源信息的房屋租价预测方法,包括以下步骤:

步骤1,获取房屋基本属性:通过网络爬虫程序从租房网站获取房屋的基本属性信息;

步骤2,获取房屋环境配套信息:获取房屋周边特定距离内学校、公园、商业体、医院及银行的数量及其最近距离;

步骤3,获取房屋搜索指数信息:该房源小区的关键词搜索热度;

步骤4,获取宏观经济运行信息:通过数据公司站点获取城市的宏观经济运行数据;

步骤5,基于步骤1至步骤4获取的数据,进行数据整合,构建机器学习模型的训练样本,构建基于lightgbm的房屋租价预测机器学习模型。

进一步的,步骤1中,房屋的基本属性信息包括地理信息和房屋属性信息;地理信息包括:城市、区、街道和小区名称;房屋属性信息包括:房屋面积、房屋厅室卫信息、朝向、楼层、供水、供电、供气、暖气和电梯信息。

进一步的,步骤2中,通过房屋基本属性信息中的地理信息,获取该房屋所在的经纬度信息,调用百度地图api接口,获取房屋环境配套信息;房屋环境配套信息包括:房屋周边特定距离内学校、公园、美食、购物、医院及银行的数量及其最近距离。

进一步的,房屋环境配套信息还包括获取小区周边直线距离分别为500米、1000米、3000米区域中所拥有的地铁线路数量和最近的地铁站点距离。

进一步的,步骤3中,以房屋基本属性信息中的地理信息为参数,调用百度指数api,获取该房源小区的关键词搜索热度。

进一步的,步骤4中,宏观经济运行数据包括:消费价格指数cpi、人口数量、商品房销售面积、固定投资和房地产投资。

进一步的,步骤5中,构建机器学习模型:使用lightgbm模型,步骤1至步骤4中构建的样本属性,设置lightgbm模型的参数;

进行模型训练,模型性能的评价方法使用平均绝对百分比误差mape,在模型训练达到给定的性能指标后,停止训练;在后续的使用过程中,不断加入新的训练样本进行迭代训练,从而不断修正模型,提高模型的预测性能。

进一步的,lightgbm模型的任务目标设置为回归,objective=regression,采用的提升方法为传统梯度提升决策树boosting_type=gbdt,l1正则化参数reg_alpha=0.1,l2正则化参数reg_lambda=0.1;一棵树上的叶子数num_leaves=900;每次迭代中随机选择特征的取样比例feature_fraction=0.8,样本的取样比例bagging_fraction=0.6;lightgbm模型选择mae平均绝对误差作为模型训练的评价度量,使用mape平均绝对百分比误差作为模型的测试评价指标,学习率选用lerning_rate=0.01。

与现有技术相比,本发明有以下技术效果:

本发明针对目前房屋租价预测中预测数据单一、预测精度较差的缺陷和不足,提供一种使用多源数据(包括房屋基本数据、房屋周边配套信息数据、房屋搜索热度数据以及相关宏观经济运行数据等),并利用机器学习模型lightgbm进行建模和训练,最终形成一个基于多源数据的房屋租价预测模型的方法,进而提供高性能、高精度的房屋租价预测。相比于传统的预测模型,通过使用单一数据源和多数据源的对比实验,使用多源数据组合预测的方式,更加有利于住房价格预测,本系统具有预测精确度高、实时性强、具有较好的扩展性等优点。

附图说明

图1是本发明的流程框图。

具体实施方式

以下结合附图对本发明进一步说明:

请参阅图1,一种基于机器学习及多源信息的房屋租价预测方法,包括以下步骤:

步骤1,获取房屋基本属性:通过网络爬虫程序从租房网站获取房屋的基本属性信息;

步骤2,获取房屋环境配套信息:获取房屋周边特定距离内学校、公园、商业体、医院及银行的数量及其最近距离;

步骤3,获取房屋搜索指数信息:该房源小区的关键词搜索热度;

步骤4,获取宏观经济运行信息:通过数据公司站点获取城市的宏观经济运行数据;

步骤5,基于步骤1至步骤4获取的数据,进行数据整合,构建机器学习模型的训练样本,构建基于lightgbm的房屋租价预测机器学习模型。

步骤1中,房屋的基本属性信息包括地理信息和房屋属性信息;地理信息包括:城市、区、街道和小区名称;房屋属性信息包括:房屋面积、房屋厅室卫信息、朝向、楼层、供水、供电、供气、暖气和电梯信息。

步骤2中,通过房屋基本属性信息中的地理信息,获取该房屋所在的经纬度信息,调用百度地图api接口,获取房屋环境配套信息;房屋环境配套信息包括:房屋周边特定距离内学校、公园、美食、购物、医院及银行的数量及其最近距离。

房屋环境配套信息还包括获取小区周边直线距离分别为500米、1000米、3000米区域中所拥有的地铁线路数量和最近的地铁站点距离。

步骤3中,以房屋基本属性信息中的地理信息为参数,调用百度指数api,获取该房源小区的关键词搜索热度。

步骤4中,宏观经济运行数据包括:消费价格指数cpi、人口数量、商品房销售面积、固定投资和房地产投资。

步骤5中,构建机器学习模型:使用lightgbm模型,步骤1至步骤4中构建的样本属性,设置lightgbm模型的参数;

进行模型训练,模型性能的评价方法使用平均绝对百分比误差mape,在模型训练达到给定的性能指标后,停止训练;在后续的使用过程中,不断加入新的训练样本进行迭代训练,从而不断修正模型,提高模型的预测性能。

lightgbm模型的任务目标设置为回归,objective=regression,采用的提升方法为传统梯度提升决策树boosting_type=gbdt,l1正则化参数reg_alpha=0.1,l2正则化参数reg_lambda=0.1;一棵树上的叶子数num_leaves=900;每次迭代中随机选择特征的取样比例feature_fraction=0.8,样本的取样比例bagging_fraction=0.6;lightgbm模型选择mae平均绝对误差作为模型训练的评价度量,使用mape平均绝对百分比误差作为模型的测试评价指标,学习率选用lerning_rate=0.01。

实施例:

本方法使用机器学习lightgbm构建多源住房出租价格预测模型,使用链家数据、地图api信息作为客观数据,将前瞻网提供的数据作为宏观数据,将客观数据和宏观数据结合起来,构建lightgbm预测模型,同时比较其他预测模型与lightgbm预测模型的性能优劣,模型性能的评价方法使用mape(平均绝对百分比误差)。结果:共纳入5个城市的58162条房源信息构成数据集,采用mape评价结果显示,平均误差百分比为6.42%,在此数据集上较其他预测模型相比,例如ngboost、xgboost、神经网络,lightgbm预测性能更佳。相比于传统的预测模型,通过使用单一数据源和多数据源的对比实验,使用多源数据组合预测的方式,更加有利于住房价格预测,本系统具有预测精确度高、实时性强、具有较好的扩展性等优点。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1