一种基于深度迁移学习的可解释性房屋价格评估分类方法

文档序号:29258012发布日期:2022-03-16 11:34阅读:162来源:国知局
一种基于深度迁移学习的可解释性房屋价格评估分类方法
system for housing evaluation,”decis.support syst.,vol.43,no.3,pp.779

790,2007)提出了消费者、发起人、市政当局等不同视角下的房屋评价决策支持系统,评估层次结构包含“结构/物理/内在”属性和“位置和环境”属性。
4.深度学习方法在特征提取方面表现优秀,尤其是在图像处理方面(y.lecun,y.bengio,and g.hinton,“deep learning,”nature,vol.521,no.7553,pp.436

444,may 2015)。越来越多的研究人员应用深度学习方法来提取深度视觉特征以获得更好的性能。刘等学者(y.liu,c.jiang,and h.zhao,“using contextual features and multi-view ensemble learning in product defect identification from online discussion forums,”decis.support syst.,vol.105,pp.1

12,2018)提出了一种用于产品缺陷识别的多视图集成学习方法,并展示了该方法在汽车行业案例中的实用性。fu等学者(y.fu,h.xiong,y.ge,y.zheng,z.yao,and z.-h.zhou,“modeling of geographic dependencies for real estate ranking,”acm trans.knowl.discov.data,vol.11,no.1,pp.1

27,aug.2016)提出了clusranking,一种地理方法,通过利用排名和聚类能力的相互作用进行房地产评估,他们首先从大数据中提取了房地产的地理效用和社区的流行度,然后对潜在业务领域的影响进行建模,随后融合了这三个影响因素,预测了房地产投资价值。这些研究证实了将卷积神经网络引入房地产行业的有效性。
5.多模态融合已被应用于解决分类和回归问题,包括房地产评估、视频分析和医学分析。多模态机器学习是一种从多种模态构建模型和相关信息的新趋势(t.baltrusaitis,c.ahuja,and l.-p.morency,“multimodal machine learning:asurvey and taxonomy,”ieee trans.pattern anal.mach.intell.,vol.41,no.2,pp.423

443,feb.2019),它使模型能够捕获具有多种模态的互补信息,并且即使在缺失某一模态的情况下也能提供可靠的预测。


技术实现要素:

6.本发明提供了一种基于深度迁移学习的可解释性房屋价格评估分类方法(imsel),详细阐述基于stacking的多模态可解释集成学习方法,其中多模态数据包括房屋基本信息、位置信息、房屋内部图像信息。除了房地产的结构信息,imsel具有动态调整的内部运行机制,根据卖家上传至平台的房产数据进行精准的价格预测。本发明的技术方案如下:一种基于深度迁移学习的可解释性房屋价格评估分类方法,具体步骤如下;
7.步骤一、模型训练测试数据的获取和预处理;
8.获取在线销售房屋的价格信息、基本信息、位置信息和房屋室内图像信息并进行预处理;信息均包括表达不同类别的类别特征和表达同类别数量的数值特征;类别特征包含区、街道、社区、房屋朝向、装修类型、有无电梯、房屋结构等,数值特征包括卧室数量、客厅数量、卫生间数量、建筑面积、楼层、周围学校数量、周围医疗设施等。
9.房屋基本信息数据包括卧室数、建筑层数、建筑面积、装修情况;合并基本信息中同类别的不同表述方式,比如合并相同社区名称的不同表述方式,对于一些混合特征,比如区域特征划分为区和街道,将房间信息以更精细的粒度划分为卧室、客厅和浴室;删除缺失值和异常值;例如存在与实际情况不符的街道、建筑面积超过在线交易平台记录上限、以及卧室数量存在负值的数据。
10.房屋位置信息包括房地产周围的地标和兴趣点,具体包括教育机构、中学、小学、幼儿园、综合医院、美食、酒店、购物、生活服务、美、旅游景点、休闲娱乐、体育健身、教育培训、文化传媒、医疗保健、汽车服务、交通运输设施、金融、房地产、公司、政府机构、入口出口、自然特征、行政地标、地址、明星级酒店、表达酒店、超市、便利商店、葬礼、电影、ktv、药店、诊所、地铁站、公交车站;首先,从基本信息中获取每栋房屋的社区信息,并去除冗余社区以提高查询效率;其次,在地图上查询过滤后的社区名称地理坐标,去除查询城市管辖范围以外的异常地理坐标;第三,查询社区两公里范围内的周边设施;第四,计算社区周边各类设施的数量;最后,将生成的房屋位置信息与基本信息进行融合;
11.融合后的信息通过对数变换和标准化方法进行归一化处理;使用xception网络作为网络主干提取房屋室内图像信息的深度视觉特征;
12.价格信息进行kolmogorov-smirnov正态性检验并观察理论分位数图,分布不符合正态分布采用下式进行对数变换,转换后的价格信息数据导出为ln数据集;
13.y
*
=ln(y),#(1)
14.其中,y表示原始价格,y
*
表示转换后的价格;
15.不同数值特征的分布区间不同,会影响模型的性能,因此使用标准化方法对房屋数值特征进行变换,变换函数如下:
[0016][0017]
其中,x表示原始数据,μ表示数值特征的均值,σ表示数据特征的标准差,x
*
表示转换后的值;
[0018]
房屋的价格信息、基本信息和位置信息采用均值插入法处理数值特征的缺失值,再采用最小最大值归一化处理,按比例缩放至数值特征均转换到[0,1]区间;采用众数插入法处理类别特征的缺失值,再采用独热编码进行处理;
[0019]
针对房屋室内图像信息的深度视觉特征,采用图像增强处理方法,根据每个类别的比重扩展图像的数量;采用-180至180度之间的随机水平和垂直翻转方式,随机应用小于0.2内的宽度或高度位移,小于0.15内的缩放和剪切;通过颜色恒定性方法增强颜色、亮度盒对比度,消除介于0.8至1.2之间的亮度因数,将所有归一化的图像调整为224*224像素,使每个类别的图像数量相近;为了提升房屋内景图像特征的提取能力,运用跨领域迁移学习的方式,迁移在imagenet上训练的xception神经网络底层参数,冻结其在entry flow、middle flow中12个模块的参数设置,在训练过程中仅微调exit flow部分的2个模块;
[0020]
将房屋的基本信息、位置信息和房屋室内图像信息融合获得多模态数据;任一模态的缺失不影响评估分类方法的运行;
[0021]
步骤二、训练基于stacking的多模态可解释集成学习模型;学习模型包括两个基学习模型catboost和lightgbm、基于梯度的类激活映射模型和基于shapley的加性解释模型;
[0022]
步骤2.1、基于步骤一处理后的多模态数据,给定房屋数据的输入特征空间x,分别为图像特征x
image
和房屋数据特征x
data
;x
image
表示房屋室内图像的像素矩阵,层l表示为张量《h
l
,w
l
,c
l
》其中h
l
,w
l
和c
l
分别表示图像的高度,宽度和通道数;x
data
表示房屋表格数据矩阵;x
data
=(x
cat
+x
num
)=(x
cat,i
+xnum,i,i=1,2,

,n,其中,n表示样本数量,xcat表示类别
特征向量,xcat,i表示第i个数据样本的类别特征向量,x
num
表示数值特征向量,x
num,i
表示第i个数据样本的数值特征向量;
[0023]
数据集表示为d=(xi,yi)=([x
image
,x
data
],yi),i=1,2,

,n,即n个具有分类标记的实例集合;其中xi∈x,x
image
∈x
image
和x
data
∈x
data
,这里粗体大写字母和粗体小写字母分别用于表示矩阵和向量;
[0024]
将一组房屋分类结果表示为yi={0,1}d,其中yi是y的独热编码,d对应划分的房屋价格区间;给定d个类,分类标签的集合labels={c1,c2,c3,...,cd};第i个样本的类别标签为k,表示为y
i,k
=1;使用独热编码,每个样本的真实标签为独热向量,只有一个位置为1;数据集按8:2分成训练集和测试集;
[0025]
步骤2.2、利用数据集对基于stacking的多模态可解释集成学习模型的两个基学习模型catboost和lightgbm的参数进行训练调整;通过网格搜索技术,运用5折交叉验证方法,针对训练数据集优化catboost和lightgbm两种模型迭代次数、学习率、树的深度、叶子节点数量的参数设置;
[0026]
lightgbm包括单边梯度采样(goss)和互斥特征捆绑算法(efb)以减少数据维度并加快学习过程;goss是一种以训练集的梯度为指导的欠采样方法,其保留最大梯度数据样本的a%,其余的随机数据样本为b%*n,数据样本按分布;efb处理高维特征空间,利用稀疏性对特征进行无损合并;
[0027]
catboost为基于gbm的算法,其包括替代经典算法的置换驱动替代方案和用于处理分类特征的添加先验分布项的目标变量统计法,假设数据样本的随机排列为ρ=(ρ1,ρ2,

,ρn),对于序列ρu中的第j个数据样本表示为:
[0028][0029]
其中,u表示相加的前项,而c》0是前项的权重系数;i(
·
)为指示函数,当公式满足时,返回数值1,否则为0;对于多分类任务,将正类别的先验概率作为先验项u,将处理后的类别特征纳入到梯度提升树的模型中,充分发挥类别特征在模型中的作用且有效防止过拟合。
[0030]
采用基于梯度的类激活映射模型对图像特征提取过程中的关注点进行可视化;采用分箱方法将房屋价格信息数据从数值特征转换为离散特征,将房价按中位数分为高房价和低房价,输出图像的明亮区域代表房屋室内图像对房价评估的关键区域因素;
[0031]
采用基于shapley的加性解释模型分析特征向量与分类结果之间的关系;针对每个样本,生成分类结果,依次添加每个类别特征,计算其边际贡献;然后在所有特征序列中考虑该特征向量的不同边际贡献;表示样本中第i个样本的第j个特征,表示模型对于该样本的预测值,则的shapley值为:
[0032][0033]
其中,表示的shapley值,m表示特征的数量,表示所有的均值;当第i个样本的第j个特征对预测结果有积极作用,否则时为负面作用,反映了该特征对预测结果的正负面作用;
[0034]
采用catboost和lightgbm提取基本信息数据和位置信息数据;
[0035]
交叉验证过程中,训练集分成5个部分,其中80%用于训练,其余用于验证;在交叉验证集和测试集上每个lightgbm和catboost模型独立运行5次进行预测;基于平均预测值形成新的数据集,使用交叉验证集上lightgbm和catboost模型的预测值作为特征,测试集上模型的预测值作为标签;
[0036]
步骤2.3基于步骤2.2获得新构造的特征和标签上训练catboost和lightgbm模型并应用到测试集;对预测的房屋价格再进行逆对数变换操作;最终得到房屋评估的价格。
[0037]
表1基于stacking的多模态可解释集成学习模型流程表
[0038]
[0039][0040]
本发明的有益效果:该分类方法能够捕获具有多种模态的互补信息,并且即使在缺失某一模态的情况下也能提供可靠的预测;动态调整内部运行机制,通过上传至平台的房产数据进行精准的价格预测。
附图说明
[0041]
图1是基于深度迁移学习的可解释性房屋价格评估分类方法整体示意图。
[0042]
图2是基于stacking的多模态可解释集成学习模型的整体示意图。
具体实施方式
[0043]
本发明的分类方法能够基于用户上传的房屋基本信息、位置信息和房屋室内图像信息,对房屋价格进行自动评估,并按照房屋价格区间对其进行自动分类服务,同时提供可视化的分类依据,为线上售房者提供定价决策支持,为线上中介平台提供房屋自动分类管理服务,为精准营销提供基础。系统采用b/s结构设计,即browser/server,浏览器/服务器模式,利用flask框架搭建系统,主要用html、css等技术实现,分为视图层,逻辑层和数据层三部分。如表2所示:
[0044]
表2数据库系统结构
[0045][0046]
1、用户上传房地产基本数据及内景图像
[0047]
用户界面支持电脑端和手机端两种形式,房屋基本信息数据采集采用选项框选择、文本框填写等形式填写表单信息,房屋室内图像上传支持本地照片上传或采用手机等设备摄像头拍照,由视图层接受用户上传数据,提交给逻辑层,并存入数据层。
[0048]
2、系统对上传信息进行诊断
[0049]
该功能的实现需要系统的逻辑层和数据库层的协调工作,具体如下:
[0050]
步骤1逻辑层对待上传的表单信息及图像信息进行模态缺失性检测,若缺失图像模态,则跳过步骤2,直接进行步骤3,否则按照顺序进行。
[0051]
步骤2进行房屋基本信息、位置信息和室内图像信息的特征提取,针对房屋室内图像信息,对其进行基于深度迁移学习的图像特征提取,并运用grad-cam方法求得图像特征梯度信息,实现房地产评估重要区域的可视化分析。若缺失表单信息,则直接跳至步骤4,否则按照顺序进行。
[0052]
步骤3逻辑层对待上传的房屋基本信息、位置信息等表单进行类别特征编码、数值特征标准化等预处理,自动整理成lightgbm和catboost模型输入所需格式,通过加性解释模型shapley实现特征重要性分析。
[0053]
步骤4若存在模态缺失,则直接加入逻辑层,得到最终分类结果,若模态不存在缺失,将步骤2输出的图像特征合并到步骤3输出的表单信息特征,通过catboost和lightgbm模型进行处理,最终进行特征级多模态融合,输出最终分类结果。
[0054]
步骤5将输出的分类结果及特征shapley值输出至数据层进行存储,同时由视图层将评估分类结果、特征重要性可视化结果反馈给用户,构建房地产价格评估数据库。
[0055]
3、用户对指定房地产类别进行检索
[0056]
系统完成辅助分类整个流程后,房地产数据存储至房地产评估数据库,用户可以通过输入房地产特征等信息对房地产评估分类及分析流程进行检索。比如,在用户输入小区名称后,用户可以查看ai辅助评估结果,并查看相应的位置、内景图像信息,ai绘制的辅助评估依据。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1