一种基于随机森林的房屋合租推荐方法与流程

文档序号:21467018发布日期:2020-07-14 16:52阅读:212来源:国知局

本发明公开了一种基于随机森林的房屋合租推荐方法。



背景技术:

本发明公开了一种基于随机森林的房屋合租推荐方法。



技术实现要素:

本发明的发明目的在于提供一种为合租各方科学、便捷、快速地提供决策依据的一种基于随机森林的房屋合租推荐方法。

本发明解决上述技术问题所采取的技术方案如下:

本发明一种基于随机森林的房屋合租推荐方法,把合租方案作为一个整体,综合各方包括房东及租客的各特征变量进行评估,以获得各方更乐意参与其中的合租方案,而非孤立地只考虑某一方评估,而建议用户作出“一厢情愿”的决策。

基于随机森林的方法训练预测模型,可以将误差均匀分散到各个决策树上,降低过拟合的影响,从而提高模型预测精度。

由于合租人数不同的方案之间直接对比评估分值会有失偏颇,我们将所有合租案例样本按照总入住人数c进行分类,c值相同的样本才会分到同一类别中,在c值相同的情况下不同的合租方案才能通过相应的预测模型对比优劣。

使用袋外数据oob对特征变量进行重要性评价,使模型在实践过程中重视较为重要的信息,在尽量合理的取舍下协助用户做出更好的决定。

对原始数据集中离散型变量进行标准化处理,公式如下:

其中x是标准化处理后的数值,xr是原始数值,xmax、xmin分别表示数据集中该属性的最大、最小值。

构造一个可以表征拟合程度的指标,对模型总体回归的预测效果进行检验。在示例中我们选择了拟合优度r2

根据模型预测的整体满意度对所有合租方案进行降序排列,然后取排序靠前的若干方案推荐给用户。

通过用户对合租方案的选择形成反馈,对合租方案评价模型进行持续优化。若用户选择某候选方案,则该用户在此方案中的满意度s记为1,若用户对此候选方案进行否决,则该用户在此方案中的满意度s则记为-1。一个获得所有合租房满意度数据的合租方案本身会录入到合租方案样本库中,并基于新的样本库数据不定期重新训练合租方案评价模型

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书中所特别指出的内容来实现和获得。

具体实施方式

以下将结合实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。

该算法的主要步骤分4步:

s1.构建合租案例样本的结构化的数据集:

我们通过访谈大量合租案例样本中房东及租客的方法,提取出影响合租方案的特征变量。

对房东产生影响的变量主要为:租金,租期,押金,交付方式,租客职业,租客性别,租客年龄,租客籍贯,等等;

对租客产生影响的变量主要为:租金,租期,押金,交付方式,小区,位置,交通,户型,家具,室友人数,室友职业,室友性别,室友年龄,室友籍贯,室友收入,室友性格,室友爱好,等等。

该数据集中的变量中有部分是连续型变量,则可简单取其实际数值。而离散型变量需要先对数据进行标准化处理;针对离散型变量使用数值{1,2,3,…}表示,之后按照下式对每个变量的数值进行归一化处理,将数据统一映射到[0,1]上。其中x是标准化处理后的数值,xr是原始数值,xmax、xmin分别表示数据集中该属性的最大、最小值:

用户在使用我们的系统时,首先需要按照自己实际情况填写个人资料及租房需求。从用户填写的资料里面我们可以提取相关数据,并据此获得此用户各变量的值。

同时我们对每个合租案例样本中各方的满意度s进行记录,满意则s值记为1,不满意则s值记为-1。我们将一个合租案例中各方的s值之和定义为整体满意度,记为y。

我们将所有合租案例样本按照总入住人数c进行分类,c值相同的样本才会分到同一类别中。

s2.通过基于随机森林的方法,构建合租方案中整体满意度预测模型:

我们把通过访谈获得的合租案例样本,整合、去重、存储,结构化形成合租案例样本集,以样本数据集与随机森林算法为依据,建立合租方案中预测整体满意度y的模型,并对此初始模型进行优化,进而获得成熟的合租方案评估模型。

以c值相同的样本集作为一个类别,每一个类别分别训练一个模型。

利用bootstrap抽样从原始合租方案样本数据集中抽取b个样本集,且每个样本的样本容量与原始合租方案样本数据集相同,然后对b个样本集分别建立b棵决策树,得到b个结果,最后,对这b个结果取平均值得到最终的预测模型。

随机森林是b棵决策树{t1(x),...,tb(x)}的集合,其中,x={x1,...,xp}是合租方案的p维特征向量,集合将会产生b个结果{φ1=t1(x),...,φb=tb(x)},其中φb,b=1,...,b为第b棵树对合租方案整体满意度的预测值。在回归问题中,φ是所有树预测的平均值。

给定一系列数据进行训练,d={(x1,y1),...,(xn,yn)},xi,i=1,...,n,指合租方案中的特征向量,而yi指合租方案样本的实际满意度。随机森林回归算法实现流程为:

原始样本含量为n,应用bootstrap有放回地随机抽取b个样本集,并由此构建b棵树,每次bootstrap抽样未抽到的样本组成了b个袋外数据,作为随机森林的测试样本;

设原始数据的变量个数为p,则在每一棵树回归的每个阶段随机抽取了mtry个变量,作为备选分支变量,其中mtry远小于p,然后在其中根据分枝优度准则选取最优分枝。在随机森林回归中,参数mtry=p/3,在这方法中,mtry是唯一的调整参数。决策树可以最大化地生长,无需剪枝;

重复上面的步骤,直到b棵树全部建好。完成以上步骤之后,随机森林的训练集就建好了。最后,把测试集的自变量输入到建立好的预测模型中,得到预估的合租方案整体满意度,并以实际的合租方案满意度进行对比,用来检测随机森林的模型效果。

使用袋外数据oob对特征变量进行重要性评价。随机森林的一个重要特征是,若对一个特征变量加入噪声值后,其预测精度显著降低,则表明该特征变量比较重要,具体的计算可描述为:先用oob数据测试已生成的随机森林的性能,得到一个oob准确率;然后在oob数据中人为地给某特征变量加入噪声值,再用加入噪声后的oob数据测试随机森林的性能,得到一个新的oob准确率;原始oob准确率与加入噪声后的oob准确率之差,作为相应特征变量的重要性度量值。我们利用这个方法对特征变量进行重要性排列,使模型在实践过程中重视较为重要的信息,在尽量合理的取舍下协助用户做出更好的决定。

模型总体回归的预测效果检验。我们需要对模型的预测结果进行以衡量所建立模型的好坏。在这里,我们使用拟合优度检验r2检验,拟合优度检验是检验回归结果对样本值的拟合程度,即检验被解释变量与所有解释变量之间的相关程度。检验的方法是构造一个可以表征拟合程度的指标,这个指标是通过对总离差的分解而得到。

如果r2越接近1,就说明回归的拟合优度越高,解释能力也越强。r2等于1时则表示回归完全拟合了样本观测值。我们降低r2-1的值作为模型优化目标,调整模型的超参数。训练过程循环操作多次,直至模型优化目标r2-1在连续若干次训练中没有显著下降,结束训练得到最终模型。

s3.组合生成所有可能的合租方案,并通过预测模型评估对比,协助用户作出决策:

基于某房源的条件,如该房源共可住c人,用户a通过步骤二中,相应n值类别训练所得的整体满意度预测模型,在某合租方案中评估得的值记为φac。

记n可以取得的最大值为nmax,n以1为初始值,以1为公差等差递增取值至nmax,n每一次取值则进行一轮以下运算:

对于用户a,使用组合学中简单的组合方法,穷举此用户与其余n-1名用户组成的合租方案,根据所有用户的数据计算各组合方案相应的φac的值。将穷举的合租方案按照φac的值降序排列,取靠前的若干方案作为候选的合租方案。

n在各种取值情况下获得的所有候选合租方案最终合并,并推荐给用户a,协助其做出最终决策。

s4.通过用户对合租方案的选择形成反馈,对合租方案评价模型进行持续优化:

进一步地,我们设置了一个对模型持续优化机制。若用户选择某候选方案,则该用户在此方案中的满意度s记为1,若用户对此候选方案进行否决,则该用户在此方案中的满意度s则记为-1。一个获得所有合租房满意度数据的合租方案本身会录入到合租方案样本库中,并基于新的样本库数据不定期重新训练合租方案评价模型,并不定期地辅以人工监督对有效性进行分析,从而达到模型优化及版本升级的目的。

本发明一种基于随机森林的房屋合租推荐方法,与原始的寻找合租的方法相比将会更加省心,便捷,可以简单地获得最大可能满意的合租方案,而无需盲目地在线上、线下的信息海洋中随机寻找。

相比起现有平台简单的个性化推荐方法,我们的预测模型基于历史数据形成,而不是主观粗暴地赋予参数,向用户给出不足够个性化的结果。同时我们的预测模型侧重于把合租方案作为一个有机的整体,综合考虑全面的、各方的因素,而并非只是着重于一小部分因素产生过拟合的结果。由于预测模型是“随机”和“森林”的,误差均匀分散到各个决策树上,最终获得的结果要更加精准。

与经纪人经验判断方法相比,我们的方法更加科学,而不需要依赖于经纪人可能不充分的从业经验;也不需要依赖于经纪人的职业品德,不受人为的利益相关因素干扰,更能得出可靠、可信赖的结果。

最后,我们的预测模型是根据用户的使用结果持续优化升级的,越多的用户使用,最终将会使得预测模型的精度越高。

最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1