一种基于FFM算法的房屋租金预测方法与流程

文档序号:16977673发布日期:2019-02-26 19:10阅读:573来源:国知局
一种基于FFM算法的房屋租金预测方法与流程
本发明涉及机器学习、大数据、数据分析领域,尤其涉及房屋租赁中的一种基于ffm算法的房屋租金预测方法。
背景技术
:随着科技的迅猛发展,互联网给人们带来了各种各样的便捷服务,例如房屋租赁公司可以为客户在线提供服务,这为人们提供了一个更加便利的租房方式,但是与此同时也给人们带来了一定的安全隐患。例如,在线房屋租赁公司接收出租户的房屋信息,发布在租赁网站上,但是可能由于审核不严谨或者出租户提供虚假或者虚高的价格信息而给租客带来损失。随着大数据与人工智能的迅速发展,可以结合机器学习与数据分析来解决上述问题。通过租赁网站获取大量房屋信息,对这些数据进行清洗、去噪、缺失值填充等一系列数据分析处理。接着利用清洗后的数据对提取相关的特征,可以发现数据之间隐藏的信息。最后利用机器学习相关算法对数据进行建模。通过该模型不仅可以对房屋租金进行预测,还可以通过对比模型的预测房租与真实房租判断该房租是否异常,由此可大幅度减小租户在租房时所承担的风险。ffm(field-awarefactorizationmachine)场感知分解机最初的概念来自于yu-chinjuan与其比赛队员,借鉴了michaeljahrer的论文中field概念,提出的fm的升级版模型。虽然ffm主要用于点击率预测,但是由于ffm能够很好的处理稀疏的数据且能学习稀疏数据之间的联系,所以很适合房租预测任务。技术实现要素:本发明提供了一种基于ffm算法的房屋租金预测方法,能有效的对房屋租金进行预测,并且对异常租金值进行检测,实现大幅度的减小租户在租房时所承担的风险。本发明采用以下技术方案:一种基于ffm算法的房屋租金预测方法,包括以下几个步骤:q1、对房屋数据清洗,即在房屋数据中,对缺失值进行处理;对城市与省份无法对应的记录进行修正;将租金值低于200与租金值高于5000的数据去除;将租金值为“面议”的数据去除;将房屋面积高于200的数据去除;将楼层值不详的数据去除;q2、对清洗后的房屋数据进行特征提取,所述特征包括:房屋结构;房屋楼层高度;房屋总楼层;房屋朝向;房屋面积;房屋所在省市;房屋所在地区;房屋所在小区;房屋所提供的家具;房屋出租类型;房屋租金支付方式;所提供的房屋图片数量;所述提取包括:对房屋楼层高度、房屋朝向、房屋所在地区、房屋所在省市、房屋出租类型、房屋租金支付方式进行one-hot编码,对房屋所提供的家具进行n-hot编码;选择房屋所在省市、房屋所在小区、房屋所在地区、房屋朝向、房屋所在楼层高度的特征作为排序特征,依据特征值排序;q3、将数据转换为ffm算法需要的格式,将q2中所述特征的值转换成“field_id:feat_id:value”格式,field_id代表特征所属field的编号,feat_id是特征编号,value是特征的值;q4、对提取出来的特征构建租金预测模型,公式为:|yreal-ypred|/yreal>0.45其中yreal代表真实租金,ypred代表预测租金;q5、对房屋租金进行预测;q6、通过对比预测租金值与真实租金值找出异常租金数据。本发明的技术效果:本发明不仅可以通过对数据进行清洗、特征提取、建模来实现对房屋租金的预测,还能够很好的检测到异常的房屋租金信息。本发明所提出的基于ffm算法的房租预测方法能很好的应对房屋数据稀疏的情况,能够自动学习特征之间的隐藏联系,是对房租预测的一种十分有效的方法。附图说明图1为基于ffm算法的房租预测方法流程图。图2为ffm算法指定数据格式。具体实施方式下面将结合本发明的附图和实施例,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。根据图1所示,一种基于ffm算法的房屋租金预测方法,包括以下几个步骤:q1、对房屋数据清洗,即在房屋数据中,对缺失值进行处理;对城市与省份无法对应的记录进行修正;将租金值低于200与租金值高于5000的数据去除;将租金值为“面议”的数据去除;将房屋面积高于200的数据去除;将楼层值不详的数据去除;如表1为原始数据,表2为经过数据清洗之后的数据。表1、原始数据roomhalltoiletrent_moneyprovincecitytowardarealevelfloor311850山东莱芜南北95高层6111450四川资阳南40高层81018000云南昆明东35中层32311900江苏沛县南94高层6321550四川资阳南100高层6311900四川资阳西南100中层7321800四川资阳东西103中层6211面议四川资阳南90高层71111000湖南湘潭南北50中层192211600广西贵港南83低层301111000山东淄博西43中层6321100四川资阳南北97高层63222600广东中山南114高层321111300四川重庆北48中层252211690广西北海南90中层28221面议四川资阳南80高层225511000安徽马鞍山南400地下18表2、经过数据清洗之后的数据roomhalltoiletent_moneprovincecitytowardarealevelfloor311850山东省莱芜市南北95高层6111450四川省资阳市南40高层8311900江苏省沛县南94高层6321550四川省资阳市南100高层6311900四川省资阳市西南100中层7321800四川省资阳市东西103中层61111000湖南省湘潭市南北50中层192211600广西壮族自治区贵港市南83低层301111000山东省淄博市西43中层63222600广东省中山市南114高层321111300重庆市重庆市北48中层252211690广西省北海市南90中层285511000安徽省马鞍山市南400地下18q2、对清洗后的房屋数据进行特征提取,所述特征包括:房屋结构;房屋楼层高度;房屋总楼层;房屋朝向;房屋面积;房屋所在省市;房屋所在地区;房屋所在小区;房屋所提供的家具;房屋出租类型;房屋租金支付方式;所提供的房屋图片数量;所述提取包括:对房屋楼层高度、房屋朝向、房屋所在地区、房屋所在省市、房屋出租类型、房屋租金支付方式进行one-hot编码如表3所示:表3、one-hot编码toward南北南西南东西南北北西南北1000000南0100000南0100000南0100000西南0010000东西0000000南北0001000南0100100西0000001南0100000北0000010南0100000南0100000对房屋所提供的家具进行n-hot编码见表4;表4、n-hot编码facility床衣柜冰箱洗衣机空调热水器电视阳台沙发无000000000床.衣柜.冰箱.洗衣机.空调.热水器111111000床.衣柜.电视.空调.热水器.阳台110001010床.衣柜.沙发.热水器.阳台110001011床.衣柜.沙发.冰箱.空调.热水器.阳台111011011床.衣柜.沙发.电视.冰箱.洗衣机.空调111110101床.衣柜.沙发.电视.冰箱.洗衣机.空调.热水器.宽带.暖气.阳111111111床.衣柜.沙发.电视.冰箱.洗衣机.空调111110101空调.热水器.宽带.暖气.阳台000011010床.衣柜.沙发.电视.冰箱.洗衣机.空调.热水器.阳台111111111床.洗衣机.空调.阳台.冰箱.卫生间.可做饭.电视101110110床.衣柜.沙发.电视.冰箱.洗衣机.空调.热水器.阳台111011110无000000000选择房屋所在省市、房屋所在小区、房屋所在地区、房屋朝向、房屋所在楼层高度的特征作为排序特征,依据特征值排序;q3、将数据转换为ffm算法需要的格式,将q2中所述特征的值转换成“field_id:feat_id:value”格式,field_id代表特征所属field的编号,feat_id是特征编号,value是特征的值;q4、对提取出来的特征构建租金预测模型,公式为:|yreal-ypred|/yreal>0.45其中yreal代表真实租金,ypred代表预测租金;q5、对房屋租金进行预测,q4中,如果比值大于0.45,则租金异常,如比值小于0.45,则租金处于正常范围;q6、通过对比预测租金值与真实租金值找出异常租金数据,将q5中的比值大于0.45的租金异常数值找出对应的房屋。本发明通过判断q5中数值,完成租金预测,实现对异常租金值进行检测。根据图2所示,该图是一种基于ffm算法的房屋租金预测方法的数据转换模式图,提取之后的所有特征需要按照该图中的模式进行转换,其主要包含的内容如下:field,一个field一些性质相同的特征的组合,就本例而言,经过one-hot以及n-hot之后的特征都是属于同一field,如出租类型、城市、朝向等。而数据本身就是数值型的特征则自成一个field,如楼层特征。feat,一个feat就是一个特征向量,就本例而言,经过one-hot以及n-hot之后的每一个特征向量都是一个feat,而本身就是数值型的特征向量本身就是一个feat,如楼层特征。target,target就是ffm算法需要预测的目标,就本例而言,房屋的租金就是target,即value。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1