本发明涉及一种基于多维度信息相似计算的房源聚合方法。
背景技术:
当前各个经纪公司的官网,仅能展示自有房源,有的平台也只是简单的抓取其它平台或者经纪公司的房源原样展示。至于房子的历史价格及状态管理,现在在各个平台基本还是空白,因为经纪公司并不想让用户知道一个房子是涨价还是降价了。
就当前的平台和经纪公司所提供的信息,购房者如果想知道一个房子在多家经纪公司的挂牌信息,需要到多个经纪公司或者平台去比对,而且用户也不了解某个城市到底有多少家经纪公司可能有这个房子。
技术实现要素:
为克服现有技术的缺陷,本发明提供一种基于多维度信息相似计算的房源聚合方法,本发明的技术方案是:
一种基于多维度信息相似计算的房源聚合方法,包括以下步骤:
步骤(1)、抓取各平台或经纪公司的房源,对房源信息进行清洗,过滤掉信息缺失严重及疑似虚假重复房源;
步骤(2)、识别多个平台的房源是否属于同一套房子;
步骤(3)、多平台房源的聚合,进行基准挑选;
步骤(4)、房源聚合准确性与覆盖率检测;
步骤(5)、房源在各个平台的历史上架、涨价、降价信息会记录到历史表,展示一个房源在全网各个平台的生命周期。
所述的步骤(2)具体为:
准入条件:当一条房源信息过来时,先查出数据库所有同小区,同总楼层,同室,同楼层区间的房子,以便进行相似权重计算,符合准入条件,权重计算满足条件且关键等值属性不同个数小于2个的,判定为同一套房源进行聚合;
其中,不同渠道房源信息里,相同小区的小区名可能会有差异,但是小区id是相同的,通过比对小区id可以知道是否属于同一个小区;不同渠道的小区名和小区id的对应关系是通过小区地理位置与名字相似度而合并建立的;
所述的步骤(3)具体为:当两个渠道的某套房源聚合在一起时,渠道优先级较高的是基准,当第三个渠道的房源与两个房源满足聚合条件,且第三个渠道优先级较高,则将第三个渠道房源调整为基准;具体聚合方法为:
将房源的面积,价格,居室,楼层多维特征抽象为(x1,x2,...,xn)的特征向量输入:样本集d=(x1,x2,...,xn),相似矩阵的生成方式,降维后的维度k1,聚类后的维度k2,输出:簇划分c(c1,c2,...ck2);
1)根据输入的相似矩阵的生成方式构建样本的相似矩阵s;
2)根据相似矩阵s构建邻接矩阵w,构建度矩阵d;
3)计算出拉普拉斯矩阵l;
4)构建标准化后的拉普拉斯矩阵d−1/2ld−1/2;
5)计算d−1/2ld−1/2最小的k1个特征值所各自对应的特征向量f;
6)将各自对应的特征向量f组成的矩阵按行标准化,最终组成n×k1维的特征矩阵f;
7)对f中的每一行作为一个k1维的样本,共n个样本,用输入的聚类方法进行聚类,聚类维数为k2;
8)得到簇划分c(c1,c2,...ck2);通过上述算法,实现不同渠道相同房源的聚合。
所述的步骤(4)具体为:通过对聚合上的房源进行抽检,判断是否是同一套房源,若不是,则调整误合并的房源;
对未聚合房源覆盖率进行检测,筛选出疑似应该聚合的,判断是否应该聚合,若应该,则调整未聚合的房源。
本发明的优点是:,融合全网的数据,房源信息更全面,汇聚历史数据,横纵向全面了解一个房源在全网历史到现在的各种状态及价格走向,一键可联系感兴趣的经纪公司和经纪人,极大的提高了用户找房效率。
具体实施方式
下面结合具体实施例来进一步描述本发明,本发明的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的,并不对本发明的范围构成任何限制。本领域技术人员应该理解的是,在不偏离本发明的精神和范围下可以对本发明技术方案的细节和形式进行修改或替换,但这些修改和替换均落入本发明的保护范围内。
本发明涉及一种基于多维度信息相似计算的房源聚合方法,包括以下步骤:
步骤(1)、抓取各平台或经纪公司的房源,对房源信息进行清洗,过滤掉信息缺失严重及疑似虚假重复房源;
步骤(2)、识别多个平台的房源是否属于同一套房子;
步骤(3)、多平台房源的聚合,进行基准挑选;
步骤(4)、房源聚合准确性与覆盖率检测;
步骤(5)、房源在各个平台的历史上架、涨价、降价信息会记录到历史表,展示一个房源在全网各个平台的生命周期。
所述的步骤(2)具体为:
准入条件:当一条房源信息过来时,先查出数据库所有同小区,同总楼层,同室,同楼层区间的房子,以便进行相似权重计算,符合准入条件,权重计算满足条件且关键等值属性不同个数小于2个的,判定为同一套房源进行聚合;
其中,不同渠道房源信息里,相同小区的小区名可能会有差异,但是小区id是相同的,通过比对小区id可以知道是否属于同一个小区;不同渠道的小区名和小区id的对应关系是通过小区地理位置与名字相似度而合并建立的;
所述的步骤(3)具体为:当两个渠道的某套房源聚合在一起时,渠道优先级较高的是基准,当第三个渠道的房源与两个房源满足聚合条件,且第三个渠道优先级较高,则将第三个渠道房源调整为基准;具体聚合方法为:
将房源的面积,价格,居室,楼层多维特征抽象为(x1,x2,...,xn)的特征向量输入:样本集d=(x1,x2,...,xn),相似矩阵的生成方式,降维后的维度k1,聚类后的维度k2,输出:簇划分c(c1,c2,...ck2);
1)根据输入的相似矩阵的生成方式构建样本的相似矩阵s;
2)根据相似矩阵s构建邻接矩阵w,构建度矩阵d;
3)计算出拉普拉斯矩阵l;
4)构建标准化后的拉普拉斯矩阵d−1/2ld−1/2;
5)计算d−1/2ld−1/2最小的k1个特征值所各自对应的特征向量f;
6)将各自对应的特征向量f组成的矩阵按行标准化,最终组成n×k1维的特征矩阵f;
7)对f中的每一行作为一个k1维的样本,共n个样本,用输入的聚类方法进行聚类,聚类维数为k2;
8)得到簇划分c(c1,c2,...ck2);通过上述算法,实现不同渠道相同房源的聚合。
所述的步骤(4)具体为:通过对聚合上的房源进行抽检,判断是否是同一套房源,若不是,则调整误合并的房源;
对未聚合房源覆盖率进行检测,筛选出疑似应该聚合的,判断是否应该聚合,若应该,则调整未聚合的房源。