虚假房源录入行为识别与预警系统的制作方法

文档序号:11730106阅读:232来源:国知局

本发明涉及一种虚假房源录入行为识别与预警系统,用于对虚假房源及录入行为进行识别。



背景技术:

目前的房产信息大都是通过房产中介公司的房源展示系统来进行,该系统向房地产经纪人提供一个输入端口,房产经纪人可以将房产相关信息录入到这个系统中供用户选择。用户通过浏览这些房产信息来决定是否购买,同时户主也可以委托房产经纪人将自己的房产信息放到平台上进行售卖,我们将这样一个系统称之为房源展示系统。

这个房源展示系统由某个特定的房产中介公司实际运营,房产中介公司对房地产经纪人进行考核,考核的指标中包括房源录入次数、核实房源信息真实性次数、售出房源套数等指标;因为涉及到业绩的考核,所以一些房产经纪人会录入一些虚假编造的房源来满足考核的要求,而这些虚假的房源信息若没有经过仔细的勘察检验会最终被展示到房源信息页面中供用户浏览,为用户购置房产带来了不必要的麻烦,同时也因表面上的房源信息丰富而对同行竞争对手造成严重的影响,更因为房价信息的胡乱编造而对整个社会的房价带来十分恶劣的影响。

基于以上原因,构造监督式学习算法通过识别虚假房源信息对房产经纪人录入虚假房源的行为进行预警,从而降低由此带来的影响。



技术实现要素:

针对上述技术问题,本发明提供一种能够识别虚假房源录入行为并对该行为进行预警的虚假房源录入行为识别与预警系统。

本发明采用的技术方案为:

本发明的实施例提供一种虚假房源录入行为识别与预警系统,包括:

数据获取模块,获取以预定时间段为周期记录的的房源录入总量i和销售房源的如下信息:举报有效量y、被他人改为无效的量a、被他人改为暂不出售的量b、被本人改为无效的量c、被本人改为暂不出售的量d,其中本人是指与获取的房源数据所对应的房产经纪人,他人是指除该房产经纪人之外的人;

行为识别模块,将获取的以预定时间段为周期记录的房源数据与预设条件进行对比,判断与获取的房源数据所对应的房产经纪人是否存在虚假房源录入行为,在判断为存在虚假房源录入行为的情况下,将该房产经纪人的识别标签标注为指示有虚假房源录入行为值1,否则将识别标签标注为值0;

预警模型构建模块,选取以预定时间段为周期记录的的举报有效量、被他人改为无效的量、被他人改为暂不出售的量、被本人改为无效的量、被本人改为暂不出售的量作为特征向量,建立特征向量和虚假房源录入行为概率之间的逻辑回归模型,得到的预警模型如下式(1)所示:

logit(p)=θ0+θ1x1+θ2x2+θ3x3+θ4x4+θ5x5(1)

其中,logit(p)为预警值,x1,x2,x3,x4,x5分别为以预定时间段为周期记录的举报有效量、被他人改为无效的量、被他人改为暂不出售的量、被本人改为无效的量、被本人改为暂不出售的量的数值;θ0为截距,θ1,θ2,θ3,θ4,θ5为各特征向量与虚假房源录入行为之间的关联度系数;

目标预警模型确定模块,基于获取的各特征向量的数值和所对应的识别标签值,对上述预警模型进行逻辑回归计算以得到各特征向量的回归值,从而得到进行预测的目标预警模型:

预警管理模块,在预定周期内,利用数据获取模块获取的房源数据和确定的目标预警模型来确定所获取的房源数据所对应的房产经纪人的虚假房源录入行为的预警值。

可选地,当以预定时间段为周期记录的房源数据满足下列预设条件的任一条件时,判断房产经纪人存在虚假房源录入行为:

(1)a≧5;

(2)b≧30;

(4)d≧10;

(5)y≧5且

可选地,所述预定时间段为7天。

可选地,通过极大似然估计方法来确定构建的预警模型的各特征向量的回归值,得到的目标预警模型如下式(2)所示:

logit(p)=-4.463+1.261x1+0.16x2-0.157x3+0.162x4+0.955x5(2)。

可选地,当预警值logit(p)大于0时,将该房产经纪人的预警标签标注为预警状态;当预警值logit(p)小于0时,将该房产经纪人的预警标签标注为正常状态,如果该房产经纪人的预警次数或者预警等级超过一定阈值,则对该房产经纪人采取惩罚措施

可选地,按照预警值logit(p)的分布情况,按从低到高的顺序设置10个预警等级p1,p2,p3,p4,p5,p6,p7,p8,p9,p10,如果房产经纪人的预警等级连续3个月都为p10等级,则对该房产经纪人采取惩罚措施。

可选地,当预警值logit(p)位于区间(0,200]时,将预警等级设置为p1等级;当预警值logit(p)位于区间(200,400]时,将预警等级设置为p2等级;当预警值logit(p)位于区间(400,600]时,将预警等级设置为p3等级;当预警值logit(p)位于区间(600,800]时,将预警等级设置为p4等级;当预警值logit(p)位于区间(800,1000]时,将预警等级设置为p5等级;当预警值logit(p)位于区间(1000,2000]时,将预警等级设置为p6等级;当预警值logit(p)位于区间(2000,4000]时,将预警等级设置为p7等级;当预警值logit(p)位于区间(4000,6000]时,将预警等级设置为p8等级;当预警值logit(p)位于区间(6000,9000]时,将预警等级设置为p9等级;当预警值logit(p)大于9000时,将预警等级设置为p10等级。

本发明提供的虚假房源录入行为识别与预警系统能够对房产经纪人是否录入了虚假房源进行识别,并能对该行为进行预警,在预警值达到一定等级时,对该经纪人采取惩罚措施,以避免给用户带来不必要的麻烦和对同行业竞争对手造成严重的影响,防止影响公司名誉和形象,从而避免不必要的经济损失,规范房产交易市场。

附图说明

图1为本发明的虚假房源录入行为识别与预警系统的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。

图1为本发明的虚假房源录入行为识别与预警系统的结构示意图。

如图1所示,本发明提供的一种虚假房源录入行为识别与预警系统,用于根据销售房屋的公司的数据库所采集的数据来构建用于对房产经纪人录入虚假房源的行为进行监测的预警模型,从而可对房产经纪人的行为进行规范化管理,包括数据获取模块1、行为识别模块2、预警模型构建模块3和目标预警模型确定模块。以下分别对这些模块进行详细介绍。

【数据获取模块】

数据获取模块1用于获取房源录入总量i和销售房源的如下信息:获取以预定时间段为周期记录的的房源录入总量i和销售房源的如下信息:举报有效量y、被他人改为无效的量a、被他人改为暂不出售的量b、被本人改为无效的量c、被本人改为暂不出售的量d,其中本人是指与获取的房源数据所对应的房产经纪人,他人是指除该房产经纪人之外的人。由于目前房产中介公司的房源状态在后台更改且被审核的周期最长为7天,所以在发明的一示意性实施例中,可将预定时间段设置为7天,这样可在后续预警模型的构建中建立以7为时长的变量,但并不局限于此。

在实际操作中,房产经纪人通过房源展示系统中的电话系统和出售人进行沟通,系统存下录音,通过语音识别、自然语言处理等方法将该通话进行标签标注,如无人接听、占线、暂不出售、无效等标签,然后系统存入数据库。后台数据库中存有房源状态被修改的时间日期以及修改人,通过简单的数据逻辑计算生成新的字段并保存新数据库表:房源录入总量、举报有效量、被他人改为无效的量、被他人改为暂不出售的量、被本人改为无效的量、被本人改为暂不出售的量、虚假录入状态、预警值。

这样,数据获取模块1可从后台数据库获取某段时间的数据进行行为识别和用于预警模型构建,并且可在构建预警模型之后按照预定周期,例如月末采集本月的房源数据来对房产经纪人的房源录入行为进行管理。

【行为识别模块】

行为识别模块2用于将获取的以预定时间段为周期记录的房源数据与预设条件进行对比,判断与获取的房源数据所对应的房产经纪人是否存在虚假房源录入行为,在判断为存在虚假房源录入行为的情况下,将该房产经纪人的识别标签标注为指示有虚假房源录入行为值1,否则将识别标签标注为值0。

具体地,当以预定时间段为周期记录的房源数据满足下列预设条件的任一条件时,即只要下述条件有一条得到满足,则判断房产经纪人存在虚假房源录入行为:

(1)被他人改为无效的量≧5,即a≧5;

(2)被他人改为暂不出售的量≧30,即b≧30;

(3)(被他人改为无效的量+被本人改为无效的量)/房源录入总量≧10%,即

(4)被本人改为暂不出售的量≧10,即d≧10;

(5)举报有效量≧5且举报有效量/房源录入总量≧10%,即y≧5且

在实际操作中,当根据获取的数据确认某房产经纪人存在虚假房源录入行为时,则在后台数据库中将该房产经纪人的id进行标注。

【预警模型构建模块】

预警模型构建模块3用于选取数据获取模块1所获取的举报有效量y、被他人改为无效的量a、被他人改为暂不出售的量b、被本人改为无效的量c、被本人改为暂不出售的量d作为特征向量,建立特征向量和虚假房源录入行为概率之间的逻辑回归模型。

具体地,将房源数据的特征集合x作为逻辑回归模型的独立变量向量,x={x1,x2,x3,x4,x5},虚假房源录入行为y作为逻辑回归模型的因变量,取值为0或1,这样,引入将回归结果y二分化的激励函数(sigmoid函数)g(x),h(x)=θ0+θ1x1+...+θnxn构造发生虚假房源录入行为的概率函数为:

不发生虚假房源录入行为的概率函数为:

可得事件的发生比:

又因为,h(x)=θ0+θ1x1+...+θnxn,所以对事件的发生比取对数,得到线性函数,即虚假房源录入行为的预警模型如下式(1)所示:

logit(p)=θ0+θ1x1+θ2x2+θ3x3+θ4x4+θ5x5(1)

其中,logit(p)为虚假房源录入行为概率优势比的对数值,又称为预警值,预警值越大说明与获取的房源数据所对应的房产经纪人的录入虚假房源的行为次数越多,行为越恶劣;x1,x2,x3,x4,x5分别为预定时间段内获取的举报有效量、被他人改为无效的量、被他人改为暂不出售的量、被本人改为无效的量、被本人改为暂不出售的量的数值,y为识别标签值,取值为0时,表示不存在虚假房源录入行为,取值为1时,表示存在虚假房源录入行为;θ0为截距,θ1,θ2,θ3,θ4,θ5为各特征向量与虚假房源录入行为之间的关联度系数。

【目标预警模型确定模块】

目标预警模型确定模块4基于获取的各特征向量的数值和所对应的识别标签值,对上述预警模型进行逻辑回归计算以得到各特征向量的回归值,从而得到对虚假房源录入行为进行预测的目标预警模型。

具体地,本发明利用极大似然估计方法来确定构建的预警模型的各特征向量的回归值。基于上述公式(1)构建的似然函数如下述公式(2)所示:

对上述公式(3)所示的极大似然函数两端求导得到其对数似然函数,如下式(4)所示:

l(θ)=∑yi*logg(xi)+(1-yi)*log(1-g(xi))(3)

通过对上述公式(3)所示的对数似然函数的参数进行求解,可得到预警模型的模型参数,即回归值,从而得到最终的目标预测模型。

本发明采用梯度下降法来对最大似然函数的参数进行求解,包括如下步骤:

(1)选择梯度方向

(2)选择下降步长α,对参数进行更新:

(3)重复以上步骤直至满足停止条件。

其中,xi是投影到[0,1]之间的任意变量,yi是第i个样本的真实值,yi*是该样本的预测值,λ是防止模型过拟合的结构化系数。

在实际操作中,可通过计算机软件如sas软件来运用获取的举报有效量、被他人改为无效的量、被他人改为暂不出售的量、被本人改为无效的量、被本人改为暂不出售的量的数值以及对应的标签值来进行回归求得各特征向量的权重θ1,θ2,θ3,θ4,θ5。

【预警管理模块】

预警管理模块5用于在预定周期内,利用数据获取模块获取的房源数据和得到的目标预警模型来确定所获取的房源数据所对应的房产经纪人的虚假房源录入行为的预警值,当预警值logit(p)大于0时,将该房产经纪人的预警标签标注为预警状态;当预警值logit(p)小于0时,将该房产经纪人的预警标签标注为正常状态,如果该房产经纪人的预警次数或者预警等级超过一定阈值,则对该房产经纪人采取惩罚措施。例如,以一个月为周期,利用采集的房源数据和上述目标预警模型可得到与房源数据相对应的房产经纪人的预警值,当预警值logit(p)大于0时,在后台数据库中将该房产经纪人的id标注为预警状态,当预警值logit(p)小于0时,标注为正常状态,并按照预警值logit(p)的分布情况,按从低到高的顺序设置10个预警等级p1,p2,p3,p4,p5,p6,p7,p8,p9,p10。如果根据某段时间的数据计算的预警值越大说明此经纪人录入虚假房源的行为次数越多,行为越恶劣。如果房产经纪人的预警次数或者预警等级超过一定阈值时,则对该房产经纪人采取惩罚措施,例如,如果一个经纪人连续3个月的预警等级都为p10,则需要对其进行严重惩罚,具体的处罚措施可根据实际情况来确定,例如可开除该经纪人。具体地:

当预警值logit(p)位于区间(0,200]时,将预警等级设置为p1等级;

当预警值logit(p)位于区间(200,400]时,将预警等级设置为p2等级;

当预警值logit(p)位于区间(400,600]时,将预警等级设置为p3等级;

当预警值logit(p)位于区间(600,800]时,将预警等级设置为p4等级;

当预警值logit(p)位于区间(800,1000]时,将预警等级设置为p5等级;

当预警值logit(p)位于区间(1000,2000]时,将预警等级设置为p6等级;

当预警值logit(p)位于区间(2000,4000]时,将预警等级设置为p7等级;

当预警值logit(p)位于区间(4000,6000]时,将预警等级设置为p8等级;

当预警值logit(p)位于区间(6000,9000]时,将预警等级设置为p9等级;

当预警值logit(p)大于9000时,将预警等级设置为p10等级。

【实施例】

本发明以某大型房产中介公司的后台数据库所记录的数据为例,对本发明的虚假房源录入行为识别与预警系统进行说明。

在本实施例的目标预警模型的确定中,使用该大型房产中介公司的2015年1月到2016年2月份所统计的北京、南京、上海、深圳、苏州、天津、武汉、长春、重庆等9个重点城市的48986条数据作为样本数据,如下表1所示。

表1:房源数据记录表

利用表1记录的数据,运用梯度下降法对构建的预测模型进行参数求解,迭代次数为11次,步长为1,得到的回归结果如下表2所示:

表2:回归结果

方程式中的变量

a.步骤1:[%]:,1:

由此可得到进行预测的目标预警模型如下式(4)所示:

logit(p)=-4.463+1.261x1+0.16x2-0.157x3+0.162x4+0.955x5(4)。

此外,由表2可知,本实施例建立的目标预警模型的显著性检验效果非常好,从而说明根据本发明提供的虚假房源录入行为识别与预警系统所建立的目标预警模型非常合理。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1