一种家庭关系识别方法和系统与流程

文档序号:18195359发布日期:2019-07-17 05:49阅读:338来源:国知局
一种家庭关系识别方法和系统与流程

本发明涉及通信技术领域,更具体地,涉及一种家庭关系识别方法和系统。



背景技术:

随着智能手机的普及,智能穿戴、智能家居设备的浪潮涌起,从个人需求到家庭需求,通信运营商、手机制造商、家电制造商、安防设备商、软件厂商等都瞄准家庭应用市场。对于中国移动来说,家庭市场有广阔的增长空间,除了手机通信卡、家庭短号网等业务外,还有家庭宽带,以及建构在宽带上的iptv、家庭智能设备等全产业链的开拓和布局。

基于家庭市场的开拓需要,对家庭用户的识别是重点之一。现有的家庭用户识别模型,往往是基于用户的通话记录等数据构建“社交网络”模型,通过“社群发现”算法挖掘紧密联系的群体作为疑似家庭客户。做法一般是:通过用户的通话记录作为构建连线的依据;确定用户间的连线关系后,利用社群划分算法等划分出联系紧密的社群,以此作为疑似家庭客户。

传统的家庭关系成员识别模型由于使用通话记录作为两个号码连线的依据,存在以下几点缺点:一是建立的家庭成员关系容易受到出度入度较大的中间节点干扰,如房产中介、外卖员这类需要以通话维系客户关系为手段的人群,在进行社群划分时由于这些中间节点的存在,容易将两个非家庭成员群体划分为同一家庭;二是由于偶然性的通话行为也会对构成稳定家庭关系造成干扰,传统模型构建时没有对这些偶然性节点识别与剔除,因此不同月份数据训练划分的同一家庭成员关系存在较大差别;三是传统模型忽略用户在地理位置上的联系,家庭成员共同生活位置是识别家庭关系的重要指标,因此传统模型识别的依据不够全面,得到的结果稳定性和准确率均不高。



技术实现要素:

本发明提供一种克服上述问题或者至少部分地解决上述问题的一种家庭关系识别方法和系统,解决了现有技术中家庭关系识别易受中间节点干扰,且无法结合地理位置进行有效识别的问题。

根据本发明的一个方面,提供一种家庭关系识别方法,包括:

s1、获取存在通话记录的两个号码作为待识别家庭成员,并分别提取两个号码中用于评估两个号码间家庭关系的指标;所述指标包括信令位置数据指标,以及表征两个号码间关联性的指标,所述信令位置数据指标为表征家庭成员共同生活位置的指标;

s2、基于已训练的家庭关系识别模型,对两个号码的家庭关系进行识别;

其中,所述家庭关系识别模型为逻辑回归模型,所述逻辑回归模型中,信令位置数据指标的指标模型系数大于其他指标的指标模型系数。

作为优选的,所述信令位置数据指标包括夜间信令位置小区相同个数、常驻top10信令位置小区相同个数、周末常驻top10信令位置小区相同个数。

作为优选的,所述步骤s1前还包括:

构建评估两个号码家庭关系的多维度的指标,对样本数据进行逻辑回归模型训练;

对各指标的指标模型系数进行调整,使信令位置数据指标的指标模型系数大于其他指标的指标模型系数,建立基于信令位置数据的逻辑回归模型。

作为优选的,构建评估两个号码家庭关系的多维度的指标具体包括:

构建评估两个号码间家庭关系的多维度的指标;

对指标进行分箱处理,计算各个指标的证据权重woe值,并根据woe值计算各个指标的信息价值iv值;

根据iv值对各指标进行降序排序,选取前20%的指标作为预测能力强的指标。

作为优选的,所述样本数据包括正样本和负样本,所述正样本为同一家庭短号网的两个号码,所述负样本为非同一家庭短号网中存在通话记录的两个号码。

作为优选的,所述正样本的两个号码之间需同时满足:属于同一家庭短号网、存在互为代付费关系、同一常住小区。

作为优选的,对各指标的指标模型系数进行调整,使信令位置数据指标的指标模型系数大于其他指标的指标模型系数具体包括:

记信令位置数据指标为对应的指标模型系数为

基于指标模型系数建立惩罚项λ为惩罚系数,s为总指标个数;

通过惩罚项约束每一项非信令位置数据指标的指标模型系数,以使信令位置数据指标的指标模型系数大于非信令位置数据指标的指标模型系数。

一种家庭关系识别系统,包括:

号码对抽取模块,抽取存在通话记录的两个号码作为待识别家庭成员;

数据提取模块,并提取两个号码中用于评估两个号码家庭关系的指标;

家庭关系识别计算模块,用于基于已训练的家庭关系识别模型,对两个号码的家庭关系进行识别;

其中,所述家庭关系识别模型为基于信令位置的逻辑回归模型,所述基于信令位置的逻辑回归模型中,信令位置数据指标的指标模型系数大于其他指标的指标模型系数,所述信令位置数据指标为表征家庭成员共同生活位置的指标。

一种家庭关系识别设备,包括:

至少一个处理器、至少一个存储器、通信接口和总线;其中,

所述处理器、存储器、通信接口通过所述总线完成相互间的通信;

所述通信接口用于该测试设备与显示装置的通信设备之间的信息传输;

所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如上述家庭关系识别方法。

一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行如上述家庭关系识别方法。

本发明提出一种家庭关系识别方法和系统,通过选取的家庭关系较为确定的两个号码作为正样本,抽取存在通话记录的两个号码作为负样本数据,利用iv值筛选重要变量,然后构建基于信令位置的自适应逻辑回归模型,确保信令位置数据起到较高的重要性,有效地建立用户之间存在的家庭关系,在训练模型时,基于人类社会关系和生活习性的相对稳定性考量,自适应地增强信令位置数据的重要性,弥补传统模型的不足,提升传统模型识别的稳定性,降低算法的误判率,更准确合理地划分用户为家庭成员关系。

附图说明

图1为根据本发明实施例的家庭关系识别方法流程框图;

图2为根据本发明实施例的家庭关系识别方法具体流程示意图

图3为根据本发明实施例的家庭关系识别模型应用示意图。

具体实施方式

下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。

如图1和图2所示,图中示出了一种家庭关系识别方法,包括:

s1、获取存在通话记录的两个号码(可称为号码对)作为待识别家庭成员,并分别提取两个号码中用于评估两个号码间家庭关系的指标;所述指标包括信令位置数据指标,以及表征两个号码间关联性的指标,所述信令位置数据指标为表征家庭成员共同生活位置的指标;

s2、基于已训练的家庭关系识别模型,对两个号码的家庭关系进行识别;

其中,所述家庭关系识别模型为逻辑回归模型,所述逻辑回归模型中,信令位置数据指标的指标模型系数大于其他指标的指标模型系数。

具体的,在本实施例中,上述信令位置数据指标包括夜间信令位置小区相同个数、常驻top10信令位置小区相同个数、周末常驻top10信令位置小区相同个数。

在本实施例中,所述步骤s1前还包括:

构建评估两个号码家庭关系的多维度的指标,对样本数据进行逻辑回归模型训练;

对各指标的指标模型系数进行调整,使信令位置数据指标的指标模型系数大于其他指标的指标模型系数,建立基于信令位置数据的逻辑回归模型。

具体的,构建评估两个号码家庭关系的多维度的指标具体包括:

构建评估两个号码间家庭关系的多维度的指标;

在本实施例中,具体的,所述样本数据包括正样本和负样本,所述正样本为同一家庭短号网的号码对,所述负样本为非同一家庭短号网中存在通话记录的号码对。

要建立号码间的家庭关系识别模型,必须先选择出一部分标准的正样本,作为参照体系,能够区分出哪些存在通话记录的号码对更有可能存在家庭关系,哪些存在通话记录的号码对不太可能存在家庭关系,后续的识别模型的构建基于这些数据进行分析。

为了选取家庭关系较为确定的号码对作为正样本,以办理同一家庭短号网的号码对作为主要依据,并且为了使正样本数据更为准确,还要进一步从付费关系和地理位置选取办理同一家庭短号网的号码对作为正样本,避免训练后述模型结果产生偏差,即抽取作为正样本的号码对之间需要同时满足以下三个条件:

1)属于同一家庭短号网;

2)存在互为代付费关系;

3)同一常住小区(夜间高频基站相同)。

抽取非同一家庭短号网存在通话记录的号码对作为负样本,正样本与负样本比例为1:10,正负样本的合集即为标准的样本数据,用于后续基于信令位置的自适应家庭关系识别模型的训练。

对指标进行分箱处理,计算各个指标的证据权重woe值,并根据woe值计算各个指标的信息价值iv值;

为了评估两个号码间的家庭成员关系,构建多维度的指标体系:实名登记信息相似情况、付费账号关联情况、共同交往圈信息以及其他信息。

在建模的过程若包含过多的变量,则会由于多重共线性导致部分变量的检验统计不显著,降低模型的解释性和影响模型的准确性,所以有必要进行变量选择。

为了选取对模型起显著作用的指标,主要是根据woe(weightofevidence,证据权重)值,计算iv(informationvalue,信息价值)值,由iv值大小选择指标。iv值可以衡量家庭关系成员号码对的指标值分布和非家庭关系成员号码对的指标值分布之间的差异。

为了计算指标的woe值和iv值,需要对指标进行分箱。对于连续型指标,一个合理的分箱是应该使得每个箱内的数据量较为均衡,不宜过多或者过少,同时各个箱内负样本的占比应呈现单调上升或下降的趋势,这里采用woe值,它既可以衡量各个分箱的趋势情况,也是后续的回归模型的变量输入,其计算公式如下:

woe=ln(正样本占比/负样本占比)×100%

iv表示信息价值,或者信息量,用来衡量一个变量的预测能力。信息价值应当尽可能的大,信息价值越大,说明评估指标的判别能力越强。每个指标的iv值计算公式如下:

其中,n为各指标的箱个数。对于离散型指标,在指标的取值不多的时候,可直接按其取值作为分箱并求取woe值和iv值;在取值较多的时候,可对某些取值进行合并,再求对应的woe值和iv值。

根据各指标的iv值大小,对指标进行降序排序,选取排序前20%的对模型起显著作用的的指标进入模型训练,剔除预测能力不强的指标。

多元逻辑回归在判别模型中使用比较广泛,它的结构简单,系数的作用容易在业务上解释。对抽取的正负样本的因变量分别使用1和0进行标识,将使用iv值筛选后的指标全部进入逻辑回归模型。

在本实施例中,每个关系为正样本的概率可用p表示,则逻辑回归模型可表示为:

其中xi(i=1,2,...,s)为指标,s表示指标数,由于p取值在0到1之间,而通过逻辑变换后,取值范围可变换为任意实数值,需要求解的是β=(β0,β1,...,βs)t,模型训练求解公式为:

除此之外,基于人类的社会关系和生活习性,夜间休息时段和周末休息时段是家庭成员较为可能在同一地点出没的时段,因此需要引入位置信息指标,从地理位置和时间上体现家庭成员关系。位置信息指标有:夜间信令位置小区相同个数、常驻top10信令位置小区相同个数、周末常驻top10信令位置小区相同个数等指标。

在一般的逻辑回归模型中,对于进入到模型的全部变量,并没有所侧重,但在实际应用中,信令位置数据指标是衡量家庭成员关系是否成立的重要变量,理应对信令位置数据指标有所侧重。

因此在本实施例中,对各指标的指标模型系数进行调整,使信令位置数据指标的指标模型系数大于其他指标的指标模型系数具体包括:

记信令位置数据指标为对应的指标模型系数为

因此,模型训练求解的过程中,为了确保信令位置数据方面的指标在模型贡献较高的权重,考虑添加惩罚项,基于指标模型系数建立惩罚项λ为惩罚系数,为常数;s为总指标个数;

通过惩罚项约束每一项非信令位置数据指标的指标模型系数,以使信令位置数据指标的指标模型系数大于非信令位置数据指标的指标模型系数,即使得位置信令数据指标的指标模型系数必须大于其他指标的系数。

综上则有基于信令位置的逻辑回归模型β=(β0,β1,...,βs)t的估计量定义为:

使用正负样本数据求解β=(β0,β1,...,βs)t后,即得到用于评估两个号码是否构成稳定家庭关系的自适应的逻辑回归家庭关系识别模型。最后求解得到的模型表达式为:

对于每个存在通话记录的号码对所组成的家庭关系,评估原有的家庭关系中每个连线的号码对其家庭成员关系是否成立。若通过模型判别其家庭关系成立,则保留连线,否则删除该连线,进行自适应地调整,得到最后稳定的家庭成员关系,具体的如图2所示,经本实施例的方法进行识别后,判断a和b之间的家庭关系不成立,b和c之间的家庭关系不成立,因此删除对应的连线,进行自适应地调整,得到最后稳定的家庭成员关系。

本实施例中还提供了一种家庭关系识别系统,包括:

号码对抽取模块,抽取存在通话记录的号码对作为待识别家庭成员;

数据提取模块,并提取号码对中用于评估两个号码家庭关系的指标;

家庭关系识别计算模块,用于基于已训练的家庭关系识别模型,对号码对的家庭关系进行识别;

其中,所述家庭关系识别模型为基于信令位置的逻辑回归模型,所述基于信令位置的逻辑回归模型中,信令位置数据指标的指标模型系数大于其他指标的指标模型系数,所述信令位置数据指标为表征家庭成员共同生活位置的指标。

本实施例中还提供了一种家庭关系识别设备,包括:处理器(processor)、存储器(memory)、通信接口(communicationsinterface)和总线;

其中,

所述处理器、存储器、通信接口通过所述总线完成相互间的通信;

所述通信接口用于该测试设备与显示装置的通信设备之间的信息传输;

所述处理器用于调用所述存储器中的程序指令,以执行上述各方法实施例所提供的家庭关系识别方法,例如包括:

s1、获取存在通话记录的两个号码作为待识别家庭成员,并分别提取两个号码中用于评估两个号码间家庭关系的指标;所述指标包括信令位置数据指标,以及表征两个号码间关联性的指标,所述信令位置数据指标为表征家庭成员共同生活位置的指标;

s2、基于已训练的家庭关系识别模型,对两个号码的家庭关系进行识别;

其中,所述家庭关系识别模型为逻辑回归模型,所述逻辑回归模型中,信令位置数据指标的指标模型系数大于其他指标的指标模型系数。

本实施例中还提供了一种家庭关系识别设备,包括:

至少一个处理器、至少一个存储器、通信接口和总线;其中,

所述处理器、存储器、通信接口通过所述总线完成相互间的通信;

所述通信接口用于该测试设备与显示装置的通信设备之间的信息传输;

所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述各方法实施例所提供的方法,例如包括:

s1、获取存在通话记录的两个号码作为待识别家庭成员,并分别提取两个号码中用于评估两个号码间家庭关系的指标;所述指标包括信令位置数据指标,以及表征两个号码间关联性的指标,所述信令位置数据指标为表征家庭成员共同生活位置的指标;

s2、基于已训练的家庭关系识别模型,对两个号码的家庭关系进行识别;

其中,所述家庭关系识别模型为逻辑回归模型,所述逻辑回归模型中,信令位置数据指标的指标模型系数大于其他指标的指标模型系数。

本实施例还公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:

s1、获取存在通话记录的两个号码作为待识别家庭成员,并分别提取两个号码中用于评估两个号码间家庭关系的指标;所述指标包括信令位置数据指标,以及表征两个号码间关联性的指标,所述信令位置数据指标为表征家庭成员共同生活位置的指标;

s2、基于已训练的家庭关系识别模型,对两个号码的家庭关系进行识别;

其中,所述家庭关系识别模型为逻辑回归模型,所述逻辑回归模型中,信令位置数据指标的指标模型系数大于其他指标的指标模型系数。

本实施例还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:

s1、获取存在通话记录的两个号码作为待识别家庭成员,并分别提取两个号码中用于评估两个号码间家庭关系的指标;所述指标包括信令位置数据指标,以及表征两个号码间关联性的指标,所述信令位置数据指标为表征家庭成员共同生活位置的指标;

s2、基于已训练的家庭关系识别模型,对两个号码的家庭关系进行识别;

其中,所述家庭关系识别模型为逻辑回归模型,所述逻辑回归模型中,信令位置数据指标的指标模型系数大于其他指标的指标模型系数。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的显示装置的测试设备等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

综上所述,本发明提出一种家庭关系识别方法和系统,通过选取的家庭关系较为确定的号码对作为正样本,抽取存在通话记录的号码对作为负样本数据,利用iv值筛选重要变量,然后构建基于信令位置的自适应逻辑回归模型,确保信令位置数据起到较高的重要性,有效地建立用户之间存在的家庭关系,在训练模型时,基于人类社会关系和生活习性的相对稳定性考量,自适应地增强信令位置数据的重要性,弥补传统模型的不足,提升传统模型识别的稳定性,降低算法的误判率,更准确合理地划分用户为家庭成员关系。

最后,本发明的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1