一种基于话单的用户关系确定方法和装置与流程

文档序号:14911184发布日期:2018-07-10 23:27阅读:254来源:国知局

本发明涉及通信技术领域,尤其涉及一种基于话单的用户关系确定方法和装置。



背景技术:

电信作为一种通信技术在不断地改变着人们的生活方式,同时也累积了大量的数据。目前,硬件设备升级已经越来越无法适应现代电信行业竞争的需求,所以众多电信企业将竞争领域转移到多年累积的用户和通话数据上。如何从现有的通话记录中挖掘出未知的规律和商业信息,已经成为了一个热门的课题。

对于数据挖掘已经提出了很多新的理论和方法,比如,Kernighan-Lin算法、谱平分法、GN算法、Moustaki算法等。一些算法在实际网络中也表现出了不错的挖掘效果。如Moustaki算法基于广义潜在特质模型提出了隐变量回归模型问题。利用大规模手机通信数据,从移动社会网络拓扑结构的角度分析用户间的关系强度,使用计算模型通过收集用户一定时间周期内的手机通话记录来计算和分析用户间的关系强度。分析了两百万用户的手机通信数据,提出衡量关系稳定性的方法,并揭示了用户关系稳定性随时间的动态变化规律。但是,目前的方法通常只给出目标用户对的总体关系强度,不能明确用户的不同关系亲密性,无法满足实际应用的需求。



技术实现要素:

有鉴于此,本发明要解决的一个技术问题是提供一种基于话单的用户关系确定方法和装置。

根据本发明的一个实施例,提供一种基于话单的用户关系确定方法,包括:采集话单数据并对所述话单数据进行预处理;获取所述话单数据的时段信息,基于所述时段信息对用户关系进行预分类;获取所述话单数据的用户交互信息,并基于所述用户交互信息计算用户之间的关系亲密度值,基于关系亲密度值确定被预分类的用户关系的亲密度;基于预设的检验规则判断对于所述用户关系的预分类结果是否正确,如果否,则将所述用户关系标识为不能识别的用户关系。

可选地,所述对所述话单数据进行格式化处理包括:基于统计规则对第一用户与其它用户之间的第一话单进行统计,其中,所述统计规则包括按照主动性标识、交互频繁性标识、时段交互性标识和交互时长性标识进行统计。

可选地,获取对于单向的第一话单按照所述交互频次标识、所述交互方向性标识进行统计的统计结果;基于所述统计结果判断第一用户与所述单向的第一话单的主叫或被叫用户之间的关系是否为咨询关系或营销关系;如果是,则标识所述单向的第一话单为非统计数据,并从所述第一话单中删除。

可选地,所述获取所述话单数据的时段信息、基于所述时段信息对用户关系进行预分类包括:预设工作时段和休息时段的时段信息;获取对于第一话单按照所述时段标识分拣进行统计的统计结果;基于所述统计结果以及所述时段信息对第一用户与第二用户之间的关系进行预分类并标识;所述第二用户为所述第一话单的主叫或被叫用户;其中,基于工作时段进行预分类的用户关系包括:同事、业务、其它关系;基于休息时段进行预分类的用户关系包括:亲人、朋友、其它关系。

可选地,所述获取所述话单数据的用户交互信息、并基于所述用户交互信息计算用户之间的关系亲密度值包括:对于第一话单按照所述时段标识进行分拣、统计,将所述第一话单分为工作时段第一话单、休息时段第一话单;基于按照主动性标识、交互频繁性标识、交互时长性标识对所述工作时段第一话单、所述休息时段第一话单的统计结果分别确定所述第一用户与所述第二用户在工作时段、休息时段的交互强度和亲密度评估值;分别确定所述第一用户与所述第二用户在工作时段、休息时段的关系亲密度=交互强度/亲密度评估值。

可选地,基于预设的检验规则判断对于所述用户关系的预分类结果是否正确包括:判断在基于工作时段进行预分类、基于休息时段进行预分类时确定的所述第一用户与所述第二用户之间的用户关系是否都为非其它关系;如果是,预分类时确定的、关系亲密度大的用户关系作为所述第一用户与所述第二用户之间的用户关系。

根据本发明的另一方面,提供一种基于话单的用户关系确定装置,包括:话单预处理模块,用于采集话单数据并对所述话单数据进行预处理;预分类模块,用于获取所述话单数据的时段信息,基于所述时段信息对用户关系进行预分类;亲密度确认模块,用于获取所述话单数据的用户交互信息,并基于所述用户交互信息计算用户之间的关系亲密度值,基于所述关系亲密度值确定被预分类的用户关系的亲密度;关系检验模块,用于基于预设的检验规则判断对于所述用户关系的预分类结果是否正确,如果否,则将所述用户关系标识为不能识别的用户关系。

可选地,所述话单预处理模块,还用于基于统计规则对第一用户与其它用户之间的第一话单进行统计,其中,所述统计规则包括按照主动性标识、交互频繁性标识、时段交互性标识和交互时长性标识进行统计。

可选地,所述话单预处理模块,还用于获取对于单向的第一话单按照所述交互频次标识、所述交互方向性标识进行统计的统计结果;基于所述统计结果判断第一用户与所述单向的第一话单的主叫或被叫用户之间的关系是否为咨询关系或营销关系;如果是,则标识所述单向的第一话单为非统计数据,并从所述第一话单中删除。

可选地,所述预分类模块,还用于预设工作时段和休息时段的时段信息;获取对于第一话单按照所述时段标识分拣进行统计的统计结果;基于所述统计结果以及所述时段信息对第一用户与第二用户之间的关系进行预分类并标识;所述第二用户为所述第一话单的主叫或被叫用户;其中,基于工作时段进行预分类的用户关系包括:同事、业务、其它关系;基于休息时段进行预分类的用户关系包括:亲人、朋友、其它关系。

可选地,所述亲密度确认模块,还用于对于第一话单按照所述时段标识进行分拣、统计,将所述第一话单分为工作时段第一话单、休息时段第一话单;基于按照主动性标识、交互频繁性标识、交互时长性标识对所述工作时段第一话单、所述休息时段第一话单的统计结果分别确定所述第一用户与所述第二用户在工作时段、休息时段的交互强度和亲密度评估值;分别确定所述第一用户与所述第二用户在工作时段、休息时段的关系亲密度=交互强度/亲密度评估值。

可选地,所述关系检验模块,用于判断在基于工作时段进行预分类、基于休息时段进行预分类时确定的所述第一用户与所述第二用户之间的用户关系是否都为非其它关系;如果是,则将预分类时确定的、关系亲密度大的用户关系作为所述第一用户与所述第二用户之间的用户关系。

本发明的基于话单的用户关系确定方法和装置,通过用户间的通话记录信息标识用户关系的分类以及关系亲密度,实现针对个体用户的社会关系的识别,包含家人、朋友、同事、业务、咨询和营销等类型,并可以排除特殊的话单数据内容,逐步获得明确的用户关系数据,通过个体交互过程中主动性标识、交互频次性标识、交互时长性标识和分时段标识进行结合处理,将用户在不同场景的呼叫特性进行交叉识别,使得识别的内容更明确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为根据本发明的基于话单的用户关系确定方法的一个实施例的流程示意图;

图2为典型用户一天不同时段话单交互统计的示意图;

图3为基于关系亲密度值确定被预分类的用户关系的示意图;

图4为根据本发明的基于话单的用户关系确定装置的模块示意图。

具体实施方式

下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。下面结合各个图和实施例对本发明的技术方案进行多方面的描述。

下文中的“第一”、“第二”等仅用于描述上相区别,并没有其它特殊的含义。

图1为根据本发明的基于话单的用户关系确定方法的一个实施例的流程示意图,如图1所示:

步骤101,采集话单数据并对话单数据进行预处理。

步骤102,获取话单数据的时段信息,基于时段信息对用户关系进行预分类。

步骤103,获取话单数据的用户交互信息,并基于用户交互信息计算用户之间的关系亲密度值,基于关系亲密度值确定被预分类的用户关系的亲密度。

步骤104,基于预设的检验规则判断对于用户关系的预分类结果是否正确,如果否,则将用户关系标识为不能识别的用户关系。

对话单数据进行格式化处理的方法有多种。例如:基于统计规则对第一用户与其它用户之间的第一话单进行统计,统计规则包括按照主动性标识、交互频繁性标识、时段交互性标识和交互时长性标识进行统计。

基于时间窗的方式进行统计的话单,会对用户间的关系亲密度情况产生较大偏差的识别,因此在对话单进行预处理时,采用了积累法的处理,即对第一用户A与其他不同用户Bn(n=1、2、3……)的话单进行分别统计,按照主动性标识、交互频繁性标识、时段交互性标识和交互时长性标识进行统计。

主动性标识包括:主叫和被叫标识,即用户A作为主体拨打给不同用户Bn(n=1、2、3……)的呼叫标识,被叫标识为不同用户Bn(n=1、2、3……))拨打给用户A的呼叫标识。

交互频率性标识:用户A与不同用户Bn(n=1、2、3……)所有通话做为交互频次标识。此标识用于用户间沟通紧密度。

时段交互性标识:用户A与不同用户Bn(n=1、2、3……)每次通话所在时段的标识,区分为休息时段和工作时段。此标识用于标识用户间交互过程在不同时段的性质情况。

交互时长性标识:用户A与不同用户Bn(n=1、2、3……)每次通话时长统计作为标识。此标识用于标识用户间交互时间的长短。

获取对于单向的第一话单按照交互频次标识、交互方向性标识进行统计的统计结果,基于统计结果判断第一用户与单向的第一话单的主叫或被叫用户之间的关系是否为咨询关系或营销关系,如果是,则标识单向的第一话单为非统计数据,并从第一话单中删除。

咨询关系是用户只单向的向某用户进行随机性信息咨询,往往只是存在单方向的话单。营销(骚扰)关系,是用户接收单向的某用户多次的交互信息,不存在反向话单内容,往往是真是的骚扰性话单。

通过积累的方式完成用户A与不同用户Bn(n=1、2、3……)所有通话做为交互频次标识和交互方向性标识的信息结合,对单向的话单数据,即长期只存在用户A拨打给不同用户Bn(n=1、2、3……)和只存在不同用户Bn(n=1、2、3……)拨打给用户A的话单信息进行处理分类,归类的为咨询关系和骚扰关系。例如,用户A拨打给用户B的电话次数在一周内超过预设的次数阈值,用户A与用户B为咨询关系。

预设工作时段和休息时段的时段信息,获取对于第一话单按照时段标识分拣进行统计的统计结果,如图2所示。基于统计结果以及时段信息对第一用户与第二用户之间的关系进行预分类并标识,第二用户为第一话单的主叫或被叫用户。基于工作时段进行预分类的用户关系包括:同事、业务、其它关系,基于休息时段进行预分类的用户关系包括:亲人、朋友、其它关系。

工作时段标识:是指工作日的时段信息,排除所有休息日、假期日的时段,每天的标识时段为9:00-6:00。工作时段识别同事、业务关系和其他。休息时段标识:是指除工作时段以外的所有时段信息。休息时段识别亲人、朋友和其他。

个体用户在社会行为中可以用工作和休息两种时段信息进行分类,而针对个体在两个不同时段所要交互的内容和对象将会有很大的区别。往往在工作时段交互的主体对象为工作来往的内容,而在休息时段交互的主体对象往往与工作关系不大。因此对用户的话单进行时段标识分拣,以进行初步的分类标识。

在步骤103中,计算交互强度和亲密度评估值时,需要在工作和休息两种时段分别进行计算和判断。工作时段识别同事、业务关系和其他;休息时段识别亲人、朋友和其他。

在一个实施例中,对于第一话单按照所述时段标识进行分拣、统计,将所述第一话单分为工作时段第一话单、休息时段第一话单。

基于按照主动性标识、交互频繁性标识、交互时长性标识对所述工作时段第一话单、所述休息时段第一话单的统计结果分别确定所述第一用户与所述第二用户在工作时段、休息时段的交互强度和亲密度评估值;分别确定所述第一用户与所述第二用户在工作时段、休息时段的关系亲密度=交互强度/亲密度评估值,具体的计算过程如下所示:

分别确定在工作时段、休息时段的交互次数类指标,第一用户为用户A,第二用户为用户B:

用户A主动拨打用户B的次数定义为PAB。用户A接到用户B的交互次数定义为IAB,即IAB为用户B主动拨打用户A的次数,交互指通话。用户A发出的交互总次数为即为用户A作为主叫的通话总次数。用户A收到的交互总次数为即为用户A作为被叫的通话总次数。

用户A与不同用户Bn(n=1、2、3……)的交互次数为QAB,即QAB为用户A与其它用户的通话总次数。用户A与不同用户Bn(n=1、2、3……)的交互最大次数为Max(QA),即Max(QA)为用户A与每个其它用户的通话次数中的最大值。

用户A主动拨打用户B的次数比例为用户A接到用户B的交互次数比例为为用户B主动拨打用户A的次数比例。假设用户A发出的交互次数为用户A收到的交互次数为用户A发出的与用户B交互次数为PAB,用户A收到来自用户B的交互次数为IAB。则用户A发出的所有交互中对与用户B的交互为如果fPAB趋近于1,说明用户A对用户B的关系亲密度很高。用户A收到的所有交互中来自用户B的比例为如果fIAB趋近于1,说明用户A对于用户B来说亲密度很强。

同理用户B发出的所有交互中对用户A的比例可表示为用户B收到的所有交互中来自用户A的比例为

分别确定在工作时段、休息时段的交互次数类指标交互时长类指标,第一用户为用户A,第二用户为用户B:

用户A主动拨打用户B的时长定义为YAB,即YAB用户A主动拨打用户B的通话时长。用户A接到用户B的交互时长定义为FAB,即FAB为用户B主动拨打用户A的通话时长。用户A发出的交互总时长为即为用户A作为主叫的通话总时长。用户A接收的交互总时长为即为用户A作为被叫的通话总时长。

用户A与不同用户Bn(n=1、2、3……)的交互时长为VAB,即VAB为用户A与其它用户的通话总时长。用户A与不同用户Bn(n=1、2、3……)的交互最大时长为Max(VA),即Max(VA)为用户A与每个其它用户的通话时长中的最大值。

用户A主动拨打用户B的交互时长比例为用户A接到用户B的交互时长比例为即为用户B主动拨打用户A的通话时长比例。假设用户A发出的交互时长用户A收到的交互时长为用户A发出的与用户B交互时长为YAB,用户A收到来自用户B的交互时长为FAB。则用户A发出的所有交互时长中对用户B的为如果fPAB趋近于1,说明用户A对用户B的关系亲密度很高。用户A收到的所有交互时长中来自用户B的比例为如果fIAB趋近于1,说明用户A对于用户B来说亲密度很强。

同理用户B发出的所有交互中对用户A的比例可表示为用户B收到的所有交互中来自用户A的比例为

根据上述定义,分别确定在工作时段、休息时段的用户A对用户Bn(n=1、2、3……)的交互强度可表示为:

其中是指用户A与用户B的所有交互次数与用户A与不同用户Bn(n=1、2、3……)的所有交互次数中的最大值的比值,表示用户A与用户B在用户A的所有交互过程中的次数比重值,作为系数值进行计算。是指用户A与用户B的所有交互时长与用户A与不同用户Bn(n=1、2、3……)的所有交互时长中的最大值的比值,表示用户A与用户B在用户A的所有交互过程中的次数比重值作为系数值进行计算。

关系亲密度表示为用户A对用户B的单向亲密度评估情况,由上面的计算方式可得分别在工作时段、休息时段的用户B对用户A的亲密度评估值函数如下:

因此用户A与用户B的关系亲密度情况表示为:

根据其分时段识别处理内容,通过数据的测试和验证,进行在不同时段内进行相应的识别范围,A与B关系亲密度超过1.75的识别为亲人和业务关系,A与B关系亲密度在0.75至1.75之间标识为朋友关系和同事关系,如图3所示。其它用户进行交叉识别,最终确定用户间关系内容。

根据现实的交互情况确定,不排除亲人和朋友在工作时间进行交互话单的产生,但存在有少量的现象,同时不排除同事与业务关系的交互话单在非工作时间内产生,因此使用关系交叉聚合处理。

将在分时段中两个未识别标识的用户进行两个时段数据交叉识别,即将工作时段中的其它关系与非工作时段的已标识关系进行交叉,以及工作时段的已标识的关系与非工作时段的其它关系进行交叉,最终将不能识别的关系暂做其它关系标识。对于两个时间段都已识别的用户关系,进行两个时段数据交叉识别,即将工作时段中的业务关系、同事关系,与休息时段中的家人、朋友关系进行交叉识别,通过两个时间段用户亲密度比较,以亲密度较大的关系最终确定用户关系。

由于数据具有积累特性,用户间的关系将会随着时间的推移逐步趋近于确定性关系。开始启动的阶段可能由于数据量较少导致其它关系较多,属于正常现象。

预设的检验规则遵循交叉聚合原则包括:将在分时段中两个未识别标识的用户进行两个时段数据交叉识别;将工作时段中的其它关系与非工作时段(休闲时段)的已标识关系进行交叉;工作时段的已标识的关系与非工作时段的其它关系进行交叉;最终将不能识别的关系暂做其它关系标识。

例如,判断在基于工作时段进行预分类、基于休息时段进行预分类时确定的第一用户与第二用户之间的用户关系是否都为非其它关系,如果是,则比较两个时段关系的亲密度,则以亲密度较大的关系最终确定用户关系;如果一个时段的用户关系为非其他关系,另一个时段未其他关系,则使用非其他关系最终确定用户关系;如果两个时段的用户关系都是其他关系,则最终确定为其他关系。

上述实施例中的基于话单的用户关系确定方法和装置,通过用户间的通话记录信息,实现针对个体用户的社会关系的识别,包含家人、朋友、同事、业务、咨询和营销(骚扰)等类型,满足了对现实应用的需求,从而对个体用户的通话行为进行画像分析,形成用户间关系的定量分析挖掘内容,从而标识和指导运营商在用户资费套餐的设置、新用户的挖掘推广、基本资费标准内容等方面以用户间关系的作为数据基础。

在一个实施例中,如图4所示,本发明提供一种基于话单的用户关系确定装置40,包括:话单预处理模块41、预分类模块42、亲密度确认模块43和关系检验模块44。话单预处理模块41采集话单数据并对话单数据进行预处理。预分类模块42获取话单数据的时段信息,基于时段信息对用户关系进行预分类。

亲密度确认模块43获取话单数据的用户交互信息,并基于用户交互信息计算用户之间的关系亲密度值,基于关系亲密度值确定被预分类的用户关系的亲密度。关系检验模块44基于预设的检验规则判断对于用户关系的预分类结果是否正确,如果否,则将用户关系标识为不能识别的用户关系。

话单预处理模块41基于统计规则对第一用户与其它用户之间的第一话单进行统计,统计规则包括按照主动性标识、交互频繁性标识、时段交互性标识和交互时长性标识进行统计。话单预处理模块42获取对于单向的第一话单按照交互频次标识、交互方向性标识进行统计的统计结果;基于统计结果判断第一用户与单向的第一话单的主叫或被叫用户之间的关系是否为咨询关系或营销关系,如果是,则标识单向的第一话单为非统计数据,并从第一话单中删除。

预分类模块43预设工作时段和休息时段的时段信息,获取对于第一话单按照时段标识分拣进行统计的统计结果;基于统计结果以及时段信息对第一用户与第二用户之间的关系进行预分类并标识;第二用户为第一话单的主叫或被叫用户;基于工作时段进行预分类的用户关系包括:同事、业务、其它关系,基于休息时段进行预分类的用户关系包括:亲人、朋友、其它关系。

亲密度确认模块44对于第一话单按照所述时段标识进行分拣、统计,将所述第一话单分为工作时段第一话单、休息时段第一话单;基于按照主动性标识、交互频繁性标识、交互时长性标识对所述工作时段第一话单、所述休息时段第一话单的统计结果分别确定所述第一用户与所述第二用户在工作时段、休息时段的交互强度和亲密度评估值;分别确定所述第一用户与所述第二用户在工作时段、休息时段的关系亲密度=交互强度/亲密度评估值。

关系检验模块44判断在基于工作时段进行预分类、基于休息时段进行预分类时确定的第一用户与第二用户之间的用户关系是否都为非其它关系,如果是,则将预分类时确定的、关系亲密度大的用户关系作为所述第一用户与所述第二用户之间的用户关系。

上述实施例提供的基于话单的用户关系确定方法和装置,通过用户间的通话记录信息标识用户关系的分类以及关系亲密度,实现针对个体用户的社会关系的识别,包含家人、朋友、同事、业务、咨询和营销等类型,通过对个体用户的通话行为进行画像分析形成用户间关系的定量分析挖掘内容,并可以排除特殊的话单数据内容,按照流程化进行累积的数据处理,逐步获得明确的用户关系数据,通过个体交互过程中主动性标识、交互频次性标识、交互时长性标识和分时段标识进行结合处理,将用户在不同场景的呼叫特性进行交叉识别,使得识别的内容更明确,从而可以指导运营商在用户资费套餐的设置、新用户的挖掘推广、基本资费标准内容等方面以用户间关系的作为数据基础,提高业务设置的准确性和合理性。

可能以许多方式来实现本发明的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1