一种用户信息筛选方法和设备的制作方法

文档序号:7720401阅读:123来源:国知局
专利名称:一种用户信息筛选方法和设备的制作方法
技术领域
本发明实施例涉及通信技术领域,特别涉及一种用户信息筛选方法和设备。
背景技术
为了更好的进行客户服务,电信企业通常需要对客户的用户信息进行数据挖掘, 将数据挖掘后的用户信息推送给客户服务及营销等前台部门,这些部门使用这些用户信息 向客户提供对应的服务。通常电信企业会根据客户的某种属性信息对其进行评分,输出评分较高的用户信 息给服务部门,对于此类用户,可以作为重点客户进行业务维护和服务拓展。现有的方法一般从用户对企业的贡献出发来推送客户信息,例如按照用户过去一 年给企业平均收入贡献作为评分标准,并将用户分为钻石卡、金卡、银卡、普通客户等,并将 这些信息传递给前台服务器。另外一种方法是使用一个用户通话的不同对端用户数(称为交往圈个数)作为用 户的信息输出。另一方面,在移动通信领域,为了更好地为客户提供产品和服务,需要从用户中提 取特定用户群的信息。在移动通信网络中,用户之间的互相通话关系,形成了一个巨大的通话网络图。从 这个通话网络图中,提取特定用户群的信息如家庭社区、朋友社区精度更高,更准确的反映 用户群体的性质。所谓特定用户群,即属于由于某些社会关系而形成的用户群体,表现为整个通话 网络中的一个子网络。识别特定用户群体对更好地为用户提供服务具有非常重要的作用。目前的特定用户群识别方法主要依赖于用户登记信息,如登记为某些地址的用 户;或登记为某些为群体性产品用户的用户;或者使用某个用户属性进行筛选,如ARPU大 于若干的用户。在实现本发明实施例的过程中,发明人发现现有技术至少存在以下问题现有的用户中心度的计算方式只能通过片面的量化概念进行中心度计算,但这样 的计算往往只能说明用户使用产品的量或用户接触面来进行判断,这样的信息具有出现误 判的可能,例如在实际通话网络中,具有最高交往圈个数的是许多中介机构、保险从业者、 企业推销人员等。这些人的特点是虽然接触面广,但往往不是企业的重点客户。另一方面,现有的群体识别方式或者依赖于用户登记信息,或者孤立的使用用户 的某些属性,而没有考虑到用户之间的联系,因此提取的用户群信息具有较多的不准确之 处,而且用户登记信息本身的不准确性也为群体识别构成了不利影响。

发明内容
本发明实施例提供一种用户信息筛选方法和设备,实现按照一定规则对用户的筛 选,确定用户的中心性和归属群体。
为达到上述目的,本发明实施例一方面提供了一种用户信息筛选方法,具体包括 以下步骤用户信息筛选设备向计费设备获取统计周期内的用户通话信息;所述用户信息筛选设备根据获取到的用户通话信息,统计当前系统中建立过通话 联系的任意两个用户所组成的用户组所对应的通话信息;所述用户信息筛选设备根据统计得到的用户组通话信息,按照筛选规则筛选当前 系统中的用户信息。优选的,所述筛选规则具体包括所述用户信息筛选设备根据中心度参数在当前系统中的用户信息中筛选中心用 户;或,所述用户信息筛选设备根据用户群体相似度在当前系统中的用户信息筛选群体 用户。优选的,当所述筛选规则为所述用户信息筛选设备根据中心度参数在当前系统中 的用户信息中筛选中心用户时,所述用户信息筛选设备向计费设备获取的统计周期内的用 户通话信息,至少包括当前系统中所有发生过通话的用户在通话中的对端用户信息;各次通话的通话时长信息。优选的,当所述筛选规则为所述用户信息筛选设备根据中心度参数在当前系统中 的用户信息中筛选中心用户时,所述用户信息筛选设备根据获取到的用户通话信息,统计 当前系统中建立过通话联系的任意两个用户所组成的用户组所对应的通话信息,具体为所述用户信息筛选设备将当前系统中建立过通话联系的任意两个用户所组成的 用户组所对应的所有通话的通话记录进行合并计算,计算各用户组所对应的总的通话时长 和通话次数信息。优选的,当所述筛选规则为所述用户信息筛选设备根据中心度参数在当前系统中 的用户信息中筛选中心用户时,所述用户信息筛选设备根据统计得到的用户组通话信息, 按照筛选规则筛选当前系统中的用户信息的过程,具体为所述用户信息筛选设备根据各用户组所对应的总的通话时长和通话次数信息,建 立当前系统的无方向通话网络图;所述用户信息筛选设备设置分析计算的权重函数;所述用户信息筛选设备根据当前的权重函数,进行当前系统中各用户的中心度计 算,并根据计算结果进行用户中心度的排序;所述用户信息筛选设备将计算得到的用户中心度排序信息与已知的当前系统中 的用户中心度排序信息进行匹配;如果匹配结果一致,则保存当前的权重函数,并根据所述权重函数计算并输出相 应的用户中心度计算结果;如果匹配结果不一致,则重新设置权重函数,重新计算用户中心 度排序信息,并与已知的当前系统中的用户中心度排序信息进行匹配,直至匹配结果一致。优选的,当所述筛选规则为所述用户信息筛选设备根据用户群体相似度在当前系 统中的用户信息筛选群体用户时,所述用户信息筛选设备向计费设备获取的统计周期内的 用户通话信息,至少包括
当前系统中所有发生过通话的用户在通话中的对端用户信息;各次通话的通话时长信息;各次通话发生时的时间信息;各次通话中主叫用户所使用的基站信息。优选的,当所述筛选规则为所述用户信息筛选设备根据用户群体相似度在当前 系统中的用户信息筛选群体用户时,所述用户信息筛选设备根据获取到的用户通话信息, 统计当前系统中建立过通话联系的任意两个用户所组成的用户组所对应的通话信息,具体 为所述用户信息筛选设备将当前系统中建立过通话联系的任意两个用户所组成的 用户组所对应的所有通话的通话记录进行统计,确定各用户组中的用户之间的群体相似度 参数信息。优选的,当所述筛选规则为所述用户信息筛选设备根据用户群体相似度在当前系 统中的用户信息筛选群体用户时,所述用户信息筛选设备根据统计得到的用户组通话信 息,按照筛选规则筛选当前系统中的用户信息的过程,具体为所述用户信息筛选设备根据各用户组所对应的总的通话时长和通话次数信息,建 立当前系统的无方向通话网络图;所述用户信息筛选设备设置群体相似度计算函数;所述用户信息筛选设备根据当前的群体相似度计算函数,按照各用户组中的用户 之间的群体相似度参数信息,计算各用户之间的群体相似度;所述用户信息筛选设备将计算得到的各用户之间的群体相似度与已知的当前系 统中的用户所归属的群体信息进行匹配;如果匹配结果一致,则保存当前的群体相似度计算函数,根据所述群体相似度计 算函数计算相应的各用户之间的群体相似度,并将所述各用户之间的群体相似度的计算结 果确定为子图发现的权重信息;如果匹配结果不一致,则重新设置群体相似度计算函数,重 新计算各用户之间的群体相似度,并与已知的当前系统中的用户所归属的群体信息进行匹 配,直至匹配结果一致;所述用户信息筛选设备根据所述子图发现的权重信息,在当前系统的无方向通话 网络图中确定代表不同的通话群体关系的子图,并根据各子图信息输出当前系统中的用户 所归属的群体信息。优选的,所述用户信息筛选设备根据获取到的用户通话信息,统计当前系统中建 立过通话联系的两个用户所组成的用户组所对应的通话信息的过程中,还包括噪音数据的 过滤处理。另一方面,本发明实施例还提供了一种用户信息筛选设备,具体包括设置模块,用于设置当前的筛选规则,以及与所述筛选规则相对应的用户通话信 息获取类型;获取模块,与所述设置模块相连接,用于根据所述设置模块所设置的用户通话信 息获取类型,向计费设备获取统计周期内的用户通话信息;统计模块,与所述获取模块相连接,用于根据所述获取模块获取到的用户通话信 息,统计当前系统中建立过通话联系的两个用户所组成的用户组所对应的通话信息;
筛选模块,与所述设置模块和所述统计模块相连接,用于根据所述统计模块统计 得到的用户组通话信息,按照所述设置模块所设置的筛选规则筛选当前系统中的用户信 肩、ο优选的,所述设置模块所设置的筛选规则,具体包括根据中心度参数在当前系统中的用户信息中筛选中心用户;或,根据用户群体相似度在当前系统中的用户信息筛选群体用户。优选的,所述统计模块,用于根据所述获取模块获取到的用户通话信息,统计当前 系统中建立过通话联系的两个用户所组成的用户组所对应的通话信息,具体包括当所述设置模块所设置的筛选规则为根据中心度参数在当前系统中的用户信息 中筛选中心用户时,所述统计模块将当前系统中建立过通话联系的任意两个用户所组成的 用户组所对应的所有通话的通话记录进行合并计算,计算各用户组所对应的总的通话时长 和通话次数信息;当所述设置模块所设置的筛选规则为根据用户群体相似度在当前系统中的用户 信息筛选群体用户时,所述统计模块将当前系统中建立过通话联系的任意两个用户所组成 的用户组所对应的所有通话的通话记录进行统计,确定各用户组中的用户之间的群体相似
度参数信息。优选的,所述的设备还包括过滤模块,与所述统计模块相连接,用于在所述统计模块根据获取到的用户通话 信息,统计当前系统中建立过通话联系的两个用户所组成的用户组所对应的通话信息的过 程中,对用户通话信息中所包含的噪音数据进行过滤处理。优选的,所述的设备还包括权重设置模块,与所述统计模块相连接,用于根据所述统计模块所统计得到的通 话信息,设置相应的权重函数;匹配模块,与所述权重设置模块和所述筛选模块相连接,用于根据所述权重设置 模块所设置的当前的权重函数,计算相应的用户统计信息,并将所述用户统计信息与已知 的当前系统中的用户信息进行匹配,如果匹配一致,则将所述权重函数发送给所述筛选模 块进行用户信息的筛选,如果匹配不一致,则通知所述权重设置模块重新设置权重函数。优选的,所述筛选模块,用于根据所述统计模块统计得到的用户组通话信息,按照 所述设置模块所设置的筛选规则筛选当前系统中的用户信息,具体为当所述设置模块所设置的筛选规则为根据中心度参数在当前系统中的用户信息 中筛选中心用户时,所述筛选模块根据所述匹配模块所确定的权重函数计算并输出相应的 用户中心度计算结果;当所述设置模块所设置的筛选规则为根据用户群体相似度在当前系统中的用户 信息筛选群体用户时,所述筛选模块根据所述权重函数确定子图发现的权重信息,在所述 统计模块统计得到的用户组通话信息中确定代表不同的通话群体关系的子图,并根据各子 图信息输出当前系统中的用户所归属的群体信息。与现有技术相比,本发明实施例具有以下优点通过应用本发明实施例所提出的技术方案,采用基于通话关系中的用户组通话信 息进行统计和筛选,并通过权重函数的设置和调整进行一致性验证,能够更准确的对客户对电信企业的重要性进行排序,提高特定用户群信息提取的效率与精度。


图1为本发明实施例提出的一种用户信息筛选方法的流程示意图;图2为本发明实施例提出的在当前系统中的用户信息筛选中心用户的流程示意 图;图3为本发明实施例提出的在当前系统中的用户信息筛选群体用户的流程示意 图;图4为本发明实施例提出的设备的功能结构示意图;图5为本发明实施例提出的数据管理模块的工作流程示意图;图6为本发明实施例提出的一种用户信息筛选方法的输出流程示意图;图7为本发明实施例提出的一种具体应用场景中的用户信息筛选方法的流程示 意图;图8为本发明实施例提出的设备的功能结构示意图;图9为本发明实施例提出的数据管理模块的工作流程示意图;图10为本发明实施例提出的一种用户信息筛选方法的输出流程示意图;图11为本发明实施例提出的一种具体应用场景中的用户信息筛选方法的流程示 意图;图12为本发明实施例提出的一种用户信息筛选设备的结构示意图。
具体实施例方式为了解决现有技术中存在的问题,本发明实施例提出的一种用户信息筛选方法, 采用基于通话关系中的用户组通话信息进行统计,根据具体的筛选策略对用户进行筛选。如图1所示,为本发明实施例提出的一种用户信息筛选方法的流程示意图,具体 包括以下步骤步骤S101、用户信息筛选设备向计费设备获取统计周期内的用户通话信息。在具体的应用场景中,筛选规则具体包括以下两种情况情况一、用户信息筛选设备根据中心度参数在当前系统中的用户信息中筛选中心 用户。在此种情况下,用户信息筛选设备向计费设备获取的统计周期内的用户通话信 息,至少包括当前系统中所有发生过通话的用户在通话中的对端用户信息;各次通话的通话时长信息。情况二、用户信息筛选设备根据用户群体相似度在当前系统中的用户信息筛选群 体用户。在此种情况下,用户信息筛选设备向计费设备获取的统计周期内的用户通话信 息,至少包括当前系统中所有发生过通话的用户在通话中的对端用户信息;各次通话的通话时长信息;
各次通话发生时的时间信息;各次通话中主叫用户所使用的基站信息。需要指出的是,上述的中心用户和群体用户的选择筛选是最常用的用户筛选策 略,因此,在本发明技术方案中进行具体描述,其他基于本发明技术方案而产生的用户筛选 策略也同样应该属于本发明的保护范围。步骤S102、用户信息筛选设备根据获取到的用户通话信息,统计当前系统中建立 过通话联系的任意两个用户所组成的用户组所对应的通话信息。根据步骤SlOl中所确定的筛选策略的差异,步骤S102中的处理流程也会存在相 应的变化,具体说明如下当筛选规则为用户信息筛选设备根据中心度参数在当前系统中的用户信息中筛 选中心用户时,用户信息筛选设备将当前系统中建立过通话联系的任意两个用户所组成的 用户组所对应的所有通话的通话记录进行合并计算,计算各用户组所对应的总的通话时长 和通话次数信息。当筛选规则为用户信息筛选设备根据用户群体相似度在当前系统中的用户信息 筛选群体用户时,用户信息筛选设备将当前系统中建立过通话联系的任意两个用户所组成 的用户组所对应的所有通话的通话记录进行统计,确定各用户组中的用户之间的群体相似 度参数信息。需要进一步指出的是,在具体的应用场景中,用户信息筛选设备根据获取到的用 户通话信息,统计当前系统中建立过通话联系的两个用户所组成的用户组所对应的通话信 息的过程中,还包括噪音数据的过滤处理,从而,可以提高统计信息的准确性。步骤S103、用户信息筛选设备根据统计得到的用户组通话信息,按照筛选规则筛 选当前系统中的用户信息。根据步骤SlOl中所确定的筛选策略的差异,步骤S102中的处理流程也会存在相 应的变化,具体说明如下情况一、当筛选规则为用户信息筛选设备根据中心度参数在当前系统中的用户信 息中筛选中心用户时,本步骤的处理过程如图2所示,具体包括以下步骤步骤S201、用户信息筛选设备根据各用户组所对应的总的通话时长和通话次数信 息,建立当前系统的无方向通话网络图。步骤S202、用户信息筛选设备设置分析计算的权重函数。步骤S203、用户信息筛选设备根据当前的权重函数,进行当前系统中各用户的中 心度计算,并根据计算结果进行用户中心度的排序。步骤S204、用户信息筛选设备将计算得到的用户中心度排序信息与已知的当前系 统中的用户中心度排序信息进行匹配。如果匹配结果一致,则执行步骤S205 ;如果匹配结果不一致,则重新执行步骤S202,用户信息筛选设备重新设置权重函 数,重新计算用户中心度排序信息,并与已知的当前系统中的用户中心度排序信息进行匹 配,直至匹配结果一致。步骤S205、用户信息筛选设备保存当前的权重函数,并根据权重函数计算并输出 相应的用户中心度计算结果。
情况二、当筛选规则为用户信息筛选设备根据用户群体相似度在当前系统中的用 户信息筛选群体用户时,本步骤的处理过程如图3所示,具体包括以下步骤步骤S301、用户信息筛选设备根据各用户组所对应的总的通话时长和通话次数信 息,建立当前系统的无方向通话网络图。步骤S302、用户信息筛选设备设置群体相似度计算函数。步骤S303、用户信息筛选设备根据当前的群体相似度计算函数,按照各用户组中 的用户之间的群体相似度参数信息,计算各用户之间的群体相似度。步骤S304、用户信息筛选设备将计算得到的各用户之间的群体相似度与已知的当 前系统中的用户所归属的群体信息进行匹配。如果匹配结果一致,则执行步骤S305 ;如果匹配结果不一致,则返回执行步骤S302,重新设置群体相似度计算函数,重 新计算各用户之间的群体相似度,并与已知的当前系统中的用户所归属的群体信息进行匹
配,直至匹配结果一致。步骤S305、用户信息筛选设备保存当前的群体相似度计算函数,根据群体相似度 计算函数计算相应的各用户之间的群体相似度,并将各用户之间的群体相似度的计算结果 确定为子图发现的权重信息。步骤S306、用户信息筛选设备根据子图发现的权重信息,在当前系统的无方向通 话网络图中确定代表不同的通话群体关系的子图,并根据各子图信息输出当前系统中的用 户所归属的群体信息。与现有技术相比,本发明实施例具有以下优点通过应用本发明实施例所提出的技术方案,采用基于通话关系中的用户组通话信 息进行统计和筛选,并通过权重函数的设置和调整进行一致性验证,能够更准确的对客户 对电信企业的重要性进行排序,提高特定用户群信息提取的效率与精度。下面,进一步结合具体的示例,对本发明实施例的技术方案进行说明。按照现有的系统设置,计费设备在通信网络中的用户每一次使用电话的时候,会 记录用户使用电话的对端号码、拨打时长、是主叫还是被叫、拨打时间、对端类型等信息,本 发明的技术思路就是依赖于上述的统计信息,并对上述的信息进行分析和进一步统计计算 而得到的。为了实现本发明实施例还提供了,本发明实施例进一步提出了一种用户信息的筛 选设备,其结构示意图如图4所示。本设备由前台服务器与后台服务器组成。其中,前台服务器负责用户界面与输出信息的导出;后台服务器负责数据处理与 信息挖掘。设备由四个模块组成数据管理模块41、挖掘分析模块42、输出接口模块43、系统 管理模块44组成。其中,数据管理模块41、挖掘分析模块42、系统管理模块44运行于后台 服务器上,输出接口模块43运行于前台服务器上。在具体的运行过程中,本设备首先导入计费设备中已知的目标用户使用电话的历 史数据及其顺序信息,对数据进行整理、汇总、归纳,形成每对用户(即之前所提及的用户 组)之间的通话为一个记录的表结构,再在此基础上构建通话网络图结构,在该通话网络
11图结构中,用户之间的连接不具有方向性,即只表示通话联系,而忽略主被叫关系。下面,分别根据中心用户和群体用户的筛选过程进行说明。当进行中心度用户筛选时,就是根据上述通话网络图结构进行中心度分析,为了 提高响应结果的准确性,将其分析结果与已知目标用户及其顺序信息进行对比,并对权重 进行调整,直至结果与已知信息匹配度超过设定的阈值,完成权重调整。后续,对所有用户应用上述模型,即可获得所有用户的相对关系得分。并按该得分 分为若干类别,如“VIP”、“高级用户”、“中级用户”、“普通用户”等,最终将其推送到客户服 务设备。在此过程中,数据管理模块41负责对数据的处理,包含数据导入与存储、数据筛 选、数据整理等功能。数据导入从通信网络的计费设备中获取用户间的通话相关信息,包括对端、通话 时长、通话次数、通话时间等。数据筛选是对导入的数据进行选择,去掉用户拨打其它非本地用户或本网内电话 的记录,以及数据中存在的可能噪音纪录,比如通话时长过短或过长的纪录等。数据整理首先对筛选后的数据进行合并,对相同的主叫、被叫对合并在一起,并对 通话时长、通话次数等求和,例如如果通话对记录(a,b)和(b,a)同时存在(a,b表示两 个不同的号码),且其通话时长都不过短或过长,则生成一条记录,通话时长即次数是两条 记录的和。需要指出的是,在最后的输出结果中,每一条表达了两个号码之间的关系,而不再 是主叫关系,如图5所示,为数据管理模块41的工作流程示意图,其中的“->”表示主叫关系。挖掘分析模块42负责对数据进行挖掘分析,包括构建网络、权重调整、中心度分 析等功能。构建网络利用数据管理模块的输出,构建一个无方向通话网络图。网络图是为了 方便进行网络分析,而采用的适合于网络分析的数据结构。在构建网络时,权重设置是重要的一环。若权重设置不合理,则输出结果可能与实 际相差较远。在本实施例中,挖掘分析模块42采用平均通话时长的自然对数的函数作为权重 函数,再使用中心度分析算法求解。算法输出的结果与已知输入做匹配,匹配程度较低则重 新进行权重调整,即调整权重函数,直至能准确的输出(或高于特定的阀值)结果。一旦设备能准确的输出,则在下一步应用中,不再需要权重调整步骤,即可对全体 用户准确输出,具体实现流程如图6所示。挖掘分析模块42中使用了中心度分析方法,中心度分析方法是在给定加权网络 图中,计算每个网络节点的关系评分的方法。该方法利用网络中节点的相互联系,首先对每个节点设置随机评分,然后根据其 连接关系和其间的连接权重进行反复迭代获得每个节点对其它节点的相对评分,评分越大 的节点在网络中的影响力越大。系统管理模块44具有数据定义、数据管理、模型管理以及权重管理等功能。数据定义对输入数据的类型、名称等进行定义。
数据管理对输入数据的噪音数据、外部号码等进行设置与管理。模型管理可以对训练后的模型进行保存、读取、命名等操作,还可以定义和管理结 果的分类方法。权重管理则可以对权重函数的定义进行微调。输出接口模块43可进行进一步分类、可视化、查询、各类统计、导出到文件等操 作,方便最终用户及连接到客户服务设备使用。分类功能是对输出的信息进一步划分为若干易操作的类别;可视化功能可以展现 整个网络,直观的观察网络中每个节点的信息;统计功能对用户信息进行统计汇总、导出到 文件可以传递到其它设备使用。基于上述的系统设置,本发明实施例所提出的技术方案的具体实现步骤如图7所 示步骤S701、从计费设备中获取一段时间内(如三个月)客户之间通话的相关信息。这里所提到的信息包括本方号码、对方号码、通话时长、通话时间等信息。为了实现不同的筛选精度要求,上述的信息种类也可以进行调整,但是其中的号 吗信息和通话时长信息是不能缺少的。在此基础上所做出的信息类型的调整并不会影响本 发明的保护范围。步骤S702、对该段时间内信息进行过滤,取除噪音信息及不需要的通话记录。步骤S703、对过滤后的通话信息进行汇总,生成与每对用户相对应的的列表形式。在该列表中,每对用户作为一个用户组,只拥有一条记录,在该记录中包含了该对 用户中任意一方作为主叫所发起的通话过程的时间记录。步骤S704、将列表形式进行图形化,生成相对应的网络图的数据结构。在这里构建的网络图是一个无方向通话网络图。网络图是为了方便进行网络分 析,而采用的适合于网络分析的数据结构。步骤S705、对该网络图设置权重函数。具体的函数设定规则可以根据需要进行调整,设定依据可以包括通话时长、通话 时间以及其它参数信息,具体参数类型的变化并不会影响本发明的保护范围。步骤S706、按照当前的权重函数对网络图进行中心度分析,并将分析结果与已知 信息进行匹配。如果匹配程度达到预设的匹配阈值,则执行步骤S707 ;如果匹配程度没有达到预设的匹配阈值,则执行步骤S705,进行重新设定。步骤S707、按照确定的权重函数输出中心度筛选结果。在具体的应用场景中,根据具体的筛选结果数据,还可以进一步将用户划分为若 干个类别,如“VIP”、“高级用户”、“中级用户”、“普通用户”等,以方便业务识别操作。本方法及设备具有广泛的应用意义,例如,对于电信运营商来说,集团客户的维护 是一个很重要的问题。由于一名客户经理需要维护很多个集团客户,而其由于缺乏集团客 户中的用户信息,不知道该集团中核心用户的信息,因此很难切入。使用本方法与设备,客 户经理只需要输入该集团客户成员的通话信息,即可了解本集团的核心用户信息,从而方 便的进行客户维护。另外,运营商的客户服务人员可以采用本设备输出的用户信息,对不同的用户类别采用不同的客户服务策略,如对“VIP”用户推送管理及理财产品信息,能更精确的定位客 户需求。当进行群体用户筛选时,主要的信息是依据计费设备在通信网络中的所记录的用 户每一次使用电话的时候,会记录用户使用电话的对端号码、拨打时长、是主叫还是被叫、 拨打时间、对端类型以及拨打方的使用的基站等信息。因而从两个用户之间的通话中,可以提取出若干刻画两个用户间通话紧密程度及 通话地点的特征。通过已知用户群体中两个用户之间通话特征的分析和任意两个用户之间的通话 特征的对比分析,使用回归或其它拟合模型,可以得出任意两个通话用户之间的群体相似 度的计算公式。以用户之间的群体相似度作为权重,构建通话网络图,在通话网络图上运行 子图发现算法,可获取特定用户群的信息。然后,对获取的用户群进一步按照其特征进行细 分,以便进一步信息推送。为了实现上述思路,需要对本发明实施例所提出的设备进行模块调整,其结构示 意图如图8所示。本设备在物理上由前台服务器与后台服务器组成。其中,前台服务器负责用户界面与输出信息的导出;后台服务器负责数据处理与 信息挖掘。设备由四个功能部分组成数据处理模块81、特定用户群信息提取模块82、输出 接口模块83、系统管理模块84。其中,数据管理模块81、特定用户群信息提取模块82、系统 管理模块84运行于运行于后台服务器,输出接口模块83运行于前台服务器。数据处理模块81包含数据导入、数据筛选、数据聚合等功能。数据导入从通信网络的计费系统中获取用户间的通话相关信息,包括对端、通话 时长、通话次数、通话时间、通话基站代码等。数据筛选对导入的数据进行选择,去掉用户拨打其它非本地用户或本网内电话的 记录,以及数据中存在的可能噪音纪录,比如通话时长过短或过长的纪录等。数据聚合对筛选后的数据进行合并并聚合为一些描述两者之间通话关系的新的变量。首先将相同的号码对(如号A->号B的所有记录)进行合并,在合并的同时求取 一些统计变量的值,如通话时长、通话次数、忙时通话时长、闲时通话时长、周末通话时长、 号A忙时使用的基站排序列表、号A闲时使用的基站排序列表、号A周末使用的基站排序列表等。然后,将通话双方相同的记录予以合并(即A- > B和B- > A合并为A-B),相同的 变量相加,同时计算一些新的统计变量,比如总时长占比(A,B之间的通话时长占A和B各自总的通话时长之和的比例)A时长占比(A,B之间的通话时长占A的总通话时长之和的比例)B时长占比(A,B之间的通话时长占B的总通话时长之和的比例)忙时基站相关(A的基站列表和B的基站列表的忙时的重合程度)闲时基站相关(A的基站列表和B的基站列表的闲时的重合程度)周末基站相关(A的基站列表和B的基站列表的周末的重合程度)
14
其中忙时、闲时也可以进一步细分为每个小时的数据。数据处理模块81的处理流 程如图9所示。特定用户群信息提取模块82包括网络构建、群体相似度、子图发现等功能,其实 现流程图如图10所示。构建网络利用数据管理模块的输出的号码对,即可构建一个无方向通话网络图。 网络图是为了方便进行网络分析,而采用的适合于网络分析的数据结构。在构建网络时,权 重设置是重要的一环。若权重设置不合理,则输出结果可能与实际相差较远。在本发明实施例所提出的方法中,使用群体相似度作为该网络图的权重。群体相 似度是利用输入数据之中的变量信息,以及已知部分用户信息,采用数据挖掘方法获得。在设置权重后,在网络图上使用子图发现算法,即可获得特定用户群体的信息。群体相似度的计算是使用输入变量为两个用户属于同一个用户群的可能性进行 评分。在设备初次使用的时候,需要使用已知的部分用户相似性信息进行学习,直到群体相 似度的输出与已知信息高度匹配位置。在以后的使用过程中,则不需要该学习过程。子图发现算法是网络分析方法中的一种根据网络中各个节点的拓扑结构与连接 权重,找出图中的各个子图。这些子图具有子图内部节点之间的联系要密切于这些节点与外部节点之间的联 系。子图发现算法根据子图的这一特征,从空子图开始,通过迭代的方法,不断的加入联系 紧密的节点,从而形成子图。在通话网络中,子图很好的表征了联系密切的小群体。系统管理模块84具有数据定义、算法管理、模型管理、相似度管理等功能。数据定义对输入数据的类型、名称等进行定义。算法管理对算法的参数如迭代次数、进行管理,模型管理可以对训练后的模型进 行保存、读取、命名等操作,还可以定义和管理结果的分类方法。相似度管理则对群体相似度的阀值、相似度的计算方法等进行定义与管理。输出接口模块83可进行进一步分类、可视化、查询、各类统计、导出到文件等操 作,方便最终用户及连接到客户服务设备使用。分类功能是对输出的信息按照用户群的特征(如群内通话与对外通话的比例/群 人数等)进一步划分为若干易操作的类别(如短信传情、夜间密谈等等);可视化功能可以 展现整个网络,直观的观察网络中每个用户群的信息;统计功能对用户信息进行统计汇总、 导出到文件可以传递到其它设备使用。本方法的具体步骤如图11所示步骤S1101、从计费设备中获取一段时间内(如三个月)客户之间通话的相关信
肩、ο这里所提到的信息包括本方号码、对方号码、通话时长、通话时间、通话基站代码
^fn 息。为了实现不同的筛选精度要求,上述的信息种类也可以进行调整,但是其中的号 吗信息和通话时长信息是不能缺少的。在此基础上所做出的信息类型的调整并不会影响本 发明的保护范围。步骤S1102、对该段时间内信息进行过滤,取除噪音信息及不需要的通话记录。步骤S1103、对过滤后的该段时间内信息进行汇总、信息聚集并生成新的变量。
15
该变量即作为群体相似度的计算参数依据。步骤S1104、根据上述变量计算两个号码之间的群体相似度,并将计算结果与已知 群体信息进行匹配。如果匹配程度达到预设的匹配阈值,则执行步骤S1105 ;如果匹配程度没有达到预设的匹配阈值,则执行步骤S1103,进行变量的重新设 定,并对计算方法进行调整;步骤S1105、使用上述的号码统计信息建一张网络图。在这里构建的网络图是一个无方向通话网络图。网络图是为了方便进行网络分 析,而采用的适合于网络分析的数据结构。步骤S1106、在该网络图上使用子图发现算法,确定子图,并获得用户群社区。步骤S1107、对获得的用户群社区按照其用户群内外的通话特征划分成若干特征 明显的类别。本方法和设备在实际应用中具有广泛的用途。例如,为了推出与家庭客户对应的 产品,产品设计人员需要知道家庭用户的使用特点,因为只有有限的家庭用户资料,这些数 据很难获取。使用本设备,设计人员只需输入用户的通话历史数据和少量已知的家庭用户 资料,即可了解家庭用户的不同类别,从而针对性的设计产品;如对“短信传情”类家庭,可 设计特定的家庭内短信减免套餐,以满足客户需求。为了实现本发明实施例的技术方案,本发明实施例还提出了一种用户信息筛选设 备,其结构示意图如图12所示,具体包括设置模块121,用于设置当前的筛选规则,以及与筛选规则相对应的用户通话信息 获取类型。在具体的应用场景中,本模块所设置的筛选规则,具体包括根据中心度参数在当前系统中的用户信息中筛选中心用户;或,根据用户群体相似度在当前系统中的用户信息筛选群体用户。获取模块122,与设置模块121相连接,用于根据设置模块121所设置的用户通话 信息获取类型,向计费设备获取统计周期内的用户通话信息;统计模块123,与获取模块122相连接,用于根据获取模块122获取到的用户通话 信息,统计当前系统中建立过通话联系的两个用户所组成的用户组所对应的通话信息。当设置模块121所设置的筛选规则为根据中心度参数在当前系统中的用户信息 中筛选中心用户时,统计模块123将当前系统中建立过通话联系的任意两个用户所组成的 用户组所对应的所有通话的通话记录进行合并计算,计算各用户组所对应的总的通话时长 和通话次数信息;当设置模块121所设置的筛选规则为根据用户群体相似度在当前系统中的用户 信息筛选群体用户时,统计模块123将当前系统中建立过通话联系的任意两个用户所组成 的用户组所对应的所有通话的通话记录进行统计,确定各用户组中的用户之间的群体相似
度参数信息。筛选模块124,与设置模块121和统计模块123相连接,用于根据统计模块123统 计得到的用户组通话信息,按照设置模块121所设置的筛选规则筛选当前系统中的用户信 肩、ο
当设置模块121所设置的筛选规则为根据中心度参数在当前系统中的用户信息 中筛选中心用户时,筛选模块1 根据匹配模块所确定的权重函数计算并输出相应的用户 中心度计算结果;当设置模块121所设置的筛选规则为根据用户群体相似度在当前系统中的用户 信息筛选群体用户时,筛选模块1 根据权重函数确定子图发现的权重信息,在统计模块 123统计得到的用户组通话信息中确定代表不同的通话群体关系的子图,并根据各子图信 息输出当前系统中的用户所归属的群体信息。在具体的应用场景中,上述设备还包括过滤模块125,与统计模块123相连接,用于在统计模块123根据获取到的用户通 话信息,统计当前系统中建立过通话联系的两个用户所组成的用户组所对应的通话信息的 过程中,对用户通话信息中所包含的噪音数据进行过滤处理。权重设置模块126,与统计模块123相连接,用于根据统计模块123所统计得到的 通话信息,设置相应的权重函数;匹配模块127,与权重设置模块1 和筛选模块IM相连接,用于根据权重设置模 块1 所设置的当前的权重函数,计算相应的用户统计信息,并将用户统计信息与已知的 当前系统中的用户信息进行匹配,如果匹配一致,则将权重函数发送给筛选模块IM进行 用户信息的筛选,如果匹配不一致,则通知权重设置模块126重新设置权重函数。与现有技术相比,本发明实施例具有以下优点通过应用本发明实施例所提出的技术方案,采用基于通话关系中的用户组通话信 息进行统计和筛选,并通过权重函数的设置和调整进行一致性验证,能够更准确的对客户 对电信企业的重要性进行排序,提高特定用户群信息提取的效率与精度。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明实施例 可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理 解,本发明实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一 个非易失性存储介质(可以是⑶-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台 计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明实施例各个实施场 景所述的方法。本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或 流程并不一定是实施本发明实施例所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进 行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装 置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。上述本发明实施例序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本发明实施例的几个具体实施场景,但是,本发明实施例并非局 限于此,任何本领域的技术人员能思之的变化都应落入本发明实施例的保护范围。
1权利要求
1.一种用户信息筛选方法,其特征在于,具体包括以下步骤用户信息筛选设备向计费设备获取统计周期内的用户通话信息;所述用户信息筛选设备根据获取到的用户通话信息,统计当前系统中建立过通话联系 的任意两个用户所组成的用户组所对应的通话信息;所述用户信息筛选设备根据统计得到的用户组通话信息,按照筛选规则筛选当前系统 中的用户信息。
2.如权利要求1所述的方法,其特征在于,所述筛选规则具体包括所述用户信息筛选设备根据中心度参数在当前系统中的用户信息中筛选中心用户;或,所述用户信息筛选设备根据用户群体相似度在当前系统中的用户信息筛选群体用户。
3.如权利要求2所述的方法,其特征在于,当所述筛选规则为所述用户信息筛选设备 根据中心度参数在当前系统中的用户信息中筛选中心用户时,所述用户信息筛选设备向计 费设备获取的统计周期内的用户通话信息,至少包括当前系统中所有发生过通话的用户在通话中的对端用户信息;各次通话的通话时长信息。
4.如权利要求3所述的方法,其特征在于,当所述筛选规则为所述用户信息筛选设备 根据中心度参数在当前系统中的用户信息中筛选中心用户时,所述用户信息筛选设备根据 获取到的用户通话信息,统计当前系统中建立过通话联系的任意两个用户所组成的用户组 所对应的通话信息,具体为所述用户信息筛选设备将当前系统中建立过通话联系的任意两个用户所组成的用户 组所对应的所有通话的通话记录进行合并计算,计算各用户组所对应的总的通话时长和通 话次数信息。
5.如权利要求4所述的方法,其特征在于,当所述筛选规则为所述用户信息筛选设备 根据中心度参数在当前系统中的用户信息中筛选中心用户时,所述用户信息筛选设备根据 统计得到的用户组通话信息,按照筛选规则筛选当前系统中的用户信息的过程,具体为所述用户信息筛选设备根据各用户组所对应的总的通话时长和通话次数信息,建立当 前系统的无方向通话网络图;所述用户信息筛选设备设置分析计算的权重函数;所述用户信息筛选设备根据当前的权重函数,进行当前系统中各用户的中心度计算, 并根据计算结果进行用户中心度的排序;所述用户信息筛选设备将计算得到的用户中心度排序信息与已知的当前系统中的用 户中心度排序信息进行匹配;如果匹配结果一致,则保存当前的权重函数,并根据所述权重函数计算并输出相应的 用户中心度计算结果;如果匹配结果不一致,则重新设置权重函数,重新计算用户中心度排 序信息,并与已知的当前系统中的用户中心度排序信息进行匹配,直至匹配结果一致。
6.如权利要求2所述的方法,其特征在于,当所述筛选规则为所述用户信息筛选设备 根据用户群体相似度在当前系统中的用户信息筛选群体用户时,所述用户信息筛选设备向 计费设备获取的统计周期内的用户通话信息,至少包括当前系统中所有发生过通话的用户在通话中的对端用户信息;各次通话的通话时长信息;各次通话发生时的时间信息;各次通话中主叫用户所使用的基站信息。
7.如权利要求6所述的方法,其特征在于,当所述筛选规则为所述用户信息筛选设备 根据用户群体相似度在当前系统中的用户信息筛选群体用户时,所述用户信息筛选设备根 据获取到的用户通话信息,统计当前系统中建立过通话联系的任意两个用户所组成的用户 组所对应的通话信息,具体为所述用户信息筛选设备将当前系统中建立过通话联系的任意两个用户所组成的用户 组所对应的所有通话的通话记录进行统计,确定各用户组中的用户之间的群体相似度参数 fn息ο
8.如权利要求7所述的方法,其特征在于,当所述筛选规则为所述用户信息筛选设备 根据用户群体相似度在当前系统中的用户信息筛选群体用户时,所述用户信息筛选设备 根据统计得到的用户组通话信息,按照筛选规则筛选当前系统中的用户信息的过程,具体 为所述用户信息筛选设备根据各用户组所对应的总的通话时长和通话次数信息,建立当 前系统的无方向通话网络图;所述用户信息筛选设备设置群体相似度计算函数;所述用户信息筛选设备根据当前的群体相似度计算函数,按照各用户组中的用户之间 的群体相似度参数信息,计算各用户之间的群体相似度;所述用户信息筛选设备将计算得到的各用户之间的群体相似度与已知的当前系统中 的用户所归属的群体信息进行匹配;如果匹配结果一致,则保存当前的群体相似度计算函数,根据所述群体相似度计算函 数计算相应的各用户之间的群体相似度,并将所述各用户之间的群体相似度的计算结果确 定为子图发现的权重信息;如果匹配结果不一致,则重新设置群体相似度计算函数,重新计 算各用户之间的群体相似度,并与已知的当前系统中的用户所归属的群体信息进行匹配, 直至匹配结果一致;所述用户信息筛选设备根据所述子图发现的权重信息,在当前系统的无方向通话网络 图中确定代表不同的通话群体关系的子图,并根据各子图信息输出当前系统中的用户所归 属的群体信息。
9.如权利要求4或7所述的方法,其特征在于,所述用户信息筛选设备根据获取到的用 户通话信息,统计当前系统中建立过通话联系的两个用户所组成的用户组所对应的通话信 息的过程中,还包括噪音数据的过滤处理。
10.一种用户信息筛选设备,其特征在于,具体包括设置模块,用于设置当前的筛选规则,以及与所述筛选规则相对应的用户通话信息获 取类型;获取模块,与所述设置模块相连接,用于根据所述设置模块所设置的用户通话信息获 取类型,向计费设备获取统计周期内的用户通话信息;统计模块,与所述获取模块相连接,用于根据所述获取模块获取到的用户通话信息,统 计当前系统中建立过通话联系的两个用户所组成的用户组所对应的通话信息;筛选模块,与所述设置模块和所述统计模块相连接,用于根据所述统计模块统计得到 的用户组通话信息,按照所述设置模块所设置的筛选规则筛选当前系统中的用户信息。
11.如权利要求10所述的设备,其特征在于,所述设置模块所设置的筛选规则,具体包括根据中心度参数在当前系统中的用户信息中筛选中心用户;或,根据用户群体相似度在当前系统中的用户信息筛选群体用户。
12.如权利要求11所述的设备,其特征在于,所述统计模块,用于根据所述获取模块获 取到的用户通话信息,统计当前系统中建立过通话联系的两个用户所组成的用户组所对应 的通话信息,具体包括当所述设置模块所设置的筛选规则为根据中心度参数在当前系统中的用户信息中筛 选中心用户时,所述统计模块将当前系统中建立过通话联系的任意两个用户所组成的用户 组所对应的所有通话的通话记录进行合并计算,计算各用户组所对应的总的通话时长和通 话次数信息;当所述设置模块所设置的筛选规则为根据用户群体相似度在当前系统中的用户信息 筛选群体用户时,所述统计模块将当前系统中建立过通话联系的任意两个用户所组成的用 户组所对应的所有通话的通话记录进行统计,确定各用户组中的用户之间的群体相似度参数信息。
13.如权利要求12所述的设备,其特征在于,还包括过滤模块,与所述统计模块相连接,用于在所述统计模块根据获取到的用户通话信息, 统计当前系统中建立过通话联系的两个用户所组成的用户组所对应的通话信息的过程中, 对用户通话信息中所包含的噪音数据进行过滤处理。
14.如权利要求12所述的设备,其特征在于,还包括权重设置模块,与所述统计模块相连接,用于根据所述统计模块所统计得到的通话信 息,设置相应的权重函数;匹配模块,与所述权重设置模块和所述筛选模块相连接,用于根据所述权重设置模块 所设置的当前的权重函数,计算相应的用户统计信息,并将所述用户统计信息与已知的当 前系统中的用户信息进行匹配,如果匹配一致,则将所述权重函数发送给所述筛选模块进 行用户信息的筛选,如果匹配不一致,则通知所述权重设置模块重新设置权重函数。
15.如权利要求14所述的设备,其特征在于,所述筛选模块,用于根据所述统计模块统 计得到的用户组通话信息,按照所述设置模块所设置的筛选规则筛选当前系统中的用户信 息,具体为当所述设置模块所设置的筛选规则为根据中心度参数在当前系统中的用户信息中筛 选中心用户时,所述筛选模块根据所述匹配模块所确定的权重函数计算并输出相应的用户 中心度计算结果;当所述设置模块所设置的筛选规则为根据用户群体相似度在当前系统中的用户信息 筛选群体用户时,所述筛选模块根据所述权重函数确定子图发现的权重信息,在所述统计 模块统计得到的用户组通话信息中确定代表不同的通话群体关系的子图,并根据各子图信 息输出当前系统中的用户所归属的群体信息。
全文摘要
本发明实施例公开了一种用户信息筛选方法和设备,所述方法包括用户信息筛选设备向计费设备获取统计周期内的用户通话信息;所述用户信息筛选设备根据获取到的用户通话信息,统计当前系统中建立过通话联系的两个用户所组成的用户组所对应的通话信息;所述用户信息筛选设备根据统计得到的用户组通话信息,按照筛选规则筛选当前系统中的用户信息。通过应用本发明实施例所提出的技术方案,采用基于通话关系中的用户组通话信息进行统计和筛选,并通过权重函数的设置和调整进行一致性验证,能够更准确的对客户对电信企业的重要性进行排序,提高特定用户群信息提取的效率与精度。
文档编号H04W4/26GK102083010SQ20091023858
公开日2011年6月1日 申请日期2009年11月26日 优先权日2009年11月26日
发明者周刚, 胡可云, 陶振武 申请人:中国移动通信集团公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1