用于执行与通信网络的节点有关的预测分析的方法和系统的制作方法

文档序号:7886357阅读:333来源:国知局
专利名称:用于执行与通信网络的节点有关的预测分析的方法和系统的制作方法
技术领域
本发明涉及一种用于执行与通信网络的节点有关的预测分析、特别用于优化通信网络的方法和系统。
背景技术
许多电信网络利用关于个别节点的信息,比如终端用户设备或者服务提供及其使用模式,以优化电信系统。典型示例是欺诈、错误和服务使用预测或者技术服务优化。所有任务严重依赖于全面而充分的技术属性集合以及关于个别节点的相关信息(例如具体使用模式,技术属性和关于设备、节点、服务及其对应能力的信息等)。问题在于仅对于电信网络的一些节点而言,可以获得足够详细水平的技术信息。这些节点可以被表征为信息丰富节点。然而对于其它节点而言,完全不是这种情况;对于那些节点而言,仅知道技术属性的初步部分、甚至是不足的小部分。这些节点可以被表征为信息贫乏节点。这是一项严重的缺点,其限制了关于网络中的所有节点应用相同水平的技术优化、分析认识和统计表示的能力。通过进一步举例说明这一问题空间,可以以电信(Telco)服务供应商公司为例。尽管这样的公司通常具有关于设备的大量信息以及它们的具有法律合同的客户的技术使用模式(其中可能甚至使用为Telco供应商而定制的设备),但是这并不适用于可以使用任何设备并且可以展现出任何使用模式的预付费客户。根据各国法规和实践,只能收集到关于这样的客户及其移动设备的少量技术和非技术信息。在极端情况下,仅按照标识(ID)而已知一个节点,并且它未链接到技术设备,也不清楚是否两个不同ID实际代表相同节点。仅有的已知信息成分是通信属性和模式以及地理位置,如同建立连接而需要它们那样。使用数据以优化电信网络中的过程的一般方式是传统预测分析任务。已经开发了许多方法来处理这些任务。所有这些方法都假设可充分获得在技术水平上的关于这些节点的信息以及在更高水平上的关于客户的信息。M.C.Mozer> R.Wolniewicz、D.B.Grimes、E.Johnson、H.Kaushansky 在 IEEETransactions on Neural Networks, Special issue on Data Mining and KnowledgeRepresentation,2000 中发表的文章 “Predicting Subscriber Dissatisfaction andImproving Retention in the Wireless Telecommunications Industry,,,例如聚焦于来自网络/呼叫数据记录(CDR)、账单、用于服务的应用、市场和人口统计数据的可用数据的使用。在关于预付费订户的人口统计数据可用时,可以在预测分析中使用它。最近也已经考虑关于呼叫者之间的关系的彳目息。K.Dasgupta、R.Singh、B.Viswanathan、D.Chakraborty、S.Mukherjea、A.A.Nanavat ΛA.Joshi 在 Proceedings ofIlth International Conference on Extending Database Technology(EDBT),Nantes,France,2008 中发表的文章 “Social Ties and their Relevance to Churn in MobileTelecom Networks”涉及集中于与社交网络有关的流失模型和预测的预测流失算法。该范式源于网络中的个体的属性不如他们与网络中的其他个体的连结(关系)重要这样的观点。US 20080167934 Al描述了一种获取如下信息的方法,该方法获取指示客户的客户服务使用率的信息,其中客户保留方法然后提供对获取的信息的分析。这些服务可以与基于固线设备(包括网际协议语音(VoIP)电话、个人计算机(PC)桌面客户端等)或者移动设备(比如蜂窝电话、个体数字助理(PDA)、膝上型计算机等)的服务有关。除了先前专属于电信的工作之外,在此也可以考虑在预测分析领域中的一些一般工作。通常在预测分析中假设所有数据记录(在本情况下代表网络中的节点)都通过相同特征来描述。唯一的例外为遗漏值,也就是如下的个别记录,这些记录可能遗漏一些信息、例如属性或者组成、技术规范和其它度量。存在用于处理这些遗漏值的不同方法,并且多数预测分析工具(例如 IBM InfoSphere Warehouse 或 IBM SPSS Modeler )实施它们中的一些方法。大多数方法用默认值或者用从其它特征、规则或者方法确定的值来取代遗漏值。后一类·方法使用在字段之中的一般相关性(例如“年龄”可以用来预测“收入”)。这样的方法未考虑在记录之间的唯一特性和关系,这特别适用于电信网络。另外,只有大多数值未遗漏时才有效。最后,假设针对含完全信息的记录和针对含遗漏值的记录创建相同的预测模型。如果含遗漏值的记录并未有组织地相互区别,则这可能引入明显的偏差。在S.Thrun 和 J.0 ' Sullivan 在 Proceedings of the 13thInternationalConference on Machine Learning ICML, 1996 中发表的文章“Discovering Structure inMultiple Learning Tasks:The TCAlgorithm”中,描述了在优化不同任务的两个记录集合之间的信息传送,其中所有节点共享相同的已知特征集合。现有技术都未充分考虑在优化预测分析任务的过程中考虑电信网络中的大量节点的遗漏信息问题。使用预测分析对于正常订户(节点的第一集合、信息丰富节点)是可能的,因为通信模式和简档信息(通信事件信息和属性)可用于它们。将预测分析用于预付费客户(节点的第二集合、信息贫乏节点)是有问题的,因为仅通信事件信息可用于这些节点。

发明内容
本发明的目的是提供一种用于特别在包括信息贫乏节点时执行与通信网络的节点有关的预测分析的方法和系统。该目的由独立权利要求的特征来实现。其它权利要求和说明书公开本发明的有利实施方式。提出一种用于执行与通信网络的节点有关的预测分析的方法包括以下步骤:-提供用于所述通信网络的节点的第一集合和节点的第二集合的通信事件信息,-提供用于所述节点的第一集合的节点的属性集合,-使用所述属性和所述通信事件信息来确定所述节点的第一集合之中的群组集
八I=I,-至少基于可用于第二群组的通信事件信息将所述节点的第二集合的每个节点分配到所述群组集合中的至少一个群组,所述分配产生所述节点的第二集合的所述节点的成员资格信息,
-至少基于用于所述节点的第二集合的所述通信事件信息和所述成员资格信息取得或者应用用于所述节点的第二集合的预测模型。有利地,通过匹配通信网络中的节点的第二集合的数据的基于传感器和信号的性质与节点的第一集合的一个节点来丰富节点的第二集合的数据。在节点的第二集合是电信网络中的信息贫乏节点并且节点的第一集合是已知该数据的信息丰富节点时,这一点特别有利。然后可以传送这一信息以优化用于原先不知道这些技术属性和信息成分的信息贫乏节点的预测任务。这一传送使得能够改进用于如下节点的预测建模,对于这些节点而言仅很少信息成分是起初可用的,这原本会在仅使用那些节点上的原有数据时造成不良、不充足的预测建模能力。因此可以通过利用来自信息丰富节点的技术信息来丰富信息贫乏节点的信息集合。通信事件信息可以例如包括通信模式。本发明可以有利地应用于完成预测分析的各种目的,比如关于错误、欺诈、客户满意度、订户流失、位置和呼叫模式、服务使用率或者技术服务优化的预测。根据本发明,从节点的第一集合的信息丰富节点向具有较少信息的节点的选择性的信息传送,用于优化和改进节点的第二集合的信息贫乏节点的分析任务,可以包括高级分析认识,该高级分析认识包括用于信息贫乏节点的预测分析和深度统计分析。假设这一优化可以针对两种节点完全不同地工作并且应当以允许单独优化二者的方式传送信息。一个可能的应用领域是优化包括或者至少包括后付费订户(即节点的第一集合)和预付费订户(即节点的第二集合)的电信网络。尽管对于后付费订户而言可以收集关于技术使用模式的充分丰富的信息集合,但是这对于预付费客户未必成立。与现有技术对照,本发明方法有利地:-考虑网络的节点所取得的图形结构和各种模式,-在关于节点的大量技术信 息遗漏的情况下支持潜在的大量节点,-允许从信息丰富节点向信息贫乏节点选择性地传送信息的充足子集而又仍然单独地对待二者,从而允许应用与来自两类节点的信息的内容、结构和属性对应的不同优化方法,-不假设可实际重建遗漏信息,而是仅优化用于具有更少信息的节点的预测建模。该方法还可以包括以下步骤:将至少一个成员资格权值分配到节点的第二集合的每个节点。优选地,可以使用节点的第二集合中的每个节点对于每个群组的成员资格权值作为用于预测模型的附加特征。该方法可以包括以下步骤:基于可用于第一和节点的第二集合的通信事件信息进行所述分配步骤。分配步骤可以包括:针对节点的第一集合的每个节点群组计算聚集分布并且使用统计度量来比较节点的第二集合的节点的通信事件信息与群组的聚集分布。该方法可以包括以下步骤:所述分配步骤包括利用以下各项中的至少一项来描述所述通信事件信息:服务使用的持续时间;随时间的分布;以及地理分布。该方法可以包括:节点的第一集合涉及信息丰富节点并且节点的第二集合涉及信息贫乏节点。具体而言,节点的第一集合可以涉及后付费订户并且节点的第二集合可以涉及预付费订户。
该方法可以包括以下步骤:可以基于一般呼叫模式、时间呼叫模式、地理模式、通信模式和/或服务使用模式将节点的第二集合的节点分配到在节点的第一集合之中的一个或者多个群组(订户分段群组)。方便地,通信事件信息可以包括通信模式。另外,提出一种用于在数据处理系统中执行的数据处理程序,该数据处理程序包括用于当所述程序在计算机上运行时执行与通信网络的节点有关的所述预测分析方法的软件代码部分。根据本发明的另一方面,提出一种在计算机可用介质上存储的计算机程序产品,该计算机程序产品包括用于当所述程序在计算机上运行时使所述计算机执行与通信网络的节点有关的所述预测分析方法的计算机可读程序装置。具体而言,步骤包括:-提供用于通信网络的节点的第一集合和节点的第二集合的通信事件信息,-提供用于 所述节点的第一集合的节点的属性集合,-使用所述属性和所述通信事件信息来确定所述节点的第一集合之中的群组集
八I=I,-至少基于可用于第二群组的通信事件信息将所述节点的第二集合的每个节点分配到所述群组集合中的至少一个群组,所述分配产生所述节点的第二集合的所述节点的成员资格信息,-至少基于用于所述节点的第二集合的所述通信事件信息和所述成员资格信息取得或者应用用于所述节点的第二集合的预测模型。本发明的又一方面是一种用于执行数据处理程序的数据处理系统,数据处理程序包括用于执行所述预测分析方法的软件代码部分。


本发明以及上述和其它目的和优点可以从实施方式的下文具体描述中最好地加以理解但其不限于实施方式,在附图中:图1描绘了根据本发明的预测分析系统的一个示例性实施方式的关键能力和步骤,其针对分析来自预付费订户和后付费订户的数据以及针对用于获得关于预付费的所需分析认识的步骤而举例说明;以及图2示出用于执行根据本发明的方法的数据处理系统的一个示例性实施方式。
具体实施例方式根据本发明,提出一种用于执行与通信网络的节点有关的预测分析的方法,该方法包括以下步骤:-提供用于所述通信网络的节点的第一集合和节点的第二集合的通信事件信息(例如通信模式),-提供用于所述节点的第一集合的节点的属性集合,-使用所述属性和所述通信事件信息来确定所述节点的第一集合之中的群组集
八I=I,-至少基于可用于第二群组的通信事件信息将所述节点的第二集合的每个节点分配到所述群组集合中的至少一个群组,所述分配产生所述节点的第二集合的所述节点的成员资格信息,-至少基于用于所述节点的第二集合的所述通信事件信息和所述成员资格信息取得或者应用用于所述节点的第二集合的预测模型。节点的属性可以指代与节点关联的设备的特性、与节点关联的预订的属性和/或与节点关联的订户的特性。设备特性的示例是设备的类型和设备的能力。预订属性的示例例如是所使用的服务的数目、服务类型、持续时间等。订户特性的示例例如是年龄、性别、地理信息、教育水平、职业、收入等。通信事件信息指代关于通信网络的节点之间的通信的信息。通信事件信息通常指示相互通信的节点和这样的通信何时发生。通信事件信息的示例是利用其来描述节点以及给定节点何时进行通信的通信模式。通信信息和/或通信模式可以指示通信的持续时间和节点之间进行通信的频率。分配指代向为信息丰富节点确定的至少一个群组分配信息贫乏节点。基于可用于信息贫乏节点和信息丰富节点的通信事件信息完成分配。处理属于给定的群组的信息丰富节点的通信事件信息,以获得描述该给定的群组中的通信的特性。将信息贫乏节点的通信事件信息与群组的通信特性进行比较以找到最适合的群组。这一分配可以基于为每个信息丰富节点群组计算的聚集分布。这样的聚集分布的示例例如是代表服务使用率的高斯混合模型。比如KullbaCK_Leibler散度的统计度量可以用来比较信息贫乏节点的通信事件信息与群组的聚集分布。可以用来描述群组的通信事件信息的其它特性如果可用则例如是服务使用持续时间、随时间(例如当天)的分布或者地理分布。为了给出一些示例,提出的预测分析可以至少用于以下目的:关于错误、欺诈、客户满意度、订户流逝、服务使用率以及位置和呼叫模式的预测。
·
例如通过训练来取得预测模型。训练预测模型包括找到如下统计模型,该统计模型将代表进行预测分析的目的(例如流失)的某一目标变量与节点的属性集合及其对于不同群组的成员资格相关联。这可以通过将成员资格按群组编码成一个输入变量并且向它分配群组成员资格来实现。训练本身可以用不同方法、大多数引人注目的判决或者递归树和神经网络来完成。与实际试图在真实值遗漏时标识它们的现有技术方法相对照,这里提出的方法选择性地传送用来为信息贫乏节点优化预测建模的充足的多条信息(也就是说,向针对信息丰富节点确定的一个或者多个群组分配信息贫乏节点)。在这一点背后的基本原理在于,经常不能正确找到详细信息并且要标识遗漏值的任何尝试都只能在关于这些值的准确性、完整性和正确性的不令人满意的低置信水平下执行。如果完成结果都一样,则会造成甚至用错误信息来工作(其中过程的其它部分假设它是正确的)并且可能在分析过程中引入很难在以后阶段检测出的任何种类的错误。作为对照,本发明方法首先通过使用分段算法来浓缩信息丰富节点(即节点的第一集合)中的信息,将这些节点分组成“典型”节点聚类,由此在节点的第一集合之间产生群组集合。可以相当容易地完成这一任务,因为足够的信息可用于这些节点。然后,对于信息贫乏节点(即节点的第二集合)而言已知的基本信息(例如通信模式)用来匹配它们中的每个节点与典型群组中的一个或者若干群组。这一任务比实际插入实际遗漏的信息容易得多。典型群组的成员资格然后用作预测建模过程中的特征,该特征可以部分地从用于信息丰富节点的建模过程取得,或者甚至与之完全无关。在下文中详细描述一个示例性实施方式,其中假设信息贫乏节点未知的具体属性集合对于信息丰富节点而言已知。通信事件信息、因此哪些节点利用其与哪些其它节点通信可用于所有节点以及一些基本服务使用模式和地理信息。有利地,也可以获得用于信息贫乏节点的详细信息。重要的是,应注意并非旨在获得用于个别节点的正确值,而是获得为了满足期望的预测分析任务而需要的适当水平的详细信息实际上就足够了。如果预测模型在具有小于IGB或者大于IGB的容量的节点之间进行重要拆分,则节点是否具有0.5或者0.6GB的容量对于预测而言将无关紧要。使用三步骤过程可观察到这一点,其中第一和第三步骤是通用的并且可以使用用于对应任务的任意现有算法来实施。第二步骤代表所提出的使用信息来丰富节点的创新方法的核心。最后的步骤然后可以是任何预测分析任务和算法。在第一步骤中,根据用于预测分析任务的关联性将信息丰富节点(即节点的第一集合)分组成群组。这一群组集合(通常约为十个群组)然后包含关于信息丰富节点的基本信息。用于这样的群组Gl的示例将是Gl:=(容量<30.0GB并且速度>20)。包括算法的现有的且公知的分析模型可以用来建立信息丰富节点的充分分段,从而在信息丰富节点之间产生群组集合。在第二步骤中,将这一信息链接 到信息贫乏节点(即节点的第二集合),从而向在信息丰富节点之间的一个或者若干群组分配每个信息贫乏节点。通过利用对于二者而言已知的信息来实现这一分配:第一通信事件信息和地理信息(如果适用)。因此,使用关于信息丰富节点的认知和分析认识来丰富关于信息贫乏节点的分析认识,其中通过可比较的或者相似的通信特性建立分配。节点对于群组的这一群组成员资格然后用来以单个新属性,即包含关于信息丰富节点的浓缩信息的聚集信息群组,来丰富用于信息贫乏节点的数据。在第三步骤中,任何预测分析算法可以应用于该丰富的数据集以进行关于错误、欺诈等的预测。换言之,提出的方法包括以下三个主要步骤:-第一步骤:找到信息丰富节点中的典型和相关群组。-第二步骤:将每个信息贫乏节点分配到使用通信模式的这些群组中的一个或者多个群组。向一个或者若干群组的分配依赖于群组定义。-第三步骤:基于信息贫乏节点的通信数据和它们对于聚集信息群组的成员资格取得或者应用用于信息贫乏节点的预测模型。在数据中找到典型群组是用于预测分析的标准任务并且可以用任何现有技术的聚类算法来解决。这些算法也能够在某一程度上自动确定良好数目的群组。如果没有关于任何特殊预测分析任务的信息,则仅信息丰富节点中的所有信息可以用来完成聚类成群组。如果可获得关于分析或者预测任务的充分认知,在完全理解相关属性的情况下,则可以容易地仅根据这一信息来构建群组。在前述示例中,仅容量和速度将是相关的。在以下相对简单的示例中,例如将标识三个群组Gl、G2和G3:
Gl:=容量< IGB并且数据=是G2:=容量< IGB并且数据=否63:=容量>=168在定义了聚集信息群组时,必须仅基于通信数据将信息贫乏节点分配到这些群组。出于这一目的,提出一种例如使用以下信息中的一条或者多条信息的多策略方式:-一般呼叫模式(不同呼叫类型的分布)-时间呼叫模式(天/周呼叫分布)-地理模式(从何处发出呼叫)-通信模式(呼叫哪些后付费订户)-服务使用模式(使用哪些Telco服务,如何和何时使用)。对于前两条信息(即一般和时间呼叫模式),可以在每个群组中计算聚集分布。然后,可以使用统计度量来评估具有给定的行为的信息贫乏节点将最可能属于哪个群组(G1、G2或者G3)。例如群组Gl节点在夜间有可能不进行通信。使用信息丰富节点的已知的一般呼叫模式和时间呼叫模式支持这些假设并使之有效。对于第三条证据(地理模式),可以评估哪些节点位于信息丰富节点的中间环境中,并且可以随时间在该信息之间取得多数表决。上述个别取得的认识中的任何认识显然无需必然是正确的。然而如果将它组合成总相似度度量,则可以大量减少在将信息贫乏节点分配到单个或者甚至多个群组时的错误。由于仍然会有模棱两可的情况,所以`将允许将节点分配到一个以上的群组。如果将节点分配到一个以上的群组,则可以利用不同的群组成员资格和总权值的一部分将它的记录加倍。可以例如通过使用针对其人工评价完全信息的信息贫乏节点的小测试集合来找到最优影响因素组合(也就是说,哪些信息对于确定向群组分配信息贫乏节点而言是相关的)。基于丰富的数据集合,可以使用任何现有技术的算法来构建预测模型。以群组成员资格作为附加属性来扩展每个信息丰富节点。在本实施例中,这将意指每个信息贫乏节点对于G1、G2或者G3的群组成员资格。如上文描述的那样,可以用对应权值和不同群组分配将信息贫乏节点一分为二。在图1中的一个实施方式中举例说明了所描述的预测分析方法,其中示出上述章节中概述的关键能力和步骤的高层描绘。图1图示了来自信息丰富的预付费订户(“节点的第一集合”)和信息贫乏的后付费订户(“节点的第二集合”)的数据输入组成以及用于获得关于预付费订户的所需分析认识的关键步骤。来自后付费订户信息101的输入将是:-人口统计信息-CDR-服务使用模式来自预付费订户信息102的输入将是:-地理模式(来自公共可用来源的可选地相关人口统计信息)-服务使用模式
-社交网络模式收集、充分变换并且在数据收集系统103中存储传入的数据。接着是使用数据收集系统103中的存储数据的所需处理步骤104:-后付费订户分段,即使用针对后付费订户的属性和通信事件信息来确定在后付费订户之中的群组集合;-将预付费订户分配到一个或者多个后付费订户群组;-关于预付费订户的分析认识。分析认识可以例如包括关于错误、欺诈、客户满意度、订户流失、位置和呼叫模式、服务使用率和/或技术服务优化的预测。由于提出的方法一般适用于通信网络的不同节点集合的所有通信事件信息,所以在本发明的一个有利实施方式中可以使用用于所有通信事件信息的通信模式。方便地,预 测分析可以用于一个或者多个目的,比如:-分析⑶R以确定Telco系统的预付费订户的位置和呼叫模式;-分析服务和产品使用率以确定Telco系统的预付费订户的使用场景模式;-将从CDR取得的认识和服务使用模式与全球可用的人口统计数据进行比较;-将从CDR取得的认识和服务使用模式与来自任何具体Telco服务供应商的现有后付费订户认识和人口统计数据进行比较。可以通过包括利用比如所谓的k均值算法的现有订户分段技术来应用提出的方法,k均值算法是一种聚类分析算法,其目标在于将数目为η的观测分割成k个聚类。可以例如基于一般呼叫模式、时间呼叫模式、地理模式、通信模式和/或服务使用模式将预付费订户分配到一个或者若干订户分段群组分配,本发明也可以用这样的方式来应用。有利地,可以集成和组合来自所述比较算法和上述分析方式的认识。本发明尤其允许基于全面的预付费订户认识的订户分段精化或者允许新服务提供项目的预付费订户的服务使用率预测。本发明可以采用全硬件实施方式、全软件实施方式或者包含硬件与软件单元的实施方式这样的形式。在优选实施方式中,在包括但不限于固件、常驻软件、伪代码等的软件中实施本发明。另外,本发明可以采用计算机程序产品的形式,其可从计算机可用介质或者计算机可读介质存取,该介质提供用于由计算机或者任何指令执行系统使用或者与计算机或者任何指令执行系统结合使用的程序代码。出于说明的目的,计算机可用介质或者计算机可读介质可以是可以包含、存储、传达、传播或者传送用于由指令执行系统、装置或者设备使用或者与令执行系统、装置或者设备结合使用的程序的任何装置。该介质可以是电子、磁、光学、电磁、红外线或者半导体系统(或者装置或者设备)或者传播介质。计算机可读介质的示例包括半导体或者固态存储器、磁带、可去除计算机盘、随机存取存储器(RAM)、只读存储器(ROM)、硬磁盘和光盘。光盘的示例包括紧致盘-只读存储器(CD-ROM)、紧致盘-读取/写入(CD-R/W)和DVD。适合存储和/或执行程序代码的数据处理系统将包括通过系统总线直接或者间接耦合到存储器单元的至少一个处理器。存储器元件可以包括在实际执行程序代码期间运用的本地存储器、大容量存储装置和高速缓存存储器,这些高速缓存存储器提供至少一些程序代码的暂时存储,以便减少必须在执行期间从大容量存储装置取回代码的次数。输入/输出或者I/O设备(包括但不限于键盘、显示器、指示设备等)可以直接或者通过中间I/o控制器耦合到系统。网络适配器也可以耦合到系统,以使数据处理系统能够成为通过中间的私有或者公共网络耦合到其它数据处理系统或者远程打印机或者存储设备。调制解调器、线缆调制解调器和以太网卡仅为一些目前可用的网络适配器类型。图2示意地描绘了数据处理系统的一个示例实施方式,该系统由包括中央处理单元202和计算机可用介质的计算机200、连接到输入和输出设备208、210的IO系统组成,该计算机可用介质包括通过总线系统206连接到中央处理单元202的计算机可读程序204。计算机还连接到网络通信单元214。所述数据处理系统包括用于当所述程序在所述计算机200上运行时执行根据本发明的优选实施例中的至少一个优选实施例的所述预测分析方法的软件代码部分。现有技术经常聚焦于确切预测人口统计信息,以向具有预付费客户记录的客户关系管理(CRM)系统添加遗漏信息。根据本发明,可以改进预测分析任务。出于这一目的,无需预测确切的个别人口统计,例如年龄=23,而是使用统计聚集信息。有利地,这一统计聚集信息比较能承受错误,并且减少预测分析任务的不正确预测数目。该耐用度也明显减少人工调节量。

即使在预测确切的人口将失败时仍然可以使用本发明方法。从技术观点来看,首先使用专门化的群组集合统计分段,然后对这些分段或者群组而不是对原有个别值完成分配。这一步骤允许提出的方法显著减少预测空间的复杂性,继而减少必需数据量并且使模型更耐用和适用。另外,无需为第一和节点的第二集合、即后付费订户和预付费订户保持相同模式。因此提出了用于两种订户的独立模型和用于从普通(后付费)订户向预付费订户传送尽可能多的信息的耐用方式。
权利要求
1.一种用于执行与通信网络的节点有关的预测分析的方法,包括步骤: -提供用于所述通信网络的节点的第一集合和节点的第二集合的通信事件信息, -提供用于所述第一集合的所述节点的属性的集合, -使用所述属性和所述通信事件信息来确定所述节点的第一集合之中的群组集合, -至少基于可用于第二群组的所述通信事件信息,将所述第二集合的每个节点分配到所述群组集合中的至少一个群组,所述分配产生所述第二集合的所述节点的成员资格信息, -至少基于用于所述第二集合的所述通信事件信息和所述成员资格信息,取得或者应用用于所述节点的第二集合的预测模型。
2.根据权利要求1所述的方法,还将至少一个成员资格权值分配给所述节点的第二集合的每个节点。
3.根据权利要求2所述的方法,还使用所述节点的第二集合的每个节点对于每个群组的所述成员资格权值作为所述预测模型的附加特征。
4.根据前述权利要求中的任一权利要求所述的方法,其中基于可用于所述节点的第一集合和所述节点的第二集合的所述通信事件信息来进行所述分配步骤。
5.根据前述权利要求中的任一权利要求所述的方法,所述分配步骤包括针对所述节点的第一集合的每个节点群组而计算聚集分布,并且使用统计度量来比较所述节点的第二集合的节点的通信事件信息与所述群组的所述聚集分布。
6.根据前述权利要求中的任一权利要求所述的方法,所述分配步骤包括利用以下至少一项来描述所述通信事件信息: -服务使用的持续时间; -随时间的分布;以及 -地理分布。
7.根据前述权利要求中的任一权利要求所述的方法,其中所述节点的第一集合涉及信息丰富节点,并且所述节点的第二集合涉及信息贫乏节点。
8.根据权利要求7所述的方法,其中所述节点的第一集合涉及后付费订户,并且信息贫乏的所述节点的第二集合涉及预付费订户。
9.根据前述权利要求中的至少一项权利要求所述的方法,还基于一般呼叫模式、时间呼叫模式、地理模式、通信模式和/或服务使用模式中的至少一项,将所述节点的第二集合的节点分配到一个或者多个订户分段群组。
10.根据前述权利要求中的任一权利要求所述的方法,还使用预测分析来将从网络/呼叫数据记录取得的认识和服务使用模式与全球可用的人口统计数据进行比较,和/或使用预测分析来将从网络/呼叫数据记录取得的认识和服务使用模式与来自任何特定电信服务供应商的现有的后付费订户认识和人口统计数据进行比较。
11.根据前述权利要求中的任一权利要求所述的方法,其中所述通信事件信息包括通信模式。
12.根据前述权利要求中的任一权利要求所述的方法,其中通过训练取得所述预测模型。
13.根据 权利要求12所述的方法,其中训练如下执行:优选地通过将所述成员资格信息按群组编码为输入变量并且向所述输入变量分配所述群组成员资格来找到统计模型,所述统计模型将表示进行预测分析的目的的一个或者多个变量与所述第二集合的节点的属性集合以及所述第二集合的节点对于不同群组的成员资格信息相关联。
14.一种用于在数据处理系统中执行的数据处理程序,包括用于当所述程序在计算机(200)上运行时执行根据前述权利要求中的任一权利要求所述的方法的软件代码部分。
15.一种存储于计算机可用介质上的计算机程序产品,包括用于当所述程序在计算机(200)上运行时使计算机执行以下步骤的计算机可读程序装置: -提供用于所述通信网络的节点的第一集合和节点的第二集合的通信事件信息, -提供用于所述第一集合的所述节点的属性的集合, -使用所述属性和所述通信事件信息来确定所述节点的第一集合之中的群组集合, -至少基于可用于第二群组的所述通信事件信息,将所述第二集合的每个节点分配到所述群组集合中的至少一个群组,所述分配产生所述第二集合的所述节点的成员资格信息, -至少基于用于所述第二集合的所述通信事件信息和所述成员资格信息,取得或者应用用于所述节点的第二集合的预测模型。
16.一种用于执行数据处理程序的数据处理系统,所述数据处理程序包括用于执行根据权利要求1至13中 的任一权利要求所述的方法的软件代码部分。
全文摘要
本发明涉及一种用于执行与通信网络的节点有关的预测分析的方法。该方法包括以下步骤提供用于通信网络的节点的第一集合和节点的第二集合的通信事件信息,提供用于第一集合的节点的属性集合,使用属性和通信事件信息来确定节点的第一集合之中的群组集合,至少基于可用于第二群组的通信事件信息向群组集合的至少一个群组分配第二集合的每个节点,该分配产生第二集合的节点的成员资格信息,以及基于用于第二集合的通信事件信息和成员资格信息取得或者应用用于节点的第二集合的预测模型。
文档编号H04L12/24GK103250376SQ201180059406
公开日2013年8月14日 申请日期2011年11月3日 优先权日2010年12月15日
发明者M·奥伯霍菲尔, E·黑希勒, P·当特里桑格尔, M·武斯特 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1