一种采集和使用用户特征数据识别用户的系统和方法

文档序号:7612167阅读:296来源:国知局
专利名称:一种采集和使用用户特征数据识别用户的系统和方法
技术领域
本发明涉及一种特征数据处理方法,尤其是涉及一种采集用户特征数据及使用采集到的特征数据识别用户的系统和方法。
背景技术
在电信领域中,对于用户个体的识别是进行多种专题分析的基础,如重入网分析专题、用户转网去向识别专题、黑名单用户识别专题、品牌整合、套餐优化等等。目前,表征用户个体信息主要依赖于以下两个方面用户的背景资料,如身份证,姓名等,以及用户号码信息,如手机号码等。但是,这些信息对于电信运营商来说是非常不足的。这主要是因为,对于依赖用户背景资料的情况,用户提供的背景资料采集不完整,如缺少身份证号码或姓名等,或者用户提供的资料不真实,例如使用的是假身份证等。对于依赖用户号码信息的情况,当用户一旦变更号码信息,就很难再识别或者区别这些用户。因此,需要一种新的方法来识别用户。
目前,现有技术中提出了一种使用IMEI(International Mobile EquipmentIdentity国际移动设备识别码,以下称为手机终端标识)号码识别用户的方法,即直接将用户手机的终端标识作为标识用户唯一身份的特征数据进行比对,比对一致则认为是同一用户。例如,当一个用户的移动号码发生变化时,我们可以根据其所使用手机的终端信息判断出所述用户。但是,如果我们仅仅使用所述手机终端标识去识别用户,在一些情况下也会造成误判。例如,当一个用户手机号码没有发生变化的情况下更换了手机,而所述用户原来使用的手机终端通过各种途径被其他本网用户所使用,这样的话,就会出现同一手机终端使用不同移动号码的现象,现有技术中使用手机终端标识识别的方法就会产生识别错误。此外,如果用户更换了移动号码的同时也更换了手机终端,那么现有技术就无法进行识别。

发明内容
本发明解决的技术问题是提供一种采集用户特征数据和使用特征数据识别用户的系统和方法,即采集用户的交往圈信息等能够表征用户的信息,根据用户的交往圈信息识别用户,还可以进一步结合用户的消费行为、手机终端标识、频繁活动小区标识来识别用户。
为此,本发明解决技术问题的技术方案是,一种采集和使用用户特征数据识别用户的系统,包括数据集市、中间数据处理装置、中间数据存储单元、特征数据采集装置、特征数据存储单元和特征数据识别装置;所述数据集市用于存储用户数据;所述中间数据处理装置用于从所述数据集市中抽取与特征数据采集有关的数据,并对数据进行格式转换处理,转换后的数据装载到所述中间数据存储单元;所述中间数据存储单元中的数据用于特征数据的采集和识别处理;所述特征数据采集装置包括交往圈采集单元,用于接收所述中间数据存储单元的数据,采集用户的交往指数,将采集的交往指数数据存储到所述特征数据存储单元中;所述特征数据存储单元用于存储特征数据;所述特征数据识别装置根据中间数据存储单元和特征数据存储单元的数据识别用户。
所述特征数据采集装置还包括消费层次采集单元、手机终端识别采集单元和频繁活动小区采集单元。
所述消费层次采集单元用于采集所述用户的消费层次;所述手机终端识别采集单元用于采集所述用户使用频率最高的手机终端;所述频繁活动小区采集单元用于采集所述用户在工作时间和休息时间活动最频繁的小区。
所述特征数据采集装置还包括数据处理单元,用于接收所述中间数据存储单元的数据,并用于所述交往圈采集单元,所述消费层次采集单元、所述手机终端识别采集单元和所述频繁活动小区采集单元的数据输入,输出处理。
所述特征数据识别装置包括交往圈识别单元,用于所述用户的交往圈信息识别。
所述特征数据识别装置还包括消费层次识别单元、手机终端识别单元和频繁活动小区识别单元;所述消费层次识别单元,用于所述用户的消费层次的识别;所述手机终端识别单元,用于所述目标用户和所述待识别用户的手机终端号码进行匹配;所述频繁活动小区识别单元中,用于所述目标用户和所述待识别用户的工作时间和休息时间的活动小区标识别进行匹配。
所述特征数据识别装置还包括数据处理接口,用于接收所述中间数据存储单元和所述特征数据存储单元的数据,及在所述交往圈采集单元、所述消费层次识别单元、所述手机终端识别单元和所述频繁活动小区识别单元之间传输数据。
本发明还提供一种采集和使用用户特征数据识别用户的方法,应用于包括数据集市、中间数据处理装置、中间数据存储单元、特征数据采集装置、特征数据存储单元和特征数据识别装置的系统,包括以下步骤1)从存储的用户数据中抽取与特征数据采集有关的数据;2)对所述数据进行格式转换处理,存储转换后的数据;3)利用所述的存储的数据,采集用户的交往指数;4)存储所述交往指数数据;5)使用存储的交往指数数据识别用户。
步骤3)中所述相应的特征数据采集包括以下步骤采集所述用户的消费层次;采集所述用户使用频率最高的手机终端;采集所述用户在工作时间和休息时间活动最频繁的小区。
步骤5)中所述数据识别包括以下步骤11)设定消费层次为第一消费层次;12)进行当前消费层次的用户识别;
13)判断待识别用户是否满足消费层次波动许可,如果是,执行步骤14);如果否,则不是同一用户指纹,执行步骤20);14)根据步骤12)确定的目标用户和待识别用户,进行交往圈识别;15)判断符合率是否满足设定条件,如果是,则是同一用户指纹,执行步骤20);如果否,执行步骤16);16)对所述目标用户和所述待识别用户的手机终端号码进行匹配;17)判断如果是,则是同一用户指纹,执行步骤20);如果否,执行步骤18);18)对所述目标用户和所述待识别用户的工作时间和休息时间的频繁活动小区标识进行匹配;19)判断如果是,则是同一用户指纹,执行步骤20);如果否,则不是同一用户指纹,执行步骤20);20)设定消费层次为当前消费层次的下一个消费层次,重复步骤11)到19),直至识别完各个消费层次的所有目标用户。
步骤12)中所述数据识别包括以下步骤31)选定目标用户组中当前消费层次的全体用户;32)根据步骤31)选定的当前目标用户的消费层次,确定待识别用户组中许可的消费层次波动范围;33)选定待识别用户组中消费层次波动范围内的全体待识别用户。
步骤14)中所述数据识别包括以下步骤41)提取所述目标用户的交往圈成员列表及所述目标用户的有效交往圈成员数;42)提取所述待识别用户的交往圈成员列表及所述待识别用户的有效交往圈成员数;43)计算所述目标用户和所述待识别用户的有效交往圈交集成员个数;44)计算交集成员个数占所述目标用户有效交往圈成员数的比例符合率。
在所述步骤3)和步骤4)之间还包括对所述数据进行格式化处理。
与现有技术相比,由上述技术方案可以看出,采集能够用于区分用户的数据作为识别用户的特征数据,并且根据这些数据进行用户识别,可以达到准确定位的效果,提高了识别正确率。例如,在用户手机号码没有发生变化仅更换了手机,甚至于用户更换了手机号码的同时也更换了手机终端的情况下,根据用户的特征数据也能对用户正确识别。


图1是本发明中特征数据采集和识别系统的示意图;图2是本发明实施例具体应用中特征数据采集装置的示意图;图3是本发明实施例具体应用中特征数据识别装置的示意图;图4是本发明中特征数据采集和识别系统的流程图;图5是本发明实施例具体应用中特征数据采集的流程图;图6是本发明实施例具体应用中特征数据识别的流程图;图7是本发明实施例具体应用中消费层次识别的流程图;图8是本发明实施例具体应用中交往圈识别的流程图。
具体实施例方式
本发明中使用能够表征用户的特征数据,即用户的呼叫指纹来识别用户。呼叫指纹是指用户在使用移动运营商的产品及服务过程中,所产生的交往模式、消费模式、活动模式及其部分自然属性特征的综合表征。之所以能够用呼叫指纹进行用户个体之间的识别,是由于呼叫指纹不仅是用户通话行为的客观表现,同时也能够通过用户背景资料、所使用的终端标识等信息进行识别,并且我们所说的用户呼叫指纹是用户在使用移动运营商的产品及服务过程中产生的相对稳定、可重现且具备一定个体差异的特征集合。
每个用户在使用移动运营商的产品及服务过程中,都有自己的习惯特征,理论上讲用户的通话行为、背景资料、使用的终端完全可以标识一个用户,但由于用户资料的真实性、准确性的限制,以及用户消费行为特征的复杂性且是否是理性的等因素的影响,用户的指纹自然就会表现出一定的缺憾,造成部分用户的指纹无法识别。所以我们分析的呼叫指纹特性是建立在用户理性消费的基础上、且具有一定的可识别性。具备以下特性1.相对稳定性相对稳定性是指用户的呼叫指纹在时间上具备的特性。如果用户的消费行为是理性的,则在一定的时间周期内,其消费行为一定具有相对稳定性,如其交往圈会在一定的时间周期内保持相对稳定,其消费水平波动幅度不会太大等。
2.环境相关性环境相关性是指用户的呼叫指纹在空间上具备的特性。尽管移动运营商的用户是非受限移动用户,但其在空间环境上的变化也会呈现一定的规律性,也就是说,每个用户的活动空间都具备一定的特征,与其工作环境、休息环境有很强的相关性。如用户频繁活动的小区、工作时间休息时间频繁活动的小区,这些也是区别用户的重要特性。
3.个体差异性如果用户之间没有了差异性,则无法提及指纹,这也是指纹所必须具备的特性。每个用户的交往圈、消费习惯、活动范围、使用的终端都是其差异性的具体表现。
正是基于用户在使用运营商的产品及服务过程中所具有的上述特性,可以采用呼叫指纹的方法来识别用户。理论上,能够用于区分具体用户的因素都可以作为呼叫指纹的构成要素,但是考虑到应用的复杂性以及对指纹识别的作用强度,采用用户交往圈、消费行为特征、手机终端标识、频繁活动小区作为呼叫指纹的主要构成要素。
参照图1,是本发明中特征数据采集和识别系统的示意图。
所述特征数据采集和识别系统包括数据集市101、中间数据处理装置102、中间数据存储单元103、特征数据采集装置104、特征数据存储单元105和特征数据识别装置106。
所述数据集市中用于存储数据,例如,用户的通话记录;所述中间数据处理装置用于对所述数据集市的数据进行处理,然后,装载到所述中间数据存储单元。例如,所述中间数据处理装置从所述数据集市中抽取与用户呼叫指纹有关的信息,经过数据格式的转换,使其格式符合间数据存储单元的要求,之后,将数据装载到所述中间数据存储单元。
所述中间数据存储单元中存储的数据用于呼叫指纹的采集和识别处理。
所述特征数据采集装置根据所述中间数据存储单元的数据,进行相应的特征数据采集处理,将采集后的特征数据存储到所述特征数据存储单元中。
在本发明的实施例中,所述的特征数据,也就是呼叫指纹的采集,包括用户交往圈、消费层次、手机终端标识、频繁活动小区的指纹采集。
参照图2,是本发明实施例具体应用中特征数据采集装置的示意图。
所述特征数据采集装置包括数据处理单元200、交往圈采集单元201、消费层次采集单元202、手机终端识别采集单元203和频繁活动小区采集单元204。
用户交往圈是指用户交往对象的集合,用户的每个交往对象都作为交往圈成员之一。因为用户交往圈在不同的时间段上,尽管其交往圈成员会发生变化,但与其经常交往的交往圈成员会保持相对稳定,所以可以通过其交往圈成员的构成来寻找用户之间的相似性。数据表明,有6%左右的用户在间隔一个月的不同的两个月份中(如6月份和8月份),交往圈成员无任何交叉现象,也就是说,仅仅通过交往圈识别这个手段,我们最多可以识别出94%的用户。所以用户交往圈是识别用户的重要依据。
在本发明的具体实施中,所述交往圈采集单元采集用户的交往指数,以此表示用户的交往圈。所述交往指数是表征用户与每个交往对象的通话次数、通话时长、通话频率的综合指标。
通话频率衡量每个交往对象在所述用户的某个时间周期的通话行为过程中出现的频率。
Freq=Norm((Dn+Wn+Pn)/C)C常量,表示连续的一个时间段内的天数Dn某交往对象在C天内与所述用户有交往行为的天数
Wn某交往对象在C天内与所述用户有交往行为的周数Pn某交往对象在C天内与所述用户有交往行为的旬数此函数是一个归一化函数,Freq表示的是用一个0-1之间的实数量化的通话频率。
通话次数衡量所述用户与交往对象之间的通话次数在其所有交往对象中占据的地位。
Num=Norm(通话次数)此函数是一个归一化函数,Num表示的是用一个0-1之间的实数量化的通话次数。
通话时长衡量所述用户与交往对象之间的通话时长在所有交往对象中占据的地位。
Dura=Norm(通话时长)此函数是一个归一化函数,Dura表示的是用一个0-1之间的实数量化的通话时长。
交往指数Exp=f(Freq,Num,Dura)此函数是一个线性函数,表示Freq、Num和Dura的加权组合。
所述交往对象是指不包括特服号码、公众号码等在内的非个性化交往对象,如1860、1861、秘书台等,同时交往对象中只采集主叫和被叫交往圈。
在所述交往圈采集单元中,依据上述的公式,计算出每个交往对象的通话频率、通话次数、通话时长,进而计算出交往指数,然后将这些数据传输到所述特征数据存储单元中存储。在所述特征数据存储单元中存储有交往圈特征表,其中包括字段用户移动号码、对端号码、对端类型、通话次数、通话时长、通话频率、交往指数等。对端号码、对端类型记录所述交往对象的手机号码和手机类型。通话次数、通话时长、通话频率、交往指数记录根据上述公式得出的通话次数、通话时长、通话频率、交往指数。
虽然交往指数是识别用户的重要依据,但为了取得更好的识别效果,可以结合其它特征数据一起进行判断。下面结合本发明的实施例进一步说明。
消费层次对于大多数用户来说在某种程度上波动幅度不是很大,数据表明,当对用户的消费层次进行分位划分时,观察所有用户的消费层次波动情况,可以发现只有1%的用户消费层次上下波动幅度超过4个层次,也就是说99%的用户消费层次上下波动幅度不会超过4个层次,因此,消费层次也可以作为指纹识别的重要因素。在指纹识别过程中,可以利用消费层次先将用户进行初步粗略定位,这一过程能够提高识别率,还可以减少指纹识别过程的系统开销。
在所述消费层次采集单元中,用户的消费层次设定为10层,将用户的ARPU(Average Revenue Per User每用户平均收入)值利用分位数统计量划分用户的消费层次、观察其分布状况。所述分位数是描述样本分布和位置的统计量。
Con_Lev=Quart(ARPU)Con_Lev消费层次Quart函数的功能是,首先取用户的ARPU的十分位值,然后将每个用户的ARPU按照十分位点进行层次划分。例如,将所有用户的平均收入按顺序排列,因消费层次设定为10层,所以将所有用户的平均收入按照总用户数划分为10层,并且得到每层的分位数,例如第一层的分位数为50元,第二层的分位数为70元,如果某个用户的平均收入为60元,在第一层(50元)与第二层(70元)之间,那么所述用户属于第2消费层。当然,尽管实施例的消费层次设定为10层,实际可以根据需要进行消费层次和相应的分位点的调整。
在所述手机终端标识采集单元中,由于同一手机号码在一个时间周期(例如一个月)内,可能依附于多个手机终端,即在同一时期一个移动号码对应多个手机终端标识,所以采集出现频繁最高的手机终端号码,作为当前时期用户所使用的手机终端标识。
IMEI_ID=Freq_Max (IMEI,MSISDN,Month)IMEI手机终端标识MSISDN移动台ISDN号码(Mobile Station ISDN Number)
Month表示某个月,例如,6月份IMEI_ID使用频率最高的手机终端标识此函数的功能是,得到一个移动号码在某个时间周期(例如一个月)内使用频率最高的IMEI_ID,即手机终端标识。
在所述频繁活动小区采集单元中,因为用户居住和工作的地点通常不会频繁变动,具备一定的稳定性,所以可以分别取用户在工作时间和休息时间的频繁活动小区作为指纹标识的部分要素。
Loca_ID_Work=Freq_Max(loca,MSISDN,Month)Loca_ID_Rest=Freq_Max(loca,MSISDN,Month)loca基站MSISDN移动台ISDN号码(Mobile Station ISDN Number)Month表示某个月,例如,6月份Loca_ID_Work工作时间活动最频率的小区标识Loca_ID_Rest休息时间活动最频率的小区标识此函数的功能是,得到一个移动号码用户在某个时间周期(例如一个月)内活动频率最高的工作时间和休息时间的小区标识。所述小区标识可以是基站标识。
在本发明的具体实施中,所述交往圈采集、所述消费层次采集、手机终端标识采集、频繁活动小区采集四个单元的输入数据可以直接来自于所述中间数据存储单元,也可以是所述数据处理单元接收所述中间数据存储单元的数据传输给上述四个单元。同样上述四个单元的输出数据可以直接输出到所述特征数据存储单元,或者是先传输到所述数据处理单元,经过对数据的格式、结构的进一步处理后,然后传输到所述特征数据存储单元。在所述特征数据存储单元中还存储有综合分析表,其中包括字段手机串号、工作时频繁活动小区、休息时频繁活动小区,消费层次等,分别记录用户的手机终端标识、工作时间频繁活动小区标识、休息时间频繁活动小区标识和用户的消费层次。采集周期要受数据集市中各项数据源的装载周期,以及呼叫指纹识别的相关专题应用的影响,在发明的具体实施例中,数据采集的周期设定为一个月。
在进行特征数据识别时,所述特征数据识别装置根据中间数据存储单元和特征数据存储单元的数据进行识别。在本发明的实施例中,对于用户消费层次,交往圈等多个呼叫指纹采取递进式的组合识别,有助于不断提高识别精度。
首先,根据中间数据存储单元和特征数据存储单元的数据,选择目标用户组和待识别用户组。所述目标用户组是指要进行识别的用户组,待识别用户组是作为用户识别的可比性的依据、初步确定的待识别用户群体范围。例如,在进行黑名单用户识别时,目标用户组是要被识别的黑名单用户,待识别用户组是从所有用户中选择出的黑名单用户,将目标用户组的一个黑名单用户与待识别用户组的黑名单用户进行比对,判断是否是待识别用户组的某个黑名单用户。
参照图3,是本发明实施例具体应用中特征数据识别装置的示意图。
所述特征数据识别装置包括数据处理接口300、交往圈识别单元301、消费层次识别单元302、手机终端识别单元303和频繁活动小区识别单元304。
所述数据处理接口用于接收所述中间数据存储单元和所述特征数据存储单元的数据,还用于在所述交往圈采集单元、所述消费层次识别单元、所述手机终端识别单元和所述频繁活动小区识别单元之间传输数据。
在所述消费层次识别单元中,根据所述中间数据存储单元和所述特征数据存储单元的数据,选择目标用户组和待识别用户组。然后,选定目标用户组中第一个消费层次的全体用户(A组用户);根据当前目标用户的消费层次,确定待识别用户组中许可的消费层次波动范围,例如,如果波动幅度设为4层,所述消费层次为1时,波动范围为1到5层,所述消费层次为6时,波动范围为2到10层;选定待识别用户组中消费层次波动范围内的全体待识别用户(B组用户);根据确定的A、B两组用户,提取用户的交往圈指纹信息,调用下面将要说明的交往圈识别单元进一步识别;上面所述的是目标用户组中第一个消费层次的全体用户的识别过程,重复这一过程,直至识别完各个消费层次的所有目标用户。
通过所述消费层次识别单元的识别功能缩小待识别用户范围,还可以大幅度降低了系统开销、提高下一步的识别效率。消费层次识别后的输出结果通过数据处理接口传输到交往圈识别单元进一步处理,这是本发明的优选方式。当然,所述交往圈识别单元也可以直接来自所述中间数据存储单元和所述特征数据存储单元的数据,选择目标用户组和待识别用户组。交往圈识别是指纹识别系统的核心。
在所述交往圈识别单元中,提取所有目标用户的交往圈成员列表,根据目标用户的消费层次大小,分别确定每个目标用户的有效交往圈成员数,以此确定所述目标用户的有效交往圈成员列表。其中,所述有效交往圈,是用户所有有意义的交往对象组成的全集交往圈的一个子集,即那些与所述用户联系比较频繁且能够保持长期交往的重要交往对象。有效交往圈的成员数与所述用户的消费水平有很强的正相关性,如果所述用户的消费层次较高,则有效交往圈成员数就越多。例如,用户的消费层次为1、2、3时,有效交往圈成员数为10;消费层次为4、5、6时,为12;消费层次为7、8时,为14;消费层次为9时,为16;消费层次为10时,为16。有效交往圈成员数值大小的变化要保证在不同消费层次之间的平滑过渡,上述值的大小是经过多次验证的经验值。在确定不同目标用户的有效交往圈大小以后,再根据所述用户的交往圈成员的交往指数,取交往指数最大的前N位构成所述用户的有效交往圈成员列表,N即表示有效交往圈成员数。所述待识别用户的有效交往圈成员列表荻取方法同所述目标用户的有效交往圈成员列表获取方法一致。
计算目标用户和所有待识别用户的有效交往圈交集成员个数;计算交集成员个数占目标用户有效交往圈成员数的比例,也称为符合率,符合率的大小可以根据需要进行设置,如可设为0.2;判断符合率是否满足设定条件,如果符合率>=0.2,即满足设定条件,则为同一用户指纹;如果符合率<0.2,则不是同一用户指纹。
在本发明的优选实施方式中,如果目标用户和待识别用户的交往圈符合程度较低,例如符合率<0.2,虽然不满足设定的符合率标准,但交往圈确实有交集,此时,可以利用手机终端识别功能进一步判断。在此优选方式中,符合率的判断过程为,如果符合率>=0.2,即满足设定条件,则为同一用户指纹;如果符合率<0.2且不为零,则为不确定,还要进一步识别;如果符合率为零,则不是同一用户指纹。
在所述手机终端识别单元中,通过数据处理接口接收交往圈识别单元的输出,对交往圈有交集的目标用户和待识别用户的手机终端号码进行匹配,如果匹配成功,则认为是同一用户指纹,如果匹配不成功,则还要进一步识别。
在所述频繁活动小区识别单元中,将手机终端识别无法确认的目标用户和待识别用户的工作时间和休息时间的活动小区标识进行匹配,如果匹配成功,则认为是同一用户指纹,如果匹配不成功,则认为不是同一用户指纹。
参照图4,是本发明中特征数据采集和识别系统的流程图。
步骤401,所述中间数据处理装置接收所述数据集市存储的数据,抽取与特征数据有关的数据,进行数据处理,例如,数据格式的处理,装载到所述中间数据存储单元;步骤402,所述特征数据采集装置接收所述中间数据存储单元的数据,进行相应的特征数据采集,将采集到的特征数据存储到所述特征数据存储单元中;步骤403,所述特征数据识别装置根据中间数据存储单元和特征数据存储单元的数据进行识别。
下面结合图5和图6,具体说明步骤402和步骤403的处理过程。
参照图5,是本发明实施例具体应用中特征数据采集的流程图。
步骤501,所述交往圈采集单元根据用户交往对象的通话次数、通话时长、通话频率计算出所述交往对象的交往指数,并将这些数据传输到所述数据处理单元;步骤502,所述消费层次采集单元取用户的ARPU的十分位值,然后将所述用户的ARPU按照十分位点进行层次划分,计算出所述用户的消费层次,并将其传输到所述数据处理单元;步骤503,所述手机终端识别采集单元采集得到所述用户在某个时间周期内使用频率最高的手机终端标识,并将所述手机终端标识传输到所述数据处理单元;步骤504,所述频繁活动小区采集单元得到所述用户在某个时间周期内活动频率最高的工作时间和休息时间的小区标识,并将所述标识传输到所述数据处理单元;步骤505,所述数据处理单元将接收到的数据进行格式化,结构化;然后,传输到特征数据存储单元进行存储。
参照图6,是本发明实施例具体应用中特征数据识别的流程图。
首先,执行步骤600,指纹识别开始,设定消费层次为第一消费层次;在步骤601,进行当前消费层次的用户识别,具体参照图7,步骤701,选定目标用户组中当前消费层次的全体用户;步骤702,根据步骤701选定的当前目标用户的消费层次,确定待识别用户组中许可的消费层次波动范围;步骤703,选定待识别用户组中消费层次波动范围内的全体待识别用户。
在步骤602中,判断待识别用户是否满足消费层次波动许可,即判断步骤703选定的全体待识别用户是否不为空,如果不为空,根据步骤701和703中确定的两组用户,提取用户的交往圈指纹信息,进一步识别;如果为空,执行步骤610,则不是同一用户指纹。
步骤603,根据步骤701和703确定的两组用户,即目标用户和待识别用户,进行交往圈识别,具体参照图8。步骤801,提取所述目标用户的交往圈成员列表及所述目标用户的有效交往圈成员数;步骤802,提取所述待识别用户的交往圈成员列表及所述待识别用户的有效交往圈成员数;步骤803,计算所述目标用户和所述待识别用户的有效交往圈交集成员个数;步骤804,计算交集成员个数占所述目标用户有效交往圈成员数的比例,即符合率。
在步骤604中,判断交往圈符合程度是否满足,也就是,判断符合率是否满足设定条件;如果是,执行步骤609,则是同一用户指纹;如果不满足条件,但符合率不为零,则标记为不确定,进一步进行手机终端识别;步骤605,接收交往圈识别的输出结果,对交往圈有交集的所述目标用户和所述待识别用户的手机终端号码进行匹配;步骤606,如果匹配成功,执行步骤609,则是同一用户指纹,如果匹配不成功,则还要进行频繁活动小区识别。在步骤607中,将手机终端识别无法确认的目标用户和待识别用户的工作时间和休息时间的频繁活动小区标识进行匹配,步骤608,如果匹配成功,执行步骤609,则是同一用户指纹,如果匹配不成功,执行步骤610,则不是同一用户指纹。
在步骤611中,设定消费层次为当前消费层次的下一个消费层次,重复以上步骤,直至识别完各个消费层次的所有目标用户。
以上所述仅仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
权利要求
1.一种采集和使用用户特征数据识别用户的系统,其特征在于,包括数据集市、中间数据处理装置、中间数据存储单元、特征数据采集装置、特征数据存储单元和特征数据识别装置;所述数据集市用于存储用户数据;所述中间数据处理装置用于从所述数据集市中抽取与特征数据采集有关的数据,并对数据进行格式转换处理,转换后的数据装载到所述中间数据存储单元;所述中间数据存储单元中的数据用于特征数据的采集和识别处理;所述特征数据采集装置包括交往圈采集单元,用于接收所述中间数据存储单元的数据,采集用户的交往指数,将采集的交往指数数据存储到所述特征数据存储单元中;所述特征数据存储单元用于存储特征数据;所述特征数据识别装置根据中间数据存储单元和特征数据存储单元的数据识别用户。
2.根据权利要求1所述的系统,其特征在于,所述特征数据采集装置还包括消费层次采集单元、手机终端识别采集单元和频繁活动小区采集单元。所述消费层次采集单元用于采集所述用户的消费层次;所述手机终端识别采集单元用于采集所述用户使用频率最高的手机终端;所述频繁活动小区采集单元用于采集所述用户在工作时间和休息时间活动最频繁的小区。
3.根据权利要求1或2所述的系统,其特征在于,所述特征数据采集装置还包括数据处理单元,用于接收所述中间数据存储单元的数据,并用于所述交往圈采集单元,所述消费层次采集单元、所述手机终端识别采集单元和所述频繁活动小区采集单元的数据输入,输出处理。
4.根据权利要求1所述的系统,其特征在于,所述特征数据识别装置包括交往圈识别单元,用于所述用户的交往圈信息识别。
5.根据权利要求4所述的系统,其特征在于,所述特征数据识别装置还包括消费层次识别单元、手机终端识别单元和频繁活动小区识别单元;所述消费层次识别单元,用于所述用户的消费层次的识别;所述手机终端识别单元,用于所述目标用户和所述待识别用户的手机终端号码进行匹配;所述频繁活动小区识别单元中,用于所述目标用户和所述待识别用户的工作时间和休息时间的活动小区标识别进行匹配。
6.根据权利要求4或5所述的系统,其特征在于,所述特征数据识别装置还包括数据处理接口,用于接收所述中间数据存储单元和所述特征数据存储单元的数据,及在所述交往圈采集单元、所述消费层次识别单元、所述手机终端识别单元和所述频繁活动小区识别单元之间传输数据。
7.一种采集和使用用户特征数据识别用户的方法,其特征在于,应用于包括数据集市、中间数据处理装置、中间数据存储单元、特征数据采集装置、特征数据存储单元和特征数据识别装置的系统,包括以下步骤1)从存储的用户数据中抽取与特征数据采集有关的数据;2)对所述数据进行格式转换处理,存储转换后的数据;3)利用所述的存储的数据,采集用户的交往指数;4)存储所述交往指数数据;5)使用存储的交往指数数据识别用户。
8.根据权利要求7所述的方法,其特征在于,步骤3)中所述相应的特征数据采集包括以下步骤采集所述用户的消费层次;采集所述用户使用频率最高的手机终端;采集所述用户在工作时间和休息时间活动最频繁的小区。
9.根据权利要求8所述的方法,其特征在于,步骤5)中所述数据识别包括以下步骤11)设定消费层次为第一消费层次;12)进行当前消费层次的用户识别;13)判断待识别用户是否满足消费层次波动许可,如果是,执行步骤14);如果否,则不是同一用户指纹,执行步骤20);14)根据步骤12)确定的目标用户和待识别用户,进行交往圈识别;15)判断符合率是否满足设定条件,如果是,则是同一用户指纹,执行步骤20);如果否,执行步骤16);16)对所述目标用户和所述待识别用户的手机终端号码进行匹配;17)判断如果是,则是同一用户指纹,执行步骤20);如果否,执行步骤18);18)对所述目标用户和所述待识别用户的工作时间和休息时间的频繁活动小区标识进行匹配;19)判断如果是,则是同一用户指纹,执行步骤20);如果否,则不是同一用户指纹,执行步骤20);20)设定消费层次为当前消费层次的下一个消费层次,重复步骤11)到19),直至识别完各个消费层次的所有目标用户。
10.根据权利要求9所述的方法,其特征在于,步骤12)中所述数据识别包括以下步骤31)选定目标用户组中当前消费层次的全体用户;32)根据步骤31)选定的当前目标用户的消费层次,确定待识别用户组中许可的消费层次波动范围;33)选定待识别用户组中消费层次波动范围内的全体待识别用户。
13.根据权利要求11所述的方法,其特征在于,步骤14)中所述数据识别包括以下步骤41)提取所述目标用户的交往圈成员列表及所述目标用户的有效交往圈成员数;42)提取所述待识别用户的交往圈成员列表及所述待识别用户的有效交往圈成员数;43)计算所述目标用户和所述待识别用户的有效交往圈交集成员个数;44)计算交集成员个数占所述目标用户有效交往圈成员数的比例符合率。
11.根据权利要求7所述的方法,其特征在于,在所述步骤3)和步骤4)之间还包括对所述数据进行格式化处理。
全文摘要
本发明涉及一种采集和使用用户特征数据识别用户的系统,包括数据集市、中间数据处理装置、中间数据存储单元、特征数据采集装置、特征数据存储单元和特征数据识别装置;数据集市用于存储用户数据;中间数据处理装置从所述数据集市中抽取与特征数据采集有关的数据,对数据进行格式转换后,装载到中间数据存储单元;所述中间数据存储单元的数据用于特征数据的采集和识别处理;所述特征数据采集装置包括交往圈采集单元,接收所述中间数据存储单元的数据,采集用户的交往指数,存储到所述特征数据存储单元;特征数据识别装置根据中间数据存储单元和特征数据存储单元的数据识别用户。本发明还相应地公开了一种采集和使用用户特征数据识别用户的方法。
文档编号H04W8/24GK1816211SQ20051000924
公开日2006年8月9日 申请日期2005年2月2日 优先权日2005年2月2日
发明者焦洪国 申请人:亚信科技(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1