专利名称:一种用户账号的识别方法及设备的制作方法
技术领域:
本申请涉及计算机网络技术领域,尤其涉及一种用户账号的识别方法及设备。
背景技术:
随着互联网技术的不断发展,互联网业务也得到飞速发展,多种多样的互联网网站为不同的用户提供了种类繁多的业务服务,如:用户可以利用互联网网站进行商品的买卖、发表时政见解以及进行交友活动等,从而将现实生活中需要面对面进行的业务交易或来往,扩展到了虚拟网络领域,丰富了用户的业务交易方式。在利用上述互联网的方式进行相应的业务时,用户需要通过在互联网网站注册用户账号的方式来登录该网站,从而使用该网站为用户提供的业务服务信息,完成用户所需要的业务。由于目前网络身份证和网络实名制等身份认证制度尚未实施,绝大多数网站只需要用户提供自命名的用户名和其他身份信息(如合法的邮箱信息、手机号码)等,就可以注册一个新的用户账号,因此,同一用户可以利用不同的用户名和身份信息重复注册多个用户账号。网站服务器在对本地注册的用户账号进行管理时,是无法区分已注册的用户账号是否是同一用户注册的,网站服务器只能不加区别地对各个已注册的用户账号分别进行管理,如向用户账号推送信息、对该用户账号在网站服务器中登录后进行的操作管理等。而实际上,对于同一用户注册的多个用户账号之间很可能具有一定的相关性,用户使用各用户账号登录网站服务器后的操作也具有一定的相关性,因此,如果能找到一种从大量的用户账号中识别出同一用户注册的用户账号的方案,则可以将同一用户注册的用户账号集中管理,有效提高对用户账号的管理效率,进一步地,还可以有效地分析、跟踪用户行为,向用户注册的用户账号精准地推送有用信息。
发明内容
本申请的目的在于:提供一种用户账号的识别方法及设备,用以解决现有互联网网站中无法有效地从大量的已注册用户账号中识别出同一用户注册的用户账号的问题。一种用户账号的识别方法,包括以下步骤:服务器采集用户账号的识别信息,所述识别信息中包含设定的关键字段和模型字段;针对任意两个用户账号的识别信息,所述服务器判断所述两个用户账号的识别信息中是否有至少一个关键字段的内容相同;若是,则确定该两个用户账号是由同一用户注册的;否则,所述服务器确定识别信息中的模型字段的内容相似度,判断所述两个用户账号的识别信息中的模型字段的内容相似度是否达到设定条件,若是,则确定该两个用户账号是由同一用户注册的,否则,确定该两个用户账号是由不同用户注册的;
所述确定识别信息中的模型字段的内容相似度包括:确定各模型字段的权重值;分别将两个用户账号的识别信息中名称相同的模型字段的内容进行相似度运算,并将各运算结果与对应的模型字段的权重值进行加权求和,得到模型字段的内容相似度。一种服务器,包括:数据采集模块,用于采集用户账号的识别信息,所述识别信息中包含设定的关键字段和模型字段;识别判断模块,用于接收所述数据采集模块发送的用户账号的识别信息,针对任意两个用户账号的识别信息,判断所述两个用户账号的识别信息中是否有至少一个关键字段的内容相同,若是,则确定该两个用户账号是由同一用户注册的,否则,根据第一相似度运算模块的运算结果判断所述两个用户账号的识别信息中的模型字段的内容相似度是否达到设定条件,若是,则确定该两个用户账号是由同一用户注册的,否则,确定该两个用户账号是由不同用户注册的;第一相似度运算模块,用于确定各模型字段的权重值,并分别将两个用户账号的识别信息中名称相同的模型字段的内容进行相似度运算,将各运算结果与对应的模型字段的权重值进行加权求和,得到模型字段的内容相似度并发送至识别判断模块。本申请的有益效果如下:本申请实施例提供了一种用户账号的识别方法及设备,通过采集各用户账号所对应的识别信息,所述识别信息中包含设定的关键字段和模型字段,当任意两个用户账号的识别信息中包含有至少一个相同的关键字段内容时,则确定该两个用户账号为同一用户所注册,否则,需要判断该两个用户账号的识别信息中模型字段的内容相似度,并根据所述模型字段的内容相似度评级来判断该两个用户账号是否为同一用户所注册,从而解决了无法有效地从大量的用户账号中识别出同一用户注册的用户账号的问题。
图1所示为本申请实施例一中用户账号的识别方法流程示意图;图2所示为本申请实施例二中服务器的结构示意图。
具体实施例方式本申请实施例提供了一种用户账号的识别方法及设备,通过采集各用户账号所对应的识别信息,所述识别信息中包含设定的关键字段和模型字段,当任意两个用户账号的识别信息中包含有至少一个相同的关键字段内容时,则确定该两个用户账号为同一用户所注册,否则,需要判断该两个用户账号的识别信息中模型字段的内容相似度,并根据所述模型字段的内容相似度评级来判断该两个用户账号是否为同一用户所注册,从而解决了无法有效地从大量的用户账号中识别出同一用户注册的用户账号的问题。通过本申请的技术方案,可以实现对同一用户注册的各用户账号的集中管理、有效提高对用户账号的管理效率,进一步地,还可以有效地分析、跟踪用户行为,向用户注册的用户账号精准地推送有用信息。实施例一:
如图1所示,为本申请实施例一中用户账号的识别方法流程示意图,所述识别方法包括以下步骤:步骤101:服务器采集用户账号的识别信息,所述识别信息中包含设定的关键字段和模型字段。所述用户账号是指用户通过互联网网站注册的用于在注册网站进行相应网上业务行为的虚拟账号。所述用户可以是注册用户账号的个人、公司或者组织。所述用户账号的识别信息包括以下至少一种信息:(I)、用户账号注册时的注册信息。所述注册信息可以是用户在注册用户账号时填写的信息,例如,针对个人用户,所述注册信息可以包括:姓名、身份证号码、性别、电子邮箱、教育水平等信息;针对企业用户,所述注册信息可以包括:企业名称、组织机构代码、企业类型、联系地址等信息。(2)、从第三方获取的信息。所述第三方可以是指注册网站外的其他网站或是工商单位、民事单位、司法单位等政府、民间机构等,从所述第三方获取的信息可以是依据注册信息中的内容,从所述第三方获取与该用户相关的其他信息,例如,根据所述注册信息确定企业用户的企业名称后,可以从工商单位中获取该企业用户的注册资本、所属行业等信息。(3)、用户账号运行时产生的信息,如用户账号登录时所使用的IP地址或者MAC信息等。采集的识别信息中的内容按其性质可以划分为两类,一类为关键字段中的内容,另一类为模型字段中的内容。所述关键字段表示能够唯一或是接近唯一地识别用户账号信息注册者的身份的识别信息,例如,针对个人用户,关键字段的名称可以为身份证号码、护照号码等,针对身份证号码这一关键字段,其内容可以为用户在注册用户账号时填写的身份证号码。所述模型字段为识别信息中的非关键字段,例如,针对个人用户,模型字段的名称可以为性别、出生日期、国籍、电子邮箱、教育水平,针对出生日期这一模型字段,其内容可以为用户在注册用户账号时填写的出生日期。需要说明的是,采集的识别信息中并不一定包含预先设定的关键字段或模型字段,也就是说,若将预设的关键字段或模型字段以数据表的形式设置,针对每次采集的识别信息,将识别信息中的内容填充至表I所示的数据表中时,可能存在某些关键字段或模型字段有内容,某些关键字段或模型字段的内容为空的情况。例如:如表I所示,为设置的数据表形式的用户账号A的识别信息,所述识别信息包括设定的关键字段和模型字段,若本次针对用户账号A采集的识别信息中包含了用户的姓名、身份证号码、性别、国籍,则表I中的名称为身份证号码的关键字段有内容,名称为护照号码的关键字段中内容为空;名称为姓名、性别、国籍的模型字段有内容,名称为出生日期、电子邮箱的模型字段内容为空。
权利要求
1.一种用户账号的识别方法,其特征在于,包括以下步骤: 服务器采集用户账号的识别信息,所述识别信息中包含设定的关键字段和模型字段;针对任意两个用户账号的识别信息,所述服务器判断所述两个用户账号的识别信息中是否有至少一个关键字段的内容相同; 若是,则确定该两个用户账号是由同一用户注册的; 否则,所述服务器确定识别信息中的模型字段的内容相似度,判断所述两个用户账号的识别信息中的模型字段的内容相似度是否达到设定条件,若是,则确定该两个用户账号是由同一用户注册的,否则,确定该两个用户账号是由不同用户注册的; 所述确定识别信息中的模型字段的内容相似度包括: 确定各模型字段的权重值; 分别将两个用户账号的识别信息中名称相同的模型字段的内容进行相似度运算,并将各运算结果与对应的模型字段的权重值进行加权求和,得到模型字段的内容相似度。
2.如权利要求1所述的用户账号的识别方法,其特征在于, 所述识别信息包括以下至少一种信息: 用户账号注册时的注册信息、从第三方获取的信息和用户账号运行时产生的信息。
3.如权利要求2所述的用户账号的识别方法,其特征在于,通过以下方式确定两个用户账号的识别信息中的模型字段的内容相似度: 确定识别信息中的注册信息、从第三方获取的信息和用户账号运行时产生的信息的权`重值; 分别将两个用户账号的识别信息中名称相同的模型字段的内容进行相似度运算,并确定进行相似度运算的内容所属信息的权重值; 将各运算结果与进行相似度运算的内容所属信息的权重值进行加权求和,得到模型字段的内容相似度。
4.一种服务器,其特征在于,包括: 数据采集模块,用于采集用户账号的识别信息,所述识别信息中包含设定的关键字段和模型字段; 识别判断模块,用于接收所述数据采集模块发送的用户账号的识别信息,针对任意两个用户账号的识别信息,判断所述两个用户账号的识别信息中是否有至少一个关键字段的内容相同,若是,则确定该两个用户账号是由同一用户注册的,否则,判断所述两个用户账号的识别信息中的模型字段的内容相似度是否达到设定条件,若是,则确定该两个用户账号是由同一用户注册的,否则,确定该两个用户账号是由不同用户注册的; 第一相似度运算模块,用于确定各模型字段的权重值,并分别将两个用户账号的识别信息中名称相同的模型字段的内容进行相似度运算,将各运算结果与对应的模型字段的权重值进行加权求和,得到模型字段的内容相似度并发送至识别判断模块。
5.如权利要求4所述的服务器,其特征在于,所述数据采集模块采集到的用户账号的识别信息具体包括以下至少一种: 用户账号注册时的注册信息、从第三方获取的信息和用户账号运行时产生的信息。
6.如权利要求5所述的服务器,其特征在于,还包括: 第二相似度运算模块,用于确定识别信息中的注册信息、从第三方获取的信息和用户账号运行时产生的信息的权重值,分别将两个用户账号的识别信息中名称相同的模型字段的内容进行相似度运算,并确定进行相似度运算的内容所属信息的权重值,并将各运算结果与进行相似度运算的内容所属信息的权重值进行加权求和,得到模型字段的内容相似度; 所述识别判断模块,具体用于根据所述第二相似度运算模块得到的内容相似度,判断所述两个用户账号的识别信息中的模型字段的内容相似度是否达到设定条件。
7.如权利要求4-6任一所述的服务器,其特征在于,还包括: 数据存储模块,用于存储数据采集模块所采集到的各用户账号的识别信息; 人工识别模块,用于提供操作界面来接收人工干预信息,利用接收到的人工干预信息对识别判断模块所得到的识别结果再次进行判定。
8.如权利要求7所述的服务器,其特征在于, 所述数据存储模块,还用于将由同一用户注册的多个用户账号进行绑定,并存储绑定信息。
全文摘要
本申请公开了一种用户账号的识别方法及设备,通过采集各用户账号所对应的识别信息,所述识别信息中包含设定的关键字段和模型字段,当任意两个用户账号的识别信息中包含有至少一个相同的关键字段内容时,则确定该两个用户账号为同一用户所注册,否则,需要判断该两个用户账号的识别信息中模型字段的内容相似度,并根据所述模型字段的内容相似度评级来判断该两个用户账号是否为同一用户所注册,从而解决了无法有效地从大量的用户账号中识别出同一用户注册的用户账号的问题。
文档编号G06F17/30GK103118043SQ20111036302
公开日2013年5月22日 申请日期2011年11月16日 优先权日2011年11月16日
发明者张立柱, 张正威, 杨廷辉 申请人:阿里巴巴集团控股有限公司