一种基于风险识别的信息处理方法及装置与流程

文档序号:21360968发布日期:2020-07-04 04:34阅读:337来源:国知局
一种基于风险识别的信息处理方法及装置与流程

本申请是中国专利申请cn105718767a的分案申请,原申请的申请日为:2014年12月4日;申请号为:201410734967.2;发明创造名称为:一种基于风险识别的信息处理方法及装置。

本申请涉及计算机技术领域,尤其涉及一种基于风险识别的信息处理方法及装置。



背景技术:

随着信息技术的发展,用户所使用的通信设备中的移动用户号码薄号码(mobiledirectorynumber,mdn,也即手机号码),已经成为一种重要的用户身份标识信息,用户不仅可以使用该号码进行注册、登录等操作,还可以将该号码与相应的网络账户绑定,以进行验证等重要网络操作。

目前,用户所使用的手机号码有被盗取的风险,被盗取的手机号码将对用户的网络操作产生极大威胁,易造成用户的损失。

现有技术中,对于在网站中注册或绑定的手机号码而言,服务器会对用户的手机号码进行风险识别,以确定出手机号码被盗取的风险大小,从而进行相应的风险防控措施。对手机号码进行风险识别,通常有两种方法:一种是对手机号码进行价值度识别。另一种是对手机号码进行危险度识别。

对手机号码进行价值度识别,一般是根据手机号码中所包含的数字的顺序、含义,推断出该手机号码的价值度,通常,手机号码中出现较多连续的数字,或重复出现相同的数字,则其价值度较高,如:手机号码出现连号:13912345678,或出现重号:13888886666,这样的手机号码的价值度往往高于普通手机号码。价值度较高的手机号码易被作为盗取对象,所以,将针对价值度较高的手机号码进行相应风控操作,如:提升安全监控级别等。

对手机号码进行危险度识别,一般是监测与某一手机号码相绑定的账户,是否出现过违规操作(如:盗用他人账户或其他恶意网络行为等),如果出现,则将该手机号码标定为高危险度手机号码,并针对该高危险度手机号码进行相应风控操作,如:记录为黑名单号码,阻止该手机号码进行绑定或注册。

但是,上述对手机号码进行识别的方法仍存在缺陷。具体地:

对手机号码进行价值度识别,通常依赖于主观判断,以手机号码中数字的含义来判定手机号码的价值度,不具有规范的判定标准,不能充分、准确地反映出手机号码的实际价值度。

对手机号码进行危险度识别,标定为高危险度的手机号码,可能被用户丢弃,并在一定时间后,被电信运营商回收,再次分配给其他用户继续使用,由于该手机号码已被网络运营商记录为黑名单,那么,新分配到该手机号码的用户,将不能在相应的网站上进行注册或绑定,造成误判,严重影响用户的网络操作。



技术实现要素:

本申请实施例提供一种基于风险识别的信息处理方法及装置,用以解决对信息的风险识别准确性较差的问题。

本申请实施例提供的一种基于风险识别的信息处理方法,包括:将待识别信息中包含的字符划分成不同的字符集合;

分别确定各字符集合对应的分量风险值;

根据各字符集合对应的分量风险值,确定所述待识别信息的综合风险值;

根据所述综合风险值,对所述待识别信息进行处理。

本申请实施例提供的一种基于风险识别的信息处理装置,包括:字符划分模块,用于将待识别信息中包含的字符划分成不同的字符集合;

分量风险值模块,用于分别确定各字符集合对应的分量风险值;

综合风险值模块,用于根据各字符集合对应的分量风险值,确定所述待识别信息的综合风险值;

处理模块,用于根据所述综合风险值,对所述待识别信息进行处理。

本申请实施例提供一种基于风险识别的信息处理方法及装置,将待识别信息中含有相应含义的字符划分成不同的字符集合,确定了各字符集合分别对应的分量风险值后,就可以准确确定该待识别信息对应的综合风险值,而不依赖于主观判断,在确定各字符集合对应的分量风险值时,由预先保存的已识别信息作为基础,因而可以更准确地反映出待识别信息的实际价值度。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本申请实施例提供的基于风险识别的信息处理过程示意图;

图2为本申请实施例提供的确定各字符集合对应的分量风险值时方法一的过程示意图;

图3本申请实施例提供的确定各字符集合对应的分量风险值时方法二的过程示意图;

图4本申请实施例提供的确定各字符集合对应的分量风险值时方法三的过程示意图;

图5为本申请实施例提供的基于风险识别的信息处理装置结构示意图;

图6为本申请实施例提供的确定第一分量风险值时分量风险值模块的结构示意图;

图7为本申请实施例提供的确定第二分量风险值时分量风险值模块的结构示意图;

图8为本申请实施例提供的确定第三分量风险值时分量风险值模块的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

图1为本申请实施例提供的基于风险识别的信息处理过程,该过程具体包括以下步骤:

s101:将待识别信息中包含的字符划分成不同的字符集合。

在本申请实施例的场景中,用户注册了账户信息(如:网络账户)后,会将该用户自身的用户信息与该账户信息进行绑定,用以在相应操作时进行识别认证。故本申请实施例中的所述待识别信息,具体为:与账户信息相绑定的、用于进行认证识别的用户信息。该待识别信息包括但不限于:用户的手机号码、证件号码等。

通常,上述待识别信息中所包含的字符具有一定的含义。以手机号码为例:11位手机号码13812348888中,前三位数字“138”代表手机号码的属性类型,通过这三位数字,可以确定出该手机号码所属的电信运营商以及相应的业务类型。第四至七位的四位数字“1234”,为归属位置寄存器(homelocationregister,hlr)识别码,通过这四位数字,可以确定出该手机号码对应的用户信息(如:手机号码的归属位置信息、呼叫优先级信息等)。最后四位数字“8888”,代表用户编号,通过这四位数字,可以确定具体的某一用户。可见,对于手机号码而言,其中包含的数字具有相应的含义。

因此,在上述步骤s101中,可以将待识别信息中具有一定含义的字符划分成不同的字符集合。

需要说明的是,在上述步骤s101中,将字符划分成字符集合的方式,具体可以是,将待识别信息中指定位置上的字符,分入一个字符集合。那么,针对所述待识别信息中不同指定位置上的字符,将这些字符分入不同的字符集合,便得到多个不同的字符集合。其中,各字符集合的合集包含待识别信息中的所有字符,且至少两个字符集合存在交集。

s102,分别确定各字符集合对应的分量风险值。

在将具有一定含义的字符划分成不同的字符集合后,逐一确定各字符集合的分量风险值。其中,所述的分量风险值,为各字符集合分别对应的风险度的量化值。由于不同的字符集合中分入的字符的含义不同,因此在本申请实施例中,确定各字符集合对应的分量风险值将采用不同的方式,如:基于字符集合中的字符出现的概率、在特定条件下的占比、字符的权重等多种方式确定不同字符集合对应的分量风险值。

需要说明的是,本申请实施例中的分量风险值,反映了字符集合中的字符的价值度,并通过价值度反映风险度。

具体来说,仍以上述手机号码13812348888为例,若将该手机号码中的后四位数字“8888”分入一个字符集合中,显然,在四位数字中,出现四位数字均重复的概率是极小的,也就是说,含有这四位数字的字符集合对应的价值度极高,那么,在实际应用场景下,含有该字符集合的待识别信息有较大的可能被盗取,也即,该字符集合被盗取的风险较高。

s103,根据各字符集合对应的分量风险值,确定所述待识别信息的综合风险值。

由于各字符集合中所包含的字符,是待识别信息中的全部字符,所以,通过各字符集合对应的风险度就可以反映该待识别信息整体的风险度,也即,根据各字符集合对应的分量风险值,可以确定出该待识别信息整体的综合风险值。当然,在本申请实施例中,各字符集合的分量风险值可以通过累加、平均等多种方式确定待识别信息的综合风险值,这里并不作为对本申请的限定。

s104,根据所述综合风险值,对所述待识别信息进行处理。

在本申请实施例中,综合风险值反映了待识别信息的风险度,具体来说,综合风险值越大,待识别信息的风险度越高,那么,该待识别信息受到的安全威胁也就越高,如:很可能被盗取等,因此,对于综合风险值过高的待识别信息,需要结合相应的风险控制系统进行处理,处理方式可以是提升安全监控级别或增加安全防护措施等。在实际应用中,可以预先设置相应的风险度阀值,当确定出的该待识别信息的综合风险值高于该风险度阀值时,就对该待识别信息进行相应的风控处理。

通过上述步骤,将待识别信息中含有相应含义的字符划分成不同的字符集合,确定了各字符集合分别对应的分量风险值后,就可以准确确定该待识别信息对应的综合风险值,而不依赖于主观判断,在确定各字符集合对应的分量风险值时,由预先保存的已识别信息作为基础,因而可以更准确地反映出待识别信息的实际价值度。

在本申请实施例中,由于不同字符集合中的字符具有不同的含义,那么,在确定不同字符集合对应的分量风险值时,也将采用不同的方式。具体地:

方法一:

如图2所示,该方法一中确定各字符集合对应的分量风险值的过程具体为:

s201,按照所述待识别信息中各字符的先后顺序,将所述字符集合中的字符进行排列,得到该字符集合对应的字符序列。

在将待识别信息中的指定位置的字符分入一个字符集合时,并不是按照各字符的先后顺序将字符分入相应的字符集合,很有可能是将相应的字符随机地分入该字符集合中,字符先后顺序的改变可能使得分入该字符集合中的字符不具有相应的含义。例如,手机号码的第一位至第三位的数字分别为138,那么,假设手机号码的第一、二、三位为指定位置,则将手机号码中第一位至第三位的字符分入一个字符集合时,可能会形成381或813等顺序,这样一来,在该字符集合中的三位数字便不具有代表手机号码属性类型的含义,从而导致不能准确确定字符集合对应的分量风险值。

因此,在本申请实施例中,将待识别信息中的字符划分成不同的字符集合后,对分入该字符集合中的字符进行排列,使得这些字符符合待识别信息中各字符的先后顺序,也即,排列后便得到了该字符集合对应的字符序列,从而不改变这些字符的含义。

s202,在预先保存的各已识别的正常信息中,确定具有相同字符序列的信息的占比,作为第一占比。

在实际应用场景中,账户信息以及与其绑定的信息,均存储在相应设备(如:服务器)中,可能会出现用户使用账户信息进行盗取账号等违规操作,那么,相应设备将通过监控账户信息是否发生违规操作,来判定识别与该账户信息相绑定的信息为正常信息还是非正常信息。当然,在实际应用中,确定各已识别的信息是否为正常信息,可以采用现有技术中的网络行为监控、分析等方式,这并不构成对本申请的限定。

因此,在本申请实施例中,预先保存的各已识别的正常信息,可以是预先存储在相应设备中,且认定为正常的信息,如:在某一网站中,针对不同账户信息所绑定的不同手机号码,经过相应的识别处理后,认定为正常的手机号码,就是预先保存的各已识别的正常信息。

对于包含有上述字符序列的信息,其可能出现在已识别的正常信息中,也有可能出现在非正常信息中。那么,统计所有具有该字符序列的信息,在所有已识别的正常信息中的占比(第一占比)。

s203,在预先保存的各已识别的非正常信息中,确定具有相同字符序列的信息的占比,作为第二占比。

与上述第一占比类似,预先保存的各已识别的非正常信息,可以是预先存储在相应设备中认定为非正常的信息,如:经过相应识别处理后得到的黑名单手机号码。通过该第二占比。

s204,确定所述第一占比与所述第二占比的比值。

通过第一占比与第二占比的比值,可以表示含有该字符序列的信息为正常信息或是非正常信息的可能性程度,具体地,若第一占比与第二占比的比值远大于1,也就是说,第一占比远大于第二占比,表示含有该字符序列的信息在已识别为正常信息中的比例,远大于在已识别为非正常信息中的比例,从而可以确定含有该字符序列的信息为正常信息的可能性较大。

s205,根据所述比值确定所述字符集合对应的第一分量风险值。

需要说明的是,由于在实际应用场景中,预先存储的已识别的信息的数量巨大,那么,第一占比与第二占比的比值可能较大,增加了后续处理的运算量。为了简化运算,在本申请实施例中,可以采用对数运算的方式,简化该比值,也即,对于上述步骤s205,根据所述比值确定所述字符集合对应的第一分量风险值,具体为:将确定该比值的对数值,并根据该对数值确定上述字符集合对应的第一分量风险值。若直接将该比值的对数值作为所述第一分量风险值,由于对数值可能出现数值小于零的情况(在对数中,若真数小于1,则该对数结果小于零),那么,根据该第一分量风险值确定所述待识别信息的综合风险值时,可能会对该综合风险值带来一定的误差。

因此,更为具体地,上述根据所述对数值确定所述字符集合对应的第一分量风险值的步骤,具体为:将所述对数值与预设的调节常数之和,作为所述字符集合对应的第一分量风险值。这样一来,就可以通过预设的调节常数,抵消所述对数值在小于零时带来的误差。

在本申请实施例中,所述预设的调节常数,至少应该大于各字符集合对应的比值的对数值中最小的数值的绝对值。从而,所有字符集合的第一占比与第二占比的比值的对数值,与所述预设的调节常数之和,均为大于零的数值,不会出现小于零的情况。

在本申请实施例中提供的一种场景下,若所述待识别信息为待识别的手机号码,则所述字符集合为:由所述待识别的手机号码中包含的若干数字所构成的数字集合,在这样的情况下,将该待识别的手机号码中包含的前三位数字,划分成第一字符集合时,针对第一字符集合,按照所述待识别手机号码中各数字的先后顺序,将所述第一字符集合中的数字进行排列,得到该第一字符集合对应的第一数字序列。此时,结合上述方法一,可以通过公式

来确定所述第一字符集合对应的第一分量风险值。

其中,s1为所述第一字符集合对应的第一分量风险值。

p1为:在预先保存的各已识别的正常手机号码中,含有第一数字序列的手机号码的占比。

p2为:在预先保存的各已识别的非正常手机号码中,含有第一数字序列的手机号码的占比。

c为预设的调节常数值。

下面以一应用实例对上述方法一进行具体说明:

假设手机号码仍为13812348888,该手机号码与账户a相绑定,那么,当服务器接收该账户a的注册后,会对与该账户a相绑定的手机号码13812348888进行识别。服务器将该手机号码的前三位数字分入第一字符集合,并按照该手机号码中前三位数字的先后顺序,对该字符集合中的数字进行排列,得到第一字符序列“138”。

假设服务器中预先存储的已经识别为正常的手机号码的数量为10000(在实际应用中,服务器所存储的账户的数量巨大,在此为方便描述,只以10000为例),在这10000个正常的手机号码中,含有第一字符序列“138”的手机号码共有5000个,因此,可以确定出含有该第一字符序列“138”的手机号码,在正常手机号码中的第一占比p1,也即,p1=5000/10000=0.5。

假设服务器中预先存储的已经识别为非正常的手机号码的数量为100,在这100个非正常的手机号码中,含有第一字符序列“138”的手机号码共有2个,因此,可以确定出含有该第一字符序列“138”的手机号码,在预先存储的非正常手机号码中的第二占比p2,也即,p2=2/100=0.02。

在得到第一占比p1和第二占比p2后,便可以确定第一占比p1与第二占比p2的比值,也即p1/p2=0.5/0.02=25。该比值远大于1,就说明含有字符序列“138”的手机号码,是正常手机号码的可能性较高。

同时,假设调节常数值c为8,则采用上述公式,第一字符集合的第一分量风险值

通过上例可见,采用第一占比和第二占比的方式来确定字符集合的第一分量风险值,能够较准确地对待识别信息是正常信息或是非正常信息的可能性进行量化:该第一分量风险值越大,该待识别信息为正常信息的可能性就越高,具有被盗风险的可能性越大,反之,为非正常信息的可能性就越高,具有被盗风险的可能性越小。

方法二:

如图3所示,该方法二中确定各字符集合对应的分量风险值的过程具体为:

s301,按照所述待识别信息中各字符的先后顺序,将所述字符集合中的字符进行排列,得到该字符集合对应的字符序列。

与上述方法一类似,将待识别信息中的指定位置的字符分入一个字符集合时,并不是按照各字符的先后顺序将字符分入相应的字符集合,因此,将对分入该字符集合中的字符进行排列,得到该字符集合对应的字符序列。

s302,在预先保存的各已识别信息中,确定含有该字符序列的已识别信息对应的各账户信息。

由于在本申请实施例中,各账户信息均与相应的信息相绑定,那么,对于任一已识别信息,均可唯一确定与该已识别信息相绑定的账户信息。

需要说明的是,方法二中下述的账户信息均是指含有该字符序列的已识别信息对应的各账户信息。

s303,确定各账户信息的业务等级。

在实际应用场景中,用户可以使用其自身的账户信息获得各类业务服务,某一账户信息获得的业务服务越多,就说明用户经常使用该账户信息,进而该账户信息是正常账户信息的可能性越高。为了量化用户对账户信息的使用程度,可预先针对不同的业务服务设定相应的业务等级,从而,可根据账户信息使用业务服务的情况,来确定该账户信息的业务等级。

例如,预先设定:与银行卡相关联的业务服务的等级为5,那么,若某一账户信息绑定了相应的银行卡,并开通了与该银行卡相关联的业务,则该账户信息对应的业务等级就为5。

当然,如果某一账户信息使用多种业务服务,则该账户信息的业务等级为各业务服务的业务等级之和,例如:某一账户信息开通了两种业务服务,这两种业务服务的业务等级分别为3和4,则,该账户信息的业务等级为7。

需要说明的是,在实际应用中,对账户信息的业务等级的确定,并不限于上述方式,还可以是根据账户信息的活跃度,或者账户信息所使用业务服务的频率等方式,确定账户信息的业务等级,这并不构成对本申请的限定。

s304,根据各账户信息的业务等级,统计不同业务等级的账户信息的数量。

通常,业务服务的种类有限,在各账户信息中,将会有较多账户信息使用相同业务服务的情况,也就是说,这些账户信息的业务等级是相同的。在本申请实施例中,需要确定业务等级相同的账户信息的数量,故在确定出各账户信息的业务等级后,将统计各业务等级对应的账户信息的数量。

s305,在各账户信息中,分别确定不同业务等级的账户信息的占比。

在已知各业务等级对应的账户信息的数量的情况下,就可以分别确定每一业务等级对应的账户信息,在所有包含所述字符序列的已识别信息对应的账户信息中,所占的比例,从而,可以直观的反映出这些账户信息使用业务服务的程度。

s306,根据各账户信息的业务等级,以及不同业务等级的账户信息的占比,确定所述字符集合对应的第二分量风险值。

在确定了各账户信息的业务等级,以及不同业务等级的账户信息的占比后,也就能够表明,含有所述字符序列的所有已识别的信息的业务等级分布。

在本申请实施例中提供的一种场景下,若所述待识别信息为待识别的手机号码,则所述字符集合为:由所述待识别的手机号码中包含的若干数字所构成的数字集合,在这样的情况下,将该待识别的手机号码中包含的前七位数字,划分成第二字符集合时,针对第二字符集合,按照所述待识别手机号码中各数字的先后顺序,将所述第二字符集合中的数字进行排列,得到该第二字符集合对应的第二数字序列。此时,结合上述方法二,可以通过公式

s2=∑(w(i)*prob(i))

确定所述第二字符集合对应的第二分量风险值。

其中,s2为所述第二字符集合对应的第二分量风险值。

w(i)表示:确定的各业务等级中的第i种业务等级为w(i)。

prob(i)为:第i种业务等级的账户信息在确定的各账户信息中的占比。

需要说明的是,在本申请实施例中,之所以将十一位手机号码中包含的前七位数字划分成第二字符集合,是因为:通过手机号码的前三位以及第四至七位的四位的数字,可以确定某一属性类型(如,同一运营商)下具有相同呼叫优先级的手机号码,或者是某一属性类型下具有相同归属位置的手机号码等,也就是说,通过前七位数字,可以确定出具有相同特征的手机号码。

下面以一应用实例对上述方法二进行具体说明:

假设手机号码仍为13812348888,该手机号码与账户a相绑定,那么,当服务器接收该账户a的注册后,会对与该账户a相绑定的手机号码13812348888进行识别。服务器将该手机号码的前七位数字分入第二字符集合,并按照该手机号码中前七位数字的先后顺序,对该字符集合中的数字进行排列,得到第二字符序列“1381234”。

服务器将在预先保存的已识别手机号码中,确定含有该第二字符序列“1381234”的所有手机号码。假设,含有该第二字符序列“1381234”的手机号码共有1000个。那么,服务器将分别确定这1000个手机号码所绑定的账户信息,对应的,服务器将确定出1000个账户信息。

之后,服务器将根据预先设定的业务等级标准,确定上述1000个账户信息的业务等级。服务器可以根据账户信息所使用的业务服务确定其业务等级,当然,服务器确定账户信息的业务等级,可以采用预先设定的各业务服务的等级标准等多种方式,在实际应用时,可以根据实际应用的需要进行调整设定,这里并不构成对本申请的限定。

假设上述1000个账户信息中,共出现了两种业务等级,有900个账户信息的业务等级为第1种业务等级w(1),且w(1)为5,另外100个账户信息的业务等级为第2种业务等级w(2),且w(2)为4。那么,业务等级为5的账户信息,在上述1000个账户信息中的占比prob(1)为900/1000=0.9,业务等级为4的账户信息,在上述1000个账户信息中的占比prob(2)为100/1000=0.1。

从而,服务器可以根据上述公式,确定出含有第二字符序列“1381234”的第二字符集合对应的第二分量风险值s2=0.9*5+0.1*4=4.9。该第二分量风险值,接近于业务等级w(1),也就是说,含有上述第二字符序列“1381234”的手机号码所对应的账户信息,其业务等级基本维持在w(1)的水平上。

通过上例可见,确定含有所述字符序列的已识别信息对应的账户信息,并确定这些账户信息的业务等级,可以反映出这些账户信息使用的业务服务的程度,同时,结合统计出的不同业务等级对应的账户信息的数量,就可以从整体上量化含有所述字符序列的已识别信息对应的账户信息的业务等级。该第二分量风险值越大,该待识别信息为正常信息的可能性就越高,具有被盗风险的可能性越大,反之,为非正常信息的可能性就越高,具有被盗风险的可能性越小。

方法三:

如图4所示,该方法三中确定各字符集合对应的分量风险值的过程具体为:

s401,按照所述待识别信息中各字符的先后顺序,将所述字符集合中的字符进行排列,得到该字符集合对应的字符序列。

与上述方法一和方法二类似,在将相应的字符划分成字符集合后,就对该字符集合中的各字符进行排列。

s402,识别所述字符序列中的特征字符。

在本申请实施例中,所述特征字符,包括重复字符和/或顺序字符,其中,重复字符,具体为至少两位连续相同的字符,例如:aaa、bb,cccc等。顺序字符,具体为至少三位按照一定的字符顺序连续排列的字符。例如:abcd、789、321、1234等。

另外,对于所述特征字符的识别,可以采用现有技术中的字符识别算法,并不构成对本申请的限定。

s403,当识别出特征字符时,确定该特征字符的权重值和特征值。

所述字符序列中,不同的字符存在大量的排列组合方式,多数字符的排列组合都是随机且无序的,只有在少数情况下,才会排列组合成所述特征字符,也就是说,该特征字符具有一定的概率。另外,特征字符中的字符数量与该特征字符出现的概率成反比,具体来说,特征字符中的字符数量越多,则该特征字符出现的概率就越低,特征字符中的字符数量越少,则该特征字符出现的概率就越高。例如:重复字符“8888”出现在11位手机号码中的概率非常小,相对而言,重复字符“88”出现在11位手机号码中的概率较大。

因此,在本申请实施例中,将根据特征字符出现的概率,量化该特征字符的权重值,根据该特征字符中包含的字符数量,来量化该特征字符的特征值。也即,上述步骤s403,具体包括:确定所述特征字符出现在该字符序列中的概率;根据该概率确定所述特征字符的权重值;针对所述特征字符进行分词,得到字符单元;根据得到的字符单元的数量,确定所述特征字符的特征值。

这里需要说明的是,在对所述特征字符进行分词时,可根据n-gram语言模型进行分词,即,n-gram语言模型会将某一字符串中包含的连续n个字符划分为一个字符单元,n就是所要划分一个字符单元中所包含的字符的数量。在本申请实施例中,采用n-gram语言模型对所述特征字符进行分词时,会将该特征字符划分为最小的字符单元(此时n=1),并依次增加字符单元中字符的数量,直到将该特征字符整个划分为一个字符单元(此时n=该特征字符中包含的字符的数量)。

例如:针对特征字符8888,采用n-gram语言模型进行分词,在1-gram分词方法下,将所述特征字符划分成4个字符单元8、8、8、8,在2-gram分词方法下,将所述特征字符划分成3个字符单元88、88、88,在3-gram分词方法下,将所述特征字符划分成2个字符单元888、888,在4-gram分词方法下,将上述特征字符划分成1个字符单元8888。

s404,根据所述特征字符的权重值和特征值,确定所述字符集合对应的第三分量风险值。

针对上述方法三,在本申请实施例中提供的一种场景下,当所述待识别信息为待识别的手机号码,并且,将该待识别的手机号码中包含的后八位数字,划分成第三字符集合时,针对第三字符集合,按照所述待识别手机号码中各数字的先后顺序,将所述第三字符集合中的数字进行排列,得到该第三字符集合对应的第三数字序列。若该第三数字序列中包含有重复数字和/或顺序数字,便可以确定重复数字和/或顺序数字的特征值。

当识别出重复数字时,针对所述重复数字进行分词,得到不同的数字单元,此时,可以通过公式

确定所述重复数字的特征值。

其中,sc(n)为重复数字的特征值,自变量n代表该重复数字中包含的数字的数量。

tfj为对重复数字进行分词后,得到的字符单元的数量。

j表示第j种分词方法,且采用第j种分词方法得到的每个数字单元中包含的字符的数量均为j。当然,j就是采用n-gram语言模型进行分词时,n的值。

具体例如:在上例中针对特征字符“8888”采用n-gram语言模型进行划分的基础上,采用上述公式,确定该重复数字“8888”的特征值为:

sc(n)=1*(4-1)+2*(3-1)+3*(2-1)+4*(1-1)=10。

其中,对于2*(3-1)而言,是基于2-gram分词方法,将所述特征字符“8888”划分成3个字符单元88、88、88,数字“2”就是字符单元中包含的字符的数量,数字“3”就是字符单元的数量。以此类推,便可以得到上述公式中的各项值。

在实际应用场景中,通常顺序数字中至少要包括三位字符,也就是说,在对顺序数字进行分词时,最少应该针对含有三位字符的顺序数字进行分词。而对上述重复数字进行分词时,最少针对含有两位字符的重复数字进行分词。可见,在确定特征值时,顺序数字中包括的字符的数量比重复数字中包含的字符的数量少一位。

因此,当识别出顺序数字时,确定该顺序数字中包含的字符的数量,此时,可以通过公式

ss(n')=sc(n'-1)

确定所述顺序数字的特征值。

其中,ss为顺序数字的特征值。

自变量n’为所述顺序数字中包括的字符的数量。

具体例如:在确定五位顺序数字“12345”的特征值时,该特征值与重复数字,如:“8888”的特征值相同,采用上述公式,确定该顺序数字“12345”的特征值为:

ss(5)=sc(4)=1*(4-1)+2*(3-1)+3*(2-1)+4*(1-1)=10。

在确定了上述重复数字和/或顺序数字的特征值后,便可采用公式

s3=w(sc+ss+1)

确定所述第三字符集合对应的第三分量风险值。

其中,s3为所述第三字符集合对应的第三分量风险值。

w为识别出的所述重复数字和顺序数字出现在第三数字序列中的概率值的倒数。

需要说明的是,若在第三数字序列中,仅出现重复数字,或仅出现顺序数字时,那么,只需确定出该重复数字(或顺序数字)出现在该第三数字序列中的概率值,并将该概率值的倒数作为特征字符的权重值w。若在第三数字序列中,同时出现了重复数字和顺序数字,那么,将确定该重复数字和顺序数字同时出现在该第三数字序列中的概率值,并将该概率值的倒数,作为同时出现重复数字和顺序数字时,特征字符的权重值。

下面以一应用实例对上述方法三进行具体说明:

假设手机号码仍为13812348888,该手机号码与账户a相绑定,那么,当服务器接收该账户a的注册后,会对与该账户a相绑定的手机号码13812348888进行识别。服务器将该手机号码的后八位数字分入第三字符集合,并按照该手机号码中后八位数字的先后顺序,对该字符集合中的数字进行排列,得到第三字符序列“12348888”。

显然,该第三字符序列“12348888”中存在特征字符,也即,同时含有顺序数字“1234”和重复数字“8888”。为了确定该特征字符的权重值w,就需要确定与上述第三字符序列位数相同的八位数字中,同时出现该顺序数字和重复数字的概率值。

具体地,该第三字符序列的每一位置上,均存在数字0~9的10种可能值,所以,第三字符序列的八个位置上,数字的排列组合方式的总量为108。在这些排列组合方式中,同时出现顺序数字“1234”和重复数字“8888”只有两种情况:“12348888”以及“88881234”,从而,在第三字符序列中,同时出现该顺序数字和重复数字的概率值为2/108。那么,根据上述公式,可以确定出w=108/2。显然,该w的值较大,不便于后续计算,那么,在实际应用中,可以采用开方、取对数的方式,化简w的值,假设在本应用实例中,对w的值进行开7次方,从而,化简后的w’≈22.4。

之后,服务器在分别确定重复数字“8888”以及顺序数字“1234”的特征值,对于重复数字“8888”,其特征值sc(4)=10,对于顺序数字“1234”,其特征值ss(4)=sc(3)=4。

因此,根据上述公式,该第三字符序列的第三分量风险值s3=22.4*(10+4+1)=336。

通过上例可见,方法三中确定第三字符集合的第三分量风险值时,若该第三字符集合中所包含的特征字符的位数越多,该特征字符的权重值及特征值也就越大,这就说明,在这样的情况下,该待识别信息具有较高的价值度。该第三分量风险值越大,该待识别信息为正常信息的可能性就越高,具有被盗风险的可能性越大,反之,为非正常信息的可能性就越高,具有被盗风险的可能性越小。

至此,以上三种方法,分别确定了该待识别信息的三种分量风险值,从而也就可以根据这些分量风险值,确定该待识别信息整体的综合风险值,在本申请实施例中,确定所述待识别信息的综合风险值,具体为:将所述各字符集合对应的分量风险值进行几何平均,得到所述待识别信息的综合风险值。

具体例如:沿用上述方法一至三中的实例,手机号码“13812348888”的综合风险值

所述待识别信息的综合风险值越大,也就说明该待识别信息的价值度越高,其被盗取的风险也就越大,所以,在实际应用中,当确定出的该待识别信息的综合风险值大于某一预设风险值时,就可以对该待识别信息及其绑定的账户信息的监控级别,避免出现被盗取的情况。

另外,当使用上述方法,确定出与某一账户信息相绑定的待识别信息的综合风险值后,在某一时刻,该账户信息又绑定了新的待识别信息,但是,新的待识别信息的综合风险值,远低于原待识别信息的综合风险值,那么,该账户信息极有可能出现了被盗取的情况,从而,可以提升对该账户信息的监控级别。

当然,上述只是以待识别信息为手机号码为例进行说明的,本申请实施例提供的上述基于风险识别的信息处理方法还可用于识别其他待识别信息的风险,并基于风险进行处理,例如,该待识别信息还可以是电子邮箱地址、证件号码等。

以上为本申请实施例提供的基于风险识别的信息处理方法,基于同样的思路,本申请实施例还提供一种基于风险识别的信息处理装置,如图5所示。

图5中的基于风险识别的信息处理装置,包括:字符划分模块501、分量风险值模块502、综合风险值模块503以及处理模块504,其中,

字符划分模块501,用于将待识别信息中包含的字符划分成不同的字符集合。

分量风险值模块502,用于分别确定各字符集合对应的分量风险值。

综合风险值模块503,用于根据各字符集合对应的分量风险值,确定所述待识别信息的综合风险值。

处理模块504,用于根据所述综合风险值,对所述待识别信息进行处理。

所述字符划分模块501,具体用于:将待识别信息中指定位置上的字符,分入一个字符集合,其中,各字符集合的合集包含待识别信息中的所有字符,至少两个字符集合存在交集。

在本申请实施例中,由于不同字符集合中的字符具有不同的含义,那么,在确定不同字符集合对应的分量风险值时,也将采用不同的方式。具体地:

如图6所示,在确定第一分量风险值时,所述分量风险值模块,具体包括:

字符排列子模块601,用于按照所述待识别信息中各字符的先后顺序,将所述字符集合中的字符进行排列,得到该字符集合对应的字符序列。

第一占比子模块602,用于在预先保存的各已识别的正常信息中,确定具有相同字符序列的信息的占比,作为第一占比。

第二占比子模块603,用于在预先保存的各已识别的非正常信息中,确定具有相同字符序列的信息的占比,作为第二占比。

比值子模块604,用于确定所述第一占比与所述第二占比的比值。

第一分量风险值子模块605,用于根据所述比值确定所述字符集合对应的第一分量风险值。

在所述第一分量风险值过大时,为了简化后续运算,所述第一分量风险值子模块605,具体用于:确定所述比值的对数值,根据所述对数值确定所述字符集合对应的第一分量风险值。

在本申请实施例的另一种方式下,所述第一分量风险值子模块605,具体用于:将所述对数值与预设的调节常数之和,作为所述字符集合对应的第一分量风险值。

如图7所示,在确定第二分量风险值时,所述分量风险值模块,具体包括:

字符排列子模块701,用于按照所述待识别信息中各字符的先后顺序,将所述字符集合中的字符进行排列,得到该字符集合对应的字符序列。

账户信息子模块702,用于在预先保存的各已识别信息中,确定含有该字符序列的已识别信息对应的各账户信息。

业务等级子模块703,用于确定各账户信息的业务等级,根据各账户信息的业务等级,统计不同业务等级的账户信息的数量。

占比子模块704,用于在各账户信息中,分别确定不同业务等级的账户信息的占比。

第二分量风险值子模块705,用于根据各账户信息的业务等级,以及不同业务等级的账户信息的占比,确定所述字符集合对应的第二分量风险值。

如图8所示,在确定第三分量风险值时,所述分量风险值模块,具体包括:

字符排列子模块801,用于按照所述待识别信息中各字符的先后顺序,将所述字符集合中的字符进行排列,得到该字符集合对应的字符序列。

识别子模块802,用于识别所述字符序列中的特征字符。

特征字符子模块803,用于当识别出特征字符时,确定该特征字符的权重值和特征值。

第三分量风险值子模块804,用于根据所述特征字符的权重值和特征值,确定所述字符集合对应的第三分量风险值。

其中,所述特征字符包括重复字符和/或顺序字符。

所述特征字符子模块803,具体用于:确定所述特征字符出现在该字符序列中的概率,根据该概率确定所述特征字符的权重值,针对所述特征字符进行分词,得到字符单元,根据得到的字符单元的数量,确定所述特征字符的特征值。

在本申请实施例的一种场景下,所述待识别信息具体为:待识别手机号码。所述字符集合具体为:由所述待识别手机号码中包含的若干数字所构成的数字集合。所述字符划分模块501,具体用于:将待识别的手机号码中包含的前三位数字,划分成第一字符集合,将待识别的手机号码中包含的前七位数字,划分成第二字符集合,将待识别的手机号码中包含的后八位数字,划分成第三字符集合。

在该场景下,确定第一分量风险值时,所述分量风险值模块,具体用于:针对第一字符集合,按照所述待识别手机号码中各数字的先后顺序,将所述第一字符集合中的数字进行排列,得到该第一字符集合对应的第一数字序列;

采用公式确定所述第一字符集合对应的第一分量风险值;

其中,s1为所述第一字符集合对应的第一分量风险值;

p1为:在预先保存的各已识别的正常手机号码中,含有第一数字序列的手机号码的占比;

p2为:在预先保存的各已识别的非正常手机号码中,含有第一数字序列的手机号码的占比;

c为预设的调节常数值。

确定第二分量风险值时,所述分量风险值模块,具体用于:针对第二字符集合,按照所述待识别手机号码中各数字的先后顺序,将所述第二字符集合中的数字进行排列,得到该第二字符集合对应的第二数字序列;

在预先保存的各已识别信息中,确定含有该第二数字序列的已识别手机号码对应的各账户信息;

确定各账户信息的业务等级;

采用公式s2=∑(w(i)*prob(i))确定所述第二字符集合对应的第二分量风险值;

其中,s2为所述第二字符集合对应的第二分量风险值;

w(i)表示:确定的各业务等级中的第i种业务等级为w(i);

prob(i)为:第i种业务等级的账户信息在确定的各账户信息中的占比。

确定第三分量风险值时,所述分量风险值模块,具体用于:针对第三字符集合,按照所述待识别手机号码中各数字的先后顺序,将所述第三字符集合中的数字进行排列,得到该第三字符集合对应的第三数字序列;

识别第三数字序列中的重复数字和/或顺序数字;

当识别出重复数字时,针对所述重复数字进行分词,得到不同的数字单元,采用公式确定所述重复数字的特征值;

其中,sc为重复数字的特征值;

tfj为对重复数字进行分词后,得到的字符单元的数量;

j表示第j种分词方法,且采用第j种分词方法得到的每个数字单元中包含的字符的数量均为j;

当识别出顺序数字时,确定该顺序数字中包含的字符的数量,采用公式ss(n')=sc(n'-1)确定所述顺序数字的特征值;

其中,ss为顺序数字的特征值;

n’为所述顺序数字中包括的字符的数量;

采用公式s3=w(sc+ss+1)确定所述第三字符集合对应的第三分量风险值;

其中,s3为所述第三字符集合对应的第三分量风险值;

w为识别出的所述重复数字和顺序数字出现在第三数字序列中的概率值的倒数。

在确定了上述的第一至三分量风险值后,所述综合风险值模块,具体用于:将所述各字符集合对应的分量风险值进行几何平均,得到所述待识别信息的综合风险值。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1