1.一种基于风险识别的信息处理方法,包括:
将待识别信息中包含的字符划分成不同的字符集合;
根据所述字符集合中的字符含义采用相应方式确定所述字符集合对应的分量风险值,所述分量风险值为所述字符集合对应的风险度的量化值;
根据各字符集合对应的分量风险值,确定所述待识别信息的综合风险值;
根据所述综合风险值,对所述待识别信息进行处理。
2.如权利要求1所述的方法,将待识别信息中包含的字符划分成不同的字符集合包括:
将待识别信息中指定位置上的字符,分入一个字符集合,其中,各字符集合的合集包含待识别信息中的所有字符,至少两个字符集合存在交集。
3.如权利要求1所述的方法,对任一字符集合,采用相应方式确定该字符集合对应的分量风险值包括:
根据该字符集合中字符的出现概率确定该字符集合对应的分量风险值;
和/或,
根据已识别正常和非正常信息中具有该字符集合所对应字符序列的信息占比确定该字符集合对应的分量风险值;
和/或,
确定含有该字符集合所对应字符序列的已识别信息,根据所述已识别信息对应的账户信息的业务等级以及不同业务等级的账户信息的占比确定该字符集合对应的分量风险值;
和/或,
根据该字符集合中字符的权重确定该字符集合对应的分量风险值。
4.如权利要求1所述的方法,对任一字符集合,采用相应方式确定该字符集合对应的分量风险值包括:
按照所述待识别信息中各字符的先后顺序,将该字符集合中的字符进行排列,得到该字符集合对应的字符序列;
在预先保存的各已识别的正常信息中,确定具有相同字符序列的信息的占比,作为第一占比;
在预先保存的各已识别的非正常信息中,确定具有相同字符序列的信息的占比,作为第二占比;
确定所述第一占比与所述第二占比的比值;
根据所述比值确定该字符集合对应的第一分量风险值。
5.如权利要求4所述的方法,根据所述比值确定该字符集合对应的第一分量风险值包括:
确定所述比值的对数值;
根据所述对数值确定该字符集合对应的第一分量风险值。
6.如权利要求5所述的方法,根据所述对数值确定该字符集合对应的第一分量风险值包括:
将所述对数值与预设的调节常数之和,作为该字符集合对应的第一分量风险值。
7.如权利要求1所述的方法,对任一字符集合,采用相应方式确定该字符集合对应的分量风险值包括:
按照所述待识别信息中各字符的先后顺序,将该字符集合中的字符进行排列,得到该字符集合对应的字符序列;
在预先保存的各已识别信息中,确定含有所述字符序列的已识别信息对应的各账户信息;
确定各账户信息的业务等级;
根据各账户信息的业务等级,统计不同业务等级的账户信息的数量;
在各账户信息中,分别确定不同业务等级的账户信息的占比;
根据各账户信息的业务等级,以及不同业务等级的账户信息的占比,确定该字符集合对应的第二分量风险值。
8.如权利要求1所述的方法,对任一字符集合,采用相应方式确定该字符集合对应的分量风险值包括:
按照所述待识别信息中各字符的先后顺序,将该字符集合中的字符进行排列,得到该字符集合对应的字符序列;
识别所述字符序列中的特征字符;
当识别出特征字符时,确定所述特征字符的权重值和特征值;
根据所述特征字符的权重值和特征值,确定该字符集合对应的第三分量风险值;
其中,所述特征字符包括重复字符和/或顺序字符。
9.如权利要求8所述的方法,确定所述特征字符的权重值和特征值包括:
确定所述特征字符出现在所述字符序列中的概率;
根据所述概率确定所述特征字符的权重值;
针对所述特征字符进行分词,得到字符单元;
根据所述字符单元的数量,确定所述特征字符的特征值。
10.如权利要求1所述的方法,所述待识别信息为待识别手机号码;
所述字符集合为由所述待识别手机号码中包含的若干数字所构成的数字集合。
11.如权利要求10所述的方法,将待识别身份信息中包含的字符划分成不同的字符集合包括:
将待识别手机号码中的前三位数字划分成第一字符集合;
将待识别手机号码中的前七位数字划分成第二字符集合;
将待识别手机号码中的后八位数字划分成第三字符集合。
12.如权利要求11所述的方法,采用相应方式确定所述字符集合对应的分量风险值包括:
针对第一字符集合,按照所述待识别手机号码中各数字的先后顺序,将所述第一字符集合中的数字进行排列,得到所述第一字符集合对应的第一数字序列;
采用公式
其中,s1为所述第一字符集合对应的第一分量风险值;
p1为:在预先保存的各已识别的正常手机号码中,含有第一数字序列的手机号码的占比;
p2为:在预先保存的各已识别的非正常手机号码中,含有第一数字序列的手机号码的占比;
c为预设的调节常数值。
13.如权利要求11所述的方法,采用相应方式确定所述字符集合对应的分量风险值包括:
针对第二字符集合,按照所述待识别手机号码中各数字的先后顺序,将所述第二字符集合中的数字进行排列,得到所述第二字符集合对应的第二数字序列;
在预先保存的各已识别信息中,确定含有所述第二数字序列的已识别手机号码对应的各账户信息;
确定各账户信息的业务等级;
采用公式s2=∑(w(i)*prob(i))确定所述第二字符集合对应的第二分量风险值;
其中,s2为所述第二字符集合对应的第二分量风险值;
w(i)表示:确定的各业务等级中的第i种业务等级为w(i);
prob(i)为:第i种业务等级的账户信息在确定的各账户信息中的占比。
14.如权利要求11所述的方法,采用相应方式确定所述字符集合对应的分量风险值包括:
针对第三字符集合,按照所述待识别手机号码中各数字的先后顺序,将所述第三字符集合中的数字进行排列,得到所述第三字符集合对应的第三数字序列;
识别所述第三数字序列中的重复数字和/或顺序数字;
当识别出重复数字时,针对所述重复数字进行分词,得到不同的数字单元,采用公式
其中,sc为重复数字的特征值;
tfj为对重复数字进行分词后,得到的字符单元的数量;
j表示第j种分词方法,且采用第j种分词方法得到的每个数字单元中包含的字符的数量均为j;
n为该重复数字中包含的数字的数量;
当识别出顺序数字时,确定所述顺序数字中包含的字符的数量,采用公式ss(n')=sc(n'-1)确定所述顺序数字的特征值;
其中,ss为顺序数字的特征值;
n’为所述顺序数字中包含的字符的数量;
采用公式s3=w(sc+ss+1)确定所述第三字符集合对应的第三分量风险值;
其中,s3为所述第三字符集合对应的第三分量风险值;
w为识别出的所述重复数字和顺序数字出现在所述第三数字序列中的概率值的倒数。
15.如权利要求1~14中任一所述的方法,根据各字符集合对应的分量风险值,确定所述待识别信息的综合风险值包括:
将各字符集合对应的分量风险值进行几何平均,得到所述待识别信息的综合风险值。
16.一种基于风险识别的信息处理装置,包括:
字符划分模块,用于将待识别信息中包含的字符划分成不同的字符集合;
分量风险值模块,用于根据所述字符集合中的字符含义采用相应方式确定所述字符集合对应的分量风险值,所述分量风险值为字符集合对应的风险度的量化值;根据各字符集合对应的分量风险值,确定所述待识别信息的综合风险值;
处理模块,用于根据所述综合风险值,对所述待识别信息进行处理。
17.如权利要求16所述的装置,所述字符划分模块具体用于:将待识别信息中指定位置上的字符,分入一个字符集合,其中,各字符集合的合集包含待识别信息中的所有字符,至少两个字符集合存在交集。
18.如权利要求16所述的装置,对任一字符集合,所述分量风险值模采用相应方式确定该字符集合对应的分量风险值包括:
所述分量风险值模块根据该字符集合中字符的出现概率确定该字符集合对应的分量风险值;
和/或,
所述分量风险值模块根据已识别正常和非正常信息中具有该字符集合所对应字符序列的信息占比确定该字符集合对应的分量风险值;
和/或,
所述分量风险值模块确定含有该字符集合所对应字符序列的已识别信息,根据所述已识别信息对应的账户信息的业务等级以及不同业务等级的账户信息的占比确定该字符集合对应的分量风险值;
和/或,
所述分量风险值模块根据该字符集合中字符的权重确定该字符集合对应的分量风险值。
19.如权利要求16所述的装置,对任一字符集合,所述分量风险值模块具体包括:
字符排列子模块,用于按照所述待识别信息中各字符的先后顺序,将所述字符集合中的字符进行排列,得到该字符集合对应的字符序列;
第一占比子模块,用于在预先保存的各已识别的正常信息中,确定具有相同字符序列的信息的占比,作为第一占比;
第二占比子模块,用于在预先保存的各已识别的非正常信息中,确定具有相同字符序列的信息的占比,作为第二占比;
比值子模块,用于确定所述第一占比与所述第二占比的比值;
第一分量风险值子模块,用于根据所述比值确定该字符集合对应的第一分量风险值。
20.如权利要求19所述的装置所述第一分量风险值子模块具体用于:确定所述比值的对数值,根据所述对数值确定该字符集合对应的第一分量风险值。
21.如权利要求20所述的装置,所述第一分量风险值子模块具体用于:将所述对数值与预设的调节常数之和,作为该字符集合对应的第一分量风险值。
22.如权利要求16所述的装置,对任一字符集合,所述分量风险值模块具体包括:
字符排列子模块,用于按照所述待识别信息中各字符的先后顺序,将所述字符集合中的字符进行排列,得到该字符集合对应的字符序列;
账户信息子模块,用于在预先保存的各已识别信息中,确定含有所述字符序列的已识别信息对应的各账户信息;
业务等级子模块,用于确定各账户信息的业务等级,根据各账户信息的业务等级,统计不同业务等级的账户信息的数量;
占比子模块,用于在各账户信息中,分别确定不同业务等级的账户信息的占比;
第二分量风险值子模块,用于根据各账户信息的业务等级,以及不同业务等级的账户信息的占比,确定该字符集合对应的第二分量风险值。
23.如权利要求16所述的装置,对任一字符集合,所述分量风险值模块具体包括:
字符排列子模块,用于按照所述待识别信息中各字符的先后顺序,将所述字符集合中的字符进行排列,得到该字符集合对应的字符序列;
识别子模块,用于识别所述字符序列中的特征字符;
特征字符子模块,用于当识别出特征字符时,确定所述特征字符的权重值和特征值;
第三分量风险值子模块,用于根据所述特征字符的权重值和特征值,确定该字符集合对应的第三分量风险值;
其中,所述特征字符包括重复字符和/或顺序字符。
24.如权利要求23所述的装置,所述特征字符子模块具体用于:确定所述特征字符出现在所述字符序列中的概率;根据所述概率确定所述特征字符的权重值;针对所述特征字符进行分词,得到字符单元;根据所述字符单元的数量,确定所述特征字符的特征值。
25.如权利要求16所述的装置,所述待识别信息为待识别手机号码;
所述字符集合为由所述待识别手机号码中包含的若干数字所构成的数字集合。
26.如权利要求25所述的装置,所述字符划分模块具体用于:
将待识别手机号码中的前三位数字划分成第一字符集合;
将待识别手机号码中的前七位数字划分成第二字符集合;
将待识别手机号码中的后八位数字划分成第三字符集合。
27.如权利要求26所述的装置,所述分量风险值模块具体用于:针对第一字符集合,按照所述待识别手机号码中各数字的先后顺序,将所述第一字符集合中的数字进行排列,得到所述第一字符集合对应的第一数字序列;
采用公式
其中,s1为所述第一字符集合对应的第一分量风险值;
p1为:在预先保存的各已识别的正常手机号码中,含有第一数字序列的手机号码的占比;
p2为:在预先保存的各已识别的非正常手机号码中,含有第一数字序列的手机号码的占比;
c为预设的调节常数值。
28.如权利要求26所述的装置,所述分量风险值模块具体用于:针对第二字符集合,按照所述待识别手机号码中各数字的先后顺序,将所述第二字符集合中的数字进行排列,得到所述第二字符集合对应的第二数字序列;
在预先保存的各已识别信息中,确定含有所述第二数字序列的已识别手机号码对应的各账户信息;
确定各账户信息的业务等级;
采用公式s2=∑(w(i)*prob(i))确定所述第二字符集合对应的第二分量风险值;
其中,s2为所述第二字符集合对应的第二分量风险值;
w(i)表示:确定的各业务等级中的第i种业务等级为w(i);
prob(i)为:第i种业务等级的账户信息在确定的各账户信息中的占比。
29.如权利要求26所述的装置,所述分量风险值模块具体用于:针对第三字符集合,按照所述待识别手机号码中各数字的先后顺序,将所述第三字符集合中的数字进行排列,得到所述第三字符集合对应的第三数字序列;
识别所述第三数字序列中的重复数字和/或顺序数字;
当识别出重复数字时,针对所述重复数字进行分词,得到不同的数字单元,采用公式
其中,sc为重复数字的特征值;
tfj为对重复数字进行分词后,得到的字符单元的数量;
j表示第j种分词方法,且采用第j种分词方法得到的每个数字单元中包含的字符的数量均为j;
n为该重复数字中包含的数字的数量;
当识别出顺序数字时,确定所述顺序数字中包含的字符的数量,采用公式ss(n')=sc(n'-1)确定所述顺序数字的特征值;
其中,ss为顺序数字的特征值;
n’为所述顺序数字中包含的字符的数量;
采用公式s3=w(sc+ss+1)确定所述第三字符集合对应的第三分量风险值;
其中,s3为所述第三字符集合对应的第三分量风险值;
w为识别出的所述重复数字和顺序数字出现在所述第三数字序列中的概率值的倒数。
30.如权利要求16~29中任一所述的装置,其特征在于,所述分量风险值模块具体还用于:将各字符集合对应的分量风险值进行几何平均,得到所述待识别信息的综合风险值。