分类器训练方法和装置、身份验证方法和系统的制作方法

文档序号:9506435阅读:405来源:国知局
分类器训练方法和装置、身份验证方法和系统的制作方法
【技术领域】
[0001] 本发明涉及计算机安全技术领域,特别是涉及一种分类器训练方法和装置、身份 验证方法和系统。
【背景技术】
[0002] 账号是用户在互联网中的数字化代表,是用于识别不同的用户的重要依据。然而 账号有时会出现账号的真实拥有者无法使用自己账号的情况,比如用户自己可能忘记密 码,或者账号被恶意用户盗取并恶意修改了密码等,这种情况下就需要对用户身份进行验 证,从而进行账号归属判断,在确认其为账号的合法用户时才会应用户要求修改密码,使其 具有对该账号的控制权。这个过程通常可称为账号申诉。
[0003] 目前对用户进行身份验证并据以进行账号归属判断,需要用户提交证据,证据通 常是证明用户曾经拥有这个账号的证明信息。然后服务器对提交的每项证据进行对错判 断,然后依据对错判断结果加权打分,最后通过判断加权打分的分数是否超过分数阈值来 判断提交证据的用户是否为该账号的合法用户。
[0004] 然而,通过加权打分来对用户进行身份验证,验证结果的准确性依赖于用户提供 证据的多少,其验证结果准确性并不高,尤其是用户提交的证据数量较少的情况下,即使提 供的证据完全正确也无法验证成功。

【发明内容】

[0005] 基于此,有必要针对通过加权打分来对用户进行身份验证准确性不高的问题,提 供一种分类器训练方法和装置、身份验证方法和系统。
[0006] -种分类器训练方法,所述方法包括:
[0007] 获取训练样本集;所述训练样本集中的每个训练样本包括用户身份属性和对应预 设分类条件特征的特征值;
[0008] 根据一种所述预设分类条件特征确定根结点处的分类条件,根据根结点处的分类 条件将所述训练样本集中的训练样本进行分类,获得对应所述根结点的孩子结点的分类子 集;将所述根结点的孩子结点作为当前结点;
[0009] 根据另一种所述预设分类条件特征确定当前结点处的分类条件,根据当前结点处 的分类条件对当前结点所对应的分类子集中的训练样本进行分类,获得对应当前结点的孩 子结点的分类子集;
[0010] 将当前结点的孩子结点作为当前结点,继续执行所述根据另一种所述预设分类条 件特征确定当前结点处的分类条件,根据当前结点处的分类条件对当前结点所对应的分类 子集中的训练样本进行分类,获得对应当前结点的孩子结点的分类子集的步骤,直至当前 结点所对应的分类子集中各个训练样本的相同的预设分类条件特征所对应的特征值分别 相同或者当前结点的层数达到指定层数;
[0011] 根据当前结点所对应的分类子集中对应最多训练样本的用户身份属性确定当前 结点处的用户身份分类结果,获得决策树分类器。
[0012] -种分类器训练装置,所述装置包括:
[0013] 训练样本集获取模块,用于获取训练样本集;所述训练样本集中的每个训练样本 包括用户身份属性和对应预设分类条件特征的特征值;
[0014] 根结点训练模块,用于根据一种所述预设分类条件特征确定根结点处的分类条 件,根据根结点处的分类条件将所述训练样本集中的训练样本进行分类,获得对应所述根 结点的孩子结点的分类子集;将所述根结点的孩子结点作为当前结点;
[0015] 内部结点训练模块,用于根据另一种所述预设分类条件特征确定当前结点处的分 类条件,根据当前结点处的分类条件对当前结点所对应的分类子集中的训练样本进行分 类,获得对应当前结点的孩子结点的分类子集;还用于将当前结点的孩子结点作为当前结 点,继续执行根据另一种所述预设分类条件特征确定当前结点处的分类条件,根据当前结 点处的分类条件对当前结点所对应的分类子集中的训练样本进行分类,获得对应当前结点 的孩子结点的分类子集,直至当前结点所对应的分类子集中各个训练样本的相同的预设分 类条件特征所对应的特征值分别相同或者当前结点的层数达到指定层数;
[0016] 叶结点训练模块,用于根据当前结点所对应的分类子集中对应最多训练样本的用 户身份属性确定当前结点处的用户身份分类结果,获得决策树分类器。
[0017] 上述分类器训练方法和装置,利用训练样本从决策树分类器的根结点处开始逐层 训练直到叶结点,从根结点到叶结点的每个非叶结点处的分类条件根据训练样本的其中一 种预设分类条件特征确定,而叶结点则体现用户身份分类结果。这样训练获得的决策树分 类器从根结点到叶结点的任意一条判断路径可以体现多种预设分类条件特征之间的相关 性,分类性能好。在使用该决策树分类器进行身份验证时,不仅考虑用户提交的每种用户证 据数据各自的对错,还会考虑多种用户证据数据之间的相关性,身份验证结果准确性高。
[0018] -种身份验证方法,所述方法包括:
[0019] 接收用户终端发来的携带有待验证用户标识和待验证用户证据数据的身份验证 请求;
[0020] 获取对应所述待验证用户标识的用户数据,根据所述获取的用户数据对所述待验 证用户证据数据进行验证而获得证据验证结果;
[0021] 根据所述待验证用户证据数据和所述获得的证据验证结果提取对应预设分类条 件特征的待验证特征值;
[0022] 从决策树分类器的根结点处的分类条件开始,根据所述对应预设分类条件特征的 待验证特征值逐层判断分类直至叶结点,根据该叶结点处的用户身份分类结果确定对应所 述待验证用户标识的身份验证结果。
[0023] -种身份验证系统,所述系统包括:
[0024] 身份验证请求接收模块,用于接收用户终端发来的携带有待验证用户标识和待验 证用户证据数据的身份验证请求;
[0025] 证据验证模块,用于获取对应所述待验证用户标识的用户数据,根据所述获取的 用户数据对所述待验证用户证据数据进行验证而获得证据验证结果;
[0026] 待验证特征值提取模块,用于根据所述待验证用户证据数据和所述获得的证据验 证结果提取对应预设分类条件特征的待验证特征值;
[0027] 身份验证结果确定模块,用于从决策树分类器的根结点处的分类条件开始,根据 所述对应预设分类条件特征的待验证特征值逐层判断分类直至叶结点,根据该叶结点处的 用户身份分类结果确定对应所述待验证用户标识的身份验证结果。
[0028] 上述身份验证方法和系统,响应于用户终端的身份验证请求进行身份验证,先对 身份验证请求所携带的待验证用户证据数据进行验证,再根据该验证结果提取预设分类条 件特征所对应的待验证特征值,从而利用决策树分类器从根结点处的分类条件开始,根据 每种预设分类条件特征所对应的待验证特征值逐层判断分类直至获得身份验证结果。这样 进行身份验证不仅考虑了每个待验证用户证据的各自的对错,还考虑了各种预设分类条件 特征所对应的待验证特征值彼此之间的相关性,身份验证结果准确性高。
【附图说明】
[0029] 图1为一个实施例中分类器训练方法的流程示意图;
[0030] 图2为一个实施例中获取训练样本集的步骤的流程示意图;
[0031] 图3为一个实施例中根据检验样本对决策树分类器剪枝的步骤的流程示意图;
[0032] 图4为一个实施例中身份验证方法的流程示意图;
[0033] 图5为一个具体应用场景中决策树分类器的局部数据结构示意图;
[0034] 图6为一个实施例中分类器训练装置的结构框图;
[0035] 图7为图6中的分类器训练装置的训练样本集获取模块的一个实施例的结构框 图;
[0036] 图8为另一个实施例中分类器训练装置的结构框图;
[0037] 图9为再一个实施例中分类器训练装置的结构框图;
[0038] 图10为一个实施例中身份验证系统的结构框图;
[0039] 图11为另一个实施例中身份验证系统的结构框图。
【具体实施方式】
[0040] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并 不用于限定本发明。
[0041] 如图1所示,在一个实施例中,提供了一种分类器训练方法,用于训练获得用于身 份验证的决策树分类器。该方法具体包括如下步骤:
[0042] 步骤102,获取训练样本集;训练样本集中的每个训练样本包括用户身份属性和 对应预设分类条件特征的特征值。
[0043]训练样本集是用于训练决策树分类器的训练样本的集合,其中的每个训练样本包 括用户身份属性和预设分类条件特征各自对应的特征值,且预设分类条件特征的种类数为 两个以上。用户身份属性为合法用户和非法用户中的一种,分别表示相应的训练样本是通 过或未通过身份验证的样本数据。训练样本集中既存在用户身份属性为合法用户的训练样 本,也存在用户身份属性为非法用户的训练样本。
[0044] 预设分类条件特征是预先设定的需要从用户证据数据中提取出的条件判断式的 特征,用户证据数据是用户通过用户终端提供的表示自己为合法用户的证明数据。
[0045] 在一个实施例中,预设分类条件特征可以包括但不限于是否有好友辅助验证,参 与好友辅助验证且辅助验证通过的好友个数是否超过预设个数阈值,是否有正确的历史密 码数据、正确的历史密码数据的量化分数是否超过第一预设分数阈值、是否有正确的账号 常用地信息、正确的账号常用地信息的量化分数是否超过第二预设分数阈值,用户是否处 于国外异地和密码变更次数是否在预设次数范围内中的至少两种。
[0046] 其中好友辅助验证是指向与待验证用户标识具有通信好友关系的用户标识所对 应的客户端发送辅助验证请求,接收该客户端返回的辅助验证结果。辅助验证结果包括通 过和未通过,一般参与好友辅助验证且辅助验证通过的好友个数越多,越能说明其为合法 用户。历史密码数据是指曾经使用过的密码,对其量化可采用一条正确的历史密码数据对 应一个预设分数,比如5分,则2条正确的历史密码数据则对应10分。账号常用地信息包 括一个物理位置,该物理位置的登录次数和/或登录时长超过一定阈值,还可以包括相应 的时间参数,比如2014年常用地为上海,2013年常用地为深圳、成都。
[0047] 特征值是相应的预设分类条件特征的具体取值,但并非限定其必须用数值表示。 比如若预设分类条件特征为"是否有好友辅助验证",则相应的特征值为"是"或"否",且 "是"或"否"分别为一种特征值。还比如,若预设分类条件特征为参与好友辅助验证且辅助 验证通过的好友个数范围,则相应的特征值可为{〇, 1到3个,4个以上}中的一种。
[0048] 步骤104,根据一种预设分类条件特征确定根结点处的分类条件,根据根结点处的 分类条件将训练样本集中的训练样本进行分类,获得对应根结点的孩子结点的分类子集。
[0049] 对决策树的训练从根结点开始,具体根据训练样本集中的训练样本的多种预设分 类条件特征中选择的一种来确定根结点处的分类条件。决策树是以实例为基础的归纳学习 算法,对决策树分类器的训练过程是根据一组无次序、无规则的元组得出决策树分类器表
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1