一种基于用户群组属性的智能口令猜测方法与流程

文档序号：17443380发布日期：2019-04-17 05:07阅读：209来源：国知局

本发明涉及网络安全技术领域，尤其涉及一种基于用户群组属性的智能口令猜测方法。

背景技术：

在互联网技术普及的今天，出现了多种多样的用户认证方案，如人脸识别，虹膜识别等，但是口令认证以其简单易用性仍然作为网络用户身份认证的一种主流方式，然而口令认证本身也存在着许多缺陷，口令重用现在随处可见，关于口令安全的研究一直受到计算机安全相关的科研认识的高度重视，关于口令猜测、加强以及评估一直是口令安全研究的主要内容。

调查发现，不同用户群体有着不同的口令设置习惯，可以根据特定用户属性来最相关的口令猜测的研究，会较大地提高口令猜测的成功率。

技术实现要素：

基于以上发现，结合用户群组属性来实现高效的口令猜测方案。观察到用户的每一条口令都由种类有限的字符组成，这些字符可以有大小写字母，数字字符，和特殊符号三部分组成，规定组成口令字符的所有字母集合为∑。为了训练口令生成模型，需要收集一些网络上泄露的口令集合，这些口令集合中可能含有不在字符集合∑的其他字符，因此需要进行相关的数据清洗工作。之后，可以将口令集合按照用户群组属性进行划分，并且赋予对应的组号编码。将划分后的口令集合用于口令生成模型的训练，能够获得针对特定用户群体的高效的口令猜测模型。

本发明通过采取以下技术方案实现该口令的猜测模型：

步骤1：对收集的原始口令集合s0进行清洗，删除含有不在字符集合∑的口令，得到清洗后的口令集s；

步骤2：根据口令集合s中的每条口令所属的属性群组，将口令集合进行划分，得到划分之后的口令集合s1,s2,…,sn；

步骤3：对口令集合s1,s2,…,sn中的每一条口令进行编码转换，转换规则如下：

步骤3.1：设定循环神经网络的输入序列长度为n，(2≤n≤6)；

步骤3.2：对第i个口令集合si中的口令p，将其每一个字符w使用one-hot编码。若口令p中含有k个字符，转换之后将得到一个k*|∑|维的矩阵。其中，可以将第1行，第2行，…，第n行作为猜测模型的训练输入，将第n+1行作为对应的训练目标值，如此类推，直到将第k-n-1行，…，第k-1行作为模型的训练输入，将第k行作为输出。为了控制单条口令生成的终止，人为地在每一条口令最后加入一个终止符，该终止符的编码是一个长度为|∑|的零向量。为了能够使模型输出表示终止的零向量，需要将第k-n行，…，第k行作为模型的训练输入，零向量作为模型训练的目标值；

步骤3.3：将si中的每一条口令都进行如此的转换，得到关于用户群组属性i的模型训练集合；

步骤3.4：将属性i使用one-hot编码为gi；

步骤3.5：对于其他属性的口令子集合sj(j≠i)，进行如同步骤3.2，步骤3.3，步骤3.4的转换操作，得到属性j对应的模型训练集合。

步骤4：设计并训练基于循环神经网络的口令生成模型，具体步骤如下：

步骤4.1：随机初始化模型的隐状态h0；

步骤4.2：将用于模型训练的输入x1输入至嵌入层，得到输出e1；

步骤4.3：将h0与e1同时输入至循环神经网络层，再次，使用一种成为长短期记忆网络的循环神经网络模型，之后的得到第一次的输出r1，以及新的隐状态h1；

步骤4.4：重复步骤4.2，步骤4.3n次，每次的输入为x1,…,xn；取出第n次的输出rn,hn；

步骤4.5：将该训练集合的属性编码gi与rn首尾相连组合成一个新的输入向量f，将f输入至全连接层，得到一个维度为|∑|的输出向量p；

步骤4.6将输出向量p与训练目标值一同输入至损失计算函数，这里使用最小交叉熵损失函数；

步骤4.7：对损失函数关于模型参数求导，使用梯度下降法优化模型参数。

步骤5：使用训练好的模型来生成具有群组属性i口令集合，具体步骤如下：

步骤5.1：随机选定一个起始字符p0，将p0的one-hot编码以及群组属性的编码gi输入至模型中，得到模型关于下一个字符p1的概率分布p；

步骤5.2：使用概率分布p进行抽样，得到下一个口令字符p1；

步骤5.3：将p1作为模型的输入，得到新的概率分布，重复步骤5.2，继续得到新的口令字符，直到抽样到终止字符或者生成的口令长度达到了规定的最大长度，终止口令的生成过程；

步骤5.4：重复步骤5.1，步骤5.2，步骤5.3数次，可以生成指定条数具有用户群组属性i的口令集合。

至此，关于用户群组属性的口令生成方案执行完毕。

可将本发明实现的口令生成模型用于生成具有特定用户属性的字典库，用于离线口令的猜测。

本发明可以通过特定的网络攻击手段获取攻击目标的用户口令数据库，得到加密之后的口令文件。考虑到使用md5哈希之后的密文无法通过有效的算法得出明文，因此可以使用基于字典库的暴力猜测方案。常用的黑客攻击工具库中提供了一种基于gpu运算的口令暴力猜测工具hashcat，通过比对哈希之后的密文来还原口令的明文。口令暴力猜测方案的效率依赖字典库的质量。本发明中使用基于用户群组属性的口令猜测方案能够生成一种具有特定用户口令分布的高质量的口令字典库，将该发明生成的口令字典库用于hashcat的暴力猜测，可提高其猜测效率。

附图说明

图1是本发明基于用户群组属性的智能口令猜测方法的流程示意图。

图2是本发明基于用户群组属性的智能口令猜测模型示意图。

具体实施方式

结合以下具体实施例和附图，对发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

通过黑客攻击手段获取被攻击的目标的口令数据库，得到用户口令的哈希值。将收集的泄露用户口令集合进行数据清洗，进行相应的格式转换，用于基于用户群组属性的口令猜测模型的训练。使用训练好之后的口令模型进行字典库的生成，使用生成的字典库来实现哈希值得还原，得到用户口令的明文。关于基于用户群组属性的口令生成模型的训练以及口令字典库的生成过程，具体如下所述：