基于机器学习的键盘输入识别方法与流程

文档序号:12177788阅读:1065来源:国知局

本发明涉及信息安全技术、机器学习等多种领域,特别是涉及一种以键盘输入特征为基础的用户识别方法。



背景技术:

机器学习是在近20多年逐渐兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计、分析一些让计算机可以自动进行“学习”过程的算法,也就是说从数据中自动分析获得其中隐含的规律,并利用该规律对未知数据进行分析预测或判别的算法。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,并在其他领域的数据处理和分析问题上应用广泛。

随着信息技术的不断发展,现代人在享受到各种信息新兴技术的便捷的同时,自身的信息安全和隐私保护问题也逐渐引起了人们的高度重视。在用户信息安全问题上,现代生活中应用最广的是密码识别系统,此机制虽应用广泛效果较好,但在长期的使用过程中,一些弊端也不可避免的显示出来,例如:

对于大多数普通用户来说,选择的密码总会有或多或少的疏漏,让别有用心者抓住可乘之机,例如在不同的平台或账号中使用相同的密码,或者设置的密码安全性和复杂度较弱,容易被破解。这种类型的疏漏,很容易在电脑被病毒感染或在被非法监控及被盗时,使得用户的密码被盗取,威胁用户的信息安全。一些网站应对此类问题的常见方式之一是采用双重认证的方式,但是由于同样的疏漏问题,用户的密码还是很有可能被攻击者获取,尤其是随机显示PIN值的设备也有可能被物理获取,从而使该安全机制受到威胁;

对于保密性要求较高的用户,可能会使用更加复杂的密码机制,诸如“3thHsdfW^T@dSFks”这样的密码,这样的密码,虽然可能更加符合对密码强度的要求,但是对于普通人来说记忆的难度和复杂度是可想而知的,显然会给用户造成相当程度的不便;

在密码之外的新兴识别机制还有很多,其中比较有代表性的有人脸识别机制等。虽然它具有自然性和不易被被测个体察觉的优势,但进行人脸识别的困难是显然的。人脸之间的相似性给利用人脸区分人类个体带来了不利因素,人脸的易变性又使得“受类内变化干扰的情况下利用类间变化区分个体变得异常困难”;等等。



技术实现要素:

基于上述的当前密码识别机制所存在的问题现有技术,本发明提出了一种基于机器学习的键盘输入识别方法,实现了以键盘输入输入特征为基础的用户识别。

本发明的基于机器学习的键盘输入识别方法,包括以下步骤:

第一步、提取用户通过键盘输入的输入特征,将这些输入特征整合形成用户输入特征样本库;

第二步、利用输入特征样本库中各个用户的输入数据进行处理,得到各个用户的独立输入特征模型;

第三步、对新的未知输入特征进行提取,与第二步的独立输入特征模型对比,得到判别结果,判断其所属的用户。

所述输入特征包括输入特征包括按压每个字符按钮时的时长、敲击不同按钮间隔的时间和敲击键盘的力度。

与现有技术相比,本发明适用于密码以外的用户输入初步识别,具有耗时少,准确率高的特点。

附图说明

图1是本发明的基于输入特征的键盘输入识别方案流程图。

具体实施方式

通俗来说,每个人打字的方式都是有所不同的,这种差异可能在很大程度上用视觉难以进行捕捉和分辨,但是电脑却可以根据监测键盘输入来达到区分不同的用户的功能,例如用户按压每个字符按钮时的时长,敲击不同按钮间隔的时间,敲击键盘的力度等等。这些测量结果可能对于大脑来说差别十分细微,但是对于电脑检测而言,精确度可以达到毫秒级别,区分用户输入并非难事。另外,从生理学角度来说,人们平时就在进行的无数次的身体动作被他人模仿几乎是不可能的。以上几点,都使得通过键盘输入进行识别成为可能。

本发明的基于机器学习的键盘输入识别方法,该方法流程主要通过以下几个主要步骤实现:

第一步、使用键盘输入监测软件,对一定数量的特定用户的键盘输入特征进行提取,组成本发明的样本库(例如用户按压每个字符按钮时的时长、敲击不同按钮间隔的时间、敲击键盘的力度等);

第二步、采用机器学习的K-近邻算法等思想,对样本库中各个用户的输入数据进行处理,得到各个用户的独立输入模型;

第三步、对于多个单独的随机用户输入数据,根据朴素贝叶斯(Naive Bayes)、支持向量机(SVM)、K-近邻算法等思想,判断其所属的用户,具体包含如下内容:

首先输入训练数据集T=(x11,y1),(x12,y1)……,(x1m,y1),(x21,y2),……(xNm,yN)。

其中,为包含第i名用户输入特征的第j个实例的n维特征向量,yi∈Y={c1,c2…,ck}为实例相应的用户的类别,i=1,2,...,N;

对于新输入的实例x输出实例x所属的用户类别y,具体过程是:

(1)根据给定的距离度量,在训练集T中找出与x最近邻的k个点,涵盖着k个点的领域,记为Nk(x),距离度量的计算具体如下:

对于新输入的实例x输出实例x所属的用户类别y,具体过程是:

设特征空间X是n维实数向量空间Rn,其中:

则相应的xi与xj的Lp距离定义为:

在此处p≥1。当p=1时,称为曼哈顿距离(Manhattan distance),公式为:

当p=2时,称为欧式距离(Euclidean distance),即:

这里分别取p为1,2,3时的Lp距离作为距离度量,并进行比较;

(2)在Nk(x)中根据分类决策规则(如多数表决),决定x的类别y:

在上式中,I为指示函数,即当yi=cj时,I为1,否则I为0。

第四步、对上述分析过程进行分析整合,将在不同p值下的距离度量下,不同的k值取值下,以及在只使用单一特征到使用全部特征的不同特征的组合应用条件下的识别结果进行对比整合,找到相比而言总体识别效果最好的识别方法对应的参数,以构造相应的初步识别方案,形成对整个过程的算法实现;

第五步、将上述算法应用至更多的随机用户输入数据,再次进行上述的识别过程,对算法进行调整和优化。

本发明并不局限于前述的具体步骤。本发明扩展到任何本说明书中披露的新特征或任何新的组合,或新的步骤的组合。综上,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1