基于人机交互行为特征的用户身份属性检测方法

文档序号:6513982阅读:279来源:国知局
基于人机交互行为特征的用户身份属性检测方法
【专利摘要】本发明公开了一种基于人机交互行为特征的用户身份属性检测方法,通过分析用户与智能计算系统交互过程中操作人机交互设备(例如鼠标、键盘、触摸屏等)所产生的人机交互行为,提取人机交互行为特征,并基于人机交互特征建立用户的身份属性模板,对用户的身份属性(性别、年龄、种族等)进行检测和判别。本发明方法的优点在于:人机交互行为填补了在智能计算系统中对操作者身份属性进行分析的空白,为计算机及移动网络用户信息感知分析提供了一种全新的思路。此外,本发明可以在用户与智能计算系统交互过程中对用户进行持续的分析,且不会对用户的正常行为产生干扰。
【专利说明】基于人机交互行为特征的用户身份属性检测方法
【技术领域】
[0001]本发明涉及一种计算机及移动网络用户信息感知分析技术,特别涉及一种基于计算机及智能手机用户人机交互行为特征的身份属性检测方法。
【背景技术】
[0002]随着社会信息化、网络化大潮的推进,在计算机及移动网络中对用户信息的感知分析变得越来越重要。一方面,在电子商务、网络银行等网络虚拟化经济活动中,商家迫切希望能够尽量充分的了解客户,以提供针对性的商品或服务从而提高商业活动的成功率;另一方面,计算机网络和移动网络信息犯罪活动也越来越严重,提取和分析存在于计算网络系统中的电子证据进而确定操作者的性别、年龄、种族、语言等身份属性能够为网络犯罪活动的发现和遏制提供重要的帮助。
[0003]近年来,有研究人员提出基于生物特征检测用户的信息或身份属性,他们根据人脸、指纹、虹膜、掌纹等生理特征对用户的性别、年龄、种族等信息进行检测,但是此类方法需要使用特定的生物信息采集设备,如摄像头、指纹传感器等,不适用于现有的计算网络环境。目前还没有可以在现有的计算网络环境中大规模应用的分析检测用户身份属性的技术或方法。
[0004]针对上述需求,本发明提出一种基于人机交互行为特征来分析检测用户身份属性的技术或方法。

【发明内容】

[0005]本发明的目的是提供一种基于人机交互行为特征的计算机及智能手机用户身份属性检测技术,特别是利用用户操作人机交互设备过程中所产生的交互行为特征作为依据来检测操作者的身份属性的方法。
[0006]为达到以上目的,本发明是采取如下技术方案予以实现的:
[0007]—种基于人机交互行为特征的用户身份属性检测方法,其特征在于,包括建立身份属性模型和检测身份属性两个部分:
[0008]( I)建立身份属性模型,包括下述步骤:
[0009]第一步,在计算机及智能手机用户正常使用人机交互设备的过程中,采集并记录用户的人机交互行为数据,包括鼠标交互行为数据、击键交互行为数据、触摸交互行为数据;
[0010]第二步,针对所有计算机及智能手机用户,定义身份属性的种类,及每种身份属性的划分类别;
[0011]第三步,以固定观测时间长度T为周期对记录的人机交互行为数据进行划分,形成多个时间长度为T的人机交互行为数据块;根据用户的身份属性的种类及每种身份属性的划分对这些行为数据块进行标记;
[0012]第四步,针对每个标记的数据块,提取并标记人机交互行为特征向量,将不同数据块中的人机交互行为特征向量组合形成用户的身份属性特征向量训练集;
[0013]第五步,针对每种身份属性,根据身份属性种类的标记,得到每个身份属性对应的特征向量训练集;根据每个身份属性划分类别的标记,得到训练集中每个特征向量的标记;分别将每个身份属性对应的特征向量训练集作为训练样本,同时将训练集中特征向量的标记作为训练样本的标记,对每个身份属性分别构建身份属性模型。
[0014](2)检测身份属性,包括下述步骤:
[0015]第一步,用户登入计算机或智能手机后,捕获当前用户的人机交互行为,以长度T为周期,获取T内用户人机交互行为数据并提取对应的人机交互行为特征向量,进而生成对应每个身份属性的特征向量;
[0016]第二步,对当前用户的身份属性进行检测:将生成的身份属性特征向量作为已建立的身份属性推测模型的输入,得到用户身份属性的检测值,对用户的身份属性进行判断。
[0017]上述方法中,所述建立身份属性模型部分第四步中形成用户的身份属性特征向量训练集的具体步骤如下:
[0018](I)在观测时间长度为T的人机交互行为数据块中,遍历人机交互事件序列,依次分离出不同类型的交互行为事件,包括鼠标交互行为事件、击键交互行为事件、触摸交互行为事件;
[0019](2)针对不同类型的交互行为事件,提取交互行为特征向量,包括鼠标行为特征向量、击键行为特征向量、触摸行为特征向量;
[0020](3)将不同数据块中的人机交互行为特征向量组合在一起,形成身份属性特征向
量训练集。
[0021]所述计算机或智能手机用户产生的人机交互行为数据为基本人机交互事件组成的序列,基本人机交互事件的格式为:{交互时间戳,交互屏幕位置,包括鼠标、键盘、或触摸板的交互设备类型,交互事件类型}。
[0022]所述身份属性是指计算机及智能手机用户所固有的生理或行为特性,包括用户的性别、年龄、种族、语言、左右手使用习惯、文化程度、计算机使用熟练程度、职业、手指健康状况。
[0023]所述建立身份属性模型由一种或多种分类器联合实现,所述分类器包括加权随机森林分类器、人工神经网络分类器、支持向量机分类器。其中,由加权随机森林分类器建立身份属性模型的具体步骤为:
[0024]I)初始化训练样本集中特征样本的个数为N,每个特征样本中特征分量的个数为M,决策树的个数为P,每个决策树的决策特征的个数为m, m远小于M ;
[0025]2)为了消除不同的特征量纲的影响,将各维特征向量进行归一化处理,将其取值限制在[O, I]之间;
[0026]3)使用Bagging算法对N个特征样本取样P次,得到P个特征集合;
[0027]4)对每一个随机树随机选取一个特征集合,并对该决策树进行评估及误差分析,对于树中的每一个节点,随机选择m个基于此点的特征分量,并针对不同类别的特征样本,赋予不同的权值以寻找最佳的分割方式;
[0028]5)根据分类效果最好的特征节点将节点划分为两个分支,再递归调用步骤4)直到这棵树能够准确分类训练样本集,或所有属性都已经被使用过;决策树完整成长之后,不对其进行剪枝;
[0029]6)重复步骤3)、4)、5)直到建立了全部P棵决策树;
[0030]7)采用基于加权的多数投票的方法来综合决定多个决策树的分类结果,即得到加权随机森林分类器的分类结果。
[0031]本发明以人机交互事件序列的形式描述用户在人机交互过程中体现出的行为特性,以此来检测操作者的身份属性,为计算机及移动网络用户信息感知分析提供了一种全新的思路。其优点是:首先,身份属性分析所需数据可从人机交互过程中直接获得,无需配备额外的仪器以及设备;其次,身份属性分析是基于人机交互行为特征,无需记忆或携带,很难进行模仿和伪造;另外,在计算机用户和智能手机用户操作设备的过程中可以持续捕获用户操作所产生的人机交互信息,因此可以基于人机交互行为特征持续对用户身份属性进行判断分析,而且不会干扰用户的正常行为,具有广泛的安全性和适用性。
【专利附图】

【附图说明】
[0032]下面结合附图和【具体实施方式】对本发明做进一步的详细描述。
[0033]图1是本发明方法的步骤框图。
[0034]图2是本发明方法中人机交互行为的身份属性特征生成步骤框图。
[0035]图3是本发明方法中基于加权随机森林的身份属性模型建立方法步骤框图。
[0036]图4是采用本发明方法检测计算机用户身份属性的实验结果图。图中黑色的错误条表示在20次随机数据采样后的身份属性准确率的标准差。
【具体实施方式】
[0037]系统结构
[0038]参见图1,本发明基于人机交互行为特征的计算机及智能手机用户身份属性检测方法,可用于电子商城、网络银行等电子商务活动中用户身份属性感知,以提供针对性的商品或服务;也可用于企业信息系统中的信息取证分析,对重要信息系统进行安全保护。本发明包含建立身份属性模型和身份属性检测两个部分,具体的实施步骤如下:
[0039]I)建立身份属性模型部分包括下述步骤:
[0040](I)在计算机及智能手机用户正常使用人机交互设备的过程中,采集并记录用户的人机交互行为数据,包括鼠标交互行为数据、击键交互行为数据、触摸交互行为数据,进而形成身份属性模型建立所需的交互行为数据集;基本人机交互数据的格式为:{交互时间戳,交互屏幕位置,交互类型,交互事件类型},交互类型包括鼠标交互、键盘交互和触摸屏交互,交互事件类型包括鼠标点击和移动事件、键盘击键事件、手指在触摸屏上的按压和触摸移动事件;
[0041](2)针对所有计算机及智能手机用户,定义身份属性的种类,及每种身份属性的划分类别;
[0042](3)以固定观测时间长度T为周期对记录的人机交互行为数据进行划分,形成多个时间长度为T的人机交互行为数据块;根据用户的身份属性的种类及每种身份属性的划分对这些行为数据块进行标记;
[0043](4)针对每个标记的数据块,提取并标记人机交互行为特征向量,包括鼠标行为特征向量、击键行为特征向量、触摸行为特征向量。其中鼠标行为特征向量是指由鼠标移动产生的时空轨迹曲线及鼠标点击等操作所衍生出的一系列行为测量量,可以使用一次移动的轨迹曲线,速度曲线、加速度曲线、平均移动速度与距离的关系,平均移动速度与方向的关系,平均移动加速度与距离的关系,平均移动加速度与方向的关系,移动轨迹距离与位移的比值作为特征;击键行为特征向量是指由键盘各键按下和弹起事件所组成的时间序列衍生得到的一系列行为测量量,可以使用单键按键的持续时间和相邻按键的间隔时间作为特征;触摸行为特征向量是指手指在触摸屏上移动产生的时空轨迹曲线及按压等操作所衍生出的一系列行为测量量,可以使用屏幕触摸压力、触摸点击时间、触摸移动轨迹、触摸移动速度曲线、触摸移动时间作为特征。将不同数据块中的人机交互行为特征向量组合在一起,形成用户的身份属性特征向量训练集;
[0044](5)针对每个身份属性(用户的性别、年龄、种族、语言、左右手使用习惯、文化程度、计算机使用熟练程度、职业、手指健康状况等属性),根据身份属性种类的标记,得到每个身份属性对应的特征向量训练集;根据每个身份属性划分类别的标记,得到训练集中每个特征向量的标记;分别将每个身份属性对应的特征向量训练集作为训练样本,同时将训练集中特征向量的标记作为训练样本的标记,对每个身份属性分别构建基于加权随机森林的身份属性检测模型。以用户的性别属性检测模型为例,将带有性别标记的特征向量训练集作为模型的训练数据,将性别属性的检测视为一个二分类问题(男或女),从而构建基于人机交互行为的性别属性检测模型。
[0045]2)身份属性检测部分包括下述步骤:
[0046](I)在用户使用计算机或智能手机等智能系统的过程中,捕获当前用户的人机交互行为,以长度T (T 一般可以设为30秒或更长时间)为周期,获取T内用户人机交互数据并提取行为特征,生成身份属性特征向量;
[0047](2)将生成的身份属性特征向量作为身份属性检测模型的输入,得到用户身份属性的检测值,将该检测值与对应的身份属性模型的阈值ε ( ε根据模型训练的精度进行选取,一般可设定为50%)进行比较,判别用户相应的身份属性。以用户的性别属性检测为例,将从T时间周期内提取的对应性别的身份属性向量作为已建立的性别属性检测模型的输入,得到该模型的检测值,将检测值与对应的阈值进行比较,若检测值大于阈值,则判定当前用户的性别为男性;若检测值小于阈值,则判定当前用户的性别为女性。
[0048]基于加权随机森林的身份属性检测模型
[0049]上述I)建立身份属性模型部分的第(5)步中基于加权随机森林的身份属性检测模型建立过程参见图3,具体步骤如下:
[0050]( I)初始化训练特征集中特征样本的个数为N,每个特征样本中特征分量的个数为Μ,决策树的个数为P,每个决策树的决策特征的个数为m(m远小于M);
[0051](2)为了消除不同的特征量纲的影响,将各维特征向量进行归一化处理,将其取值限制在[O, I]之间;
[0052](3)使用Bagging算法对N个特征样本取样P次,得到P个特征集合;
[0053](4)对每一个随机树随机选取一个特征集合,并对该决策树进行评估及误差分析。对于树中的每一个节点,随机选择m个基于此点的特征分量,并针对不同类别的特征样本,赋予不同的权值以寻找最佳的分割方式;[0054](5)根据分类效果最好的特征节点将节点划分为两个分支,再递归调用步骤(4)直到这棵树能够准确分类训练样本集,或所有属性都已经被使用过;决策树完整成长之后,不对其进行剪枝;
[0055](6)重复步骤(3)、(4)、(5)直到建立了全部P棵决策树;
[0056](7)采用基于加权的多数投票的方法来综合决定多个决策树的分类结果,即得到了加权随机森林分类器的分类结果。
[0057]决策特征变量个数的选择方法、最佳的分割方式的描述
[0058]“基于加权随机森林的身份属性检测模型”的第(I)步中决策特征变量个数m的选择是指在构造每棵决策树是需从特征样本中随机选取m维特征,并在这m维特征中选取分类效果最好的特征节点。在整个随机森林的构造过程中m是一个常数,我们选取m=int(log2m+l),其中int是取整函数。
[0059]第(4)步中最佳的分割方式是指使每个节点上的分类数据尽可能来自同一类别,从而使每个节点的不纯度达到最小的分割方式(当某节点i上的分类数据全部来自于同一类别,则该节点的不纯度为O)。在每棵决策树构造的过程中,其生成遵循自顶向下的递归分裂原则,即从根节点开始依次对训练集进行划分。对于每个节点,按照节点不纯度最小原贝U,分裂为左节点和有节点,它们分别包含训练数据的一个子集,按照同样的规则使节点继续分裂,直到分支停止生长。若节点i上的分类数据均来自于同一类别,则该节点的不纯度l(i)=0。不纯度的度量方法是基于Gini不纯度准则的,即假设P (Wj)是节点i上属于Wj类样本个数占训练样本总数的频率,则Gini不纯度准则表示为:
【权利要求】
1.一种基于人机交互行为特征的用户身份属性检测方法,其特征在于,包括建立身份属性模型和检测身份属性两个部分: (1)建立身份属性模型,包括下述步骤: 第一步,在计算机及智能手机用户正常使用人机交互设备的过程中,采集并记录用户的人机交互行为数据,包括鼠标交互行为数据、击键交互行为数据、触摸交互行为数据; 第二步,针对所有计算机及智能手机用户,定义身份属性的种类,及每种身份属性的划分类别; 第三步,以固定观测时间长度T为周期对记录的人机交互行为数据进行划分,形成多个时间长度为T的人机交互行为数据块;根据用户的身份属性的种类及每种身份属性的划分对这些行为数据块进行标记; 第四步,针对每个标记的数据块,提取并标记人机交互行为特征向量,将不同数据块中的人机交互行为特征向量组合形成用户的身份属性特征向量训练集; 第五步,针对每种身份属性,根据身份属性种类的标记,得到每个身份属性对应的特征向量训练集;根据每个身份属性划分类别的标记,得到训练集中每个特征向量的标记;分别将每个身份属性对应的特征向量训练集作为训练样本,同时将训练集中特征向量的标记作为训练样本的标记,对 每个身份属性分别构建身份属性模型; (2)检测身份属性,包括下述步骤: 第一步,用户登入计算机或智能手机后,捕获当前用户的人机交互行为,以长度T为周期,获取T内用户人机交互行为数据并提取对应的人机交互行为特征向量,进而生成对应每个身份属性的特征向量; 第二步,对当前用户的身份属性进行检测:将生成的身份属性特征向量作为已建立的身份属性推测模型的输入,得到用户身份属性的检测值,对用户的身份属性进行判断。
2.根据权利要求1所述的基于人机交互行为特征的用户身份属性检测方法,其特征在于,所述建立身份属性模型部分第四步中形成用户的身份属性特征向量训练集的具体步骤如下: 第一步,在观测时间长度为T的人机交互行为数据块中,遍历人机交互事件序列,依次分离出不同类型的交互行为事件,包括鼠标交互行为事件、击键交互行为事件、触摸交互行为事件; 第二步,针对不同类型的交互行为事件,提取交互行为特征向量,包括鼠标行为特征向量、击键行为特征向量、触摸行为特征向量; 第三步,将不同数据块中的人机交互行为特征向量组合在一起,形成身份属性特征向量训练集。
3.根据权利要求1所述的基于人机交互行为特征的用户身份属性检测方法,其特征在于,所述计算机或智能手机用户产生的人机交互行为数据为基本人机交互事件组成的序列,基本人机交互事件的格式为:{交互时间戳,交互屏幕位置,包括鼠标、键盘、或触摸板的交互设备类型,交互事件类型}。
4.根据权利要求1所述的基于人机交互行为特征的用户身份属性检测方法,其特征在于,所述身份属性是指计算机及智能手机用户所固有的生理或行为特性,包括用户的性别、年龄、种族、语言、左右手使用习惯、文化程度、计算机使用熟练程度、职业、手指健康状况。
5.根据权利要求1所述的基于人机交互行为特征的用户身份属性检测方法,其特征在于,所述建立身份属性模型由一种或多种分类器联合实现,所述分类器包括加权随机森林分类器、人工神经网络分类器、支持向量机分类器。
6.根据权利要求5所述的基于人机交互行为特征的用户身份属性检测方法,其特征在于,由加权随机森林分类器建立身份属性模型的具体步骤为: 1)初始化训练样本集中特征样本的个数为N,每个特征样本中特征分量的个数为M,决策树的个数为P,每个决策树的决策特征的个数为m, m远小于M ; 2)为了消除不同的特征量纲的影响,将各维特征向量进行归一化处理,将其取值限制在[O, 1]之间; 3)使用Bagging算法对N个特征样本取样P次,得到P个特征集合; 4)对每一个随机树随机选取一个特征集合,并对该决策树进行评估及误差分析,对于树中的每一个节点,随机选择m个基于此点的特征分量,并针对不同类别的特征样本,赋予不同的权值以寻找最佳的分割方式; 5)根据分类效果最好的特征节点将节点划分为两个分支,再递归调用步骤4)直到这棵树能够准确分类训练样本集,或所有属性都已经被使用过;决策树完整成长之后,不对其进行剪枝; 6)重复步骤3)、4)、5)直到建立了全部P棵决策树; 7)采用基于加权的多数投票的方法来综合决定多个决策树的分类结果,即得到加权随机森林分类器的分类结果。
【文档编号】G06F21/31GK103530540SQ201310454565
【公开日】2014年1月22日 申请日期:2013年9月27日 优先权日:2013年9月27日
【发明者】蔡忠闽, 沈超, 罗伊·麦克斯, 管晓宏 申请人:西安交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1