一种网络用户身份认证方法及系统的制作方法_3

文档序号：9581746阅读：来源：国知局

,purii,mrni,rpurii,mrmli,mrali,mrmSi,mra Si,mtrii,target;〉，当中每个值的含义具体如表2当中所示。
[0048]
[0049]
[0050] 在得到会话的特征值集合之后，利用LR逻辑回归算法进行基于用户浏览特征认证方法（W下简称UBFAA)，其具体过程如算法1所示。
[0051] 算法1 :基于用户浏览特征的认证方法扣BFAA)
[0052] 输入：合法用户会话集S*，合法用户的频繁项集FC，合法用户的频繁访问网址集即W
[0053] 及频繁访问时间段集FT
[0054] 输出：特征值权值矩阵W，数组score合法
[0055] 1)遍历合法用户的会话集S*的每一个会话s*i [005引mrtl= 0 ;//会话S*i所匹配的频繁项集的总长度
[0057] mrts= 0 ;//会话S*i所匹配的频繁项集的总支持度
[0058] pun= 0 ；
[0059] length=会话集S*包含的元素个数；
[0060] target= 1 ；
[0061] 1. 1)遍历合法用户的频繁访问网址集即
[0062] if合法用户的频繁访问网址集即中存在化j=当前会话网页类的顶级域名，贝U pun加 1 ;
[0063] 1. 2)遍历合法用户的频繁项集FC
[0064] if当前会话包含频繁项集fcj
[006引1. 2.Dmrn加Lmrtl累加上当前频繁项集的长度，mrts累加上当前频繁项集的支持度；
[0066] 1. 2. 2)将当前会话所匹配规则的最大支持度保存在mrms中；
[0067] 1. 2. 3)将当前会话所匹配规则的最大长度保存在mrml中；
[0068] 1. 2. 4)统计中fcj包含的频繁访问网站个数保存在巧un中；
[0069] 1. 3)获得当前会话所匹配规则的平均支持度mras与平均长度mral;
[0070] 1. 4)遍历合法用户的频繁时间段集FT
[0071] if合法用户的频繁访问网址集FT中存在ftj，使得当前会话网页类.content= ftj.contentand当前会话网页类.time在(户-3<T,/).+::3;cr);区间内，
[0072] 则mtn加I;
[0073] 1. 5)将会话s*i的各个属性写入十元组集合FVi当中；
[0074] 。遍历十元组集FVi
[00巧]2. 1)创建矩阵datas，将其第一列全赋值为1，并将的特征数据存储到矩阵当中； [007引 2.。创建1油els矩阵，并将FVi的最后一列数据存储到1油els当中；
[0077] 2. 3)创建值全为1的10*1大小的权值矩阵W;
[007引扣设置LR逻辑回归的学习速度曰1地a= 0. 01，LR的最大循环次数max切cles= 500 ；
[0079] 4)当计算次数小于max切Cles时，重复利用梯度下降法计算权值矩阵W的值；
[0080] 5)利用权值矩阵W计算计算得到会话相应的score,并存入数组score合法中；
[0081] 6)返回权值矩阵W与合法会话评分数组score^ij。
[0082] 然后，根据W上算法得到的权值矩阵W与会话j所对应的特征值向量fv,计算其对应的score,，其计算公式如下所示：
[0083] 对于fViGFV，
[0084] score=w〇+Wi*fVi.Ien邑th+W2*fVi.pun+. . . +Wi〇*fVi.mtn
[00财针对m个合法用户的会话得到评分数组score合'法={score合法I，score合法2, . . . ,score合法m}。
[0086] 步骤S3,根据所述m个会话的分数，采用第四算法计算得到所述合法用户的分类阔值。在一个实施例中，所述第四算法包括
所述分类阔值为!>桃?'0-钱；1];其中，3(3〇'6合法1为第1个会话的分数，共1]1个会话。
[0087] 在一个实施例中，如图2所示，所述网络用户身份认证方法还包括：
[0088] 步骤S4,获取一个新的会话，并计算出所述新会话的分数；当所述分数落入所述分类阔值的范围时，判定当前用户是所述合法用户；当所述分数不落入所述分类阔值的范围时，判定当前用户不是所述合法用户。采用步骤Sl的方法获得一个当前会话（新的会话），并采用步骤S2的方法计算该会话的分数，然后根据步骤S3中的分类阔值，判断当前会话所属的用户是否为合法用户。当新的会话的分数落入所述分类阔值的范围时，判定当前用户是所述合法用户；当新的会话的分数不落入所述分类阔值的范围时，判定当前用户不是所述合法用户。
[0089] 本发明提供还一种网络用户身份认证系统。所述网络用户身份认证系统可W采用如上所述的网络用户身份认证方法。在一个实施例中，如图3所示，所述网络用户身份认证系统1包括用户会话获取模块11、会话分数计算模块12W及分类阔值确定模块13。其中：
[0090] 用户会话获取模块11用于采集用户在设定时间段内的所有网页浏览记录，所述浏览记录包括浏览网页网址、文本内容、时间戳；从所述浏览网页网址中抽取出网址顶级域名，从所述文本内容抽取出关键字进而确定所述文本内容所属的内容类，将每一条所述浏览记录处理成 < 网址顶级域名，内容类，时间戳〉的形式，将在所述设定时间段内得到的所有所述浏览记录作为一个会话。在一个实施例中所述设定时间段包括30分钟。
[0091] 会话分数计算模块12与用户会话获取模块11相连，用于针对一个会话，根据所述会话中的所有浏览记录，统计出用户最频繁访问的多个网址顶级域名，并利用设定的第一算法挖掘出所述浏览记录中网址顶级域名与内容类之间的关系，利用设定的第二算法挖掘出所述浏览记录中内容类与时间段之间的关系，进而得到所述用户浏览网页的n个特征值；根据设定的第=算法对所获取的特征值进行处理，得到与所述特征值相对应的权值矩阵；根据所述特征值W及相对应的权值矩阵计算得到所述会话的分数。在一个实施例中，所述特征值包括：会话包含的元素个数；会话包含的频繁访问网站个数；会话所匹配的频繁项集个数；会话匹配的频繁项集中包含的频繁访问网站个数；会话所匹配的最长频繁项集长度；会话所匹配的频繁项集均长度；会话所匹配的频繁项集的最大支持度；会话所匹配的频繁项集的平均支持度；会话所匹配的频繁时间段个数；目标列。所述第一算法包括Apriori算法。所述第二算法包括：最大似然估计的方法从所述会话的浏览记录中计算出用户对每个内容类的浏览时间所服从的正态分布的参数值。所述参数值
其中，time;为用户在浏览内容类contenti时的相对时间；所述参数用于统计所述会话所匹配的频繁时间段个数。所述第=算法包括：梯度下降法。
[0092] 分类阔值确定模块13与会话分数计算模块相连，用于获取合法用户的多个会话分数，采用第四算法计算得到

完整全部详细技术资料下载

当前第3页1 2 3 4