基于Web日志数据挖掘的网站优化方法_2

文档序号：9350019阅读：来源：国知局

错误）。
[0046] 以上数据为用户请求访问失败的记录。
[0047] B13、删除用户请求方法中不是GET方法的记录。
[0048] 如下表2所示，为本发明对Web日志数据进行清洗后得到的Web日志数据。
[0049] 表2、本发明对Web日志数据进行清洗后得到的Web日志数据
[0050]
[0051] 在步骤B2中，用户识别是将用户和请求的页面相关联的过程，其中主要针对多个用户通过代理服务器或防火墙访问站点的情况。本发明根据Web日志数据和站点拓扑结构将用户及请求访问网页进行关联，并对用户进行识别。这里对用户进行识别，具体包括以下分步骤：
[0052] B21、根据Web日志数据获取用户IP地址、代理和操作系统，并对用户集进行初始化；
[0053] B22、判断用户IP地址是否相同，若用户IP地址不相同，即不同的IP地址代表不同的用户，则将该用户加入到用户集；若用户IP地址相同，则将该用户加入到用户集中的同一用户中，进行下一步骤；
[0054] B23、判断代理或者操作系统是否相同，若代理或者操作系统不同，即不同的代理或者操作系统代表不同的用户，则将该用户加入到用户集；若代理或者操作系统都相同，则进行下一步骤；
[0055] B24、根据站点拓扑结构判定用户请求访问页面能否从已访问所有页面到达，若用户请求访问页面能够从已访问所有页面到达，则操作结束；若用户请求访问页面不能从已访问所有页面到达，即说明该用户为新用户，则将该用户加入到用户集。
[0056] 如表2所示，第1_9、11、13条具有相同的IP地址，第10、12、14条具有相同的IP地址，根据IP地址的不同，可以得到这是两个用户的日志访问记录，其浏览路径分别为：A-B-G-C-A-F-J-H-D-K-E和F-G-I。其中，第5、6、8、11条记录的代理为 Mozilla(Linux2. 2. 15-3i686)，同其它的代理 Mozilla(WindowsNT5. 0)不相同，而恰恰这 4 条记录包含在当初认为的一个用户的记录中，这就说明至少有三个用户，其浏览路径为分别是：A-B-G-C-J-D-E，A-F-H-K和F-G-I。如图2所不，为本发明实施例中站点拓扑结构不意图。这三个用户的IP地址和操作系统都一致，根据图2对用户进行识别，如果用户请求访问的某个页面不能从已访问的任何页面到达，则判断这是又一个新的用户。将所有的日志记录和站点的拓扑结构结合，构造用户的浏览路径。其中，G页不能从A或B直接到达，并且I页只可以从G到达，这就说明存在有一个新用户使用了相同的IP地址。对表2进行用户识别后，发现有四个用户，其浏览路径分别是=A-B-C-D-E，G-J，A-F-H-K和F-G-I。
[0057] 在步骤B3中，本发明对用户会话进行识别，即将用户的原始访问序列划分为若干个单次访问序列。由于步骤B2中得到的用户访问序列，用户可能是间隔了数个小时之后才完成的，并且用户在这段时间里，可能多次访问了这个网站。因此为了将用户的多次访问分开，本发明采取使用时间间隔的方法。通过设置时间间隔，当用户访问任意两个相关联的页面的间隔时间大于设置的时间间隔时，则判断该用户进行了一次新的访问。这里设置的时间间隔一般为20-30分钟。
[0058] 本发明设定时间间隔为20分钟，在表2中针对10、12、14日志记录的用户，最后2 个请求比前面第10个记录个晚了近1个小时，因此，可以得到该用户进行了一次新的访问，所以该用户的访问记录可以分为2个会话。因此，总共得到5个用户会话，其浏览路径分别为：A -B-C-D-E，G_J，A -F-H-K 和 F，G-I。
[0059] 在步骤M中，本发明通过路径补充将由于本地或是代理服务器缓存而遗漏的请求页补充完整。即判断用户请求访问页面和对应页面请求有无链接关系；若用户请求访问页面和对应页面请求有链接关系，则进行下一步骤；若用户请求访问页面和对应页面请求无链接关系，则利用站点拓扑结构将请求页面补充完整。
[0060] 结合表2和图2,可以得到D页不能由C页直接到达，对D的请求是通过B，即用户请求D前可能使用"后退"按钮回退到B，所以B应当添加到用户的会话文件中（用户不可能直接输入D的URL，对D的访问是通过点击B中的超链接进行的），因此进行路径补充后的结果是：A-B-C-B-D-E，G-J，A-F-H-K 和 F，G-I。
[0061] 在步骤B5中，本发明通过事务识别对用户会话进行分析，并通过语义进行分组。这里的事务识别是指将用户会话划分为用户访问页面的序列，即用户浏览行为的基本模式。用户在浏览页面时会根据页面中的超链接或者需要进行向前或者向后的浏览，本发明使用最大向前路径得到用户的访问序列。这里的最大向前路径是指从用户会话的第一个页面开始，直到用户回退前访问的一个页面为止。
[0062] 对步骤M得出的会话结果使用最大向前路径方法对该会话进行分割运算，得到的事务集合是为{ABC，ABDE，GJ，AFHK，F，GI}。
[0063] 在步骤C中，利用Web挖掘算法从Web日志数据中挖掘出有价值的信息，并以图标，报表等形式表现出来。本发明利用统计分析分析出用户来源、访问量、常访问的网页等，并使用关联规则和序列模式得到用户的访问模式规律，从而可以在一定程度上预测用户未来访问的页面，进而为完善站点结构提供指导意见。
[0064] 首先根据预处理后的Web日志数据，利用统计分析方法，得到流量分析、低层次错误分析、网站出入口分析及用户来源分析数据。
[0065] 其中，流量分析可以通过求出现率、求平均、求中值等，统计用户最常访问的网页，每页平均访问的时间，浏览路径的平均长度等，以获得用户访问网站的基本信息；低层次错误分析可以通过检测未授权入口点，找出最常见不变的URL;网站出入口分析可以得出用户在哪里进入网站，浏览了那些网页，是否是通过搜索引擎直接进入感兴趣的页，从哪里离开网站等信息；用户来源分析可以得出用户来自的国家、地区、网站以及最重要的用户来源等信息。
[0066] 然后利用关联规则挖掘方法，得到用户访问序列模式。
[0067] 其中，关联规则是通过分析用户访问网页间的潜在联系而归纳出的一种规则，这些页面之间并没有顺序关系。其数学表达为：设I = U1, i2，…，ij是项的集合，设与任务相关的数据集D是数据库事务的集合，其中每个事务T是项的集合，使得T Q /。每一个事务有一个标识符，称作TID (Transaction ID，事务ID)。设A是一个项集，若事务T包含 A，当且仅当J g T。关联规则是形如.片5的蕴涵式，其中J C=/, 5c/，并且J门5=#。规则在事务集D中的支持度表示为s，s代表D中事务包含3门3 (A和B同时发生）的概率，用概率PM「1岸表不。规则j 在事务集D中的置彳目度表不为c，指的是事务D中包含A事务的同时也包含B的百分比，即条件概P (B IA)。可信度说明了蕴涵的强度，而支持度说明了规则中所出现模式的频率，即：
[0070] 给定最小支持度阀值（min-sup)和最小置信度阀值（min-conf)，能够同时满足最小支持度阀值和最小置信度阀值的规则称为强规则。给定一个事务集D，对其进行关联规则挖掘，主要问题就是发现支持度和可信度都大于用户给定的最小支持度阀值和最小可信度阀值的关联规则，即产生强关联规则。
[0071] 项集（itemset)就是指项的集合。包含k项的项集称为k-项集。例如，集合{A，B} 是一个2-项集。项集的出现频率是指包含项集的事务数，简称为项集的计数或支持计数。项集满足最小支持度（min-sup)，则称它为频繁项集（FrequentItemsets)。即如果项集的计数大于或等于min-sup与D中事务总数的乘积，那么该项集就是频繁项集，

完整全部详细技术资料下载

当前第2页1 2 3