一种手机上网垃圾日志的过滤方法

文档序号:6521796阅读:200来源:国知局
一种手机上网垃圾日志的过滤方法
【专利摘要】本发明涉及一种手机上网垃圾日志的过滤方法,通过上网日志获取,主动上网Path信息提取,利用Parzen窗计算出各网站主动获取内容与自动推送内容的时间间隔所满足的概率分布,并依照总体均数的95%单边置信区间将部分主动上网日志中的path信息提取出来,主动上网模式归纳,利用关联算法归纳出不同host下主动上网path信息中的常见模式,并形成主动上网模式库,过滤掉无用的垃圾日志信息。
【专利说明】一种手机上网垃圾日志的过滤方法
【技术领域】[0001]本发明涉及一种手机上网垃圾日志的过滤方法,属于数据挖掘【技术领域】。
【背景技术】[0002]在基于框架的网页模式下,当用户访问网页时,服务器通常会向用户设备发一个包含URL链接的网页,由于该URL页面通常隐藏着子URL页面,因而从用户的角度看,虽然只发起了一次URL请求,却加载了多条自动推送的URL记录。这些自动推送的URL记录大量存在于用户上网日志文件中,其并不能代表用户的真实上网行为。为了能够更精确的洞察用户的上网行为,我们需要将这些自动推送内容从日志文件中过滤出来。[0003]传统的垃圾日志过滤方法主要是基于匹配方式的,对于某条URL记录,若不在主动访问数据库中,则我们认为其为自动推送记录并将它过滤出来。该方法的最大困难在于,第一,对于URL信息通常包含了诸如SID安全标示符这样的随机字符串,使得在利用简单匹配方式进行匹配时的成功率较低;第二,在对主动访问数据库进行更新时人工参与量较大,需要寻求一种自动化的方式对主动访问数据库进行更新。

【发明内容】
[0004]针对以上弊端,本发明提供一种手机上网垃圾日志过滤方法,主要方法如下: 通过分析手机上网日志中主动获取内容和自动推送内容在时序上的差异性提取出主动上网日志中所包含的URL所对应的path信息; 根据一定的拆分规则对主动上网类URL对应的path信息进行拆分,进而获取各host站点所对应的特征字符串集; 利用关联规则挖掘方式对各host站点对应的特征字符串集进行关联分析,总结出各host站点对应的常见主动访问模式,并据此将主动推送类垃圾日志过滤出来。[0005]其中在获取主动上网类日志中的URL信息时,首先通过抓包的方式人工获取自动加载类URL与主动访问类URL的时间间隔序列Xi (i = 1,2...N); 利用Parzen窗对该时间间隔序列的总体概率密度进行估计,落在点x处的概率密度函数的估计值为:
【权利要求】
1.ー种手机上网垃圾日志的过滤方法,其主要特征在于,主要包括以下步骤: 通过分析手机上网日志中主动获取内容和自动推送内容在时序上的差异性提取出主动上网日志中所包含的URL信息; 根据一定的拆分规则对主动上网类URL对应的path信息进行拆分,进而获取各host站点所对应的特征字符串集; 利用关联规则挖掘方式对各host站点对应的特征字符串集进行关联分析,总结出各host站点对应的常见主动访问模式,并据此将主动推送类垃圾日志过滤出来。
2.如权利要求1所述,ー种手机上网垃圾日志的过滤方法,其特征在于,手机上网日志中主动获取内容和自动推送内容在时序上的差异性可以通过统计来实现,主要包括以下几I K少: 针对某种类型网站,首先通过抓包的方式人工获取自动加载类URL与主动访问类URL的时间间隔序列Xi (i = I, 2.? ? N); 利用Parzen窗对该时间间隔序列的总体概率密度进行估计,落在点x处的概率密度函数的估计值为:
3.如权利要求1所述,ー种手机上网垃圾日志的过滤方法,其特征在于,获取URL所对应的的特征字符串集的方法步骤如下:首先按照path路径进行层次拆分得到了各级path路径下的字符串;其次考虑ー些特殊的符合如“?”、“&”对各级path路径同样具有分割效果,故以此为分隔符对各级path路径做进ー步的拆分;最后,对于像SID安全标示符这样的随机字符串,其一般以“sid=XXX”的形式存在,针对这种情况,我们只取左边的标示符而忽略等号右边的随机字符串。这样,将分割后的字符串收集起来作为host站点所对应的特征字符串。
4.如权利要求1所述,ー种手机上网垃圾日志的过滤方法,其特征在于,总结出各host站点对应的常见主动访问模式的方法如下:对于host站点下某条主动上网类型的path信息,其包括的特征字符串的个数一般小于4个而大于2个,所以对该host站点上网模式进行归纳的核心在于如何从大量的特征字符串中寻找具有强关联的2-频繁项字符串集,3_频繁项字符串集,4-频繁项字符串集,设置一定的置信度阀值及支持度阀值来寻找强关联的单词组,对对置信度(Confidence)与支持度(Surpport)的定义如下所示:
【文档编号】G06F17/30GK103593484SQ201310633659
【公开日】2014年2月19日 申请日期:2013年12月3日 优先权日:2013年12月3日
【发明者】邵伟, 昂卫武, 黄汇 申请人:南京安讯科技有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1