数据过滤方法和数据过滤装置的制作方法

文档序号:6353633阅读:492来源:国知局

专利名称::数据过滤方法和数据过滤装置的制作方法
技术领域
:本发明涉及互联网领域,更具体地,涉及一种数据过滤方法和数据过滤装置。
背景技术
:用户在例如经由台式计算机浏览互联网或者例如经由移动终端浏览无线互联网时所发生的上网行为(例如,在浏览器地址栏中键入页面地址或者点击页面中的超链接)会产生大量通信数据。目前,存在对这些通信数据进行统计分析的技术。然而,产生的数据量较大,且存在大量“脏数据”(即,与用户真实的上网行为(例如,用户手动行为)无关的数据)较多。例如,用户使用的浏览器在用户上网过程中很有可能自动触发大量的上行请求(即,从客户端到服务器的请求)。结果,导致这些技术处理速度较慢,并影响数据分析的准确性,以至于影响了多个层面的数据质量,而且需要的存储空间较大。下面,结合图1来具体描述“脏数据”的示例性产生过程,其中图1示出了浏览器针对页面地址http://wallpic.3g.cn/special/12920/indexl7.aspx应该呈现出的页面截屏。如本领域技术人员所知,上述页面地址会经由网络发送至网络服务器。响应于此,该网络服务器向该浏览器返回该页面的html文件以供其绘制出相应的页面。从图1可见,呈现的页面包括多张图片,所以如本领域技术人员所知,针对该页面的html文件中会嵌有用于获取图片的网络地址。浏览器为了显示这些图片,自动向提供这些图片的网络服务器发出上行请求,从而触发“非用户”手动请求链接,具体例如包括httphttphttphttphttp^anime.3g.cn/special/images/104456.gif/wallpic.3g.cn/special/images//109324.jpg/wallpic.3g.cn/special/images//108999.jpg/wallpic.3g.cn/special/images//108541.jpg7Vallpic.3g.cn/special/images//108136.jpg当前技术在进行统计分析时,误认为用户手动键入的页面地址所产生的一个上行请求和浏览器自动触发的五个上行请求都是由用户手动行为触发的,即,将一次用户行为统计成了六次用户行为。实际上,用户手动请求链接只涉及一条上行请求(S卩,http://wallpic.3g.cn/special/12920/indexl7.aspx),其他链接请求都不是用户手动请求的,而是浏览器自动请求的,这些上行请求属于本发明中的“脏数据”。然而,现有技术中并不存在针对这种“脏数据”的过滤方法。
发明内容为了解决上述问题,本发明提供了一种数据过滤方法和数据过滤装置。根据本发明的一个方面,提供了一种数据过滤方法,可以包括获取由用户的上网行为产生的通信数据;提取该通信数据的数据特征;将提取的数据特征与预定数据特征进行匹配,以得到匹配结果;以及基于该匹配结果对该通信数据进行过滤。根据本发明的另一方面,提供了一种数据过滤装置,可以包括通信数据获取装置,配置用于获取由用户的上网行为产生的通信数据;数据特征提取装置,配置用于提取该通信数据的数据特征;匹配装置,配置用于将提取的数据特征与预定数据特征进行匹配,以得到匹配结果;以及过滤装置,配置用于基于该匹配结果对该通信数据进行过滤。根据本发明的实施方式,可以至少清除通信数据中由非用户手动行为触发的上行请求,从而得到更加真实的用户上网行为。通过阅读参考附图描述的本发明非限制性优选实施方式,本发明的其他特征和优势将变得明显,其中图1示出了浏览器针对页面地址http://wallpic.3g.cn/special/12920/indexl7.aspx应该呈现出的页面截屏。图2示出了根据本发明示例性实施方式的数据过滤方法的流程图。图3示出了从下行数据的http包体中解析出的gif文件内容。图4示出了以文件扩展名结尾的统一资源定位符的示例性截屏。图5A示出了无明显文件扩展名的统一资源定位符的示例性截屏。图5B示出了针对统一资源定位符无明显文件扩展名这种情况的示例性预定数据特征截屏。图6A示出了可由用户点击的页面链接及其统一资源定位符的示例性截屏。图6B示出了跳转后的页面及其统一资源定位符的示例性截屏。图7A示出了用户点击用于下载资源的页面链接的示例性截屏。图7B示出了在显示中间页面若干秒后弹出资源下载对话框的示例性截屏。图8示出了根据本发明示例性实施方式的数据过滤装置的框图。图9示意性示出了可以实现根据本发明的实施方式的计算设备的结构框图。具体实施例方式首先,本方面的一般性原理在于,针对某些资源(诸如,文件或页面)的上行请求不太可能由用户手动请求触发,这至少因为这些资源的用户可读性很差,或者在本领域中是公知的浏览器行为(比如,下载页面中嵌入的图片)。举例而言,如果某个上行请求需要从网络服务器获取一个二进制文件,则显而易见的是,用户几乎不会手动触发针对这种二进制文件的请求,因为二进制文件仅是计算机可读的,而用户无法从其获得任何信息,也就不会主动请求这样的文件。由此,如果上行请求是针对这种资源的,便可以据此判定这种上行请求是非用户手动请求触发的,属于本发明的“脏数据”,应当被过滤掉。为此,可以将用于过滤的预定数据特征设置为至少包括与这些属于“脏数据”的上行请求有关的数据特征。若从某个上行请求提取的数据特征与这些预定数据特征匹配,则基本可以断定这些上行请求不是由用户手动请求触发的,应当将其过滤掉,从而统计出用户真实的上网行为。下面参考附图,通过示例方式来详细地描述本发明的实施方式,以传达本发明的一般性原理。首先参考图2,其中示出了根据本发明示例性实施方式的数据过滤方法的流程图,该方法整体上以附图标记200示出。该数据过滤方法200例如可以包括在步骤201中,获取由用户的上网行为产生的通信数据。根据本发明的一种实施方式,该通信数据可以包括由用户的上网行为引发的上行请求(即,从客户端到服务器的请求)和相应的下行数据(即,从服务器到客户端的数据)。根据本发明的另一种实施方式,该通信数据可以仅包括由用户的上网行为引发的上行请求。如本领域技术人员所知,这些通信数据可以通过有线或无线方式从网络服务提供者处获取,其可以利用各种文件格式(诸如,电子表格、列表等)存储在网络服务提供者的任何存储介质中,诸如,存储介质可以为任何有形媒介,例如软盘、CD-ROM、DVD、硬盘驱动器、甚至网络介质等。当然,从例如移动网络服务提供者处获取的与用户上网行为相关的数据可以是通用分组无线业务(GPRQ数据。本领域技术人员可以理解,能够从GRPS数据中解析出遵循http协议的上行请求和下行数据,继而对其实施过滤。在这个解析过程中,信令数据(诸如,ATTACH(附着)、PDPACTIVATION(PDP激活)及返回的下行包等)被过滤掉。由此可见,本发明示例性实施方式的方法不仅适用于统计用户在互联网领域中的真实上网行为,而且适用于统计用户在移动互联网中的真实上网行为,只要从GPRS数据中解析出http数据即可。此外,本领域技术人员可以理解,上行请求和/或下行数据中可能存在执行数据过滤方法的实体(包括软件的、硬件的或软件和硬件组合的)不想对其实施过滤的数据(也称,例外数据)。针对这种情况,也可以按照与本发明相同的方式,从通信数据中提取出数据特征,并将其与用于过滤例外数据的预定数据特征进行比较,若匹配,则这样的通信数据会被排除在要过滤的通信数据之外,不对其实施过滤。接着,该方法200可以进一步包括在步骤202中,提取该通信数据的数据特征。根据本发明的一种实施方式,如果该通信数据包括上行请求和相应的下行数据,则提取的数据特征包括下行数据所包含的文件类型信息。具体地,在这一方面,根据本发明的一种实施方式,文件类型信息可以包括内容类型标识(即,http包头的COntent_type字段),其中内容类型标识是从下行数据的http包头解析出的。在这一方面,根据本发明的另一种实施方式,文件类型信息可以包括文件类型标识,其中文件类型标识是从下行数据的http包体解析出的,例如,通过解析http包体中表示文件类型的前几个字节而得到。根据本发明的另一种实施方式,如果通信数据包括上行请求,则提取的数据特征包括该上行请求的统一资源定位符相关信息。具体地,在这一方面,根据本发明的一种实施方式,上行请求的统一资源定位符相关信息包括统一资源定位符的部分,其是从上行请求解析出的。根据本发明的一种实施方式,该统一资源定位符的部分可以包括该统一资源定位符结尾处包含的文件扩展名。根据本发明的另一种实施方式,该统一资源定位符的部分可以包括该统一资源定位符所针对服务器的统一资源定位符。在这一方面,根据本发明的一种实施方式,上行请求的统一资源定位符相关信息包括统一资源定位符,其是从上行请求解析出的。该方法200可以进一步包括在步骤203中,将提取的数据特征与预定数据特征进行匹配,以得到匹配结果。具体地,将提取出的数据特征与预定数据特征进行匹配,得到的匹配结果为“匹配”或者“不匹配”。其中,如本领域技术人员可以理解的,预定数据特征至少包括与提取出的数据特征所涉及数据类型相同的数据类型。例如,如果提取出的数据特征包括内容类型标识,则预定数据特征至少也包括内容类型标识;如果提取出的数据特征包括文件类型标识,则预定数据特征至少也包括文件类型标识,这些仅作为示例。此外,预定数据特征可以是由执行数据过滤方法的实体或实体的操作者预先设置以用于过滤的数据特征,并且可以因需要而动态调整。该方法200可以进一步包括在步骤204中,基于该匹配结果对该通信数据进行过滤ο根据本发明的一种实施方式,如果存在匹配,则可以从包括通信数据的文件中过滤掉该通信数据,如果不存在匹配,则将该通信数据保留在该文件中。或者,反之亦然。下面进一步参考附图并结合具体示例来更详细地说明本发明的实施方式。示例1依据下行数据所包括的文件类型来判断上行请求所请求的文件类型如果通信数据包括上行请求和相应的下行数据,则解析该下行数据以从其http包头中提取“contentjype”字段。如本领域技术人员所理解的,该字段表示http包体中包括的文件属于什么MIME(多用途网际邮件扩充协议)类型。在这种示例中,用于过滤的预定数据特征例如至少可以包括{application/postscript(.ai)λaudio/χ-aiff(.aif)、audio/χ-aiff(.aifc)、audio/χ-aiff(.aiff)、text/plain(.asc)、audio/basic(.au)、video/χ-msvideo(.avi)、application/χ-bcpio(.bcpio)、application/octet-stream(bin)、text/plain(.c)、text/plain(.cc)、application/cIariscad(.ccad)、application/χ-netcdf(.cdf)、application/octet-stream(.class)、application/χ-cpio(.cpio)、application/mac-compactpro(.cpt)、application/χ-csh(.csh)、text/ess(.ess)、application/χ-director(.dcr)、application/χ-director(.dir)、application/octet-stream(.dms)、application/msword(.doc)、application/drafting(.drw)、application/x-dvi(.dvi)、application/acad(.dwg)、application/dxf(.dxf)、application/x-director(.dxr)、application/postscript(.eps)、text/x-setext(.etx)、application/octet-stream(.exe)、application/andrew-inset(.ez)、text/plain(.f)、text/plain(.f90)、video/x-fli(.fli)、image/gif(.gif)、application/x-gtar(.gtar)、application/x-gzip(.gz)、text/plain(.h)、application/x-hdf(.hdf)、text/plain(.hh)、application/mac-binhex40(.hqx)、χ-conference/χ-cooltalk(.ice)、image/ief(.ief)、model/iges(.iges)、model/iges(.igs)、application/χ-ipscript(.ips)、application/x-ipix(.ipx)、image/jpeg(.jpe)、image/jpeg(.jpeg)、image/jpeg(.jpg)、appIication/χ-javascript(·js)、audio/midi(.kar)、application/x-latex(.latex)、app1ication/octet-stream(.lha)、application/χ-lisp(.lsp)、application/octet-stream(.lzh)、text/plain(.m)、application/χ-troff-man(.man)、application/χ-troff-me(.me)、model/mesh(.mesh)、audio/midi(.mid)、audio/midi(.midi)、application/vnd.mif(.mif)、www/mime(.mime)、video/quicktime(·mov)、video/χ-sgi-movie(.movie)、audio/mpeg(.mp2)、audio/mpeg(.mp3)、video/mpeg(.mpe)、video/mpeg(.mpeg)Λvideo/mpeg(.mpg)、audio/mpeg(.mpga)、application/χ-troff-ms(.ms)、model/mesh(.msh)、application/χ-netcdf(.nc)、application/oda(.οda)、image/χ-portable-bitmap(.pbm)、chemical/x-pdb(.pdb)、application/pdf(·pdf)、image/χ-portable-graymap(.pgm)、application/x-chess-pgn(.pgn)、image/png(.png)、image/x-portable-anymap(.pnm)、application/mspowerpoint(.pot)、image/χ-portable-pixmap(.ppm)、application/mspowerpoint(.pps)、application/mspowerpoint(.ppt)、application/mspowerpoint(.ppz)、application/χ-freelance(.pre)、application/pro_eng(.prt)、application/postscript(.ps)、video/quicktime(.qt)、audio/χ-realaudio(.ra)、audio/χ-ρη-realaudio(.ram)Λimage/emu-raster(.ras)Λimage/χ-rgb(.rgb)Λaudio/χ-ρη-realaudio(.rm)、application/x-troff(.roff)、audio/x-pn-realaudio-plugin(.rpm)、text/rtf(.rtf)、text/richtext(.rtx)、application/χ-lotusscreencam(.scm)、application/set(.set)、text/sgml(.sgm)、text/sgml(.sgml)、application/χ-sh(.sh)、app1ication/χ-shar(.shar)、model/mesh(.silo)、application/x-stuffit(.sit)、application/x-koan(.skd)、application/x-koan(.skm)、application/χ-koan(.skp)、application/χ-koan(.skt)、application/smil(·smi)、application/smil(.smil)、audio/basic(.snd)、application/solids(.sol)、app1ication/x-futuresplash(.spl)、application/χ-wais-source(.src)、application/STEP(.step)、application/SLA(.stl)、application/STEP(.stp)、application/x-sv4cpio(.sv4cpio)、application/x-sv4crc(.sv4crc)、application/x-shockwave-flash(.swf)、application/x-troff(.t)、application/x-tar(.tar)、application/χ-tcl(.tcl)、application/x~tex(.tex)、application/x-texinfo(.texi)、application/x-texinfo(.texinfo)、image/tiff(.tif)、image/tiff(.tiff)、application/χ-troff(.tr)、audio/TSP-audio(.tsi)、application/dsptype(.tsp)、text/tab-separated-values(.tsv)、text/plain(.txt)、application/i-deas(.unv)、application/χ-ustar(.ustar)、application/χ-cdlink(.ved)、application/vda(.vda)、video/vnd.vivo(.viv)、video/vnd.vivo(.vivo)、model/vrml(.vrml)、audio/χ-wav(.wav)、model/vrml(.wrl)、image/x~xbitmap(.xbm)、application/vnd.ms-excel(.xlc)、application/vnd.ms-excel(.xll)、application/vnd.ms-excel(.xlm)、application/vnd.ms-excel(.xls)、application/vnd.ms-excel(.xlw)、text/xml(.xml)、image/x-xpixmap(.xpm)、image/x-xwindowdump(.xwd)、chemical/x-pdb(.xyz)、application/zip(.zip)}中的一个或多个,其中括号外的内容表示“content_type”字段所包含的内容,括号中的内容表示其所代表的文件类型。换言之,用于过滤的预定数据特征可以包括除了text/html和text/xml这两种“contentjype”字段之外的任何“content_type,,字段。在此示例中,假设从下行数据的http包头中提取的“content_type”字段为image/gif。而如上所述,image/gif已经包含在预定数据特征中,则由于image/gif与预定数据特征存在匹配,认为该下行数据所对应的上行请求不是由用户手动请求触发的,于是从包含通信数据的文件中过滤掉该下行数据和上行请求。这里需要说明的是,存在很多得到预定数据特征的方法,比如将所有其内容为application/octet-stream(bin,代表二进制文件)的内容类型标识加入到预定数据特征中,因其不可能是用户手动请求触发的;或者根据基于统计分析得出的、用户不可能手动请求的文件类型的结果来设定。当然,可以理解,本领域技术人员所想到的任何设定预定数据特征的方式都会落入本发明的范围,属于本发明精神的一部分。示例2依据下行数据所包括的文件类型来判断上行请求所请求的文件类型如本领域技术人员所知,有的服务提供商会自己将COntent_type字段修改成非通用的contentjype字段,从而使得该字段不能与预定数据特征相匹配。但是,这并不表示触发该下行数据的上行请求一定是用户主动请求触发的,只是因其被更改而与预定数据特征失配而已。为了处理这种情况,可以在通信数据包括上行数据和相应的下行数据的情况下,从下行数据的http包体中解析出文件类型标识,这例如通过解析http包体的前几个字节而得到。如图3所示,在此示例中假设解析出的文件类型标识为gif。而如示例1中所述,gif已经包含在预定数据特征中,则由于gif与预定数据特征存在匹配,认为该下行数据所对应的上行请求不是由用户手动行为触发的,所以从包含通信数据的文件中过滤掉该下行数据和上行请求。当然,本领域技术人员能够理解,示例1的方式和示例2的方式可以单独执行,从而在其中一个与预定数据特征匹配时,能快速执行通信数据的过滤。但是,本领域技术人员也能理解,示例1的方式和示例2的方式也可以结合起来执行,即,从http包头中解析出contentjype字段和从http包体中解析出文件类型标识。这可以是因为contentjype字段和文件类型之间可能存在一对多映射(例如,text/plain对应于.h,.hh等)。在这种情况下,如果并非该contentjype字段所涉及的所有文件类型都包括在用于过滤的预定数据特征中,则也可以进一步基于文件类型标识来进行判断。这样的优势在于既可以在contentjype字段所涉及的所有文件类型都需要被过滤的情况下进行快速过滤,也可以在并非contentjype字段所涉及的所有文件类型都需要被过滤的情况下实施更细化的过滤。示例3直接判断上行请求所请求的文件类型如本领域技术人员所知,一些中小站点或站点系统图标会直接使用文件资源地址来提供。例如,如图4所示,用户访问3G首页,看到的第一个系统图标的统一资源定位符即以图片扩展名结尾(例如,http://imgcache.3f.cn/logo/3Gffinter_123.gif)。针对这种情况,如果通信数据包括上行请求,可以从该上行请求中解析出该上行请求的统一资源定位符,以及从其中进一步解析出该统一资源定位符结尾处包含的文件扩展名(在本示例中,为gif)。通常,在这种示例中,用于过滤的预定数据特征例如至少可以包括{iC0、bmp、png、gif>mid、ess、jpg、cgi、exe、swf>dat、rar、jar、jad、sis、jpeg、txt、cab、pxl、pak、fsx>mp3、mp4、3gp、xml}中的一个或多个。而如上所述,gif已经包含在预定数据特征中,则由于gif与预定数据特征存在匹配,认为该上行请求不是由用户手动行为触发的,所以从包含通信数据的文件中过滤掉该上行请求。示例4直接判断上行请求所请求的文件类型如本领域技术人员所知,通常大的站点(例如,qq站点)会采用单独的文件服务器来提供所有文件资源。例如,如图5A所示,3G的主题资源下载资源频道都将地址为http://61.145.124.11的服务器用作为文件资源服务器。在这种情况下,针对文件资源的请求地址的统一资源定位符没有明显的扩展名。但是,通常这些文件不会是由用户手动请求的。于是,针对这种情况,预定数据特征至少可以包括用于过滤的服务器的统一资源定位符(例如,http://61.145.124.11),如图5B所示。针对这种情况,如果通信数据包括上行请求,则从其中解析出统一资源定位符(例如,http://61.145.124.ll/new/...)。由于该统一资源定位符涉及的资源服务器的统一资源定位符http://61.145.124.11与预定数据特征存在匹配,则认为该上行请求不是由用户手动行为触发的,所以从包含通信数据的文件中过滤掉该上行请求。示例5直接判断上行请求所请求的页面地址如本领域技术人员所知,存在这样的页面跳转情况,即,用户点击了一个链接,但最终看到的是另一个页面,即,该上行请求在网络服务器处发生了跳转。例如,如图6A所示,用户将鼠标放在“手机购彩2元让你月光变富翁”这一链接上时,可见,其统一资源定位符为http://ad.3g.cn/JBAD/jbad.aspx?aid=53859&sid=&gaid=T3BlcmE%3d&waped=2。但在用户点击了该链接之后,返回给用户的浏览器呈现的页面的统一资源定位符是http//guocai.3g.cn/(S(4qnekw45ksfuo445ycotlf55))/index,aspx?aid=53859&...,如图6B所示。即,此时返回给用户浏览器的页面与用户真正要请求的页面不同。针对这种情况,可以把将导致页面跳转的页面统一资源定位符包括在预定数据特征中以用于过滤,并且将该页面会跳转至的页面统一资源定位符关联记录在预定数据特征中或者其他资源库中。如果通信数据包括上行请求,则从中解析出统一资源定位符,并将其与预定数据特征进行比较,如果存在匹配,则通过利用该页面会跳转至的页面统一资源定位符替代该上行请求而过滤掉该上行请求。也就是说,将最终页面的统一资源定位符当作用户真实的上行请求。示例6直接判断上行请求所请求的页面地址例如,用户会在3G站点的游戏页面点击进入下载页面(如图7A中画圈部分所示),这一行为触发的上行请求称为第一请求。但如本领域技术人员所知,多数游戏网站会出于某些原因向用户的浏览器传送回中间页面的html文件(该html文件中嵌有对资源下载对话框的第二请求),并在浏览器向网络服务器发送了该第二请求之后弹出用户本来要请求的资源下载对话框(如图7B所示)°针对这种情况,可以将第二请求涉及的统一资源定位符包括在预定数据特征中以用于过滤。如果通信数据包括上行请求,则从中解析出其所针对的统一资源定位符,并将其与预定数据特征进行比较,如果存在匹配,则过滤掉该上行请求。换言之,这种情况下,认为用户初始键入的统一资源定位符是真实的用户行为,而其后由用户的浏览器自动触发的上行请求并非用户的真实行为。接下来,参考图8,其中示出了根据本发明示例性实施方式的一种数据过滤装置800,其可以包括通信数据获取装置801,配置用于获取由用户的上网行为产生的通信数据;数据特征提取装置802,配置用于提取该通信数据的数据特征;匹配装置803,配置用于将提取的数据特征与预定数据特征进行匹配,以得到匹配结果;以及过滤装置804,配置用于基于该匹配结果对该通信数据进行过滤。根据本发明的实施方式,该数据过滤装置800可以进一步包括通信数据解析装置805,配置用于从用户的上网行为产生的通用分组无线服务数据中过滤掉信令数据并过滤掉例外数据,以得到通信数据。下面,将参考图9来描述可以实现本发明的计算机设备。图9示意性示出了可以实现根据本发明的实施方式的计算设备的结构框图。图9中所示的计算机系统包括CPU(中央处理单元)901、RAM(随机存取存储器)902、R0M(只读存储器)903、系统总线904、硬盘控制器905、键盘控制器906、串行接口控制器907、并行接口控制器908、显示器控制器909、硬盘910、键盘911、串行外部设备912、并行外部设备913和显示器914。在这些部件中,与系统总线904相连的有CPU901、RAM902、ROM903、硬盘控制器905、键盘控制器906、串行接口控制器907、并行接口控制器908和显示器控制器909。硬盘910与硬盘控制器905相连,键盘911与键盘控制器906相连,串行外部设备912与串行接口控制器907相连,并行外部设备913与并行接口控制器908相连,以及显示器914与显示器控制器909相连。图9所述的结构框图仅仅为了示例的目的而示出,并非是对本发明的限制。在一些情况下,可以根据需要添加或者减少其中的一些设备。此外,本发明的实施方式可以以软件、硬件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。尽管本说明书包含多种特定细节,但是不应将其理解为是对本发明的范围或者所要求保护内容的限制,而应当理解为是本发明具体实施方式的特定特征的描述。本说明书中描述的在各个实施方式的上下文中的某些特征也可以在单个实施方式中结合实现。相反,在单个实施方式上下文中描述的各种特征也可以分别实现在多个实施方式中或者任意适当的子组合中。而且,尽管上文可能将特征描述为在特定的组合中操作,甚至初始也是这样要求保护的,但是来自所要求保护的组合的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以针对子组合或组合的变形。类似地,尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。而且,在上述实施方式中多个系统组件的分离不应被理解为在所有实施方式中需要这些操作,应当将其理解为所描述的程序组件和系统通常可以在单个软件产品中集成在一起,或是被打包到多个软件产品中。权利要求1.一种数据过滤方法,包括获取由用户的上网行为产生的通信数据;提取该通信数据的数据特征;将提取的数据特征与预定数据特征进行匹配,以得到匹配结果;以及基于该匹配结果对该通信数据进行过滤。2.如权利要求1的方法,其中,如果所述通信数据包括上行请求和相应的下行数据,则所述提取的数据特征包括下行数据所包含的文件类型信息。3.如权利要求2的方法,其中,所述文件类型信息包括内容类型标识和/或文件类型标识,其中内容类型标识是从下行数据的http包头解析出的,文件类型标识是从下行数据的http包体解析出的。4.如权利要求1的方法,其中,如果所述通信数据包括上行请求,则所述提取的数据特征包括该上行请求的统一资源定位符相关信息。5.如权利要求4的方法,其中,所述上行请求的统一资源定位符相关信息包括统一资源定位符和/或统一资源定位符的部分,二者都是从上行请求解析出的。6.如权利要求5的方法,其中,所述统一资源定位符的部分包括该统一资源定位符结尾处包含的文件扩展名或该统一资源定位符所针对服务器的统一资源定位符。7.如权利要求1的方法,进一步包括从用户的上网行为产生的通用分组无线服务数据中过滤掉信令数据并过滤掉例外数据,以得到通信数据。8.一种数据过滤装置,包括通信数据获取装置,配置用于获取由用户的上网行为产生的通信数据;数据特征提取装置,配置用于提取该通信数据的数据特征;匹配装置,配置用于将提取的数据特征与预定数据特征进行匹配,以得到匹配结果;以及过滤装置,配置用于基于该匹配结果对该通信数据进行过滤。9.如权利要求8的装置,其中,如果所述通信数据包括上行请求和相应的下行数据,则所述提取的数据特征包括下行数据所包含的文件类型信息。10.如权利要求9的装置,其中,所述文件类型信息包括内容类型标识和/或文件类型标识,其中内容类型标识是从下行数据的http包头解析出的,文件类型标识是从下行数据的http包体解析出的。11.如权利要求8的装置,其中,如果所述通信数据包括上行请求,则所述提取的数据特征包括该上行请求的统一资源定位符相关信息。12.如权利要求11的装置,其中,所述上行请求的统一资源定位符相关信息包括统一资源定位符和/或统一资源定位符结尾的部分,二者都是从上行请求解析出的。13.如权利要求12的装置,其中,所述统一资源定位符的部分包括该统一资源定位符结尾处包含的文件扩展名或该统一资源定位符所针对服务器的统一资源定位符。14.如权利要求8的装置,进一步包括通信数据解析装置,配置用于从用户的上网行为产生的通用分组无线服务数据中过滤掉信令数据并过滤掉例外数据,以得到通信数据。全文摘要本发明提供了一种数据过滤方法和数据过滤装置。该数据过滤方法,包括获取由用户的上网行为产生的通信数据;提取该通信数据的数据特征;将提取的数据特征与预定数据特征进行匹配,以得到匹配结果;以及基于该匹配结果对该通信数据进行过滤。文档编号G06F17/30GK102081670SQ20111002597公开日2011年6月1日申请日期2011年1月20日优先权日2011年1月20日发明者程皓申请人:姜洁丽,张金海
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1