一种图片下载系统及方法

文档序号:6573874阅读:149来源:国知局
专利名称:一种图片下载系统及方法
技术领域
本发明属于计算机技术领域,尤其涉及一种图片下载系统及方法。
背景技术
图片下载系统在网络上利用爬取技术下载图片文件,即通过抓取带有图片的网页获得图片链接,即图片的统一资源定位符(Uniform Resource Location,URL)。
图片下载系统可以通过网页净化去除图片中的广告部分,即通过分析网页的结构和文字特点,将网页中所带有的广告部分(包含URL)去除,但该方案只是针对单一网页的结构和全网网页的特点进行判断,而对于某一站点内的区域特点利用不够导致去除广告的效率低。
此外,图片下载系统还可以通过网页模版去除广告,即针对特定网站或特定类型的网页制作模版,在网页分析的过程中利用模版判断图片连接是否为广告,是则将其去除。但该方案的这种分析不够全面,因为大部分网站没有模版,所以去除广告的效率也很低。

发明内容
本发明实施例的目的在于提供一种图片下载系统,旨在解决现有技术中通过网页净化或网页模板的方式的去除广告效率低的问题。
本发明实施例的另一目的在于提供一种图片下载方法。
本发明实施例是这样实现的,一种图片下载系统,所述系统包括网页分析模块,用于分析网页并获取所述网页中图片的统一资源定位符;图片信息库,用于保存已下载图片的统一资源定位符,以及记录了图片与网站归属关系的文档信息;控制模块,用于根据所述网页分析模块提供的统一资源定位符判断图片信息库中是否包括所述统一资源定位符,并发出相应的控制信号;下载模块,用于当所述图片信息库中不包括所述统一资源定位符时,接收所述控制模块发送的控制信号,根据所述图片的统一资源定位符下载所述图片并将所述图片的统一资源定位符保存到图片信息库中;文档信息记录模块,用于记录所述图片与网站的归属关系,并保存到所述图片信息库中;所述控制模块进一步用于根据包括图片与网站归属关系的文档信息判断所述图片在当前网站出现次数是否大于阈值p,是则将其判定为广告图片并删除,否则不进行删除操作;其中阈值p为当前网站上已下载图片的平均分布值。
一种图片下载方法,所述方法包括A.分析网页,获取所述网页中图片的统一资源定位符;B.判断图片信息库中是否包括所述统一资源定位符,是则执行步骤C,否则执行步骤D;C.根据所述图片的统一资源定位符下载所述图片并将图片的统一资源定位符保存到图片信息库中;D.记录所述图片的文档信息并保存在图片信息库中,所述文档信息包括图片与网站的归属关系;E.根据所述文档信息判断所述图片在当前网站出现次数是否大于阈值p,是则将其判定为广告图片并删除,否则不进行删除操作;其中阈值p为当前网站上已下载图片的平均分布值。
本发明实施例通过建立图片信息库,对在网页中出现的图片进行记录,将在同一网站出现的次数异常的图片判定为广告,充分利用了同一网站上网页所具有的区域特点,从而提高了判断广告图片的效率。


图1是本发明实施例提供的图片下载系统结构图;图2是本发明实施例提供的图片下载方法的实现流程图。
具体实施例方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例通过建立图片信息库,对在网页中出现的图片进行记录,将在同一网站出现的次数异常的图片判定为广告,充分利用了同一网站上网页所具有的区域特点,从而提高了判断广告图片的效率。
图1示出了本发明实施例提供的图片下载系统100,包括网页分析模块101、图片信息库102、控制模块103、下载模块104以及文档信息记录模块105。其中,网页分析模块101分析网页并获取网页中图片的URL,图片信息库102保存已下载的图片URL,以及记录了图片与网站归属关系的文档信息等。
控制模块103根据网页分析模块101提供的URL判断图片信息库102中是否包括该URL,是则发送控制信号,控制文档信息记录模块105记录该图片与网站的归属关系,并将其作为文档信息保存在图片信息库102中;否则还向下载模块104发送控制信号,触发下载模块104根据该URL下载对应的图片并将图片的URL保存到图片信息库102中。
控制模块103还根据图片信息库102中的文档信息,判断当前图片在当前网站出现的次数是否大于阈值p,是则将其判定为广告图片并删除,否则不进行删除操作;其中,阈值p为当前网站上已下载图片的平均分布值,当前网站上已下载图片的平均分布值可以通过统计图片信息库存储的图片文档信息中的记录获得。例如一个网站上共有20张图片,其中15张图片在该网站上出现的次数为2次,5张图片在该网站上出现的次数为50次,那么平均分布值为(15*2+5*50)/(15+5)C=14C,其中,C为根据反复实验总结出的经验常数,假设为2,那么只要当图片在该网站上出现的次数超过28则会被判断为广告图片。
在本发明一实施例中,文档信息记录模块105还用于记录图片与当前网站的所有网页的位置关系,例如图片在网页结构中的正文位置等,并保存在图片信息库102中,此时,图片在当前网站出现的次数可以通过对该网站上所有网页进行加权的广告分值来体现,同理的,阈值p为所有图片在该网站上的广告分值的平均数,从而进一步提高判断广告图片的准确率。例如一个网站上共有n个网页,m张图片,Kij为第j张图片在第i个网页中的广告权重(当图片未在某个网页中出现则Kij为0),则该图片在当前网站上的广告分值为w=Σi=0n(Kij),]]>广告权重Kij随图片所在网页的不同而不同,例如,当图片在网页中的位置较好时(例如正文位置),则广告权重较低,而当图片所在网页中的位置较差时,则广告权重较高。
阈值p,即所有图片在该网站上的广告分值的平均数为v=C·Σj=0m(Σi=0n(Kij))m,]]>其中,C为根据反复实验总结出的经验常数。
所以,当图片在当前网站上的广告分值w大于所有图片在该网站上广告分值的平均数v时则会被判断为广告图片。
在本发明一实施例中,控制模块103根据当前图片的URL在与当前网站相关的文档信息中的重复次数作为判断当前图片在当前网站所有网页中出现的次数的依据。
在本发明另一实施例中,为避免相同广告图片具有不同的URL造成广告图片的漏判,控制模块103使用图片指纹替代URL作为判断图片在当前网站出现次数的依据,图片指纹是根据图片的二进制源码计算出的用于标记图片内容的一个唯一的数字序列,图片指纹可以是该图片的全部数据经信息-摘要算法(Message-Digest Algorithm 5,md5)计算得到的值。为此,文档信息记录模块105还用于根据下载模块104下载的图片二进制源码计算该图片的指纹,并将其保存到图片信息库102中相应的文档信息中。控制模块103将图片信息库102中与当前网站相关的文档信息中当前图片指纹重复出现的次数作为判断图片在当前网站出现次数的依据。
在本发明一优选实施例中,图片下载系统100还包括下载优化模块106,对网页进行评价,根据评价进行网页链接推送。例如根据包含广告图片的由多到少,将网页分为由低到高多个等级,因为每个网页都有很多外部链接,所以可以根据这个网页的等级决定是不是推送这个网页含有的外部链接以及推送该网页中外部链接的数量等,便于系统在下一轮下载中只针对推送的外部链接进行图片下载,从而优化下载方向。
图2示出了本发明实施例提供的图片下载方法的实现流程,详述如下在步骤S201中,分析网页,取得其中图片的URL;在步骤S202中,判断图片信息库中是否有当前图片的URL,是则执行步骤S204,否则执行步骤S203;在步骤S203中,根据图片的URL下载图片,并将图片的URL保存到图片信息库中,继续执行步骤S204;在步骤S204中,记录图片与当前网站的归属关系,并作为文档信息保存;在步骤S205中,分析上述文档信息,判断图片在当前网站出现次数是否大于阈值p,是则执行步骤S206,否则执行步骤S207;在本发明一实施例中,根据图片信息库中图片的URL在相应的图片文档信息中的重复次数得出该图片在当前网站上出现的次数,在本发明另一实施例中,为避免相同广告图片具有不同的URL造成广告图片的漏判,可以选用图片指纹替代URL作为判断图片在当前网站出现次数的依据。相应的,在步骤S204中记录图片与当前网站归属关系的同时,还包括根据该图片的二进制源码计算该图片的指纹,并将其一并保存到文档信息中的步骤。
其中,阈值p为当前网站上已下载图片的平均分布值,当前网站上已下载图片的平均分布值可以通过统计图片信息库存储的图片文档信息中的记录获得。例如一个网站上共有20张图片,其中15张图片在该网站上出现的次数为2次,5张图片在该网站上出现的次数为50次,那么平均分布值为(15*2+5*50)/(15+5)C=14C,其中,C为根据反复实验总结出的经验常数,假设为2,那么只要当图片在该网站上出现的次数超过28则会被判断为广告图片。
在本发明一实施例中,步骤S204中还包括在文档信息中记录图片与网页位置关系的步骤,此时,图片在当前网站出现的次数可以通过对该网站上所有网页进行加权的广告分值来体现,同理的,阈值p为所有图片在该网站上的广告分值的平均数,从而进一步提高判断广告图片的准确率。例如一个网站上共有n个网页,m张图片,Kij为第j张图片在第i个网页中的广告权重(当图片未在某个网页中出现则Kij为0),则该图片在当前网站上的广告分值为w=Σi=0n(Kij),]]>广告权重Kij随图片所在网页的不同而不同,例如,当图片在网页中的位置较好时(例如正文位置),则广告权重较低,而当图片所在网页中的位置较差时,则广告权重较高。
阈值p,即所有图片在该网站上的广告分值的平均数为v=C·Σj=0m(Σi=0n(Kij))m,]]>其中,C为根据反复实验总结出的经验常数。
所以,当图片在当前网站所有网页中出现的广告分值w大于所有图片的广告分值的平均数v时执行步骤S206,否则执行步骤S207。
在步骤S206中,将该图片判定为广告图片并删除;在步骤S207中,对网页进行评价,根据评价进行网页链接推送。
本发明实施例通过建立图片信息库,对在网页中出现的图片进行记录,将在同一网站出现的次数异常的图片判定为广告,充分利用了同一网站上网页所具有的区域特点,使得判断广告图片的效率大大提高。此外,根据包含广告图片的由多到少,对网页进行评价,根据评价进行网页链接推送从而优化了下载方向。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种图片下载系统,其特征在于,所述系统包括网页分析模块,用于分析网页并获取所述网页中图片的统一资源定位符;图片信息库,用于保存已下载图片的统一资源定位符,以及记录了图片与网站归属关系的文档信息;控制模块,用于根据所述网页分析模块提供的统一资源定位符判断图片信息库中是否包括所述统一资源定位符,并发出相应的控制信号;下载模块,用于当所述图片信息库中不包括所述统一资源定位符时,接收所述控制模块发送的控制信号,根据所述图片的统一资源定位符下载所述图片并将所述图片的统一资源定位符保存到图片信息库中;文档信息记录模块,用于记录所述图片与网站的归属关系,并保存到所述图片信息库中;所述控制模块进一步用于根据包括图片与网站归属关系的文档信息判断所述图片在当前网站出现次数是否大于阈值p,是则将其判定为广告图片并删除,否则不进行删除操作;其中阈值p为当前网站上已下载图片的平均分布值。
2.如权利要求1所述的图片下载系统,其特征在于,所述控制模块进一步用于判断当前图片的统一资源定位符在与当前网站相关的文档信息中的重复次数是否大于阈值p。
3.如权利要求1所述的图片下载系统,其特征在于,所述文档信息记录模块进一步用于根据所述下载模块下载的图片二进制源码计算所述图片的指纹,并将其保存到所述图片信息库中相应的文档信息中;所述控制模块进一步用于判断当前图片的指纹在与当前网站相关的文档信息中重复出现的次数是否大于阈值p。
4.如权利要求1所述的图片下载系统,其特征在于,所述文档信息记录模块进一步用于记录图片与网页的位置关系;所述图片信息库进一步用于保存记录了所述图片与网页的位置关系的文档信息。
5.如权利要求4所述的图片下载系统,其特征在于,所述图片在当前网站出现的次数通过图片在当前网站上的广告分值体现,所述广告分值按下式计算w=Σi=0n(Kij)]]>,其中n为当前网站上的网页数量,Kij为第j张图片在第i个网页中的广告权重;所述阈值p为所有图片在当前网站上的广告分值的平均数,所述所有图片在当前网站上的广告分值的平均数按下式计算v=C·Σj=0m(Σi=0n(Kij))m]]>,其中,C为根据实验总结出的经验常数,m为当前网站上的图片数量。
6.如权利要求1至5任一权利要求所述的图片下载系统,其特征在于,所述系统进一步包括下载优化模块,用于对当前网页进行评价,根据评价对网页中的外部链接进行推送。
7.一种图片下载方法,其特征在于,所述方法包括A.分析网页,获取所述网页中图片的统一资源定位符;B.判断图片信息库中是否包括所述统一资源定位符,是则执行步骤C,否则执行步骤D;C.根据所述图片的统一资源定位符下载所述图片并将图片的统一资源定位符保存到图片信息库中;D.记录所述图片的文档信息并保存在图片信息库中,所述文档信息包括图片与网站的归属关系;E.根据所述文档信息判断所述图片在当前网站出现次数是否大于阈值p,是则将其判定为广告图片并删除,否则不进行删除操作;其中阈值p为当前网站上已下载图片的平均分布值。
8.如权利要求7所述的图片下载方法,其特征在于,所述步骤E进一步包括E11.判断当前图片的统一资源定位符在与当前网站相关的所述文档信息中的重复次数是否大于阈值p。
9.如权利要求7所述的图片下载方法,其特征在于,所述步骤D进一步包括根据已下载图片的二进制源码计算图片的指纹;将图片的指纹保存到所述图片信息库中相应的文档信息中;所述步骤E进一步包括E21.判断当前图片的指纹在与当前网站相关的所述文档信息中重复出现的次数是否大于阈值p。
10.如权利要求7所述的图片下载方法,其特征在于,所述步骤D进一步包括在文档信息中记录图片与网页的位置关系。
11.如权利要求10所述的图片下载方法,其特征在于,所述图片在当前网站出现的次数通过图片在当前网站上的广告分值体现,所述广告分值按下式计算w=Σi=0n(Kij)]]>,其中n为当前网站上的网页数量, Kij为第j张图片在第i个网页中的广告权重;所述阈值p为所有图片在当前网站上的广告分值的平均数,所述所有图片在当前网站上的广告分值的平均数按下式计算v=C·Σj=0m(Σi=0n(Kij))m]]>,其中,C为根据实验总结出的经验常数,m为当前网站上的图片数量。
12.如权利要求7至11任一权利要求所述的图片下载方法,其特征在于,在所述步骤E之后,所述方法还包括F.对当前网页进行评价,根据评价对网页中的外部链接进行推送。
全文摘要
本发明提供了一种图片下载系统及方法,所述系统包括网页分析模块,分析网页并获取所述网页中图片的URL;图片信息库,保存已下载图片的URL,以及记录了图片与网站归属关系的文档信息;控制模块,根据网页分析模块提供的URL判断图片信息库中是否包括所述URL并发出相应的控制信号;下载模块,当图片信息库中不包括所述URL时,接收控制模块发送的控制信号,根据图片的URL下载图片并将图片的URL保存到图片信息库中;文档信息记录模块,记录图片与网站的归属关系,并保存到图片信息库中;所述控制模块还根据包括图片与网站归属关系的文档信息判断所述图片在当前网站出现次数是否大于阈值p,是则将其判定为广告图片并删除。
文档编号G06F17/30GK101071433SQ20071007440
公开日2007年11月14日 申请日期2007年5月10日 优先权日2007年5月10日
发明者胡景贺 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1