一种检测鉴别假冒网页的方法及系统的制作方法

文档序号:7589568阅读:263来源:国知局
专利名称:一种检测鉴别假冒网页的方法及系统的制作方法
技术领域
本发明涉及一种信息安全领域的计算机技术,特别是涉及一种能检测网页是否在互联网上被假冒的检测鉴别假冒网页的方法及系统。
背景技术
随着互联网的快速发展,其安全问题不断出现,除了病毒及黑客攻击外,网站(特别是银行等在线金融网站)被假冒用以诱骗客户提供密码或信用卡号码等个人(身份)机密信息的案例也越来越多起来。香港金融管理局称,自今年6月以来,已发生至少6宗涉及香港银行的假冒网上银行案。而全球类似案件更是数不胜数。据非营利组织“反网上诱骗工作组”(Anti-Phishing WorkingGroup)报告,该种网上诱骗案例正在以每月50%的速度递增。一般情况下5%的人会上当。TRUSTe(一家网络安全的公司)资助的最近的一次涉及1335名美国互联网用户的调查报告说75%用户感觉到他们接到的诱骗邮件数增加了,35%的用户每周都会收到诱骗邮件,70%的用户曾被引诱到所涉假冒网页,15%填写了个人机密信息,而有2%遭受到实际金钱损失。该调查报告估计美国全国每年因假冒网页损失5亿美元。多数受访者认为被假冒的公司有义务采取措施保护自己的品牌,防范此类案件,如用技术手段来认证所发邮件及其网址。
现有反诱骗的相关技术及策略主要侧重于对诱骗所用的“诱饵”——即所发邀请邮件——进行处理,如在客户端或在网关处检测及过滤该类有害邮件(像过滤垃圾邮件一样),或验证邮件的数字签名,或验证所发出邮件的IP地址以确定其真实性。该类方法可靠性并不高,不能完全解决问题,且给客户带来很大负担,需要安装及学习相关软件。在网站一端能做的包括在登陆时采取双重验证,即采用网站先前提供的软件(如电子证书)或硬件设备(如智能卡)。但是该类方法不但管理成本很高,且使网上活动的便利大打折扣。

发明内容
本发明所要解决的技术问题在于提供一种检测鉴别假冒网页的方法及系统,该方法及系统能在互联网上主动出击搜寻与某真实网页内容相似的网页以确定该真实网页是否被假冒。所有网站都可以使用该发明的系统和技术来自动检测自己网站被假冒的情况以采取对应措施防止潜在的损失。
为了实现上述目的,本发明提供了一种检测鉴别假冒网页的方法,用来检测网页在互联网上是否被假冒,其中,包括一网址生成步骤,用来生成所需的网址,所述网址包括与真实网址相似的网址或从域名服务器中能获取的所有网址或从邮件服务器上获取的出现在邮件中的所有的网址;一网页相似度计算步骤,用来计算可能相似网页和真实网页的相似度,以判断所述可能相似网页与真实网页是否相似,其中,所述可能相似网页为所述生成的网址对应的网页;所述真实网页为所述真实网址对应的网页;一报警步骤,用来在出现相似的网页时进行报警。
所述的检测鉴别假冒网页的方法,其中,所述网址生成步骤进一步包括用相似符号替代真实网址中的符号进行变换;或在真实网址上加上关键的前后缀;或将真实网址中出现的词顺序调换;或从域名服务器中获取所有的域名,从中挑选与真实网址相似的域名及其上的所有网址;或从邮件服务器上获取出现在邮件中的所有网址,从中挑选与真实网址相似的所有网址。
所述的检测鉴别假冒网页的方法,其中,所述网页相似度计算步骤是通过比较所述可能相似网页和所述真实网页的结构和/或风格和/或内容和/或颜色和/或字体的视觉相似度来进行计算的,进一步包括步骤A,计算所述可能相似的网页和所述真实网页的细节相似度和风格相似度;步骤B,计算所述可能相似的网页和所述真实网页的整体相似度,其中,所述整体相似度为所述细节相似度和所述风格相似度的加权平均。
所述的检测鉴别假冒网页的方法,其中,所述计算所述可能相似的网页和所述真实网页细节相似度的步骤进一步包括步骤一,分割所述可能相似网页和所述真实网页为基本块,形成所述网页的分级分块表示结构;步骤二,计算所述可能相似网页的基本块和所述真实网页的基本块的相似度,找出所述可能相似网页上与所述真实网页上的每一基本块最相似的块进行匹配,其中,所述基本块的相似度为其在各特征方面的相似度的加权平均;步骤三,计算所述网页在各个级别上的块的相似度,所述高级别的块的相似度为所述相匹配的低级别的块的相似度的加权平均;步骤四,计算所述可能相似的网页和所述真实网页的细节相似度,所述网页的细节相似度为所述真实网页上所有指定的关键块的相似度的加权平均;所述关键块包含单个或多个基本块;其中,所述权值可根据设定的规则自动生成或手工预先设定生成。
所述的检测鉴别假冒网页的方法,其中,所述计算细节相似度的步骤进一步包括判断所述相比较的两个基本块是文本还是图像的步骤;当所述基本块都为文本时,所述特征方面包括文本的内容和/或文本及文本的颜色和/或文本的尺寸和/或文本的边界和/或文本的字体和/或文本的排列方式和/或文本的链接地址;当所述基本块都为图像时,所述特征方面包括图像内容和/或图像颜色和/或图像尺寸和/或图像源文件和/或图像链接地址;当所述基本块中一个为文本一个为图像时,进一步包括调用OCR的方式或用手工标注的方式识别所述图像的文字。
所述的检测鉴别假冒网页的方法,其中,所述计算细节相似度的步骤,进一步包括比较所述网页的版面结构的步骤;所述基本块的匹配建立在所述基本块或所述指定的关键块之间的位置关系不变的基础上。
所述的检测鉴别假冒网页的方法,其中,所述计算各特征方面的相似度的步骤进一步包括判断所述特征方面的值的类型;当所述特征方面的值为离散型时,所述特征方面的相似度可以取1或0;当所述特征方面的值为连续型时,所述特征方面的相似度取决于特征值的差,差越小相似度越大。
所述的检测鉴别假冒网页的方法,其特征在于,所述网页的风格相似度用所述网页的各特征方面的特征值在网页上的分布柱状图的相关系数来代替,如小于0,则设相似度为0;其中,所述各特征方面包括所述网页的内容和/或网页的颜色包括网页的主色调和/或网页中出现的块的边界和/或字体和/或行间距和/或文本的排列及修饰。
所述的检测鉴别假冒网页的方法,其特征在于,所述计算风格相似度的步骤进一步包括,计算所述网页的各特征方面的相似度的加权平均;其中,所述权值可根据设定的规则自动生成或手工预先设定生成。
所述的检测鉴别假冒网页的方法,其中,所述分割网页为基本块的步骤是进一步包括步骤1,调出所述网页的文档对象模型;步骤2,去掉所述文档对象模型中的无用结点;步骤3,确定用于分隔不同区域的分隔物;步骤4,确定所述文档对象模型的子孙结点中,不包含分隔物的最高层结点为所述网页的基本块;步骤5,按相近、相似、及相关的原则逐级向上合并,形成所述网页的新的分级分块表示结构。
所述的检测鉴别假冒网页的方法,其中,所述关键块包括密码和/或需要输入信息的文本和/或公司标志区域。
所述的检测鉴别假冒网页的方法,其中,所述关键块的指定可以自动标注或通过用户手工标注。
所述的检测鉴别假冒网页的方法,其中,所述可能相似的网页和所述真实网页的整体相似度大于一设定阈值时,所述报警模块报警;所述可能相似的网页和所述真实网页的细节相似度大于一设定阈值时,所述报警模块报警;所述可能相似的网页和所述真实网页的风格相似度大于一设定阈值时,所述报警模块报警;或者,所述权值大的关键块出现在所述可能相似的网页上时,所述报警模块报警;或者,所述可能相似的网页上出现与所述权值大的关键块相似度达到一设定阀值的区域时,所述报警模块报警。
本发明还提供了一种检测鉴别假冒网页的系统,用来检测网页在互联网上是否被假冒,其中,包括一网址生成模块,用来生成所需的网址,所述网址包括与真实网址相似的网址或从域名服务器中能获取的所有网址或从邮件服务器上获取的出现在邮件中的所有的网址;
一网页相似度计算模块,用来计算可能相似网页和真实网页的相似度,以判断所述可能相似网页与真实网页是否相似,其中,所述可能相似网页为所述生成的网址对应的网页;所述真实网页为所述真实网址对应的网页;一报警模块,用来在出现相似的网页时进行报警。
所述的检测鉴别假冒网页的系统,其中,所述网页相似度计算模块是通过比较页面的结构和/或风格和/或内容和/或颜色和/或字体的视觉相似度来进行计算的,进一步包括一细节相似度计算模块,用于计算所述可能相似的网页和所述真实网页的细节相似度;一风格相似度计算模块,用于计算所述可能相似的网页和所述真实网页的风格相似度;一整体相似度计算模块,用于计算所述可能相似的网页和所述真实网页的整体相似度,其中,所述整体相似度为所述细节相似度和所述风格相似度的加权平均。
本发明提供了一种提供检测鉴别假冒网页的电子商务网站,其中,包括一客户委托模块,用来接收客户的委托;一客户鉴权模块,用来检查客户是否已缴费及对客户身份进行认证;一网址生成模块,用来生成与客户要求检测鉴别的真实网址相似的网址;一网页相似度计算模块,用来计算所述可能相似网页和所述真实网页的相似度,以判断所述可能相似网页和真实网页是否相似,其中,所述可能相似网页为所述生成的相似网址对应的网页,所述真实网页为所述客户提供的真实网址对应的网页;一检测结果汇报模块,用来向客户汇报检测鉴别的结果。
本发明的方法及系统应用广泛,任何企业或个人的网页都有可能被人假冒,因此都需要使用该方法及系统来保护自己发布的专有信息内容,如品牌,标志,相关新闻,产品资料等。任何企业或个人都可以在自己的机器上使用本发明的系统来自动检查是否有人恶意假冒其网页,而不用客户在客户端安装任何软件,不会给客户带来任何负担。同时,任何服务中介都可以在自己的机器上使用该系统来自动检查是否有人恶意假冒其客户(组织,企业或个人)的网页,然后采取相关措施。本发明的方法具有客观性,网页相似度度量模块是通过比较网页版面结构,整体风格,内容(文本或图像内容),及颜色、字体的视觉相似度来对网页进行度量的。本发明的方法及系统具有多粒度(多层次)的特点。网页版面结构通过先进行页面分割,再合并,在多个级别上提取有意义的区域块。先对真网页上最底层上的每一块(称为基本块),在假网页上找与其在颜色,字体,内容等方面最相似的块进行匹配,然后,在此基础上,对两个网页在各个级别上的块计算其相似度,最终计算两个网页的相似度。本发明的方法及系统可以指定关注重点区域,可以自动标注一些重点区域(如包含一些敏感块,如密码等各种需要输入的信息等文本及公司标志等的区域),用户也可以手工标注一些重点区域及关健字。在计算相似度时,可以对这些重点区域及关健字进行重点关注,加大权值。甚至如发现这些重点区域或关健字被包含在假网页上,就报警,此时可以将其权值设为很大,甚至为1。如果不设置重点域,系统则按照区域大小或平均自动分配权值。
以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。


图1为本发明的结构示意图;图2为本发明的相似度计算模块的流程图;图3为本发明的分割网页模块的流程图;图4为eBay真实网页的一部分及其分割结果;图5为eBay假冒网页的一部分及其分割结果。
具体实施例方式
如图1所示,本发明的系统包括一个自动生成相似网址或所有可能的网址的模块,一个判断两个网页是否相似的网页相似度计算模块,和一个报警模块。该系统可以安装在企业自己的服务器上或中介机构的服务器上。该系统在运行时先调用网址生成模块来生成与真实网址相似的所有网址或所有可能的网址。这一模块中的相似网址的生成方法有很多,如真网址中的符号用相似符号替代(如“1”和“1”等)进行各种变换,加一些关键的前后缀,如“bank”和“card”或将真实网址中的出现的词顺序调换,如“bankonline”改成“onlinebank”等。所有可能的网址包括所有与真实网址可能相关的,经过一定的变换后生成的网址。生成所需的网址,甚至可以是从域名注册公司获得所有的域名然后获得所有网址或者是从域名服务器中获取所有的域名后,从中挑选与真实网址相似(即编辑距离小于一定阈值)的域名及其上的所有网址。或者还可以从邮件服务器上获取出现在邮件中的所有网址,从中挑选与真实网址相似的所有网址。对于任一生成的网址,调出其网页(以下称假网页)与真实网页(以下称真网页)比较,调用相似度计算模块,如判断相似,则报警。
如图2所示,在判断两网页是否相似时,先调用分割网页模块把网页分割成有意义的最小单位即基本块(步骤201),如图4及图5所示的网页均被分割成多个基本块,再获得网页整体风格特征及每一块的外观(视觉)特征(包括前后景颜色,字体等)及内容(文本或图像内容)特征。然后,在基本块匹配的基础上计算两页的细节相似度、风格相似度、及整体相似度(步骤202)。判断整体相似度是否大于所设定的阈值(步骤203),大于阈值时则报警(步骤204),不大于阈值时则结束。或在真网页上的某一关键块(可以人为指定某个基本块为关键块或包含多个基本块的大块为关键块)在另一网页上有高度相似的块与之匹配,也要报警。
图3是分割网页模块的流程图。我们先调出该网页的文档对象模型(DOM),它是一个树状的表示形式。由于各种原因,其中的某些结点并不占据有效区域,如长和宽都为0,或其区域与其所有子结点的区域的并集完全相同。这些无用结点都要先去掉(步骤301),然后确定所有用于分隔不同区域的分隔物。分隔物本身不包含子结点,也不包含文字等,只是一些窄条细长的图像。知道所有的分隔物结点后,那些子孙结点中不包含分隔物的最高层结点被当作网页上最小的有意义的单位,称为基本块。例如,图4中的基本块9,两段文字和一个按钮都不含分隔物,但它们不是基本块,因为基本块9也不含分隔物而且级别更高,即为上面所述的不包含分隔物的最高层结点,但是块9的父亲就包含右边的分隔物了,所以块9是基本块。然后我们把属于同一父亲的、相邻的、只包含文字的基本块按照相似(具有相同的字体、颜色)、相近(所处位置接近)或者相关(基本块与基本块之间具有一定的关联)的原则进行逐级向上合并(步骤302),形成该网页的一个新的分级分块表示结构。
图4为eBay真实网页的一部分及其分割结果。在图4中,真实网页的一部分的被分割成多个基本块,每个基本块用方框分割出,分别用0到22的数字来标记。基本块为具有意义的最小单位,如基本块4表示的是要求输入用户帐号的块,基本块5表示的要求输入用户密码的块。其中,一些基本块可以分别组合成大块,如基本块0至基本块2可组合成一个大块,基本块3至基本块8也可组合成一个大块。一些大块,如基本块3至基本块8组成的大块和基本块9又可以组合成更大块,这样就可以形成网页的分级分块表示结构,在这个分级结构中处于最底层的就是基本块,即基本块为该分级结构的最低级。
图5为某一假冒eBay的网页及其分割结果,同样,图5也被分割成所示的多个个基本块,分别用0’到22’的数字来标记。
两个网页的整体相似度则为两个网页的细节相似度和风格相似度的加权平均。网页的细节相似度的计算是以基本块的相似度为基础的。网页的细节相似度为真实网页上所有指定的关键块(如可指定图4中的基本块3,基本块4及基本块21)的相似度的加权平均。各块的权值可以自动根据规则(如与该块所占面积成正比)计算,也可以事先手工标注设定。两个基本块之间的相似度用其在各特征方面的相似度的加权平均计算(权值表示某特征的重要性,通常事先手工设置好);而在某一特征方面的相似度计算方式取决于该特征的值的类型,如是离散型的,其相似度取决于其特征值是否相同,如相同则相似度为1,否则相似度为0。例如,要计算某两块的字体特征方面的相似度,如果两块的字体都相同,如都是宋体,则相似度取值为1,如其中一块的字体为宋体而另一块的字体为黑体,则相似度为0,亦即这两块在字体特征方面不相似。如果特征值是连续型的(如颜色或字体大小),其相似度取决于其特征值的差,差越小相似度越大。通过计算基本块的相似度可找出在假网页上与真实网页上的基本块相匹配的基本块,即相似度最大的块(根据需要,或者是在网页结构匹配的基础上的相似度最大的块)。
表一列出了图4中的几个关键块(设定真实网页中的基本块3、基本块4、基本块5、基本块11、基本块12及基本块21为关键块)在图5中与之匹配(最相似)的块,及其相应的相似度值。如图5中的基本块3’与图4中的基本块3最相似,其相似度为0.81。其中,设定内容方面的权重为20%,字体方面的权重为5%。在图4中的基本块3中10个词中有3个词“bidding”,“selling”,“activities”出现在图5中的基本块3’中,故相似度为0.3。在字体方面,图4中的基本块3的字体大小为“medium”,图5中的基本块3’的字体大小为“9pt”(即9磅),故其在字体大小方面的相似度为0,其它的特征方面均相同,相似度为1,所以这两个基本块的相对度按照其为各特征方面的相似度的加权平均来计算,其值为,0.3×20%+1×75%=0.81。同样,对于图4中的基本块4和图5中的基本块4’,图4中的基本块5和图5中的基本块5’,其字体大小的相似度为0,其它的特征方面都相同,相似度为1,所以相应的基本块的相似度为,1-1×5%=0.95,而图5中的基本块21’与图4中的基本块21也最相似,其各特征方面均相同,所以其相似度值为1。相应地可以计算其它基本块的相似度。此时可以认定图5所示网页为假冒网页,报警模块报警。所述关键块的设定可以是自动标注的,如自动根据块占用的面积来确定,或手工标注,如手工标注基本块21为关键块。

表一在需检测假网页上是否包含真网页上的某一大块(如图4中的基本块3至基本块8组合成的大块),可以指定大块为关键块。在计算大块的相似度时要以基本块的相似度为基础,大块的相对度为相匹配的基本块的相似度的加权平均。或者,当指定基本块3至基本块8组合成的大块和基本块9组合成的更大的块为关键块时,所述更大的块的相似度是所述的基本块3至基本块8组合成的大块的相似度和所述的基本块9的相似度的加权平均。
另外,块匹配也可以基于版面结构,即在匹配时要保持块之间位置关系不变(即位置关系也能匹配上),此时,一些关键块可以先匹配好用来定位(或对齐align)两个网页以便匹配其它块。
在计算网页的细节相似度时,对真网页上的每一基本块,找到在假网页上与之最相似的基本块。当两个基本块都是文本时可考虑的特征方面如表二所示。

表二当只考虑文本块的大小、颜色、内容、字体时,其相似度Sim(Bt,Bf)计算公式如下Sim(Bt,Bf)=ws*Ss(Bt,Bf)+wc*Sc(Bt,Bf)+wf*Sf(Bt,Bf)+wt*St(Bt,Bf),其中,Bt代表真网页上的块,Bf代表假网页上的块,Ss(Bt,Bf)为块大小相似度,为(min(0,(Wt-Wf)/Wt)+min(0,(Ht-Hf)/Ht))/2,W为块宽,H为块高。Sc(Bt,Bf)为颜色相似度,如果颜色相同则为1,否则为零,Sf(Bt,Bf)为字体大小的相似度,如果字体大小完全相同则为1,大小相差为1点时值为0.5,否则为零。St(Bt,Bf)为文字内容相似度,为Bt上的关健字中出现在Bf上的比例,ws+wc+wf+wt=1为各项的权值。本文中的各项权值的取值范围为
,为0时表示该项不参加计算,为1时表示只用此项参加计算。
当两个基本块中有一块是图像,另一块是文本时,则调用OCR(OpticalCharacter Recognition光学字符识别技术,现有很多现成产品)来识别其文字,然后其相似度的计算同两个基本块都是文本的情况。其中,如果Bt是图像,也可以用手工标注关键字。
当两个基本块都是图像时,可考虑的特征方面如表三所示。

表三当只考虑图像块的大小及内容时,其相似度Sim(Bt,Bf)计算公式如下Sim(Bt,Bf)=ws*Ss(Bt,Bf)+wg*Sg(Bt,Bf),Ss(Bt,Bf)的计算方法与文本块中相应项的计算方法相同。Sg(Bt,Bf)为图像内容特征的相似度,可采用已有的基于内容的图像检索(CBIR)方法计算。其中,ws+wg=1为各项的权值。
两个网页的细节相似度为真网页上所有指定的关键块(Bi)的相似度的加权平均Sim(Pt,Pf)=wi*Sim(Bi,Bf(i))。Bf(i)为假网页上与Bi最相似的块,即假网页上与Bi相匹配的块,也即假网页上与Bi相似度最大的块。
网页的整体风格特征包括网页上文字及图像的主色调、字体、行间距等。两个网页的风格方面的相似度就是在各个特征方面的相似度的加权平均。表四具体示出了可以考虑的各特征方面。在每一特征方面的相似度用其特征值在两个网页上的分布柱状图(或直方图--histogram)的相关系数(correlation coefficient)来代替,如小于0,则设相似度为0。例如,字体的特征值在真网页上的直方图是,使用宋体的有5个基本块,使用黑体的有8块;在颜色方面的直方图是,用红的有3块,黑的有8块,绿的有5块,等等。对于由多个基本块组成的大块,需要的时候可参照网页风格相似度的计算方法来计算大块的风格相似度。

表四两个网页的整体相似度则为两个网页的细节相似度和风格相似度的加权平均。可以设定当网页的整体相似度或者网页的细节相似度或者风格相似度的值超过指定的阈值时,认定所述网页确实为假冒网页,报警模块报警。或者也可设定某些权值大的关键块为重点区域,当重点区域出现在假网页上时,所述报警模块报警;或者,当假网页上出现与重点区域的相似度达到一设定阀值的区域时,所述报警模块报警。相应的,还可根据需要设定报警模块报警的条件。
利用本发明的检测鉴别假冒网页的方法可以建立一个提供检测鉴别假冒网页服务的电子商务网站,这个电子商务网站包括一客户委托模块,用来接收客户要求鉴别网页的委托;一客户鉴权模块,用来检查客户是否已缴费及对客户身份进行认证;一网址生成模块,用来生成与客户要求检测鉴别的真实网址相似的网址;一网页相似度计算模块,用来计算所述可能相似网页和所述真实网页的相似度,以判断所述可能相似网页和真实网页是否相似,其中,所述可能相似网页为所述生成的相似网址对应的网页,所述真实网页为所述客户提供的真实网址对应的网页;一检测结果汇报模块,用来向客户汇报检测鉴别的结果。
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
权利要求
1.一种检测鉴别假冒网页的方法,用来检测网页在互联网上是否被假冒,其特征在于,包括一网址生成步骤,用来生成所需的网址,所述网址包括与真实网址相似的网址或从域名服务器中能获取的所有网址或从邮件服务器上获取的出现在邮件中的所有的网址;一网页相似度计算步骤,用来计算可能相似网页和真实网页的相似度,以判断所述可能相似网页与真实网页是否相似,其中,所述可能相似网页为所述生成的网址对应的网页;所述真实网页为所述真实网址对应的网页;一报警步骤,用来在出现相似的网页时进行报警。
2.根据权利要求1所述的检测鉴别假冒网页的方法,其特征在于,所述网址生成步骤进一步包括用相似符号替代真实网址中的符号进行变换;或在真实网址上加上关键的前后缀;或将真实网址中出现的词顺序调换;或从域名服务器中获取所有的域名,从中挑选与真实网址相似的域名及其上的所有网址;或从邮件服务器上获取出现在邮件中的所有网址,从中挑选与真实网址相似的所有网址。
3.根据权利要求1所述的检测鉴别假冒网页的方法,其特征在于,所述网页相似度计算步骤是通过比较所述可能相似网页和所述真实网页的结构和/或风格和/或内容和/或颜色和/或字体的视觉相似度来进行计算的,进一步包括步骤A,计算所述可能相似的网页和所述真实网页的细节相似度和风格相似度;步骤B,计算所述可能相似的网页和所述真实网页的整体相似度,其中,所述整体相似度为所述细节相似度和所述风格相似度的加权平均。
4.根据权利要求3所述的检测鉴别假冒网页的方法,其特征在于,所述计算所述可能相似的网页和所述真实网页细节相似度的步骤进一步包括步骤一,分割所述可能相似网页和所述真实网页为基本块,形成所述网页的分级分块表示结构;步骤二,计算所述可能相似网页的基本块和所述真实网页的基本块的相似度,找出所述可能相似网页上与所述真实网页上的每一基本块最相似的块进行匹配,其中,所述基本块的相似度为其在各特征方面的相似度的加权平均;步骤三,计算所述网页在各个级别上的块的相似度,所述高级别的块的相似度为所述相匹配的低级别的块的相似度的加权平均;步骤四,计算所述可能相似的网页和所述真实网页的细节相似度,所述网页的细节相似度为所述真实网页上所有指定的关键块的相似度的加权平均;所述关键块包含单个或多个基本块;其中,所述权值可根据设定的规则自动生成或手工预先设定生成。
5.根据权利要求4所述的检测鉴别假冒网页的方法,其特征在于,所述计算细节相似度的步骤进一步包括判断所述相比较的两个基本块是文本还是图像的步骤;当所述基本块都为文本时,所述特征方面包括文本的内容和/或文本及文本的颜色和/或文本的尺寸和/或文本的边界和/或文本的字体和/或文本的排列方式和/或文本的链接地址;当所述基本块都为图像时,所述特征方面包括图像内容和/或图像颜色和/或图像尺寸和/或图像源文件和/或图像链接地址;当所述基本块中一个为文本一个为图像时,进一步包括调用OCR的方式或用手工标注的方式识别所述图像的文字。
6.根据权利要求5所述的检测鉴别假冒网页的方法,其特征在于,所述计算细节相似度的步骤,进一步包括比较所述网页的版面结构的步骤;所述基本块的匹配建立在所述基本块或所述指定的关键块之间的位置关系不变的基础上。
7.根据权利要求5或6所述的检测鉴别假冒网页的方法,其特征在于,所述计算各特征方面的相似度的步骤进一步包括判断所述特征方面的值的类型;当所述特征方面的值为离散型时,所述特征方面的相似度可以取1或0;当所述特征方面的值为连续型时,所述特征方面的相似度取决于特征值的差,差越小相似度越大。
8.根据权利要求3所述的检测鉴别假冒网页的方法,其特征在于,所述网页的风格相似度用所述网页的各特征方面的特征值在网页上的分布柱状图的相关系数来代替,如小于0,则设相似度为0;其中,所述各特征方面包括所述网页的内容和/或网页的颜色包括网页的主色调和/或网页中出现的块的边界和/或字体和/或行间距和/或文本的排列及修饰。
9.根据权利要求8所述的检测鉴别假冒网页的方法,其特征在于,所述计算风格相似度的步骤进一步包括,计算所述网页的各特征方面的相似度的加权平均;其中,所述权值可根据设定的规则自动生成或手工预先设定生成。
10.根据权利要求4所述的检测鉴别假冒网页的方法,其特征在于,所述分割网页为基本块的步骤是进一步包括步骤1,调出所述网页的文档对象模型;步骤2,去掉所述文档对象模型中的无用结点;步骤3,确定用于分隔不同区域的分隔物;步骤4,确定所述文档对象模型的子孙结点中,不包含分隔物的最高层结点为所述网页的基本块;步骤5,按相近、相似、及相关的原则逐级向上合并,形成所述网页的新的分级分块表示结构。
11.根据权利要求4所述的检测鉴别假冒网页的方法,其特征在于,所述关键块包括密码和/或需要输入信息的文本和/或公司标志区域。
12.根据权利要求11所述的检测鉴别假冒网页的方法,其特征在于,所述关键块的指定可以自动标注或通过用户手工标注。
13.根据权利要求4、5、6、8、9、10、11或12所述的检测鉴别假冒网页的方法,其特征在于,所述可能相似的网页和所述真实网页的整体相似度大于一设定阈值时,所述报警模块报警;所述可能相似的网页和所述真实网页的细节相似度大于一设定阈值时,所述报警模块报警;所述可能相似的网页和所述真实网页的风格相似度大于一设定阈值时,所述报警模块报警;或者,所述权值大的关键块出现在所述可能相似的网页上时,所述报警模块报警;或者,所述可能相似的网页上出现与所述权值大的关键块相似度达到一设定阀值的区域时,所述报警模块报警。
14.一种检测鉴别假冒网页的系统,用来检测网页在互联网上是否被假冒,其特征在于,包括一网址生成模块,用来生成所需的网址,所述网址包括与真实网址相似的网址或从域名服务器中能获取的所有网址或从邮件服务器上获取的出现在邮件中的所有的网址。一网页相似度计算模块,用来计算可能相似网页和真实网页的相似度,以判断所述可能相似网页与真实网页是否相似,其中,所述可能相似网页为所述生成的网址对应的网页;所述真实网页为所述真实网址对应的网页;一报警模块,用来在出现相似的网页时进行报警。
15.根据权利要求14所述的检测鉴别假冒网页的系统,其特征在于,所述网页相似度计算模块是通过比较页面的结构和/或风格和/或内容和/或颜色和/或字体的视觉相似度来进行计算的,进一步包括一细节相似度计算模块,用于计算所述可能相似的网页和所述真实网页的细节相似度;一风格相似度计算模块,用于计算所述可能相似的网页和所述真实网页的风格相似度;一整体相似度计算模块,用于计算所述可能相似的网页和所述真实网页的整体相似度,其中,所述整体相似度为所述细节相似度和所述风格相似度的加权平均。
16.一种提供检测鉴别假冒网页的电子商务网站,其特征在于,包括一客户委托模块,用来接收客户的委托;一客户鉴权模块,用来检查客户是否已缴费及对客户身份进行认证;一网址生成模块,用来生成与客户要求检测鉴别的真实网址相似的网址;一网页相似度计算模块,用来计算所述可能相似网页和所述真实网页的相似度,以判断所述可能相似网页和真实网页是否相似,其中,所述可能相似网页为所述生成的相似网址对应的网页,所述真实网页为所述客户提供的真实网址对应的网页;一检测结果汇报模块,用来向客户汇报检测鉴别的结果。
全文摘要
本发明涉及一种检测鉴别假冒网页的方法及系统,用来检测网页在互联网上是否被假冒,所述方法包括,一网址生成步骤,用来生成与真实网址相似的网址或需要的所有网址;一网页相似度计算步骤,用来计算可能相似网页和真实网页的相似度,以判断所述可能相似网页与真实网页是否相似,其中,可能相似网页为生成的相似网址对应的网页;真实网页为真实网址对应的网页;一报警步骤,用来在出现相似的网页时进行报警。其中,网页相似度的计算是通过比较页面的结构和/或风格和/或内容和/或颜色和/或字体的视觉相似度来进行计算的,进一步包括计算网页的细节相似度和风格相似度,再将细节相似度和风格相似度进行加权平均得到网页的整体相似度。
文档编号H04L12/24GK1728655SQ20041000987
公开日2006年2月1日 申请日期2004年11月25日 优先权日2004年11月25日
发明者刘文印 申请人:刘文印
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1