一种识别疑似仿冒网站的方法与系统的制作方法

文档序号:6577374阅读:158来源:国知局
专利名称:一种识别疑似仿冒网站的方法与系统的制作方法
技术领域
本发明涉及计算机技术领域,特别涉及一种识别疑似仿冒网站的方法与 系统。
背景技术
随着网络技术的发展,即时通讯(IM)工具逐渐成为用户进行在线交易 /电子商务的一种重要工具。而其中不乏一些不法网站,通过将网址的名称设
为非常接近正规网站的方式,骗取用户信任,损害用户利益。 目前,业界通常有如下共识
仿冒网站,指网站地址的名称非常类似于正M^的商业网站,且意图在于 损害用户利益的网站。
仿冒网站列表列举了已知的被判定为仿冒网站的地址列表,这类列表 中的网站往往通过用户投诉,或者人工筛查获得,且这类列表中的网站通常 已经损害了用户的利益。
待保护网站列表列举了需要进行保护的正规网站, 一般来说这类需要 保护的网站地址,是网络交易或者电子商务中高频度出现的网站,比如淘宝, 阿里巴巴,支付宝等,其也是最容易被仿冒的网站。
现有的识别技术以数据库形式提供了已知的正规网站或者仿冒网站的查 询识别,即通过查询待保护网站列表和/或仿冒网站列表来识别正规网站和/ 或仿冒网站。现有的识别技术虽然可以识别出仿冒网站,但不法分子可以通 过重新申请新的网站地址的方式继续行骗,而且,现有的识别技术需要在收 到科艮或者说事发后才能更新数据库,无法做到前期识别,风险警示,也就 是说,现有的识别实际是一种精确的匹配,即数据库中存储了某个网站地址 后,才能进行识别,否则无法进行识别。

发明内容
本申请实施例4是供一种识别1€似仿冒网站的方法与系统,以达到事前识别,降低访问仿冒网站概率的目的。
本申请公开了 一种识别疑似仿冒网站的方法,包括
设备获得待识别的网站地址;
才艮据所述待识别的网站地址确定所述网站不属于待保护的正规网站且不 是仿冒网站后,应用所述待识别的网站地址与疑似仿冒网站规则进行第二正 则表达式匹配,若匹配成功,则判定所述待识别网站地址为疑似仿冒网站。
其中,所述设备获得待识别的网站地址的步骤包括
将设备所得到的任何字符串和/或文本按照统一资源定位符URL的特 征,使用预先设定的第一正则表达式进行匹配,从匹配结果中获得待识别的 网站地址;或者,如果设备所得到的任何字符串和/或文本本身已经带有统一 资源定位符信息,则直接从该字符串和/或文本获得待识别的网站地址。
其中,应用所述待识别的网站地址与疑似仿冒网站规则进行第二正则表 达式匹配的步骤包括
01) 从所获得的待识别网站地址中4是取主机统一资源定位符信息;
02) 判断所述主机统一资源定位符信息中是否存在干扰字符,若存在, 则执行步骤03),若不存在,则将所述提取出的主机统一资源定位符信息作 为待对比的关键字,然后执行步骤04);
03) 将所述提取出的主机统一资源定位符信息中的干扰字符删除,将删 除干扰字符后的主机统一 资源定位符信息作为待对比的关键字;
04 )将所述待对比的关键字和疑似仿冒网站规则进行第二正则表达式匹配。
其中,所述干扰字符包括下划线、减号、空格、点号其中之一或任意 组合。
其中,根据所述网站地址确定所述网站不属于待保护的正规网站且不是 仿冒网站的步骤包括
判断待识别的网站地址是否在预设的待保护网站列表中,若不存在,则 所述获得的待识别网站地址不属于待保护的正规网站;
判断待识别的网站地址是否在预设的仿冒网站列表中,若不存在,则所 述获得的待识别网站地址不是仿冒网站。其中,所述设备是用户端设备或网络侧的服务器。
其中,所述用户端设备包括即时通信工具和移动终端。
其中,所述方法进一步包括所述设备将判断结果通知给用户。
本申请还公开了 一种识别疑似仿冒网站的装置,包括
网站地址获取单元,用于获得待识别的网站地址;
网站地址处理单元,用于根据所述待识别的网站地址,确定所述网站不 属于待保护的正规网站且不是仿冒网站,且应用所述待识别的网站地址与疑 似仿冒网站规则进行第二正则表达式匹配成功后,判定所述待识别网站地址 为疑似仿冒网站。
其中,所述网站地址获取单元包括
第一网址获得单元,用于将设备所得到的任何字符串和/或文本按照统一 资源定位符URL的特征,使用预先设定的第一正则表达式进行匹配,从匹配 结果中获得待识别的网站地址;
第二网址获得单元,用于在设备所得到的任何字符串和/或文本本身已经 带有统一资源定位符信息时,直接从该字符串和/或文本获得待识别的网站地 址。
其中,所述网站地址处理单元包括
正规网站判定单元,用于确定所述待识别的网站地址不在预设的待保护 网站列表中后,确定所述待识别网站地址不属于待保护的正规网站;
仿冒网站判定单元,用于确定所述待识别的网站地址不在预-i殳的仿冒网 站列表中后,确定所述待识别网站地址不是仿冒网站;
疑似网站判定单元,用于在所述待识别网站地址与lt似仿冒网站规则进 行第二正则表达式匹配成功后,判定所述待识别的网站地址为疑似仿冒网站。
其中,所述疑似网站判定单元包括
提取单元,用于从所获得的待识别网站地址中提取主机统一资源定位符 信息;
关键字获取单元,用于在不存在干扰字符时,将所述提取出的主机统一 资源定位符信息作为待对比的关键字,在存在干扰字符时,将所述提取出的 主机统一资源定位符信息中的干扰字符删除,将删除干扰字符后的主机统一资源定位符信息作为待对比的关键字;
匹配单元,用于在所述待对比的关键字与疑似仿冒网站规则进行第二正 则表达式匹配成功后,判定所述待识别的网站地址为ll:似仿冒网站。
其中,所述干扰字符包括下划线、减号、空格、点号其中之一或任意 组合。
其中,所述装置位于用户端设备或网络侧设备。 其中,所述装置进一步包括提示装置,用于将判断结果通知给用户。 应用本申请上述实施例提供的识别疑似仿冒网站的方法和装置,可以在 用户受损失之前识别出疑似仿冒网站,达到了事前识別,降低访问仿冒网站 概率的目的,提前进行了风险提示,将可能的损失降为最小。


为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲, 在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。 图1是根据本申请实施例的一种识别lt似仿冒网站的方法流程图; 图2是根据本申请实施例的应用待识别的网站地址与疑似仿冒网站规则 进行正则表达式匹配的流程图3是根据本申请实施例的一种识别#是似仿冒网站的装置结构图; 图4是才艮据本申请实施例的网站地址处理单元的结构图; 图5是根据本申请实施例的疑似网站判定单元的结构图; 图6是根据本申请实施例的网站地址获取单元的结构图。
具体实施例方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而 不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作 出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请首先对一些概念进行解释
疑似仿冒网站网站地址的命名方式同"仿冒网站",但是尚未确定该网 站是否将会损害用户的利益,比如www.taopao.com,在尚未确定该网站是否 损害淘宝网(www.taobao.com)用户的利益前,不能将其确定为仿冒网站,但 是可以将其定义为疑似仿冒网站,疑似仿冒网站虽然不一定会对用户利益造
成损害,但需要提前进行预警,以减少用户访问仿冒网站的概率,最大P艮度 的保证用户利益。
参见图1 ,其是根据本申请实施例的一种识别疑似仿冒网站的方法流程 图,本申请实施例既可以在用户终端侧执行,也可以在网络侧执行,具体包 括
步骤101,获得待识别的网站地址;
这里,并不对获取网站地址的方式进行限制,例如,可以在应用即时通 讯(IM)软件聊天的过程中获得网站地址,或者,在用户的个性签名中获得 网站地址等等,无i仑应用哪种方式所获得的网站地址,在这里都可以净皮认为 是待识别的网站地址。
可以理解,可以通过一个或多个应用场景来获得待识别网站地址,具体 的应用场景可以是
对于即时通信技术领域可以通过即时通信工具获得待识别的网站地址, 具体场景包括但不限于以下几种
场景l:用户应用即时通信工具(包含单对单聊天,多人的聊天室、群等) 交流时,当用户接收到即时消息后,可以从即时消息内容中获得URL地址链 接;
场景2:当用户点击即时通信工具中的联系人列表,群成员列表,或者其 他形式的联系人列表时,可以从联系人的状态区域或者签名区域获得URL地 址链接;
场景3:用户在登录通讯软件后,收到离线消息(在用户未登录时,接收 到的消息)时,可以从该离线消息中获得URL地址链接;含浮出信息,该浮出信息一般表现为系统 任务栏区域右下角浮出的窗口 ,用户可以从该浮出的窗口内容中获得URL地 址链接。
对于浏览器技术领域,包括但不限于以下应用场景
用户通过点击网页中的带有超链接形式的图片,文字,视频等任何可点 击的元素,从此可点击元素的指向获得URL地址链接。
由于本申请实施例既可以在用户终端侧执行,也可以在网络侧执行,因 而,无论是客户端侧还是服务器侧,获取待识别网站地址的具体实现方式可 以为
对设备本身可以获得到的任何字符串和/或文本按照统一资源定位符 (URL, Uniform Resource Locator)的特征,使用预先设定的第一正则表达 式进行过滤判断,从匹配结果中获得URL,该通过过滤判断得到的URL即为 待识別的网站地址,因此,不管场景如何变化,只要任何字符串和/或文本通 过预设的正则表达式进行匹配,能够得到URL即可。
需要说明的是, 一种例外的情况在浏览器领域中,可点击元素(比如 图片,文字等)本身已经带有URL信息,因而不再需要进行正则表达式的匹 配识别,可直接获耳又此元素所指向的网站URL地址。
可以理解,为描述方便,此处将用于从得到的字符串和/或文本中获得 URL地址的正则表达式称为第一正则表达式。
步骤102,根据所述待识别的网站地址判断所述网站是否为待保护的正规 网站和仿冒网站,若不是,则执行步骤103,若是,则结束。
具体判断过程是
判断待识别的网站地址是否在预设的待保护网站列表中,若不存在,则 所述获得的待识别网站地址不属于待保护的正规网站;
判断待识别的网站地址是否在预设的仿冒网站列表中,若不存在,则所 述获得的待识别网站地址不是仿冒网站。
上述两个判断没有先后顺序,即既可以先判断是否在预设的待保护网站 列表中,也可以先判断是否在预设的仿冒网站列表中。
可以理解,如果待识别的网站地址在预设的待保护网站列表中,或者在预设的仿冒网站列表中,则可以判定该待识别的网站地址为正规网站或仿冒 网站,这样,已经可以确定该待识别网站的性质了 ,因而,可以直接结束, 不需要再进行后续操作了。
步骤103 ,应用待识别的网站地址与疑似仿冒网站规则进行第二正则表达 式匹配,若匹配成功,则判定所述待识别网站地址为疑似仿冒网站,否则判 定待识别网站地址为非疑似仿冒网站。
在此,将用于匹配疑似仿冒网站的正则表达式称为第二正则表达式。
再有,当设备得出判定结果后,可以向用户进行提示,具体的提示方式 可以采用以下任何之一
方式一采用图形的方式向用户进行提示,例如,如确定为待保护正规 网站,则在该网站网址旁画"《";如果确定为仿冒网站或lt似仿冒网站, 则在该网站网址旁画"x,,;如果确定为非疑似仿冒网站,则在该网站网址 旁画"?"。
方式二采用文字的方式向用户进行提示,例如,如确定为待保护正规 网站,则提示用户"可点击",否则,提示用户"不安全"或"可能不安全"。
上述是以终端侧为例,来说明如何将判断结果告知用户,对于网络侧而 言,其与终端侧类似,不同之处在于将判断出的结果先传给终端侧,再由终 端侧提示用户。
下面具体说明如何应用待识别的网站地址与疑似仿冒网站规则进行第二 正则表达式匹配,参见图2,其是根据本申请实施例的应用待识别的网站地址 与疑似仿冒网站规则进行正则表达式匹配的流程图,具体包括
步骤201,从所获得的待识别网站地址中提取主机统一资源定位符 (hosturl)信息;
例如,所获得的网站地址为Protocol://hosturl/pathurl ,则删除该网站地 址中的路径信息、协议前缀等,仅提取出hosturl信息。
步骤202,判断上述hosturl信息中是否存在干扰字符,若存在,则执行 步骤203,否则,执行步骤204。
上述干扰字符是常见的模仿网站地址采用的干扰手段,具体可以包括 各种分隔符如下划线()、减号(-)、空格、点号(.)等等,在实现过程中,干扰字符可以是上述其中之一或任意组合。
步骤203,将上述提取出的hosturl信息中的干扰字符删除,将删除干扰 字符后的hosturl信息作为待对比的关键字;然后执行步骤205。
步骤204,将提取出的hosturl信息作为待对比的关键字,然后执行步骤
205。
步骤205,将上述待对比的关键字和疑似仿冒网站规则进行第二正则表 达式匹配。
统一资源定位符(URL, Uniform Resource Locator)也被称为网页地址, 是因特网上标准的资源的地址。现在它已经被万维网联盟编制为因特网标准 RFC1738。 URL是用于完整地描述Intemet上网页和其他资源的地址的一种标 识方法。Internet上的每一个网页都具有一个唯一的名称标识,通常称之为 URL地址,这种地址可以是本地-兹盘,也可以是局域网上的某一台计算机, 更多的是Intemet上的站点。简单地说,URL就是Web地址,俗称"网址"。
疑似仿冒网站规则,通过对主机名中重要的关键字以及其常见变体通过 正则表达式进行描述。上述关键字是指hosturl中能够代表网站的单词或者其 组合,比如taobao,alibaba,yahoo,ebay等都可被称为关键字。疑似仿冒网站规 则的设计不追求非常通用,而是对待保护网站列表中所列举的正规网站,通 过人工逐一编写正则表达式的方式来进行的,采用了一种针对关键字的简单 有效的匹配方式,以此形成疑似仿冒网站规则的正则表达式。
上述常见变体包括但不限于以下几种表现形式
1、 以不易识别为依据,比如英文字母O和阿拉伯数字O,在计算机显示 上常常容易被忽视,比如将taobao.com篡改为taobaO.com,注意,第二个是0 而不是字母o;
2、 省略英文字符中的一些不影响阅读的辅音,比如将www.taobao.com , 墓改未www.taoba.com。
3、 增力口分割符号,比如l寻www.taobao.com篡改为www.tao-bao.com。
下面给出 一个疑似仿冒网站规则的实例,该实例中要寻找针对阿里巴巴 及其子/>司网站地址的疑似仿冒网站。
( :( : a[lll]i( :( :ba) | 8){1,2}) # 匹配ali88,aliba8
I
( :ta[o0] [bp]a[o0] ) # 匹配tapao,tabao等
I
( :a[ll]i[bp]a[yi]) # 匹配alipai等
)
需要说明的是,由于作为输入的hosturl已经确保不含有干扰字符(在进 行正则表达式匹配之前已有删除干扰字符的步骤),因而,表示疑似仿冒网 站规则的正则表达式中不再考虑这些问题。
本申请上述实施例的执行主体既可以是用户终端,也可以是网络侧的服 务器。其中的用户终端可以是即时通信工具,也可以是移动终端。
应用本申请上述实施例提供的识别疑似仿冒网站的方法,可以在用户受
损失之前识别出疑似仿冒网站,达到了事前识别的目的,并且,将识别结果 通知给用户,降低了访问仿冒网站概率,本申请实施例提前进行了风险提示, 将可能的损失降为最小。
本申请还提供了一种识别疑似仿冒网站的装置,参见图3,包括网站 地址获取单元301和网站地址处理单元302,其中,
网站地址获取单元301,用于获得待识别的网站地址;这里,并不对获 取网站地址的方式进行限制,无论应用哪种方式所获得的网站地址,在这里 都可以— 皮i人为是待识别的网站地址。
其中,这里并不对获取网站地址的方式进行限制,例如,可以在应用即 时通讯(IM)软件聊天的过程中获得网站地址,或者,在用户的个性签名中 获得网站地址等等,无论应用哪种方式所获得的网站地址,在这里都可以被 认为是待识别的网站地址。具体应用场景和前述相同,此处不再赘述。
网站地址处理单元302,用于才艮据所述待识别的网站地址,确定所述网 站不属于待保护的正规网站且不是仿冒网站,且应用所述待识别的网站地址 与疑似仿冒网站规则进行第二正则表达式匹配成功后,判定所述待识别网站 地址为疑似仿冒网站。,用于将判断结果通知给用户。
如果上述装置位于终端侧,则该提示装置可以将判断结果直接提示给用户;
如果上述装置位于网络侧,则该提示装置可以将判断结果先通知给终端,由终端显示给用户。
图4所示为根据本申请实施例的网站地址处理单元的结构图,其可以包括正规网站判定单元3021、仿冒网站判定单元3022和疑似网站判定单元3023,其中,
正规网站判定单元3021 ,用于确定所述待识别的网站地址不在预设的待保护网站列表中后,确定所述待识别网站地址不属于待保护的正规网站;
仿冒网站判定单元3022,用于确定所述待识别的网站地址不在预设的仿冒网站列表中后,确定所述待识别网站地址不是仿冒网站;
1€似网站判定单元3023,用于在所述待识别网站地址与疑似仿冒网站*见则进行第二正则表达式匹配成功后,判定所述待识别的网站地址为l是似仿冒网站。
图5所示为根据本申请实施例的疑似网站判定单元的结构图,其可以包括提取单元30231、关键字获取单元30232和匹配单元30233,其中,
提取单元30231,用于从所获得的待识别网站地址提取主机统一资源定位符信息;具体的,可以通过删除网站地址中的路径信息、协议前缀等方式才是取出hosturl信 息o
关4定字获取单元30232,用于在不存在干扰字符时,将所述提取出的主机统一资源定位符信息作为待对比的关键字,在存在干扰字符时,将所述提出的主机统一资源定位符信息中的干扰字符删除,将删除干扰字符后的主机统一 资源定位符信息作为待对比的关^t定字;
上述干扰字符是常见的模仿网站地址采用的干扰手段,具体可以包括各种分隔符如下划线(—)、减号(-)、空格、点号(.)等等,在实现过程中,干扰字符可以是上述其中之一或任意组合。
匹配单元30233,用于在所述待对比的关键字与疑似仿冒网站规则进行第二正则表达式匹配成功后,判定所述待识别的网站地址为疑似仿冒网站。
图6所示为根据本申请实施例的网站地址获取单元的结构图,其可以包括第一网址获得单元3011和第二网址获得单元3012,其中,
第 一 网址获得单元3011,用于将设备所得到的任何字符串和/或文本按照
统一资源定位符URL的特征,使用预先设定的第一正则表达式进行匹配,从
匹配结果中获得待识别的网站地址;
第二网址获得单元3012,用于在设备所得到的任何字符串和/或文本本
身已经带有统一资源定位符信息时,直接从该字符串和/或文本获得待识别的
网站地址。
本申请上述实施例提供的识别疑似仿冒网站的装置,既可以在用户终端侧,也可以在网络侧,也就是iJL,上述装置既可以位于用户终端,也可以位于网络侧的服务器。其中的用户终端,既可以是即时通讯工具,也可以是移动终端。
应用本申请上述实施例提供的识别疑似仿冒网站的装置,可以在用户受损失之前识别出疑似仿冒网站,达到了事前识别的目的,本申请将识别结果通知给用户,降低了访问仿冒网站概率,提前进行了风险提示,将可能的损失降为最小。
为了描述的方便,以上所述装置的各部分以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同 一个或多个软件或硬件中实现。
需要说明的是,在本文中,术语"包括"、"包含"或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句"包括一个……"限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如ROM/RAM、磁碟、光盘等。以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范 围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均 包含在本申请的保护范围内。
权利要求
1、一种识别疑似仿冒网站的方法,其特征在于,包括获得待识别的网站地址;根据所述待识别的网站地址确定所述网站不属于待保护的正规网站且不是仿冒网站后,应用所述待识别的网站地址与疑似仿冒网站规则进行第二正则表达式匹配,若匹配成功,则判定所述待识别网站地址为疑似仿冒网站。
2、 根据权利要求1所述的方法,其特征在于,所述获得待识别的网站地 址的步骤包括将所得到的任何字符串和/或文本按照统一资源定位符URL的特征,使 用预先设定的第一正则表达式进行匹配,从匹配结果中获得待识别的网站地 址;或^",如果所得到的任何字符串和/或文本本身已经带有统一资源定位符信息, 则直接从该字符串和/或文本获得待识别的网站地址。
3、 根据权利要求1所述的方法,其特征在于,应用所述待识别的网站地 址与疑似仿冒网站规则进行第二正则表达式匹配的步骤包括01 )从所获得的待识别网站地址中提取主机统一资源定位符信息;02) 判断所述主机统一资源定位符信息中是否存在干扰字符,若存在, 则执行步骤03),若不存在,则将所述提取出的主机统一资源定位符信息作 为待对比的关键字,然后执行步骤04);03) 将所述提取出的主机统一资源定位符信息中的干扰字符删除,将删 除干扰字符后的主机统一 资源定位符信息作为待对比的关键字;04) 将所述待对比的关键字和疑似仿冒网站规则进行第二正则表达式匹配。
4、 根据权利要求3所述的方法,其特征在于,所述干扰字符包括下划 线、减号、空格、点号其中之一或任意组合。
5、 根据权利要求1所述的方法,其特征在于,才艮据所述网站地址确定所 述网站不属于待保护的正规网站且不是仿冒网站的步骤包括判断待识别的网站地址是否在预设的待保护网站列表中,若不存在,则 所述获得的待识别网站地址不属于待保护的正规网站;判断待识别的网站地址是否在预设的仿冒网站列表中,若不存在,则所 述获得的待识别网站地址不是仿冒网站。
6、 根据权利要求1所述的方法,其特征在于,所述方法进一步包括将 判断结果通知给用户。
7、 一种识别疑似仿冒网站的装置,其特征在于,包括 网站地址获取单元,用于获得待识别的网站地址; 网站地址处理单元,用于才艮据所述待识别的网站地址,确定所述网站不属于待保护的正规网站且不是仿冒网站,且应用所述待识别的网站地址与疑 似仿冒网站规则进行第二正则表达式匹配成功后,判定所述待识别网站地址 为疑似仿冒网站。
8、 根据权利要求7所述的装置,其特征在于,所述网站地址获取单元包括第 一网址获得单元,用于将设备所得到的任何字符串和/或文本按照统一 资源定位符URL的特征,使用预先设定的第一正则表达式进行匹S己,从匹配 结果中获得待识别的网站地址;第二网址获得单元,用于在设备所得到的任何字符串和/或文本本身已经 带有统一资源定位符信息时,直接从该字符串和/或文本获得待识别的网站地 址。
9、 根据权利要求7所述的装置,其特征在于,所述网站地址处理单元包括正规网站判定单元,用于确定所述待识别的网站地址不在预设的待保护 网站列表中后,确定所述待识别网站地址不属于待保护的正规网站;仿冒网站判定单元,用于确定所述待识别的网站地址不在预设的仿冒网 站列表中后,确定所述待识别网站地址不是仿冒网站;疑似网站判定单元,用于在所述待识别网站地址与疑似仿冒网站规则进 行第二正则表达式匹配成功后,判定所述待识别的网站地址为疑似仿冒网站。
10、 根据权利要求9所述的装置,其特征在于,所述疑似网站判定单元 包括提取单元,用于从所获得的待识别网站地址中提取主机统一资源定位符信息;关键字获取单元,用于在不存在干扰字符时,将所述提取出的主机统一 资源定位符信息作为待对比的关键字,在存在干扰字符时,将所述提取出的 主机统一资源定位符信息中的干扰字符删除,将删除干扰字符后的主机统一 资源定位符信息作为待对比的关键字;匹配单元,用于在所述待对比的关键字与疑似仿冒网站规则进行第二正 则表达式匹配成功后,判定所述^f寺识别的网站地址为^:似仿冒网站。
11、 根据权利要求IO所述的装置,其特征在于,所述干扰字符包括下 划线、减号、空格、点号其中之一或任意组合。
12、 根据权利要求7所述的装置,其特征在于,所述装置位于用户端设 备或网络侧设备。
13、 根据权利要求7所述的装置,其特征在于,所述装置进一步包括 提示装置,用于将判断结果通知给用户。
全文摘要
本申请公开了一种识别疑似仿冒网站的方法和装置,所述方法包括获得待识别的网站地址;根据所述待识别的网站地址确定所述网站不属于待保护的正规网站且不是仿冒网站后,应用所述待识别的网站地址与疑似仿冒网站规则进行正则表达式匹配,若匹配成功,则判定所述待识别网站地址为疑似仿冒网站。应用本申请,可以在用户受损失之前识别出疑似仿冒网站,达到了事前识别,降低访问仿冒网站概率的目的,提前进行了风险提示,将可能的损失降为最小。
文档编号G06F21/55GK101504673SQ20091012937
公开日2009年8月12日 申请日期2009年3月24日 优先权日2009年3月24日
发明者孔勇伟, 张利明, 波 闻 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1