确定提供仿冒服务的网络服务器的方法、设备及计算设备与流程

文档序号:11138695阅读:349来源:国知局
确定提供仿冒服务的网络服务器的方法、设备及计算设备与制造工艺

本发明涉及信息安全技术领域,尤其涉及一种确定提供仿冒服务的网络服务器的方法、设备及计算设备。



背景技术:

随着网络通信技术的迅速发展、互联网应用的持续深化、所承载信息的日益丰富,互联网已成为人类社会重要的基础设施。与此同时,各种危害网络安全的事件层出不穷,引发了社会对网络安全的极大关注。

其中,存在一些不法网络服务器的运营者,通过将网络服务器的域名或提供的网络内容伪装的与正规网络服务器的域名或网络内容非常相似的方式,引诱用户访问,骗取用户信任,并损害用户利益。而由于电子商务和互联网应用的普及和发展,这种提供仿冒服务的犯罪行为造成的损失日益严重。

目前,可以通过黑名单技术、基于URL特征的检测技术、基于网络内容包含的图片相似度的检测技术来判断网络服务器是否提供仿冒服务。

黑名单技术是通过用户举报或评价来维护一个不断更新的提供仿冒服务的网络服务器的名单列表,从而阻止更多的用户不要访问已发现的提供仿冒服务的网络服务器。基于URL特征的检测技术,通常是使用正则表达式来匹配URL特征,但正则表达式需要手动添加规则,使用和维护成本高,同时其使用有风险,可能产生未知的误报和漏报。此外,此种方式往往用于初步检测,最终的判定一般也要基于网络内容。基于网络内容包含的图片相似度的检测技术需要进行大量的图片比较,计算复杂度高,并且如果两个网络服务器提供的网络内容使用相似的设计方案(如Bootstrap模板)和设计元素(相同或相似的图标),则容易产生误报。

因此,迫切需要一种更先进的更有效的确定提供仿冒服务的网络服务器的方案。



技术实现要素:

为此,本发明提供一种确定提供仿冒服务的网络服务器的方案,以力图解决或者至少缓解上面存在的至少一个问题。

根据本发明的一个方面,提供了一种确定提供仿冒服务的网络服务器的方法,适于在计算设备中执行,网络服务器具有IP地址和域名,并提供网络内容,方法包括步骤:从域名服务器获取第一预定时间段内的域名解析记录;获取域名解析记录对应的多个域名、以及每个域名的解析次数;筛选出解析次数最低的预定数量个域名;从域名服务器获取所筛选出的预定数量个域名在第二预定时间段内的至少一条域名解析记录;根据预定数量个域名在第二预定时间段内的域名解析记录,最后筛选出其中仅在第二预定时间段中的第三预定时间段内存在域名解析记录的至少一个域名;对于所筛选出的至少一个域名中的域名,获取该域名对应的网络服务器的IP特征、域名特征、以及内容特征;以及根据提取的特征,采用分类模型确定网络服务器是否提供仿冒服务。

根据本发明的另一方面,提供了一种确定提供仿冒服务的网络服务器的设备,网络服务器具有IP地址和域名,并提供网络内容,设备包括:记录获取模块,适于从域名服务器获取第一预定时间段内的域名解析记录;还适于从域名服务器获取所筛选出的预定数量个域名在第二预定时间段内的至少一条域名解析记录;域名筛选模块,适于:获取第一预定时间段内的域名解析记录对应的多个域名、以及每个域名的解析次数;筛选出解析次数最低的预定数量个域名;还适于:根据预订数量个域名在第二预定时间段内的域名解析记录,最后筛选出其中仅在第二预订时间段中的第三预定时间段内存在域名解析记录的至少一个域名;特征提取模块,适于对于所筛选出的至少一个域名中的域名,获取该域名对应的网络服务器的IP特征、域名特征、以及内容特征;以及仿冒判断模块,适于根据提取的特征,采用分类模型确定网络服务器是否提供仿冒服务。

根据本发明的还有一个方面,提供了一种计算设备,包括根据本发明的确定提供仿冒服务的网络服务器的设备。

根据本发明的确定提供仿冒服务的网络服务器的方案,同过多次筛选,筛选出访问量较低、活跃时间较短的域名,并获取该域名对应的网络服务器的域名特征、IP特征和内容特征,根据这些多维度的特征采用分类模型进行是否提供仿冒服务的判断,过程高度自动化,大大减少了人工干预,同时特征维度广,准确度高,有效避免了误报和漏报。

附图说明

为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明的一个示例性实施方式的网络服务系统100的结构框图;

图2示出了根据本发明的一个示例性实施方式的计算设备200的结构框图;

图3示出了根据本发明的一个示例性实施方式的确定提供仿冒服务的网络服务器的设备300的结构框图;以及

图4示出了根据本发明的一个示例性实施方式的确定提供仿冒服务的网络服务器的方法400的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个示例性实施方式的网络服务系统100的结构框图。网络服务系统100可以包括客户端110、域名服务器120以及网络服务器130。网络服务器130具有IP地址和域名,并可以向用户提供网络内容。用户可以通过客户端110向网络服务器130发送访问请求,请求访问网络服务器130上的网络内容。

其中,在向网络服务器130发送访问请求之前,客户端110首先需要向域名服务器120发送域名解析请求,请求域名对应的网络服务器130的IP地址。域名服务器120响应于客户端110的域名解析请求,返回IP地址至客户端110。同时,可以理解地,域名服务器120会基于客户端110的域名解析请求生成相应的域名解析记录并存储,域名解析记录可以包括解析时间、请求解析的域名、域名对应的网络服务器130的IP地址。

计算设备200可以通过网络与域名服务器120和网络服务器130连接,可以获取域名服务器120上存储的域名解析记录,并至少根据域名解析记录确定那些提供仿冒服务的网络服务器。

计算设备200可以实现为服务器,例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等,也可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。此外,计算设备200还可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。

图2示出了根据本发明一个示例性实施方式的实现本发明方案的计算设备200的结构框图。在基本的配置202中,计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。

取决于期望的配置,处理器204可以是任何类型的处理,包括但不限于:微处理器((μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用,或者在一些实现中,存储器控制器218可以是处理器204的一个内部部分。

取决于期望的配置,系统存储器206可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器206可以包括操作系统220、一个或者多个应用222以及程序数据224。在一些实施方式中,应用222可以布置为在操作系统上利用程序数据224进行操作。

计算设备200还可以包括有助于从各种接口设备(例如,输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256,它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260,其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

在本发明中,计算设备100的应用222可以包括被配置为实现本发明方案的确定提供仿冒服务的网络服务器的设备300。

图3示出了根据本发明一个示例性实施方式的确定提供仿冒服务的网络服务器的设备300的结构框图。如图3所示,确定提供仿冒服务的网络服务器的设备300可以与域名服务器120和网络服务器130通过网络连接,并可以包括记录获取模块310、域名筛选模块320、特征提取模块330、以及仿冒判断模块340。

记录获取模块310适于从域名服务器120获取第一预定时间段内的域名解析记录。第一预定时间段例如可以是当日的00:00~24:00,记录获取模块310可以获取域名服务器120上解析时间在当日00:00~24:00之间的所有域名解析记录。

域名筛选模块320与记录获取模块310连接,适于获取记录获取模块310所获取的第一预定时间段内的域名解析记录对应的多个域名、以及每个域名的解析次数。具体地,域名筛选模块320可以对记录获取模块310所获取的对域名解析记录进行统计,得到每个域名的域名解析记录条数,也就是该域名的解析次数。

域名的解析次数可以代表该域名的访问量,可以理解地,提供仿冒服务的网络服务器的域名的访问量通常较低,因此若域名的访问量较低,可以认为该域名对应的网络服务器存在提供仿冒服务的可能。

具体地,域名筛选模块320可以筛选出解析次数最低的预定数量个域名。其中,预定数量可以是所有解析次数中最低的10%部分的解析次数的数量,例如,域名筛选模块320可以将解析次数从高至低排序,选取其中后10%的解析次数对应的域名。

而后,为了增加的判断的可靠度,本发明可以对域名做进一步的筛选。提供仿冒服务的网络服务器的域名的注册时间可能不定,但是通常可以通过域名服务器120解析到其对应IP(即域名上线)的时间(即活跃时间)一般不长,因此若域名存在域名解析记录的时间不长,可以认为该域名对应的网络服务器存在提供仿冒服务的可能。

具体地,记录获取模块310可以从域名服务器120获取域名筛选模块320所筛选出的预定数量个域名在第二预定时间段内的至少一条域名解析记录,最后域名筛选模块320筛选出其中仅在第二预订时间段中的第三预定时间段内存在域名解析记录的至少一个域名。

其中,第二预定时间段可以是近两周,第三预定时间段可以是近一周,记录获取模块310可以从域名服务器120获取所筛选出来的那些域名在近两周的域名解析记录,域名筛选模块320筛选出其中仅在近一周内存在域名解析记录的至少一个域名,即只在近一周内活跃的域名。

筛选出上述域名后,与域名筛选模块320连接的特征提取模块320适于对于所筛选出的至少一个域名中的域名,获取该域名对应的网络服务器的能够体现该网络服务器提供仿冒服务的以下特征:IP特征、域名特征、以及内容特征。

根据本发明的一个实施方式,IP特征可以包括特征s1——IP地址数量的倒数,即域名对应的IP地址数量的倒数。由于IP地址的申请成本较高,不法份子往往不会申请对应于同一域名的多个IP地址,因此若域名对应的IP地址数量较高,则可以认为其提供仿冒服务的可能性较小。

具体地,特征提取模块330可以使用类似dig这种DNS查询工具从域名服务器查询该域名对应的至少一个IP地址,并根据查询到的至少一个IP地址确定域名对应网络服务器的IP地址数量Nbind,取其倒数1/Nbind,得到特征s1

根据本发明的另一个实施方式,IP特征还可以包括特征s2——地址恶意比率,即域名对应的IP地址所属地区和运营商的恶意IP地址的比率。若某个地区和运营商下恶意IP地址的比率较高,则可以认为属于该地区和运营商的网络服务器提供仿冒服务的可能性较大。

具体地,设备300可以与IP数据存储设备相耦接,IP数据存储设备存储有已知的IP地址、该IP地址是否恶意、以及所属的地区和运营商(或者虚拟运营商)。特征提取模块330可以对查询到的域名对应的至少一个IP地址中的每一个,都从IP数据存储设备获取与该IP地址属于同一地区和运营商的IP地址数量Nall、以及其中的恶意IP地址数量Nmal,再根据恶意IP地址数量与IP地址数量,计算该IP地址所属地区和运营商的IP地址恶意比率最后可以选取其中数值最大的一个作为网络服务器的IP地址恶意比率,得到特征s2

根据本发明的另一个实施方式,IP特征还可以包括特征s3——IP地址是否恶意。若IP地址为恶意,则可以认为网络服务器提供仿冒服务的可能性较大。

具体地,特征提取模块330可以判断域名对应的至少一个IP地址中的任意一个是否属于IP数据存储设备中的恶意IP地址,若是,则确定网络服务器的IP地址是恶意,s3=1,否则不是恶意,s3=0。

根据本发明的另一个实施方式,域名特征可以包括特征s4——域名信息相似度,即域名与其他正规域名的相似程度。若域名与其他正规域名的相似程度较高,则可以认为网络服务器提供仿冒服务的可能性较高。

具体地,设备300可以与域名反查设备相耦接,域名反查设备存储有已知的IP地址和与该IP地址相关联的域名,可以通过IP地址查询到与该IP地址相关联的域名。设备300还可以与域名查询设备(即Whois查询设备)相耦接,可以通过域名查询到域名数据(即Whois数据)。通常地,域名数据可以包括域名、域名的注册商、联系人、联系方式、更新时间、过期时间、公司名称、域名服务器、DNS、状态中的至少一个。

首先特征提取模块330可以从域名查询设备获取网络服务器的域名的域名数据,而后可以从域名反查设备获取该域名对应的至少一个IP地址关联的至少一个关联域名,并对这些关联域名中除上述网络服务器本身的域名以外的每一个,都从域名查询设备获取该关连域名的域名数据,计算该关连域名的域名数据中的每一项与网络服务器的域名的域名数据中的对应项的相似度,根据每一项的相似度计算得到该关联域名与网络服务器的域名的相似度。最后选择其中数值最大的一个作为网络服务器的域名信息相似度,得到特征s4

其中,相似度可以通过计算编辑距离而得到,编辑距离(Edit Distance)又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个字串的相似度越大。计算编辑距离的原理为本领域的常规技术,在此不做描述。

计算每一项的相似度后,每一项的相似度可以组成相似度向量v,该关联域名与网络服务器的域名的相似度可以通过计算s4=|v|/N得到,其中N为域名数据的数据项数。

需要注意的是,若特征提取模块330从域名反查设备获取到的该域名对应的至少一个IP地址关联的关联域名只有1个且为网络服务器的域名本身,则令网络服务器的域名信息相似度s4=1。

根据本发明的另一个实施方式,内容特征包括特征s5——内容相似度,若网络服务器提供的网络内容与其他网络内容相似度很高,则可以认为该网络服务器提供仿冒内容的可能性较高。

具体地,特征提取模块330首先可以利用网络爬虫获取网络服务器域名指向的网络内容(例如HTML页面),而后利用搜索引擎(例如Baidu、Google等)查询该网络内容的标题,获取搜索结果中前第一预定数目条(例如前50条)网络内容。对所获取的每条网络内容,都计算其与网络服务器域名指向的网络内容的内容相似度,最后选取其中数值最大的一个作为网络服务器的内容相似度,得到特征s5

内容相似度的计算如下:可以利用XML库(如libxml2等)将网络服务器的域名指向的网络内容、以及搜索所获取到的网络内容解析为文档对象模型树(即DOM树),通过递归比较其中子树的相似度来计算搜索所获取的网络内容与网络服务器的域名指向的网络内容的内容相似度。

其中,为了进一步降低数据计算量同时不损失准确度,根据本发明的另一个实施方式,获取搜索结果中前第一预定数目条网络内容之后,特征提取模块330还可以分别计算搜索出的每一条网络内容的标题与网络服务器的域名指向的网络内容的标题的相似度,获取其中标题相似度最大的第二预定数目条(例如10个)网络内容。而后,对第二预定数目条(例如10个)网络内容进行内容相似度的计算。

综上所述,特征提取模块330可以获取特征s1、s2、s3、s4和s5,这些特征可以构成网络服务器的特征向量(s1,s2,s3,s4,s5)。

接下来,与特征提取模块330连接的仿冒判断模块340根据提取的特征,采用分类模型确定该网络服务器是否提供仿冒服务。

具体地,根据本发明的一个实施方式,分类模型可以是逻辑回归模型,并可以体现为以下公式:

其中,hθ(x)为预测函数,并表示确定网络服务器提供仿冒服务的概率,θ为回归参数,x为由网络服务器的特征所构成的特征向量(s1,s2,s3,s4,s5),Cost(hθ(x),y)为逻辑回归模型基于对数似然估计的损失函数,J(θ)为逻辑回归模型的简化损失函数,m为训练样本条数。其中,可以针对每一条训练样本进行迭代,并采用梯度下降法对简化损失函数J(θ)求解,得到使得简化损失函数J(θ)最小化的回归参数θ。

最后,若p(y=1|x)>0.5,则y=1,确定网络服务器提供仿冒服务,若p(y=1|x)≤0.5,则y=0,不确定网络服务器提供仿冒服务。当然,上述公式所示的分类模型仅是示例性的,本领域技术人员也可以采用其他公式来定义分类模型,本发明对此不做限制。

下面以一个域名为例来详细描述确定域名对应的网络服务器是否提供仿冒服务的过程。

假设域名筛选模块320在某日的域名解析记录中,检测到域名www.ccbtuic.com访问量很少,在当日最少的3%之内。而后经由记录获取模块310查询该域名过去两周的域名解析记录,检测到该域名www.ccbtuic.com在近一周内存在域名解析记录,在近一周之前不存在域名解析记录,因此可以将该域名筛选出来,进行后续的处理和判断。

特征提取模块330从域名服务器查询到域名www.ccbtuic.com对应的IP地址仅有一个,并为122.10.85.106,则IP地址数量Nbind=1,特征s1=1/Nbind=1.0。

特征提取模块330还从IP数据设备中查询到IP地址122.10.85.106所属地区为香港Cloudie,并且该地区的IP地址数量Nall=526507,其中恶意IP地址数量Nmal=23468,则计算得到特征

特征提取模块330还从IP数据设备查询到该IP地址122.10.85.106属于恶意IP地址,则得到特征s3=1。

特征提取模块330获取网络服务器的IP特征s1、s2和s3后,从域名反查设备查询到IP地址关联有以下关联域名:

www.ccbtuic.com、www.ccbcvgv.com,其中www.ccbtuic.com为上述获取的网络服务器的域名。

接着,特征提取模块330可以从域名查询设备中查询www.ccbtuic.com和www.ccbcvgv.com的域名数据,结果如下表:

计算得到www.ccbtuic.com和www.ccbcvgv.com表中每一项的相似度为0.6364,1.0,1.0,1.0,0.9091,1.0,1.0,1.0,1.0,1.0,由此组成的相似度向量为v(0.6364,1.0,1.0,1.0,0.9091,1.0,1.0,1.0,1.0,1.0),最后计算得到域名特征s4=|v|/N=0.3038,N为表中的数据项数。

而后,特征提取模块330利用网络爬虫获取域名www.ccbtuic.com指向的网络内容,得到其标题为“建行首页”。再通过百度搜索引擎反查该标题,选择搜索出的前50条网络内容中,选取与www.ccbtuic.com的标题相似度最大的10条网络内容,依次比较这10条网络内容和www.ccbtuic.com指向的网络内容的DOM树,并计算得到这10条网络内容分别与www.ccbtuic.com指向的网络内容的内容相似度为0.301、0.791、0.950、0.165、0.441、0.736、0.753、0.480、0.918、0.232,最后选择其中数值最大的一个作为网络服务器的内容特征s5=0.950。

以上特征可以构成一个特征向量(0.447,1.0,0.2111,1.0,0.3038,0.95),仿冒判断模块340将该特征向量输入预先建立的逻辑回归模型中,得到结果y=1,则可以确定该网络服务器提供仿冒服务。

这样实现了根据以上多维度的特征采用分类模型对网络服务器是否提供仿冒服务的判断过程,整个过程高度自动化,大大减少了人工干预,同时特征维度广,准确度高,有效避免了误报和漏报。

图4示出了根据本发明一个示例性实施方式的确定提供仿冒服务的网络服务器的方法400,适于在计算设备200中执行,该网络服务器具有IP地址和域名,并提供网络内容。如图4所示,确定提供仿冒服务的网络服务器的方法400始于步骤S410。

在步骤S410中,从域名服务器获取第一预定时间段内的域名解析记录。而后在步骤S420中,获取该域名解析记录对应的多个域名、以及每个域名的解析次数。并在步骤S430中,筛选出解析次数最低的预定数量个域名。

而后在步骤S440中,从域名服务器获取所筛选出的预定数量个域名在第二预定时间段内的至少一条域名解析记录。并在步骤S450中,根据预定数量个域名在第二预定时间段内的域名解析记录,最后筛选出其中仅在第二预定时间段中的第三预定时间段内存在域名解析记录的至少一个域名。

筛选出至少一个域名后,在步骤S460中,对于所筛选出的至少一个域名中的域名,获取该域名对应的网络服务器的IP特征、域名特征、以及内容特征。

根据本发明的一个实施方式,IP特征可以包括IP地址数量的倒数,步骤S460可以包括:从域名服务器查询该域名对应的至少一个IP地址,并根据至少一个IP地址确定网络服务器的IP地址数量的倒数。

根据本发明的另一个实施方式,计算设备200可以与IP数据存储设备相耦接,IP数据存储设备存储有已知的IP地址、该IP地址是否恶意、以及所属的地区和运营商,IP特征还可以包括IP地址地区恶意比率。则步骤S460可以包括:对域名对应的至少一个IP地址中的每一个:从IP数据存储设备获取与该IP地址属于同一地区和运营商的IP地址数量、以及其中的恶意IP地址数量,根据恶意IP地址数量与IP地址数量,计算该IP地址所属地区和运营商的IP地址地区恶意比率,最后选取其中数值最大的一个作为网络服务器的IP地址恶意比率。

根据本发明的另一个实施方式,IP特征还可以包括IP地址是否恶意,则步骤S460可以包括:判断域名对应的至少一个IP地址中的任意一个是否属于所述IP数据存储设备中的恶意IP地址,若是,则确定网络服务器的IP地址是恶意,否则不是恶意。

根据本发明的另一个实施方式,计算设备200还可以与域名反查设备相耦接,域名反查设备存储有已知的IP地址和与该IP地址相关联的域名,计算设备200还可以与域名查询设备相耦接,域名特征可以包括域名信息相似度,则步骤S460可以包括:从域名查询设备获取该域名的域名数据,从域名反查设备获取域名对应的至少一个IP地址关联的至少一个关联域名,对至少一个关联域名中除上述域名以外的每一个:从域名查询设备获取该关联域名的域名数据,计算该关联域名的域名数据中的每一项与域名的域名数据中的对应项的相似度,根据每一项的相似度计算得到该关联域名与上述域名的相似度,最后选择其中数值最大的一个作为网络服务器的域名信息相似度。其中域名数据包括域名、域名的注册商、联系人、联系方式、更新时间、过期时间、公司名称、域名服务器、DNS、状态中的至少一个。

根据本发明的另一个实施方式,内容特征可以包括内容相似度,则步骤S460可以包括:利用网络爬虫获取域名指向的网络内容,利用搜索引擎查询该网络内容的标题,并获取搜索结果中前第一预定数目条网络内容,对所获取的每条网络内容,计算其与域名指向的网络内容的内容相似度,最后选取其中数值最大的一个作为网络服务器的内容相似度。

其中,在获取搜索结果中前第一预定数目条网络内容之后,还可以进行进一步的筛选:分别计算搜索出的每一条网络内容的标题与所述域名指向的网络内容的标题的相似度,获取其中标题相似度最大的第二预定数目条网络内容。

具体地,计算所获取的每条网络内容与域名指向的网络内容的内容相似度的步骤可以包括:将域名指向的网络内容、以及所获取的网络内容解析为文档对象模型树,根据所获取的网络内容与域名指向的网络内容的文档对象模型树计算所获取的网络内容与域名指向的网络内容的内容相似度。

提取到上述特征之后,最后在步骤S470中,根据提取的特征,采用分类模型确定网络服务器是否提供仿冒服务。其中,分类模型可以为逻辑回归模型。

以上在结合图1~图3说明确定提供仿冒服务的网络服务器的设备300的原理的具体描述中已经对各步骤的相应处理进行了详细解释,这里不再对重复内容进行赘述。

应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本发明还可以包括:A6、如A5所述的方法,其中,所述内容特征包括内容相似度,所述获取该域名对应的网络服务器的内容特征的步骤包括:利用网络爬虫获取所述域名指向的网络内容;利用搜索引擎查询该网络内容的标题,并获取搜索结果中前第一预定数目条网络内容;对所获取的每条网络内容,计算其与所述域名指向的网络内容的内容相似度;以及选取其中数值最大的一个作为所述网络服务器的内容相似度。A7、如A5所述的方法,其中,所述获取该域名对应的网络服务器的内容特征的步骤包括:在获取搜索结果中前第一预定数目条网络内容之后,分别计算搜索出的每一条网络内容的标题与所述域名指向的网络内容的标题的相似度;获取其中标题相似度最大的第二预定数目条网络内容。A8、如A6或7所述的方法,其中,所述计算所获取的每条网络内容与域名指向的网络内容的内容相似度的步骤包括:将所述域名指向的网络内容、以及所获取的网络内容解析为文档对象模型树;根据所获取的网络内容与所述域名指向的网络内容的文档对象模型树计算所获取的网络内容与域名指向的网络内容的内容相似度。A9、如A5所述的方法,其中,所述域名数据包括域名、域名的注册商、联系人、联系方式、更新时间、过期时间、公司名称、域名服务器、DNS、状态中的至少一个。A10、如A1-9中任一项所述的方法,其中,所述分类模型为逻辑回归模型。

B15、如B14所述的设备,其中,所述设备与域名反查设备相耦接,所述域名反查设备存储有已知的IP地址和与该IP地址相关联的域名,所述设备还与所述域名查询设备相耦接,所述域名特征包括域名信息相似度;所述特征提取模块适于:从所述域名查询设备获取所述域名的域名数据;从所述域名反查设备获取所述域名对应的至少一个IP地址关联的至少一个关联域名;对至少一个关联域名中除所述域名以外的每一个:从所述域名数据存储设备获取该关联域名的域名数据;计算该关联域名的域名数据中的每一项与所述域名的域名数据中的对应项的相似度;根据每一项的相似度计算得到该关联域名与所述域名的相似度;选择其中数值最大的一个作为所述网络服务器的域名信息相似度。B16、如B15所述的设备,其中,所述内容特征包括内容相似度,所述特征提取模块适于:利用网络爬虫获取所述域名指向的网络内容;利用搜索引擎查询该网络内容的标题,并获取搜索结果中前第一预定数目条网络内容;对所获取的每条网络内容,计算其与所述域名指向的网络内容的内容相似度;以及选取其中数值最大的一个作为所述网络服务器的内容相似度。B17、如B16所述的设备,其中,所述特征提取模块还适于:在获取搜索结果中前第一预定数目条网络内容之后,分别计算搜索出的每一条网络内容的标题与所述域名指向的网络内容的标题的相似度;获取其中标题相似度最大的第二预定数目条网络内容。B18、如B16或17所述的设备,其中,所述特征提取模块适于:将所述域名指向的网络内容、以及所获取的网络内容解析为文档对象模型树;根据所获取的网络内容与所述域名指向的网络内容的文档对象模型树计算所获取的网络内容与域名指向的网络内容的内容相似度。B19、如B15所述的设备,其中,所述域名数据包括域名、域名的注册商、联系人、联系方式、更新时间、过期时间、公司名称、域名服务器、DNS、状态中的至少一个。B20、如B11-19中任一项所述的设备,其中,所述分类模型为逻辑回归模型。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1