一种确定网站类型的方法和装置的制作方法

文档序号:6468714阅读:103来源:国知局
专利名称:一种确定网站类型的方法和装置的制作方法
技术领域
本发明涉及网络通信技术,特别涉及一种确定网站类型的方法和装置。
背景技术
网络资源搜索系统是一种向用户提供快速搜索Internet (互联网)上各种 资源的系统。Internet上的资源包括各种数字音乐、影视、软件、书籍等内容, 以各种不同的文件才各式而存在。
用户在网络资源搜索系统中输入自己需要下载的网络资源的关键字,就可 以得到下载地址,进而进行下载。
由于网络资源搜索系统机器自动搜寻网络资源,难免会搜寻到一些非法资 源(比如盗版电影、色情资源等等),如此一来用户在提交相应的关键字进行 查询时就会找到这些资源。
如果能够确定网站的网站类型,就可以不向用户显示含有非法资源的网站 的网址。
目前,有一种基于网站内容分析的方法,能够确定网站的网站类型。
以色情资源为例,对于一个有色情资源的站点,通常存在大量的色情类关 键词。这时就通过统计分析网站内容中色情类关键词的分布情况,从而识别出 色情站点,从而确定网站的网站类型。
上述方法,由于需要每个网站的内容抓取下来并进行分析,这就需要大量 的存储空间和计算量。
综上所述,目前对于确定网站的网站类型,需要将每个网站的内容都*1^ 下来并进行分析,从而需要大量的存储空间和计算量。

发明内容
本发明实施例提供一种确定网站类型的方法和装置,用以解决现有技术中 存在的对于确定网站类型,需要将每个网站的内容都抓取下来并进行分析,从 而需要大量的存储空间和计算量的问题。
本发明实施例提供的一种确定网站类型的方法包括 确定网站域名和网络资源标识的对应关系;
将所述网站域名对应的所有所述网络资源标识与预先建立的网络资源标 识集合进行匹配;
在所述网站域名对应的所有网络资源标识中,匹配上的网络资源标识占所 述网站域名对应的所有网络资源标识的比例大于第一阈值时,确定所述网站域 名对应的网站类型为所述网络资源标识集合对应的网站类型。 本发明实施例提供的 一种确定网站类型的装置包括 对应关系确定才莫块,用于确定网站域名和网络资源标识的对应关系; 匹配模块,用于将所述网站域名对应的所有所述网络资源标识与预先建立 的网络资源标识集合进行匹配;
处理模块,用于在所述网站域名对应的所有网络资源标识中,匹配上的网 络资源标识占所述网站域名对应的所有网络资源标识的比例大于第 一 阈值时, 确定所述网站域名对应的网站类型为所述网络资源标识集合对应的网站类型。 本发明实施例确定网站域名和网络资源标识的对应关系;将所述网站域名 对应的所有所述网络资源标识与预先建立的网络资源标识集合进行匹配;在所 述网站域名对应的所有网络资源标识中,匹配上的网络资源标识占所述网站域 名对应的所有网络资源标识的比例大于第 一 阈值时,确定所述网站域名对应的 网站类型为所述网络资源标识集合对应的网站类型。由于能够确定网站域名对 应的网站中是否有监测的网络资源,从而不需要将每个网站的内容都抓取下来 并进行分析,就能够确定网站是否是提供非法资源的网站,降低了处理所需的 存储空间和计算量,提高了处理速度和处理效率。


图1为本发明实施例确定网站类型的装置结构示意图; 图2为本发明实施例确定网站类型的方法流程示意图。
具体实施例方式
本发明实施例预先建立一个网络资源标识集合,确定网站域名和网络资源 标识的对应关系后,将所述网站域名对应的所有所述网络资源标识与预先建立 的网络资源标识集合进行匹配;在所述网站域名对应的所有网络资源标识中, 匹配上的网络资源标识占所述网站域名对应的所有网络资源标识的比例大于 第一阈值时,确定所述网站域名对应的网站类型为所述网络资源标识集合对应 的网站类型,由于不需要将每个网站的内容都抓取下来并进行分析,从而降低 了处理所需的存储空间和计算量。
其中,网络资源类型包括但不限于下列中的一种或几种
影视、音乐、软件、游戏等等。
网络资源标识,即内容签名(Content Identity, CID )用于标识下载的文件。 CID是根据预设的算法对二进制文件的内容数据进行计算后获得的。预设的算 法可以是对不同的二进制文件的内容数据进行处理得到不同的处理结果的任 一算法,其处理结果(即内容签名)可唯一标识二进制文件,或者,也可以是 处理结果重复率极低,在可接受范围内的算法。
网站域名和网络资源标识的对应关系可以从下载信息中获得;也可以预先 设定网站域名和网络资源标识的对应关系。
下载信息包括下载网络资源的地址(比如URL (Uniform Resource Locator, 统一资源定位器))地址和网络资源标识。
本发明实施例可以通过P2SP ( Point To Server Point,点对服务器和点) 下载技术获取下载信息。
7P2SP下载技术是一种通过多点传输来提高下载速度的技术,由于使用 P2SP技术进行下载时,需要与服务器进行通讯,因此在服务器端存储了大量 下载信息。
需要说明的,本发明实施例获取下载信息的方式并不局限于P2SP下载技
术,其他能够获取下载信息的方式同样适用。
下面结合说明书附图对本发明实施例作进一步详细描述。
如图l所示,本发明实施例确定网站类型的装置包括对应关系确定模块
10、匹配模块20和处理模块30。
对应关系确定模块10,用于确定网站域名和网络资源标识的对应关系。 其中,网站域名和网络资源标识的对应关系可以采用数据库或文件或其他
形式进行存储,并且可以存储到本实施例的装置中,也可以存储到其他实体中
供本实施例的装置查找。
如果采用数据库,则该数据库可以通过关系型数据库技术实现。比如在
服务器上可以安装关系型数据库软件,并可采用关系型数据库厂商提供的应用
程序接口 (Application Programming Interface, API)。 一般在关系型数据库中,
采用结构化查询语言(Structured Query Language, SQL)作为管理数据库内容
的接口程序。
其中,对应关系确定模块IO还可以进一步包括提取模块IOO、转换模块 IIO和对应关系建立模块120。
提取模块100,用于根据设定的时间,从获取的每个下载信息中提取出下 载地址和网络资源标识。
以P2SP为例,在用户使用P2SP技术进行下载时,服务器端存储了大量 下载信息,由于服务器增加下载信息的速度很快,所以每增加一个下载信息都 进行分析显然对于装置的要求很高,较佳的方式是设定一个时间,对服务器增 加的下载信息进行分析,比如设置为24小时分析一次,相应的可以建立一个 文件夹,将分析处理后的下载信息至于该文件夹中,便于下次处理能够快速识别哪些是新增加的下载信息。
在具体实施过程中,提取模块100处理一个下载信息,就会从该下载信息 中提取出一个下载地址和网络资源标识的二元组,相应的在都处理完成后,会 得到下载地址和网络资源标识的二元组集合。
转换模块110,用于将提取模块100提取出的每个下载地址转换为网站域名。
在具体实施过程中,转换模块110将每个下载地址都转换为网站域名后,
会得到网站域名和网络资源标识的二元组集合。
对应关系建立模块120,用于确定网站域名和网络资源标识的对应关系。 对应关系建立模块120从网站域名和网络资源标识的二元組集合中提取出
同 一个网站域名对应的所有网络资源标识,从而确定网站域名和网络资源标识
的对应关系。
具体的,对应关系建立模块120可以先为每个不同的网站域名分配一个组, 然后将含有网站域名的二元组集合中的网络资源标识至于对应的网站域名的 组中。
比如<网站域名A,网络资源标识A>、 <网站域名B,网络资源标识B〉 和〈网站域名A,网络资源标识O。
为网站域名A分配组1,网站域名B分配组2,则将网络资源标识A和网 络资源标识C至于组1中,网络资源标识B至于组2中。
这样就确定网站域名和网络资源标识的对应关系。
由于一个下载信息代表有 一个资源被用户下载,这样还可以统计出在同一 个网站域名中, 一个网络资源标识对应的网络资源被下载的次数,从而知道对 应的网站域名的受关注度。
匹配模块20,用于将对应关系确定模块10确定的网站域名对应的所有所 述网络资源标识与预先建立的网络资源标识集合进行匹配。
处理模块30,用于在网站域名对应的所有网络资源标识中,匹配上的网络资源标识占网站域名对应的所有网络资源标识的比例大于第一阈值时,确定网 站域名对应的网站类型为网络资源标识集合对应的网站类型。
其中,网络资源标识集合和网站类型的对应关系可以釆用数据库或文件或 其他形式进行存储,并且可以存储到本实施例的装置中,也可以存储到其他实 体中供本实施例的装置查找。
如果采用数据库,则该数据库可以通过关系型数据库技术实现。比如在
服务器上可以安装关系型数据库软件,并可采用关系型数据库厂商提供的应用
程序接口。 一^:在关系型数据库中,采用结构化查询语言作为管理数据库内容 的接口程序。
网络资源标识集合和网站类型的对应关系是根据网络资源标识集合中的 网络资源标识对应的网络资源内容决定的,比如网络资源内容为盗版电影,则 网络资源标识集合对应的网站类型为盗版电影网站;比如网络资源内容为色情 电影,则网络资源标识集合对应的网站类型为色情网站。
具体需要识别出什么样的网站类型,可以根据需要建立对应的网络资源标
识集合。
在具体实施过程中,假如设定的第一阈值为10%,计算模块50确定的百 分比为75,网络资源标识集合对应的网站类型为盗版电影网站,确定75%大 于10%,则确定网站域名的网站类型为盗版电影网站。
其中,处理模块30还可以进一步包括数量确定模块300、计算模块310 和网站类型确定模块320。
数量确定模块300,用于根据匹配模块20的匹配结果,确定网络资源标识 集合含有网站域名对应的网络资源标识的数量。
比如网络资源标识集合中有A、 B、 C和D, 4个网络资源标识,网站域 名1对应的网络资源标识为B、 C、 D、 E和F,则网络资源标识集合含有的网 站域名1对应的网络资源标识的数量为3。
计算模块310,用于根据数量确定模块300确定的数量和网站域名对应的所有网络资源标识的数量,确定网站域名对应的匹配上的网络资源标识占网站 域名对应的所有网络资源标识的百分比。
比如网站域名1对应的网络资源标识为B、 C、 D、 E和F,网络资源标 识集合含有的网站域名1对应的网络资源标识的数量为3,则确定网站域名对 应的匹配上的网络资源标识占网站域名对应的所有网络资源标识的百分比为3 / 5 = 60 % 。
网站类型确定模块320,用于在计算模块310确定的百分比大于第一阈值 时,确定网络资源标识集合对应的网站类型为网站域名对应的网站的网站类 型。
其中,网络资源标识集合可以先找到几个确定含有大量需要监测的网络资 源的网站,比如三个网站,获取网站中的网络资源的网络资源标识,并形成网 络资源标识集合,则本发明实施例确定网站类型的装置还可以进一步包括集 合建立模块40。
集合建立模块40,用于确定网站类型相同的多个样本网站,从样本网站中 获得网络资源,确定获得的每个网络资源的网络资源标识,并组合成网络资源 标识集合。
较佳的是,定期可以查看样本网站是否还存在,如果存在则不需要处理, 否则,可以在找其他的样本网站进行更新。
由于有可能确定的一个网站域名对应的网络资源标识的数量很少,比如几 个,这样可以不需要确定网站域名对应的网站中是否有被监测的网络资源,则 本发明实施例监测网络资源的装置还可以进一步包括触发模块50。
触发模块50,用于在对应关系确定模块IO确定的网站域名和网络资源标 识的对应关系中,同一个网站域名对应的网络资源标识的个数大于第二阈值, 触发匹配模块20对将该网站域名对应的所有网络资源标识与预先建立的网络 资源标识集合进行匹配。
需要说明的是,本发明实施例监测网络资源的装置可以是独立的一个装置,也可以是P2SP技术中提供下载的服务器。
由于本发明实施例可以持续对下载信息进行分析(根据设定的时间,从获 取的每个下载信息中提取出下载地址和网络资源标识),所以可以及时发现提
供非法资源下载的网站,并且只要有用户下载就可以发现,从而能发现所有网 络资源搜索系统不能发现的网站。
如图2所示,本发明实施例监测网络资源的方法包括下列步骤
步骤500、确定网站域名和网络资源标识的对应关系。
其中,网站域名和网络资源标识的对应关系可以采用凝:据库或文件或其他 形式进行存储,并且可以存储到本实施例的装置中,也可以存储到其他实体中 供本实施例的装置查找。
如果采用数据库,则该数据库可以通过关系型数据库技术实现。比如在 服务器上可以安装关系型数据库软件,并可采用关系型数据库厂商提供的应用 程序接口。 一^:在关系型数据库中,采用结构化查询语言作为管理数据库内容
的接口程序。
步骤501、将确定的网站域名对应的所有网络资源标识与预先建立的网络 资源标识集合进行匹配。
其中,网络资源标识集合是根据下列步骤建立的 步骤S1、确定网站类型相同的多个样本网站; 步骤S2、从样本网站中获得网络资源;
步骤S3、确定获得的每个网络资源的网络资源标识,并组合成网络资源标 识集合。
较佳的是,定期可以查看样本网站是否还存在,如果存在则不需要处理, 否则,可以在找其他的样本网站进行更新。
步骤502、在网站域名对应的所有网络资源标识中,匹配上的网络资源标 识占网站域名对应的所有网络资源标识的比例大于第一阈值时,确定网络资源 标识集合网站域名对应的网站类型为网站域名网络资源标识集合对应的网站200810185839.1
的网站类型。
其中,网络资源标识集合和网站类型的对应关系可以采用数据库或文件或 其他形式进行存储,并且可以存储到本实施例的装置中,也可以存储到其他实 体中供本实施例的装置查找。
如果采用数据库,则该数据库可以通过关系型数据库技术实现。比如在 服务器上可以安装关系型数据库软件,并可采用关系型数据库厂商提供的应用 程序接口。 一般在关系型数据库中,采用结构化查询语言作为管理数据库内容 的接口程序。
网络资源标识集合和网站类型的对应关系是根据网络资源标识集合中的 网络资源标识对应的网络资源内容决定的,比如网络资源内容为盗版电影,则 网络资源标识集合对应的网站类型为盗版电影网站;比如网络资源内容为色情 电影,则网络资源标识集合对应的网站类型为色情网站。
具体需要识别出什么样的网站类型,可以根据需要建立对应的网络资源标 识集合。
在具体实施过程中,假如设定的第一阈值为10%,计算模块50确定的百 分比为75,网络资源标识集合对应的网站类型为盗版电影网站,确定75%大 于10%,则确定网站域名的网站类型为盗版电影网站。
其中,步骤500还可以进一步包括
步骤a500、根据设定的时间,从获取的每个下载信息中提取出下载地址和 网络资源标识。
以P2SP为例,在用户使用P2SP技术进行下载时,服务器端存储了大量 下载信息,由于服务器增加下载信息的速度很快,所以每增加一个下载信息都 进行分析显然对于装置的要求很高,较佳的方式是设定一个时间,对服务器增 加的下载信息进行分析,比如设置为24小时分析一次,相应的可以建立一个 文件夹,将分析处理后的下载信息至于该文件夹中,^更于下次处理能够快速识 别哪些是新增加的下载信息。
13在具体实施过程中,处理一个下载信息,就会从该下载信息中提取出一个 下载地址和网络资源标识的二元组,相应的在都处理完成后,会得到下载地址 和网络资源标识的二元组集合。
步骤b500、将提取出的每个下载地址转换为网站域名。
在具体实施过程中,将每个下载地址都转换为网站域名后,会得到网站域 名和网络资源标识的二元组集合。
步骤c500、确定网站域名和网络资源标识的对应关系。
从网站域名和网络资源标识的二元组集合中才是取出同一个网站域名对应 的所有网络资源标识,乂人而确定网站域名和网络资源标识的对应关系。
具体的,可以先为每个不同的网站域名分配一个组,然后将含有网站域名 的二元组集合中的网络资源标识至于对应的网站域名的组中。
比如<网站域名A,网络资源标识A>、 <网站域名B,网络资源标识B > 和<网站域名A,网络资源标识C >。
为网站域名A分配组1 ,网站域名B分配组2,则将网络资源标识A和网 络资源标识C至于组1中,网络资源标识B至于组2中。
这样就确定网站域名和网络资源标识的对应关系。
由于一个下载信息代表有一个资源被用户下载,这样还可以统计出在同一 个网站域名中, 一个网络资源标识对应的网络资源被下载的次数,从而知道对 应的网站域名的受关注度。
其中,步骤502还可以进一步包括
步骤a502、确定网络资源标识集合含有网站域名对应的网络资源标识的数量。
比如网络资源标识集合中有A、 B、 C和D, 4个网络资源标识,网站域 名1对应的网络资源标识为B、 C、 D、 E和F,则网络资源标识集合含有的网 站域名1对应的网络资源标识的数量为3。
步骤b502、根据确定的数量和网站域名对应的所有网络资源标识的数量,确定网站i或名对应的匹配上的网络资源 标识的百分比。
比如网站域名1对应的网络资源标识为B、 C、 D、 E和F,网络资源标 识集合含有的网站域名1对应的网络资源标识的数量为3,则确定网站域名对 应的匹配上的网络资源标识占网站域名对应的所有网络资源标识的百分比为3 /5 = 60%。
步骤c502、在确定的百分比大于第一阈值时,确定网络资源标识集合对应 的网站类型为网站域名对应的网站的网站类型。
由于有可能确定的一个网站域名对应的网络资源标识的数量很少,比如几 个,这样可以不需要确定网站域名对应的网站中是否有被监测的网络资源,则 步骤501之前还可以进一步包括
确定网站域名和网络资源标识的对应关系中,同一个网站域名对应的网络 资源标识的个数大于第二阔值。
如果同 一个网站域名对应的网络资源标识的个数不大于第二阈值,则可以 不对该网站域名进行处理。
由于本发明实施例可以持续对下载信息进行分析(根据设定的时间,从获 取的每个下载信息中提取出下载地址和网络资源标识),所以可以及时发现提
供非法资源下载的网站,并且只要有用户下载就可以发现,从而能发现所有网
络资源搜索系统不能发现的网站。
本领域的技术人员应该明白,上述的本发明实施例的各模块或各步骤可以 用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多 个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码 来实现,从而,可以将它们存储在存储装置中由计算装置来执行。这样,本发 明不限制于任何特定的硬件和软件结合。
从上述实施例中可以看出本发明实施例确定网站域名和网络资源标识的 对应关系;将所述网站域名对应的所有所述网络资源标识与预先建立的网络资源标识集合进行匹配;在所述网站域名对应的所有网络资源标识中,匹配上的 网络资源标识占所述网站域名对应的所有网络资源标识的比例大于第一阈值 时,确定所述网站域名对应的网站类型为所述网络资源标识集合对应的网站类 型。由于能够确定网站域名对应的网站中是否有监测的网络资源,从而不需要 将每个网站的内容都抓取下来并进行分析,就能够确定网站是否是提供非法资 源的网站,降低了处理所需的存储空间和计算量,提高了处理速度和处理效率。 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发 明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及 其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
权利要求
1、一种确定网站类型的方法,其特征在于,该方法包括确定网站域名和网络资源标识的对应关系;将所述网站域名对应的所有网络资源标识与预先建立的网络资源标识集合进行匹配;在所述网站域名对应的所有网络资源标识中,匹配上的网络资源标识占所述网站域名对应的所有网络资源标识的比例大于第一阈值时,确定所述网站域名对应的网站类型为所述网络资源标识集合对应的网站类型。
2、 如权利要求1所述的方法,其特征在于,所述网络资源标识集合是根 据下列步骤建立的确定网站类型相同的多个样本网站; 从样本网站中获得网络资源;确定获得的每个网络资源的网络资源标识,并组合成网络资源标识集合。
3、 如权利要求1所述的方法,其特征在于,所述将所述网站域名对应的 所有所述网络资源标识与预先建立的网络资源标识集合进行匹配之后,确定网 站域名对应的网站的网站类型之前还包括确定所述网络资源标识集合含有所述网站域名对应的网络资源标识的数量;根据确定的数量和所述网站域名对应的所有网络资源标识的数量,确定所 述网站域名对应的匹配上的网络资源标识占所述网站域名对应的所有网络资 源标识的百分比。
4、 如权利要求1所述的方法,其特征在于,所述确定网站域名和网络资 源标识的对应关系包括根据设定的时间,从获取的每个下载信息中提取出下载地址和网络资源标识;将提取出的每个下载地址转换为网站域名;确定网站域名和网络资源标识的对应关系。
5、 如权利要求1至4任一权利要求所述的方法,其特征在于,所述将所 述网站域名对应的所有所述网络资源标识与预先建立的网络资源标识集合进 行匹配之前还包括确定所述网站i或名和网症各资源标识的对应关系中,同一个网站i或名^f应的 网络资源标识的个数大于第二阈值。
6、 一种确定网站类型的装置,其特征在于,该装置包括对应关系确定^t块,用于确定网站域名和网络资源标识的对应关系; 匹配模块,用于将所述网站域名对应的所有网络资源标识与预先建立的网 络资源标识集合进行匹配;处理模块,用于在所述网站域名对应的所有网络资源标识中,匹配上的网 络资源标识占所述网站域名对应的所有网络资源标识的比例大于第 一阈值时, 确定所述网站域名对应的网站类型为所述网络资源标识集合对应的网站类型。
7、 如权利要求6所述的装置,其特征在于,所述装置还包括 集合建立模块,用于确定网站类型相同的多个样本网站,从样本网站中获得网络资源,确定获得的每个网络资源的网络资源标识,并组合成网络资源标 识集合。
8、 如权利要求6所述的装置,其特征在于,所述处理模块包括 数量确定模块,用于确定所述网络资源标识集合含有所述网站域名对应的网络资源标识的数量;计算模块,用于根据确定的数量和所述网站域名对应的所有网络资源标识 的数量,确定所述网站域名对应的匹配上的网络资源标识占所述网站域名对应 的所有网络资源标识的百分比;网站类型确定模块,用于在确定的百分比大于第一阈值时,确定所述网络 资源标识集合对应的网站类型为所述网站域名对应的网站的网站类型。
9、 如权利要求6所述的装置,其特征在于,所述对应关系确定模块包括提取模块,用于根据设定的时间,从获取的每个下载信息中提取出下载地址和网络资源标识;转换模块,用于将提取出的每个下载地址转换为网站域名; 建立模块,用于确定网站域名和网络资源标识的对应关系。
10、如权利要求6至9任一权利要求所述的装置,其特征在于,所述装置还包括触发模块,用于在所述对应关系确定模块确定的所述网站域名和网络资源 标识的对应关系中,同 一个网站域名对应的网络资源标识的个数大于第二阈 值,触发所述匹配;^莫块对该网站域名进行处理。
全文摘要
本发明涉及网络通信技术,特别涉及一种确定网站类型的方法和装置,用以解决现有技术中存在的对于确定网站类型,需要将每个网站的内容都抓取下来并进行分析,从而需要大量的存储空间和计算量的问题。本发明实施例的方法包括确定网站域名和网络资源标识的对应关系;将所述网站域名对应的所有所述网络资源标识与预先建立的网络资源标识集合进行匹配;在所述网站域名对应的所有网络资源标识中,匹配上的网络资源标识占所述网站域名对应的所有网络资源标识的比例大于第一阈值时,确定所述网站域名对应的网站类型为所述网络资源标识集合对应的网站类型。采用本发明实施例的方法能够降低存储空间和计算量。
文档编号G06F17/30GK101488140SQ200810185839
公开日2009年7月22日 申请日期2008年12月18日 优先权日2008年12月18日
发明者张国强, 陈晓东 申请人:深圳市迅雷网络技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1