一种确定网络资源类型的方法和装置的制作方法

文档序号:6466413阅读:129来源:国知局

专利名称::一种确定网络资源类型的方法和装置的制作方法
技术领域
:本发明涉及网络通信技术,特别涉及一种确定网络资源类型的方法和装置。
背景技术
:随着网络的飞速发展,网络资源也越来越多,网络资源搜索系统的出现使得用户可以从互联网(Internet)上准确找到自己需要的网络资源。Internet上的网络资源包括各种数字音乐、影视、软件、书籍等等,并以各种不同的文件格式而存在,每个网络资源都对应有下载地址(即统一资源定位符(UniformResourceLocator,URL)地址或点对点(PointToPoint,P2P)地址标识),用户通过下载地址就可以下载对应的网络资源。网络资源搜索系统是一种向用户提供搜索Internet上各种网络资源的系统。在用户向网络资源搜索系统提交搜索关键信息后,网络资源搜索系统根据关键信息就可以给出相应的网络资源名称以及下载地址,用户根据地址下载就可以下载网络资源。如图l所示,目前网络资源搜索系统结构示意图中,包括搜索引擎、资源数据库和网络蜘蛛(WebSpider)。其中,网络蜘蛛可以自动在互联网上搜索各种网络资源,并把搜寻的各种网络资源记录到资源数据库中;资源数据库记录了网络资源的相关信息,包括网络资源实名、下载地址、网络资源类型、网络资源大小等信息;搜索引擎是一个网络服务器程序,可以根据用户提交的关键信息在资源数据库中找到相应的网络资源,并把结果提供给用户。网络蜘蛛在找到一个网络资源时,需要通过分析而得到它的一些信息,以便该网络资源能被记录到资源数据库中,其中一个重要的信息是网络资源类型,通过记录网络资源类型,搜索引擎可以向用户提供在某一特定类型的网络资源中进行搜索的功能。目前有一种确定网络资源类型的方法,即将一个网站所提供的所有网络资源都归为一种类型。在这种方法中,通过人工为不同的网站配置不同的类型,比如音乐网站配置的类型为音乐,软件网站配置的类型为软件等等。当网络蜘蛛从某个网站上找到一个网络资源时,将配置的该网站的类型作为该网络资源的类型。这种方法存在以下的问题不适用于网络蜘蛛的全网络资源搜寻。由于需要人工设定每一个网站的类别,这种方法只适用于网络蜘蛛在指定网络范围中搜寻网络资源,当范围扩大到全网络时,由于网站数量过于庞大,不可能人工设定每一个网站的类别。确定的网络资源类型不准确。这种方法由于是对一个网站设定一个类型,也就认为该网站提供的网络资源全是同一个类型,而目前有许多网站会提供多种类型的网络资源,比如一个综合网站,可以提供音乐、软件、电影等等类型的网络资源,显然这种方法不能准确确定网络资源类型。综上所述,现有技术确定网络资源类型的方法不适用于全网络资源搜寻,并且确定的网络资源类型不准确。
发明内容本发明实施例提供一种确定网络资源类型的方法和装置,用以解决现有技术中存在的确定网络资源类型的方法不适用于全网络资源搜寻,并且确定的网络资源类型不准确的问题。本发明实施例提供的一种确定网络资源类型的方法包括从获取的网络资源的属性信息中确定至少一个属性信息为特征信息;根据预先设定的特征信息和网络资源类型及权值的对应关系,确定每个所述特征信息对应的网络资源类型及权值;根据确定的所述网络资源类型及权值,确定网络资源类型。本发明实施例提供的一种确定网络资源类型的装置包括特征信息确定模块,用于从获取的网络资源的属性信息中确定至少一个属性信息为特征信息;权值确定模块,用于根据预先设定的特征信息和网络资源类型及权值的对应关系,确定每个所述特征信息对应的网络资源类型及权值;处理模块,用于根据确定的所述网络资源类型及权值,确定网络资源类型。本发明实施例从获取的网络资源的属性信息中确定至少一个属性信息为特征信息;根据预先设定的特征信息和网络资源类型及权值的对应关系,确定每个所述特征信息对应的网络资源类型及权值;根据确定的所述网络资源类型及权值,确定网络资源类型。由于可以根据网络资源的属性信息确定网络资源类型,从而可以适用全网络资源搜寻的情况,并且提高了网络资源类型的准确率、用户体验以及网络带宽的利用率。图1为网络资源搜索系统结构示意图;图2为本发明实施例确定网络资源类型的装置结构示意图;图3为本发明实施例确定网络资源类型的方法流程示意图;图4为本发明实施例采用关键信息和文件后缀名确定网络资源类型的方法流程示意图。具体实施例方式本发明实施例根据获取的网络资源的属性信息中的特征信息,确定对应的网络资源类型及权值,根据确定的所述网络资源类型及权值,确定网络资源类型,由于可以根据网络资源的属性信息确定网络资源类型,不需要人工为不同的网站配置不同的类型,从而可以适用全网络资源搜寻的情况。其中,网络资源类型包括但不限于下列中的一种或几种影视、音乐、软件、游戏等等。网络资源的属性信息包括但不限于下列中的一种或几种网络资源的文件名、网络资源的下载地址所在页面的链接文字、网络资源的文件后缀名等等。进一步的,如果网络资源的文件后缀名为压缩文件后缀名,则网络资源的属性信息还包括压缩文件列表,压缩文件列表中还有每个文件的文件名和文件后缀名。在具体实施过程中,网络资源的文件名和网络资源的下载地址所在页面的链接文字可以通过URL协i义、超级文本传送协议(HyperTextTransportProtocol,HTTP)、超文本链4妄标示i吾言(HypertextMarkupLanguage,HTML)标准等技术获得;压缩文件列表可以利用压缩格式的标准(比如zip格式)或者开放源代码(比如RAR才各式),分析网络资源的文件内容后获得。除非特殊说明,否则本发明实施例获取网络资源的属性信息都按照上述方式获得。下面结合说明书附图对本发明实施例作进一步详细描述。如图2所示,本发明实施例确定网络资源类型的装置包括特征信息确定模块10、权值确定模块20和处理模块30。特征信息确定模块IO,与权值确定模块20连接,用于从获取的网络资源的属性信息中确定至少一个属性信息为特征信息。其中,特征信息可以是关4建信息,也可以是文件后缀名。如果特征信息可以是关键信息,则特征信息确定模块10还可以进一步包括关键信息确定模块100和第一确定模块101。关键信息确定模块100,用于根据预先设定的关键信息集合,确定网络资源的属性信息中的页面链接文字和/或网络资源的属性信息中的文件名的关键信息。具体的,如果网络资源的属性信息中有页面链^t妄文字和文件名,则确定页面链接文字和文件名的关4定信息;如果网络资源的属性信息中有页面链接文字或文件名,则确定页面链^r文字或文件名的关键信息。关键信息集合可以人工手动生成,还可以从网上搜索和筛选出与网络资源相关的关键信息。关键信息集合可以用自定义的存储格式进行存储,关键信息可以是关键词,也可以是关键字,比如中文版、教程、书等等。第一确定模块101,用于将关键信息确定模块100确定的关键信息作为特征信息。如果关键信息确定模块100确定了多个关键信息,则将每个关键信息都作为一个特征信息。如果关键信息是文件后缀名,则特征信息确定模块IO还可以进一步包括匹配模块102和第二确定模块103。匹配模块102,用于将网络资源的属性信息中的网络资源的文件后缀名与预先设定的文件后缀名集合进行匹配。匹配模块102查看文件后缀名集合中是否有网络资源的文件后缀名,如果有,则匹配成功。文件后缀名集合可以用自定义的存储格式进行存储。第二确定模块103,用于在匹配模块102匹配成功后,将网络资源的文件后缀名作为特征信息。在具体实施过程中,如果网络资源的属性信息中只有网络资源的属性信息中的页面链接文字和/或网络资源的属性信息中的文件名,则特征信息是关键:信息;如果网络资源的属性信息中只有网络资源的文件后缀名,则特征信息是文件后缀名;如果网络资源的属性信息中既有网络资源的属性信息中的页面链接文字和/或网络资源的属性信息中的文件名,又有网络资源的文件后缀名,则特征信息是关键信息和文件后缀名。由于压缩文件中的文件可能是任何类型的文件,并不能通过压缩文件后缀名进行判断,所以,一种较佳方式是文件后缀名集合不包括压缩文件后缀名,这样就会出现匹配失败的情况,这时需要重新确定网络资源的文件后缀名。其中,特征信息确定模块IO还可以进一步包括第一数量确定模块104、第一计算模块105、第一更新模块106和第一通知模块107。第一数量确定模块104,用于在匹配模块102匹配失败后,如果网络资源的属性信息中的网络资源的文件后缀名为压缩文件后缀名,从网络资源的压缩文件列表中,确定各文件后缀名的数量。第一计算模块105,用于计算第一数量确定模块104确定的各文件后缀名的数量占压缩文件列表中总文件的数量的比率。第一更新模块106,用于将比率大于阈值的一个文件后缀名作为网络资源的文件后缀名。第一通知模块107,用于通知匹配模块102将第一更新模块106更新后的网络资源的文件后缀名与预先设定的文件后缀名集合重新进行匹配。为了避免匹配失败的情况,还可以在匹配之前判断网络资源的文件后缀名是否是压缩文件后缀名。其中,特征信息确定模块IO还可以进一步包括第二数量确定模块108、第二计算模块109、第二更新模块IIO和第二通知模块111。第二数量确定模块108,用于如果网络资源的属性信息中的网络资源的文件后缀名为压缩文件后缀名,在匹配模块102进行匹配前,从网络资源的属性信息中的压缩文件列表中,确定各文件后缀名的数量。第二计算模块109,用于计算第二数量确定模块108确定的各文件后缀名的数量占压缩文件列表中总文件的数量的比率。第二更新模块110,用于将比率大于阈值的一个文件后缀名作为网络资源的文件后缀名。第二通知模块111,用于通知匹配模块102将第二更新模块110更新后的网络资源的文件后缀名与预先设定的文件后缀名集合进行匹配。权值确定模块20,与特征信息确定模块10和处理模块30连接,用于根据预先设定的特征信息和网络资源类型及权值的对应关系,确定特征信息确定模块10确定的每个特征信息对应的网络资源类型及权值。其中,一个特征信息可以对应多个网络资源类型及权值,比如特征信息为avi,则avi可以对应影视和音乐两个网路资源类型,而影^L的权值和音乐的权值可以根据特征信息的不同设定不同的权值,具体的,文件后缀名为avi的文件大多数是影视,少部分是音乐,则可以将avi对应影视的权值设定为1,将avi对应的音乐的权值设定为0.1。在具体实施过程中,特征信息和网络资源类型及权值的对应关系可以采用数据库或文件或其他形式进行存储,并且可以存储到本实施例的装置中,也可以存储到其他实体中供本实施例的装置查找。如果釆用数据库,则该数据库可以通过关系型数据库技术实现。比如在服务器上可以安装关系型数据库软件,并可采用关系型数据库厂商提供的应用程序接口(ApplicationProgrammingInterface,API)。一般在关系型数据库中,采用结构化查询语言(StructuredQueryLanguage,SQL)作为管理数据库内容的接口程序。处理模块30,与权值确定模块20连接,用于根据确定的网络资源类型及权值,确定网络资源类型。其中,一个特征信息对应不同的网络资源类型及权值时,处理模块30还可以进一步包括第一网络资源类型确定模块300。第一网络资源类型确定模块300,用于将对应的权值最大的网络资源类型作为确定的网络资源类型。其中,在特征信息确定模块10确定多个属性信息为特征信息时,处理模块30还可以进一步包括计算模块301和第二网络资源类型确定模块302。计算模块301,用于将每个特征信息对应的网络资源类型相同的各权值相加。第二网络资源类型确定模块302,用于根据权值相加后的结果确定网络资源类型。其中,第二网络资源类型确定模块302还可以进一步包括权值确定模块3020和比4交才莫块3021。权值确定冲莫块3020,用于确定每个网络资源类型对应的4又值之和。如果确定的网络资源类型没有相同的,则网络资源类型对应的权值之和为确定的网络资源类型及权值。比如确定了3个网络资源类型及权值,分别为,音乐,权值为1;影视,权值为1和音乐,权值为0.1,则音乐的权值之和为1.1,影视的权值之和为O.l。比较模块3021,用于将对应的权值之和大于阈值的一个网络资源类型作为确定的网络资源类型;或将对应的权值之和最大的网络资源类型作为确定的网络资源类型。较佳的方式是将权值之和大于阈值的最大的值对应的网络资源类型作为确定的网络资源类型;如果权值之和没有大于阈值的,则将权值之和最大的值对应的网络资源类型作为确定的网络资源类型。需要说明是,本实施例并不局限于上述两种方式,任何根据权值相加后的结果确定网络资源类型的方式都适用本实施例。如图3所示,本发明实施例确定网络资源类型的方法包括下列步骤步骤300、从获取的网络资源的属性信息中确定至少一个属性信息为特征信息。其中,特征信息可以是关键信息,也可以是文件后缀名。如果特征信息可以是关键:信息,则步骤300还可以进一步包括步骤Al、根据预先设定的关键信息集合,确定网络资源的属性信息中的页面链接文字和/或网络资源的属性信息中的文件名的关键:信息;步骤A2、将确定的关键信息作为特征信息。具体的,如果网络资源的属性信息中有页面链接文字和文件名,则确定页面链接文字和文件名的关4建信息;如果网络资源的属性信息中有页面链接文字或文件名,则确定页面链接文字或文件名的关键信息。关键信息集合可以人工手动生成,还可以从网上搜索和筛选出与网络资源相关的关键信息。关键信息集合可以用自定义的存储格式进行存储,关键信息可以是关键词,也可以是关键字,比如中文版、教程、书等等。如果确定了多个关键信息,则将每个关键信息都作为一个特征信息。如果特征信息可以是文件后缀名,则步骤300还可以进一步包括步骤Bl、将网络资源的属性信息中的网络资源的文件后缀名与预先设定的文件后缀名集合进行匹配;步骤B2、在匹配成功后,将网络资源的文件后缀名作为特征信息。文件后缀名集合可以用自定义的存储格式进行存储。在具体实施过程中,如果网络资源的属性信息中只有网络资源的属性信息中的页面链接文字和/或网络资源的属性信息中的文件名,则特征信息是关键信息;如果网络资源的属性信息中只有网络资源的文件后缀名,则特征信息是文件后缀名;如果网络资源的属性信息中既有网络资源的属性信息中的页面链接文字和/或网络资源的属性信息中的文件名,又有网络资源的文件后缀名,则特征信息是关键信息和文件后缀名。由于压缩文件中的文件可能是任何类型的文件,并不能通过压缩文件后缀名进行判断,所以,一种较佳方式是文件后缀名集合不包括压缩文件后缀名,这样就会出现匹配失败的情况,这时需要重新确定网络资源的文件后缀名。其中,如果步骤B1中匹配失败,则步骤B1和步骤B2之间还可以进一步包括11)如果网络资源的属性信息中的网络资源的文件后缀名为压缩文件后缀名,从网络资源的压缩文件列表中,确定各文件后缀名的数量。压缩文件列表包括每个文件的文件名以及对应的文件后缀名,比如压缩文4牛歹寸表为l.avi2.avi3.avi4.avireadme.txt,贝寸1、2、3、4为文4牛名,avi和txt为文^f牛后纟晨名。这时需要统计各文件后缀名的数量,即avi对应的数量是3,txt对应的数量是l。12)计算确定的各文件后缀名的数量占压缩文件列表中总文件的数量的比率。比如压缩文件列表为I.avi2.avi3.avi4.avireadme.txt,一共有4个文件,avi对应的数量是3,占75%(或0.75);txt对应的数量是1,占25%(或0.25)。13)将比率大于阈值的一个文件后缀名作为网络资源的文件后缀名。阈值可以根据需要进行设定,比如这里阈值设定为60%(或0.6),则avi占75%,txt占25。/。,avi的比率大于阈值,则将avi作为网络资源的文件后缀名。14)将该网络资源的文件后缀名与预先设定的文件后缀名集合重新进行匹配。为了避免匹配失败的情况,还可以在匹配之前判断网络资源的文件后缀名是否是压缩文件后缀名。其中,如果网络资源的属性信息中的网络资源的文件后缀名为压缩文件后缀名,则步骤B2中,根据下列步骤确定网络资源的属性信息中的网络资源的文件后缀名21)从网络资源的属性信息中的压缩文件列表中,确定各文件后缀名的数量;22)计算确定的各文件后缀名的数量占压缩文件列表中总文件的数量的比率;23)将比率大于阈值的一个文件后缀名作为网络资源的文件后缀名。步骤301、根据预先设定的特征信息和网络资源类型及权值的对应关系,确定每个特征信息对应的网络资源类型及权值。其中,一个特征信息可以对应多个网络资源类型及权值,比如特征信息为avi,则avi可以对应影视和音乐两个网路资源类型,而影视的权值和音乐的权值可以根据特征信息的不同设定不同的权值,具体的,文件后缀名为avi的文件大多数是影视,少部分是音乐,则可以将avi对应影视的权值设定为1,将avi对应的音乐的权值设定为0.1。在具体实施过程中,特征信息和网络资源类型及权值的对应关系可以采用数据库或文件或其他形式进行存储,并且可以存储到本实施例的装置中,也可以存储到其他实体中供本实施例的装置查找。如果采用数据库,则该数据库可以通过关系型数据库技术实现。比如在服务器上可以安装关系型数据库软件,并可采用关系型数据库厂商提供的API。一般在关系型数据库中,采用SQL作为管理数据库内容的接口程序。步骤302、根据确定的所述网络资源类型及权值,确定网络资源类型。其中,一个特征信息对应不同的网络资源类型及权值时,步骤302还可以进一步包括将对应的权值最大的网络资源类型作为确定的网络资源类型。其中,在步骤300中确定多个属性信息为特征信息时,步骤302还可以进一步包括步骤a302、将每个特征信息对应的网络资源类型相同的各权值相加。步骤b302、根据权值相加后的结果确定网络资源类型。如果确定的网络资源类型没有相同的,则网络资源类型对应的权值之和为确定的网络资源类型及权值。比如确定了3个网络资源类型及权值,分别为,音乐,权值为1;影视,权值为1和音乐,权值为0.1,则音乐的权值之和为1.1,影视的权值之和为O.l。步骤b302中,才艮据权值相加后的结果确定网络资源类型还可以进一步包括确定每个网络资源类型对应的权值之和;将对应的权值之和大于阈值的一个网络资源类型作为确定的网络资源类型;或将对应的权值之和最大的网络资源类型作为确定的网络资源类型。较佳的方式是将权值之和大于阈值的最大的值对应的网络资源类型作为确定的网络资源类型;如果权值之和没有大于阈值的,则将权值之和最大的值对应的网络资源类型作为确定的网络资源类型。需要说明是,本实施例并不局限于上述两种方式,任何根据权值相加后的结果确定网络资源类型的方式都适用本实施例。在具体实施过程中,本实施例确定网络资源类型的方法可以由网络资源搜索系统中的网络蜘蛛执行,还可以由网络资源搜索系统中的其他装置执行。如图4所示,本发明实施例采用关键信息和文件后缀名确定网络资源类型的方法包括下列步骤假设,网络资源的文件后缀名为压缩文件后缀名。步骤400、查找到一个网络资源后,获^U亥网络资源的属性信息。其中,获取该网络资源的属性信息包括网络资源的文件名为ps、网络资源的下载地址所在页面的链接文字Photoshop中文版教程下载、网络资源的文件后缀名rar、压缩文件列表内容为l.avi2.avi3.avi4.avireadme.txt。步骤401、从关键信息中确定属性信息中的中文版和教程为特征信息。步骤402、确定rar为压缩文件后缀名,从压缩文件列表中确定avi对应的数量是3占75%;txt对应的数量是1占25%。步骤403、确定avi的比率75。/。大于阈值的60。/。,将avi作为特征信息。步骤404、从先设定的特征信息和网络资源类型及权值的对应关系中,确定中文版对应的软件的权值为1、游戏的权值为1;确定教程对应的书籍的权值为1、影视的权值为0.1;确定avi对应的影视权值为1、音乐权值为0.1。步骤405、将相同的网络资源类型对应的权值相加,最后的结果如下表所示<table>tableseeoriginaldocumentpage18</column></row><table>步骤406、将影^L作为查找到的网络资源的类型。本实施例是在匹配之前先判断文件后缀名是否是压缩文件后缀名,还有一种方式是在匹配之后,如果匹配失败,则判断文件后缀名是否是压缩文件后缀名,如果是,则重新确定网络资源的文件后缀名。具体的匹配失败后判断文件后缀名是否是压缩文件后缀名,与匹配之前先判断文件后缀名是否是压缩文件后缀名过程类似,不再赘述。本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行。这样,本发明不限制于任何特定的硬件和软件结合。从上述实施例中可以看出本发明实施例从获取的网络资源的属性信息中确定至少一个属性信息为特征信息;根据预先设定的特征信息和网络资源类型及权值的对应关系,确定每个所述特征信息对应的网络资源类型及权值;根据确定的所述网络资源类型及权值,确定网络资源类型。由于可以根据网络资源的属性信息确定网络资源类型,从而可以适用全网络资源搜寻的情况,并且提高了网络资源类型的准确率、用户体验以及网络带宽的利用率。明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。权利要求1、一种确定网络资源类型的方法,其特征在于,该方法包括从获取的网络资源的属性信息中确定至少一个属性信息为特征信息;根据预先设定的特征信息和网络资源类型及权值的对应关系,确定每个所述特征信息对应的网络资源类型及权值;根据确定的所述网络资源类型及权值,确定网络资源类型。2、如权利要求1所述的方法,其特征在于,当确定一个属性信息为特征信息,且一个特征信息对应多个不同的网络资源类型及权值时,所述根据确定的所述网络资源类型及权值,确定网络资源类型包括将对应的权值最大的网络资源类型作为确定的网络资源类型。3、如权利要求1所述的方法,其特征在于,当确定多个属性信息为特征信息时,所述根据确定的所述网络资源类型及权值,确定网络资源类型包括将每个特征信息对应的网络资源类型相同的各权值相加,根据权值相加后的结果确定网络资源类型。4、如权利要求3所述的方法,其特征在于,所述根据权值相加后的结果确定网络资源类型包括确定每个网络资源类型对应的权值之和;将对应的权值之和大于第一阈值的一个网络资源类型作为确定的网络资源类型;或将对应的权值之和最大的网络资源类型作为确定的网络资源类型。5、如权利要求1所述的方法,其特征在于,所述网络资源的属性信息包括页面链接文字的关键信息和文件名的关键信息,所述从获取的所述网络资源的属性信息中确定至少一个属性信息为特征信息包括根据预先设定的关键信息集合,确定所述网络资源的属性信息中的页面链接文字的关键:信息和/或所述网络资源的属性信息中的文件名的关键信息;将确定的关键信息作为所述特征信息。6、如权利要求1或5所述的方法,其特征在于,所述网络资源的属性信息包括文件后缀名,所述从获取的所述网络资源的属性信息中确定至少一个属性信息为特征信息包括将所述网络资源的属性信息中的所述网络资源的文件后缀名与预先设定的文件后缀名集合进行匹配;在匹配成功后,将所述网络资源的文件后缀名作为所述特征信息。7、如权利要求6所述的方法,其特征在于,该方法还包括在匹配失败后,如果所述网络资源的属性信息中的所述网络资源的文件后缀名为压缩文件后缀名,从所述网络资源的压缩文件列表中,确定各文件后缀名的数量;计算确定的所述各文件后缀名的数量占所述压缩文件列表中总文件的数量的比率;将比率大于第二阈值的一个文件后缀名作为所述网络资源的文件后缀名;将该网络资源的文件后缀名与预先设定的文件后缀名集合重新进行匹配。8、如权利要求6所述的方法,其特征在于,如果所述网络资源的属性信息中的所述网络资源的文件后缀名为压缩文件后缀名,所述将所述网络资源信息中的所述网络资源的文件后缀名与预先设定的文件后缀名集合进行匹配之前还包括从所述网络资源的中的压缩文件列表中,确定各文件后缀名的数量;计算确定的所述各文件后缀名的数量占所述压缩文件列表中总文件的数量的比率;将比率大于阈值的一个文件后缀名作为所述网络资源的文件后缀名。9、一种确定网络资源类型的装置,其特征在于,该装置包括特征信息确定模块,用于从获取的网络资源的属性信息中确定至少一个属性信息为特征信息;权值确定模块,用于根据预先设定的特征信息和网络资源类型及权值的对应关系,确定每个所述特征信息对应的网络资源类型及权值;处理模块,用于根据确定的所述网络资源类型及权值,确定网络资源类型。10、如权利要求9所述的装置,其特征在于,所述处理模块包括第一网络资源类型确定模块,用于当确定一个属性信息为特征信息,且一个特征信息对应多个不同的网络资源类型及权值时,将对应的权值最大的网络资源类型作为确定的网络资源类型。11、如权利要求9所述的装置,其特征在于,所述处理模块包括计算模块,用于在所述特征信息确定模块确定多个属性信息为特征信息时,将每个特征信息对应的网络资源类型相同的各权值相加;第二网络资源类型确定模块,用于根据权值相加后的结果确定网络资源类型。12、如权利要求11所述的装置,其特征在于,所述第二网络资源类型确定模块包括权值确定模块,用于确定每个网络资源类型对应的权值之和;比较模块,用于将对应的权值之和大于阈值的一个网络资源类型作为确定的网络资源类型;或将对应的权值之和最大的网络资源类型作为确定的网络资源类型。13、如权利要求9所述的装置,其特征在于,所述特征信息确定模块包括关键信息确定模块,用于根据预先设定的关键信息集合,确定所述网络资源的属性信息中的页面链接文字和/或所述网络资源的属性信息中的文件名的关键信息;第一确定模块,用于将所述关键信息确定模块确定的关4定信息作为所述特征信息。14、如权利要求9或13所述的装置,其特征在于,所述特征信息确定模块包括匹配模块,用于将所述网络资源的属性信息中的所述网络资源的文件后缀名与预先设定的文件后缀名集合进行匹配;第二确定模块,用于在匹配成功后,将所述网络资源的文件后缀名作为所述特征信息。15、如权利要求14所述的装置,其特征在于,所述特征信息确定模块还包括第一数量确定模块,用于在所述匹配模块匹配失败后,如果所述网络资源的属性信息中的所述网络资源的文件后缀名为压缩文件后缀名,从所述网络资源的压缩文件列表中,确定各文件后缀名的数量;第一计算模块,用于计算确定的所述各文件后缀名的数量占所述压缩文件列表中总文件的数量的比率;第一更新模块,用于将比率大于阔值的一个文件后缀名作为所述网络资源的文件后缀名;第一通知^^莫块,用于通知所述匹配模块将该网络资源的文件后缀名与预先设定的文件后缀名集合重新进行匹配。16、如权利要求14所述的装置,其特征在于,所述特征信息确定模块还包括第二数量确定模块,用于如果所述网络资源的属性信息中的所述网络资源的文件后缀名为压缩文件后缀名,从所述网络资源的属性信息中的压缩文件列表中,确定各文件后缀名的数量;第二计算模块,用于计算确定的所述各文件后缀名的数量占所述压缩文件列表中总文件的数量的比率;第二更新模块,用于将比率大于阈值的一个文件后缀名作为所述网络资源的文件后缀名;第二通知模块,用于通知所述匹配模块将该网络资源的文件后缀名与预先设定的文件后缀名集合进行匹配。全文摘要本发明涉及网络通信技术,特别涉及一种确定网络资源类型的方法和装置,用以解决现有技术中存在的确定网络资源类型的方法不适用于全网络资源搜寻,并且确定的网络资源类型不准确的问题。本发明实施例的方法包括从获取的网络资源的属性信息中确定至少一个属性信息为特征信息;根据预先设定的特征信息和网络资源类型及权值的对应关系,确定每个所述特征信息对应的网络资源类型及权值;根据确定的所述网络资源类型及权值,确定网络资源类型。采用本发明实施例能够从全网络资源中进行搜寻,并且提高了网络资源类型的准确率。文档编号G06F17/30GK101340463SQ200810145790公开日2009年1月7日申请日期2008年8月22日优先权日2008年8月22日发明者张国强,陈晓东申请人:深圳市迅雷网络技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1