网页类特征向量的构建方法及其构建器的制作方法

文档序号:6380923阅读:391来源:国知局
专利名称:网页类特征向量的构建方法及其构建器的制作方法
技术领域
本发明涉及对互联网信息资源的管理与组织,具体涉及对网页类的特征向量的构建的方法。
背景技术
随着社会信息化的发展,海量数据已经出现在卫星遥感、医学、逆向工程等各个社会领域。如何存储、提取、处理、分析这些海量数据已经成为了科研人员面临的一个重要问题。而网络上信息资源数量多而庞杂、变化快而不稳定、类型多、范围广、具有超文本链接、 质量参差不齐。面对这样的网络信息资源,需要一种有力的方式,能将各种资源进行有效的组织与管理。面对互联网海量规模的信息资源,搜索引擎已经成为人们生活和工作中必不可少的信息获取工具,然而搜索引擎仅仅是将用户的搜索词相关的网页给予展示,并没有做到对互联网中资源的组织与管理。
互联网中网页数量的迅速膨胀,搜索引擎需要从海量的网页中迅速、准确的搜索出用户感兴趣的信息。文本分类技术在信息检索领域得到应用。网页格式灵活、内容丰富、 来源广泛以及增长速度极快等特点对网页分类和聚类技术提出了更高的要求。拥有海量数据的因特网也为网页分类的研究提供了丰富的实验平台。因此,网页分类相关技术的研究正逐渐成为继文本分类之后机器学习领域的研究热点。发明内容
具体实施方式
以下结合附图对本发明技术方案作进一步介绍。
整个信息服务服务系统建立在传统的搜索引擎的基础之上,即首先从互联网上抓取网页,将网页建立数据库进行存储,然后对网页建立倒排索引,保证传统的搜索引擎功能能够实现;其次,针对用户找信息难的问题,信息服务服务系统采用两个方面进行解决(I)对用户需求进行分析和理解,最大限度的提供给用户有价值的信息;(2)对网页进行整理分类,提供给用户一套服务方案。首先根据DMOZ的人工分类目录,提取出类,每个类由类名和特征向量组成,具体如图5所示。然后,对抓取的网页按照提取到的类标准对网页进行分类,根据类中的网页之间的互相链接关系上升为类与类之间的链接关系,从而确定出类与类之间的一套索引网,进行存储,最后根据用户的输入在索引网络上抽取出不同的服务方案,返回给用户。
整个信息服务服务系统的工作流程如图4所示,该信息服务服务系统的具体功能为一方面,首先信息收集子系统(信息收集子系统包括爬虫和本发明的网页特征向量构建器)中使用爬虫对互联网的信息进行收集,再利用分类器对爬取的信息进行分类整理,然后根据索引网构建器对分好类的网页进行构建索引网,方便对于用户服务流程的推荐,然后将构建的结果存入数据库。
另一方面,当用户的检索要求进来时,则根据用户需求分析定位器来完成对于用户需求的分析及定位,最终返回给用户界面满足用户需求的信息。
数据库部分,是唯一与外部进行交互的部分。
信息服务服务系统中的分类器从数据库中提取出网页信息,并对网页进行分类, 并将分类信息返回给数据库;以及信息收集子系统将网页信息收集之后会送入全文索引器进行一个倒排索引,生成的索引文件送入分类器中对每个网页进行分类。
由上述对系统的介绍可知,在本实施例中,网页特征向量构建器是组成信息服务系统的一部分。信息服务系统是一个通过将网页划分成网页类,并构建一个由网页类之间的边权组成的索引网,进行管理和组织互联网中网页的系统。而网页特征向量构建器,是通过网页类的标准网页以及网页类名构建出一个能准确表示网页类特性的工具。这里的标准网页,是由用户给出或者系统自己寻找出来的表征网页特性的网页。
网页类特征向量构建器的基本架构如图I所示。在整个特征向量构建器中,包含用户接口、网页分析器和扩展器3个重要组成部分,爬虫将用户给定的网页类中标准网页爬取回来,交由网页分析器,提取其中的关键信息组成网页类的特征向量,其中所述用户接口,用于与用户进行直接交互,获取用户需要组建的网页类的类名,以及用户可以提供的若干该网页类中的标准网页。
所述爬虫,即用来爬取互联网中的指定网页。
所述网页分析器,即针对网页类特征向量的构建,做针对性的对网页进行分析,是整个网页类特征向量构建器的主要部分。
所述扩展器是在用户给定的标准网页仍然不能构建出完整的网页类特征向量时, 用于补充网页类特征向量的。
网页特征向量的构建基本流程即如图2所示。网页特征向量构建器工作流程 第一步通过接口,获取用户的请求,所述请求包括用户需要生成的类的类名(必须)和若干符合该类性质的标准网页网址。标准网页,是用户给出的能够表征网页类特性的一组网页,例如google等搜索引擎使用的标准网页分类网站dmoz里面提出的每个类里面的网页,这种类似的数量足且能表征网页类特性的网页,就是标准网页。
第二步将这些标准网页的网址交给爬虫,由爬虫将这些用户提供的标准网页爬回本地,以做进行进一步的分析。
第三步由网页分析器分析网页中的关键信息,如keywords, title, description等等,也可以对文本中的主要信息进行分析,根据不同部分的单词出现频率给予不同的权重,确定一组词作为网页类的特征向量。
第四步,如果在第三步中给予的网页类特征向量中词语个数足够描述网页类的特性的话,即返回给用户这个特征向量,否则进入第五步将网页类的类名交由扩展器,由扩展器使用网页类的类名将网页类的特征向量进行扩展,尽力达到能描述网页类特性的目的。
第五步此时表示用户给定的标准网页不足以构成一个能完整反映网页类的特征向量。扩展器内部需要调用爬虫,网页分析器和开放搜索引擎或本地搜索引擎的API,其工作流程如图3所示。
如图3所示通过接口,获取第四步传过来的网页类的类名,然后交由搜索引擎的API或者其他分析器,获取有关这个类名的最相关的一部分网页,例如,可以将网页类引擎搜索,获取其中前50个最相关网页,作为系统扩展出来的标准网页。用爬虫将这些网页爬取回来,进行分析之后,提取出最符合网页类特性的词组,用以补充网页类的特征向量,这里可以使用多种方法提取出词组,本发明系统使用的是通过分析 keywords等网页中的不同信息,给予不同的权重,根据词频来划分词的重要性,即同第三步相似。



图I是网页特征向量构建器基本架构图。图2是网页特征向量构建器工作流程图。图3是扩展特征向量图。图4是网络信息服务系统整体架构图。图5是类的组成结构图。
权利要求
1.一种网页类特征向量的构建器,其特征在于,包含用户接口、网页分析器和扩展器三个重要组成部分,构建器外的爬虫将用户给定的网页类中标准网页爬取回来,交由网页分析器,网页分析器提取其中的关键信息组成网页类的特征向量,其中 所述用户接口,用于与用户进行直接交互,获取用户需要组建的网页类的类名,以及用户可以提供的若干该网页类中的标准网页; 所述网页分析器,即针对网页类特征向量的构建,做针对性的对网页进行分析,是整个网页类特征向量构建器的主要部分; 所述扩展器是在用户给定的标准网页仍然不能构建出完整的网页类特征向量时,用于补充网页类特征向量的。
2.一种如权利要求I所述构建器的网页类特征向量的构建方法,其特征在于,包括如下步骤 第一步通过接口,获取用户的请求,所述请求包括用户需要生成的类的类名和若干符合该类性质的标准网页网址; 第二步将这些标准网页的网址交给爬虫,由爬虫将这些用户提供的标准网页爬回本地,以做进一步的分析; 第三步由网页分析器分析网页中的关键信息,或者对文本中的主要信息进行分析,根据不同部分的单词出现频率给予不同的权重,确定一组词作为网页类的特征向量; 第四步,如果在第三步中给予的网页类特征向量中词语个数足够描述网页类的特性的话,即返回给用户这个特征向量,否则进入第五步将网页类的类名交由扩展器,由扩展器使用网页类的类名将网页类的特征向量进行扩展,以达到能描述网页类特性; 第五步此时表示用户给定的标准网页不足以构成一个能完整反映网页类的特征向量,则扩展器内部需要调用爬虫、网页分析器和开放搜索引擎或本地搜索引擎的API。
3.如权利要求2所述的网页类特征向量的构建方法,其特征在于,所述的第五步,通过用户接口,获取第四步传过来的网页类的类名,然后交由搜索引擎的API或者其他分析器,获取有关这个类名的最相关的一部分网页,用爬虫将这些网页爬取回来,进行分析之后,提取出最符合网页类特性的词组,用以补充网页类的特征向量。
全文摘要
本发明的网页类特征向量的构建是通过分析网页类的类名以及网页类的特性,来构建出一个能够反映出网页类本质的词组。通过分析用户给定的标准网页,或者通过用户给定的标准类名,构建出一个网页类的特征向量。如果用户未给定标准网页,或者用户给定的标准网页不够多,则将用户给定网页类名交由特征向量扩展器,扩展成一个特征向量。本发明首次在网页分类中提出了特征向量的概念,本发明提出了一个能将用户主观意识与客观世界中对网页类的理解融合在一起的网页类特征向量的构建方法。本发明网页类特征向量的构建方法能更好的为网页分类提供服务,为网络信息服务系统实现奠定基础。
文档编号G06F17/30GK102982114SQ20121044579
公开日2013年3月20日 申请日期2012年11月9日 优先权日2012年11月9日
发明者蒋昌俊, 陈闳中, 闫春钢, 丁志军, 王鹏伟, 孙海春, 张洋劼 申请人:同济大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1