一种基于关系机制的多类别web对象抽取方法

文档序号:6434472阅读:149来源:国知局
专利名称:一种基于关系机制的多类别web对象抽取方法
技术领域
本发明属于计算机网络、信息检索与集成技术领域,具体地说是一种基于关系机制的多类别WEB对象抽取方法。
背景技术
WEB信息抽取是海量hternet信息检索的有效手段。而WEB对象抽取也已经被广泛用于垂直搜索引擎应用当中。WEB对象的概念随着垂直搜索引擎的出现而产生,旨在解决传统搜索引擎搜索结果冗余、精确度低等问题。微软将WEB对象定义为“TOB的基本数据对象,其相关信息将被收集、索引并排序”。WEB对象的展现分为两个层次对象块级别和属性级别。对象块级别的WEB对象只向用户展示与WEB对象相关的文字记录块,而WEB对象的具体属性由用户自己通过阅读该记录判断。属性级别的WEB对象则包含了对象相关属性信息,这是在对象文字记录块基础上进一步抽取得到的。WEB对象块的抽取包括基于TOB 文档结构的抽取方法和基于WEB文档视觉信息的方法。美国南加州大学的Lerman等人提出了一种根据WEB文档结构自动抽取信息的方法。该方法通过学习某一网站的相似文档而学习同类文档的结构,该方法通常假设具有同一个父结点的子结点表达具有很强相关性的信息,以文档结构上的相似性来区分表达不同对象的结点,并根据该内容和位置假设从文档中抽取信息。Gupta等人通过保留一个不断更新的广告服务器列表来移除广告,通过计算链接数、非链接文字数来移除链接列表。但是这种方法不能识别相关图片,也极易删除相关链接列表。而且对于不同的网页,需要手工调整参数的阈值才能达到最佳抽取效果。Lin和Ho提出的hfoDiscover系统首先根据TABLE标签把网页分成若干个内容块,然后将词作为特征抽取出来并计算每个词的熵值,进而计算每个内容块的熵值。最后通过设定熵的阈值来划分有关内容块和无关内容块。尽管以上方法取得了一定的效果,但都是针对单一的站点,所以有一定的局限性。美国芝加哥大学的Liu和Grossman等人提出了一种从结构化TOB页面中提取TOB 对象列表的方法。该方法分为3步构建HTML标签树,挖掘数据区域,识别数据记录。该方法对标签树进行预处理,对HTML标签中不需要配对的标签进行修正,以使原WEB文档中的所有标签都能够匹配,并将WEB文档转换为HTML标签树。Kovacevic等人利用位置将页面分为头、脚、左、右和中间区域。这种方法的缺点是这种网页结构模板不可能适用于所有网页,而且这种划分区域的方法也难以保证每个区域的语义一致性。微软亚洲研究院的Cai等人根据TOB文档的颜色、文字区域、文字大小等视觉特征对WEB文档进行分块,从而生成一棵WEB文档的视觉结构树。2008年在世界万维网会议上Yao等人提出类一种WEB实体全局模板的提取方法。 该方法要求用户最先提供类别的部分属性,并以这些属性为关键词对搜索引擎返回的结果进行迭代分析,从而获取到网络上已经定义的给类别WEB对象的属性、属性别名等信息。该方法一次运行只能获取一项类别的描述模板,同时也需要用户提供先验知识,一定程度上
4也限制了多类别WEB对象的抽取。在WEB对象可视化方面,德国康斯坦茨大学的Keim与Mansmarm等人提出了层次圆环算法。在该算法中,各个层次被布局为多个放射状的同心圆环,内侧圆环代表着外侧的父结点,所有圆环按照最内层结点的数据类型被分为若干扇区以利于表现与内层结点对应的层次化信息。该算法利于表示分组信息;但不利于显示大数据量的信息,此时需要一定的用户交互(如气泡提示,信息过滤)作为辅助。2008年印度大学的Herr和Holloway实现了马赛克视图用以可视化维基中的编辑活动。用黄色点表示每篇文,用点的大小表示文章的编辑频率,频率最大的文章则显示为其对应的图片,用红色点表示最近频繁编辑的文章。 通过这种方法可以反映出维基的总体情况和热点话题,但是该可视化缺少与用户的交互功能使用户难以获取细节信息。2007年美国印第安纳大学的Holloway和borner设计了维基可视化工具,用以用宏观角度可视化维基页面所覆盖的类别、编辑时间等属性。该工具定义并计算了维基类别间得相似度,以点代表维基中的一个页面,将维基所有页面的点按相似度分布在页面中,并用不同颜色代表页面所属的不同类别。

发明内容
为了克服现有技术的不足,本发明的目的在于提出一种基于关系机制的多类别 WEB对象抽取方法,使其能够同时适合结构化和非结构化WEB页面的多类别WEB对象块抽取,并通过可视化使用户能够直观地浏览WEB对象之间的关系、WEB对象类别之间的关系、 以及WEB对象和类别之间的从属关系。为完成发明目的,本发明采取的技术方案是利用维基百科数据构造多类别WEB 对象关系库,其中包括WEB对象类别、TOB对象、TOB对象间关系、以及相关继承层次关系,从而构建TOB对象类别之间的关系;迭代计算WEB对象类别间关系权值,并提取WEB对象类别之间的核心关系模板;将WEB页面转换为HTML标签树,以标签树结点的文本数量作为结点尺寸,滤除结点尺寸较小或文本支持度较低的标签树结点,以兄弟结点之间的尺寸相似度和结点的文本支持度,分别提取出结构化结点和非结构化结点,选取出尺寸最大的结点作为TOB对象记录块;利用模板匹配对WEB对象记录块进行分类,获得WEB对象所属的类别, 通过WEB对象类别的核心关系模板,采用投票策略抽取出WEB对象记录块的核心TOB对象及其相关WEB对象;可视化TOB对象的各种关系,使用户能够直观地浏览WEB对象之间的关系、WEB对象类别之间的关系、以及WEB对象和类别之间的从属关系。在学习多类别核心关系模板方面,构造核心关系模板的第一步是要生成类别间关系。为此,本发明基于维基百科数据构造了多类别WEB对象关系库,其中包括TOB对象类别、 WEB对象、WEB对象间关系、以及相关继承层次关系。对每项WEB对象间关系,在关系主、客体的类别间建立类别间关系,类别间关系具有权值,值为关系客体用于描述关系主体的频率。由于对象数、对象间关系数巨大,因此能够获得较为全面的类别间的关系。第二步是从生成的类别间关系中抽取核心关系模板。本发明提出WEB对象类别间关系权值计算和迭代算法获取核心关系模板。将同一类别主体的所有类别间关系按权值由大到小排序,每次将当前权值最大的关系加入核心关系集并计算该集合的信息冗余度。当核心关系集的冗余度大于某一阈值,且剩余关系的权值均小于一指定频率时,即认为获取到了该类别主体的核心关系集合。利用该方法对每一项WEB对象类别进行迭代,从而获得类别间相互描述的核心关系模板。在抽取WEB对象记录块方面,选取选定HTML标签树上结点的尺寸作为网页类型判断、WEB对象记录块提取的依据。基于对大量WEB页面的实际观察,给出一系列结构化和非结构化页面判别和提取的前提假设,并根据这些假设给出网页类型判断和对象记录块提取的规则。该规则主要包括3点。第一,对于所有网页,该页面的主要内容占据了页面主体, 因此,HTML标签树中同层兄弟结点间,那些尺寸明显较小的结点将被滤除,从而实现页面的粗过滤。第二,对于非结构化页面,由于其采用大段文字叙述的形式描述WEB对象,其特征为对应HTML标签树的结点包含了大量的文字和标点。为衡量这一特征给出了文本支持度的概念。当结点的文本支持度的取值大于某一阈值时,该结点被判断为非结构化结点。第三,对于结构化页面,由于这种类型的页面绝大多数是通过模板生成的,因此对象列表中每个对象相同位置的子结点具有近似的尺寸。通过方差计算结点间尺寸的近似程度,当两个以上连续兄弟结点的子结点均具有近似的尺寸时,这些兄弟结点将被判别为构成WEB对象列表的结构化结点。

在抽取属性级别TOB对象方面,由于各个类别的核心关系模板已知,已知WEB对象的所属类别,就能够根据该类别的模板抽取其相关属性。属性级别的WEB对象抽取分为两步对象分类和对象提取。在分类阶段,首先对WEB对象记录块中的文本进行分词,并将其中的名词与WEB对象关系库中的对象名称进行匹配,获取该对象记录块中所有对象的类别集合。这些类别的集合构成了描述该对象记录块的本地模板。利用模板匹配的方法将本地模板与核心关系模板进行匹配,既可以判断出WEB对象的类别。在已知TOB对象类别基础上,采用投票策略按照该类别的核心关系模板从对象记录块中抽取核心WEB对象及其相关 WEB对象。在可视化对象间关系方面,WEB对象库的海量信息和复杂的关系构成了庞大的知识网络。为使用户能够直观地浏览对象之间的各种关系,给出对象关系的可视化方法,该可视化不仅能够展示WEB对象分布、类别间关系等宏观信息,也能够具体反映出TOB对象的热度、对象间关系的细节信息。本发明与现有方法技术相比,其有益的效果在于1、本发明能够同时适合结构化和非结构化WEB页面的多类别TOB对象块抽取,从而解决了单一抽取方法适用性差的问题; 2、本发明的可视化方法能够全面地反映出维基中类别间层次关系、词条间关联关系和类别间的关联关系,并能够兼顾局部和整体的信息,使用户获取相对全面的信息,同时能够定位其感兴趣的信息。


图1是本发明的总体系统结构示意图;图2是本发明的TOB对象关系结构示意图;图3是本发明的TOB对象到第三层类别重映射流程示意图;图4是本发明的类别间关系生成方法流程图;图5是本发明的类别间核心关系提取方法流程图;图6是本发明的TOB对象块抽取方法流程图;图7是本发明的TOB对象记录块分类方法流程图。
具体实施例方式下面结合附图对本发明作详细说明。参阅图1本发明的总体系统结构示意图,本发明提出的基于关系机制的多类别 WEB对象抽取方法主要包括如下几个模块:WEB对象关系库模块、数据持久化模块、关系模板服务块、WEB对象记录块提取模块、WEB对象记录块分类模块与属性级WEB对象抽取模块。TOB对象关系库用于存储维基的原始数据和经过处理加工的对象、类别及关系信息,主要包括WEB对象,TOB对象类别,TOB对象间关系,TOB对象及类别间从属关系,类别间关系。WEB对象关系库是后续操作的基础。由于维基提供的数据规模巨大,因此本发明对 WEB对象关系库加以优化,建立索引,并采用分表等措施提高数据库的访问效率。数据持久化模块借助Hibernate工具实现对数据库的访问,从而隔离数据库的逻辑、物理特性。利用Hibernate工具实现可以快速的构造数据访问层模块,是数据库的表间关系、表结构等特性相对业务逻辑透明,便于上层业务逻辑的开发。核心关系模板服务模块提供了与核心关系模板相关的服务,包括类别间关系生成,核心关系模板学习,核心关系模板匹配等操作。核心关系模板服务模块是最主要的一个模块,在这个模块中,核心关系模板学习的过程是关键环节。WEB对象抽取模块实现了从网页中抽取WEB对象记录块以及属性级别WEB对象的功能。它调用核心关系模板服务对记录块进行分类,调用数据持久化层将抽取的WEB对象存入TOB对象关系库。TOB对象抽取模块包含4个子模块,分别为WEB对象记录块提取模块、文本分词模块、记录块分类模块和属性级WEB对象抽取模块四个部分。参阅图2本发明中TOB对象关系结构示意图,TOB对象关系库中包括TOB对象类别、WEB对象、从属关系和关联关系。WEB对象类别源于维基中的目录系统,用于对WEB对象进行层次化分类。WEB对象源于维基中的具体词条,每项词条均有独立的WEB页面对其进行描述。继承层次关系源于维基目录系统中类别与类别间、类别与词条间的从属关系。在维基中,每篇文章都从属于至少一个类别,同一个类别下的文章通常是讲述相同或相似的话题,类别又可以从属于更高一级的父类。这样,最终就形成一个目录系统层次结构。这种目录层次结构中,既有实体与类别的从属关系,也有子类与父类的从属关系。TOB对象间的关系是指维基词条正文描述中通过超链接方式与其它词条间产生的关系。正文描述的词条对应WEB对象关系的主体,通过超链接链接到的其它词条为关系的客体。由于正文描述中关系的复杂性和缺乏语义信息,本发明无法确定关系的语义,因此, 这里的关系仅仅是指两个主体与客体之间存在关系。每一项WEB对象之间的关系由关系的主体和客体的组合标识。WEB对象类别之间的关系指存在关系的两WEB对象所属类别,或所属类别的父类间的关系。WEB对象类别间关系无法直接获取,需要通过WEB对象间关系和WEB对象及其类别间的从属关系计算而得。WEB对象类别间关系的分析与计算将在下一节详细描述。TOB 对象间的关系只提供了作为实例个体间的关系,而WEB对象类别关系则在统计意义上提供了两类别间的关系信息。类别关系的权值有对WEB对象间关系数统计而得,可以用于判断类别间关系的强弱程度。
核心关系模板的学习方法主要包括三个步骤首先将所有WEB对象重新映射到第三层类别(基于中文维基百科中的类别定义,每个类别距离顶层类别有不同的深度,由于第三层的多项类别中每类WEB对象的规模和颗粒度适中,故选用第三层类别作为WEB对象类别映射的目标类别),然后根据WEB对象间关系建立第三层类别间的关系,最后通过本发明提出的迭代算法从所有类别间关系中提取核心关系模板。TOB对象的重映射方法为由 TOB对象所在的继承关系树的叶结点开始由下向上遍历所有到第三层类别结点的继承路径,并将WEB对象映射到所有遍历过的第三层类别结点。然而,由于维基的类别系统中继承层次较大,并存在多继承,这使得WEB对象将被重映射到大量无关的类别上。例如类别“计算机”将被重新映射到无关类别如“世界历史”,“西方艺术”等。为解决该问题,通过实验本发明发现这些无关类别主要是因为多继承的存在使得遍历的宽度被放大,从而在对深层次路径的遍历时间接访问到了那些无关类别。而那些符合客观实际的映射关系通常只存在于较短的遍历路径当中。只要在重映射时对遍历路径的长度加以限制就可以有效提高重映射的准确率。因此本发明设置了阈值τ。设某TOB对象到第三层类别的所有映射路径中最短长度为1,则WEB对象只被重新映射到那些路径长度小于l+τ的类别当中。参阅图3本发明中TOB对象到第三层类别重映射流程示意图显示了 TOB对象重新映射到第三层类别的过程,其详细流程如下(1)通过Hibernate将所有TOB对象和从属关系加载入内存。由于WEB对象关系库中的WEB对象和继承层次关系的数量巨大,而在频繁访问数据库时,数据库的访问时间将成为程序运行的瓶颈,因此实现过程中将上述数据加载如内存并通过哈希表索引将显著提高程序的运行速度;( 遍历每一个WEB对象,施行以下操作。本发明中的文本处理是以WEB对象为处理单元的。因此,对每一个TOB对象的处理可以看作是一次元操作。而遍历对象的过程需做到稳定、高效;(3)判断是否有仍未处理的WEB对象,如果没有,表明所有WEB对象已重映射完毕,算法结束。否则取出一项WEB对象,令其路径长度为0,并将TOB对象压入临时栈;(4)对临时栈中的每一个元素查找其所有父类别,将父类路径长度设为该元素的路径长度值加1,并将所有父类元素加入临时栈。如果上述父类元素中存在第三层的类别,将该元素放入结果栈,并移出临时栈。如果判断栈中的对象元素全部弹出,则说明当前对象已处理完毕,跳转到步骤(5),否则重复步骤,直到临时栈为空;(5)对结果栈按路径长度排序,选取路径长度小于最短路径加3的类别为该轮WEB对象重映射到的第三层类别。参阅图4本发明中类别间关系生成方法流程图,在完成WEB对象的重映射之后,需要根据已有WEB对象间关系在TOB对象类别间建立关系,同样出于程序执行效率的考虑,将 WEB对象间关系,层次继承关系加载入内存。遍历所有WEB对象间关系,执行下述过程。首先判断是否存在未处理得WEB对象间关系,如果没有则说明对象间关系处理完毕,类别间关系建立流程结束。如果有需要处理的关系,则获取存在关系的两WEB对象的所有父类别。 查询父类别两两之间组成的类别间关系是否存在关系。如果存在,则将该关系权值加一。否则建立新的类别间关系,并且设这个新的类别关系权值为1。根据以上过程获得的类别间关系有强弱之分,需要进一步对类别间关系进行分析,提取出类别间的核心关系。区分是否核心关系对关系的获取和对象的识别都有着重要意义。一方面区分出某一类别的核心关系有利于从该类别WEB对象的众多关系中找出最重要的关系,从而为用户提供优质的关系服务;一方面某一类别的核心关系组合可以视为该类别对象的描述模式,从而可以对未知对象按照其关系模式进行分类,按照核心关系模板抽取相关对象。两类别间关系的频率权值越大,说明两类别关系越密切,维基的编辑者越倾向于用关系客体描述关系主体。因此,可以简单选取权值大于某一阈值的类别间关系为类别之间的核心关系。给定类别Cat(SUb)i和类别Cat(Obj)j,类别间关系表示为(cat (sub) cat (obj) freqiJ),如果freqij大于阈值κ (本发明中为0. 8),则认为此关系是关系主体的核心关系。但是仅仅依靠频率值并不能保证所有核心关系都被完整抽取。例如,在维基百科中存在着一些冷门类别,由于缺少领域知识,该类别的WEB对象间关系就会少于其他类别, 从而导致该类别的频率值下降。这导致那些频率值较低的核心关系没有被抽取。可以从另一角度考虑核心关系的意义。核心关系作为两类别WEB对象实例间普遍存在的一种关系,是主体的显著特征,即主体类别的所有核心关系的客体集合对标识该主体类别起到了主要作用;而非核心关系作为类别对象实例间偶然存在的关系,对标识主体类别贡献很小。因此一个类别的核心关系可以理解为该类别的某一关系子集,该子集能提供的信息已经足够丰富,可以代表并标识该类别的所有关系信息。为描述该子集的信息丰富程度,本发明引进了信息论中的熵和冗余度的概念。冗余度表示了由于同一主体的各个类别间关系出现的概率不同,而使信息熵减少的程度。即冗余度表示了为标识某一关系主体,该主体类别的所有类别间关系相对该主体的核心关系集的不必要的冗余部分的比例。 因此,本发明利用冗余度来衡量核心关系集对所有类别间关系的标识能力。给定一个类别的所有类别间关系集合& = { (Cat(SUb)i, cat (obj)}, freqi}) ,该集合中某一项关系r存在的概率P(r)由下式计算

权利要求
1.一种基于关系机制的多类别WEB对象抽取方法,其特征在于包含以下步骤(1)面向核心关系模板学习,利用维基百科数据构造多类别WEB对象关系库;(2)迭代计算WEB对象类别间关系权值,并提取WEB对象类别核心关系模板;(3)根据标签树结点尺寸和特点抽取结构化和非结构化WEB页面中的WEB对象块;(4)根据TOB对象类别核心关系模板,采用投票策略在WEB对象块中进行属性级别WEB 对象抽取;(5)利用信息可视化的方法,展示多类别WEB对象关系库中WEB对象的各种关系。
2.根据权利要求1所述的基于关系机制的多类别WEB对象抽取方法,其特征在于步骤(1)中的TOB对象关系库包括TOB对象、TOB对象间关系、TOB对象类别、类别间关系。WEB 对象源于维基中的具体词条,每项词条均有独立的WEB页面对其进行描述,WEB对象类别源于维基中的目录系统,用于描述WEB对象所属类别,继承层次关系源于维基目录系统中类别与类别间、类别与词条间的从属关系。
3.根据权利要求1所述的基于关系机制的多类别WEB对象抽取方法,其特征在于步骤O)中的基于多类别WEB对象关系库的核心关系模板学习方法包括如下步骤(2. 1)基于中文维基百科中的类别定义,每个类别距离顶层类别有不同的深度,由于第三层的多项类别中每类WEB对象的规模和颗粒度适中,故选用第三层类别作为WEB对象类别映射的目标类别;(2. 2)取中文维基百科中的类别层次深度作为该类别下所有WEB对象的类别层次深度,将类别层次深度较深的WEB对象重映射到第三层类别;(2. 3)根据TOB对象间的关系在第三层类别间建立类别之间的关系,既包括类别间的核心关系,也包括类别间的非核心关系;(2. 4)采用一种迭代算法滤除类别间的非核心关系,构造类别间的核心关系模板。
4.根据权利要求1所述的基于关系机制的多类别WEB对象抽取方法,其特征在于步骤(3)中的抽取结构化和非结构化页面的WEB对象块基于如下假设条件(A)对于所有网页,该页面的主要内容所占篇幅远大于其他信息,因此WEB对象块分布在TOB页面所对应HTML标签树中较大尺寸的结点上;(B)如果一个TOB页面包含TOB对象块,对于非结构化WEB页面,该TOB对象块是一个文字描述型Web对象块,对于结构化WEB页面,该TOB对象块是多个WEB对象块的列表;(C)结构化WEB页面中,TOB对象块结点以兄弟结点形式分布并拥有相同的父结点;(D)结构化TOB页面中,如果其中包含WEB对象列表,则每一个WEB对象块结点处于相同位置的子结点有着近似的尺寸。
5.根据权利要求1所述的基于关系机制的多类别WEB对象抽取方法,其特征在于步骤(3)中的抽取结构化和非结构化页面的WEB对象块包括以下步骤(3. DffEB页面预处理,将该HTML页面转换为标签树;(3. 2)结点尺寸计算,分为两种类型文字尺寸和标点尺寸,为正确反映标点和文字的不同重要性,实际计算时标点和文字被赋予了不同的权;(3. 3)TOB页面主要内容过滤,利用定义的结点过滤规则从已知结点尺寸的标签树中提取正文内容,并过滤掉无关结点;(3. 4)TOB对象块提取,判断WEB页面类型如果TOB页面中包含对象列表,则该列表的父结点成为列表结点;如果WEB页面为非结构化页面,只包含一个WEB对象块,则该TOB对象块的父结点成为文章结点。
6.根据权利要求1所述的基于关系机制的多类别WEB对象抽取方法,其特征在于步骤(4)中的进行属性级别WEB对象抽取包括以下步骤(4. 1)对WEB对象记录块中的文本进行分词,并将其中的名词与TOB对象关系库中的对象名称进行匹配,获取该WEB对象记录块中所有名词的类别集合,该类别集合构成了描述该WEB对象记录块的本地模板;(4. 2)考虑客体支持度和主体贡献度,将本地模板与核心关系模板进行模板匹配,根据模板匹配比值来判断WEB对象的类别;(4. 3)在已知WEB对象类别基础上,采用投票策略,按照该类别的核心关系模板从对象记录块中抽取核心WEB对象及其相关WEB对象。
7.根据权利要求6所述的基于关系机制的多类别WEB对象抽取方法,其特征在于步骤(4. 2)中的客体支持度是给定一项类别B,用其描述类别A的概率;主体贡献度是一个关系客体相对一个关系主体的所有关系客体的重要程度;模板匹配比值是局部WEB对象模板与核心关系模板匹配的关系数相对核心关系模板中所有关系数的比值。
8.根据权利要求6所述的基于关系机制的多类别WEB对象抽取方法,其特征在于步骤(4. 3)中采用投票策略按照该类别的核心关系模板从对象记录块中抽取核心WEB对象及其相关TOB对象包括以下步骤从TOB对象集中移除出现次数最多的TOB对象;对TOB对象集中剩余对象投票,以WEB对象记录块中的每一个句子为单位,如果出现TOB对象集中的其他对象,则对该对象投正票,否则投否决票;在对所有句子进行投票后,所有WEB对象按得票进行排序,得票最多且从属于已分类别的WEB对象将被判别为核心WEB对象。
9.根据权利要求1所述的基于关系机制的多类别WEB对象抽取方法,其特征在于步骤(5)中的WEB对象关系可视化为了能使用户直观地浏览对象之间的各种关系,给出的对象关系可视化不仅能够表现WEB对象分布、类别间关系,也能够具体反映出WEB对象的热度,以及对象间关系的细节信息。
全文摘要
本发明是一种基于关系机制的多类别WEB对象抽取方法,包括利用维基百科数据构造多类别WEB对象关系库,该关系库由WEB对象及其类别、对象间关系、类别层次关系组成;在多类别WEB对象关系库中,迭代计算WEB对象类别间关系权值,提取WEB对象类别核心关系模板;将WEB页面转换为HTML标签树,根据HTML标签树节点的尺寸和特点,从WEB页面中抽取WEB对象记录块;利用模板匹配获得WEB对象记录块所属类别,并根据WEB对象类别核心关系模板,采用投票策略抽取WEB对象记录块的核心WEB对象及其相关WEB对象;利用信息可视化的方法,展示多类别WEB对象关系库中WEB对象的各种关系。本发明可以广泛的应用于互联网数据挖掘、信息检索等领域。
文档编号G06F17/30GK102436472SQ20111029484
公开日2012年5月2日 申请日期2011年9月30日 优先权日2011年9月30日
发明者蒋恺, 赵沁平, 陈小武, 马永焘 申请人:北京航空航天大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1