用于基于语义的自动挖掘的系统的制作方法

文档序号:6349318阅读:137来源:国知局
专利名称:用于基于语义的自动挖掘的系统的制作方法
技术领域
本发明一般涉及用于基于语义的自动挖掘的系统,该系统允许用于扩充语义产品数据的网络挖掘(web mining)在用户交互最少的情况下进行。
背景技术
今天,万维网(WWW)继续以惊人的速度在通信容量以及Web站点规模和复杂性这两个方面增长。诸如Web站点设计、Web服务器设计以及通过Web站点简单的导航这样的任务的复杂性,也随着其增长而增大。由Tim-Berners-Lee引入的万维网上信息资源的巨大爆炸性增长,需要采用自动化的工具来搜索、提取、过滤以及评估需要的信息和资源。因此,将Web转化为用于电子商务和研究的主要工具,导致创建服务器侧和客户侧智能系统, 这些系统可以在互联网特别是Web站点挖掘知识。Web挖掘是应用数据挖掘技术从Web上发现模式。它允许从产品或者与万维网有关的活动中提取感兴趣的和可能有用的模式和暗含的信息。Web挖掘类别其中之一是Wfeb内容挖掘。Web内容挖掘是从Web上的文本、图像、音频或视频数据发现有用信息的过程,并且它包括Web文档的文本挖掘和建立在概念索引或基于代理的技术的基础上的资源发现。它是从文档内容或者它们的描述中提取知识的过程。现在存在两组Web内容挖掘战略,即直接挖掘文档内容和改善其他工具诸如搜索引擎的内容搜索。Web内容挖掘是一种超越关键词提取的自动化过程。目前,万维网主要建立在以超文本标记语言(HTML)写成的文档的基础上,HTML是一种标记协议,用于将散布多媒体对象诸如图像和交互表单的文本主体进行编码。人类能利用Web完成某些任务,诸如以另一种语言寻找英语单词,搜索某本书的题目,或者搜索最新版的书等等。但是,计算机作为机器,需要用户介入或指导,以完成要求的任务,因为网页设计地是用来由人类阅读而非由机器阅读。由于文本文档的内容并不存在机器可读的语义,所以一些方案已经建议通过机器能利用的表达式重构文档内容。利用文档中的已知结构的常规方案是利用包装 (wrapper)将文档映射成某些数据模型。因为不可能让机器仅凭字母关系等级解释代码,所以需要专门构建的语义Web编码系统。语义Web(万维网扩展,其中定义了信息的语义以及Web上的服务,使得Web能理解并满足人们的需要,并让机器使用Web内容)是能被计算力理解的信息视觉,所以他们能执行搜索、获取、共享并组合Web上的信息方面的更为复杂和繁杂的工作。语义Web涉及以专门为数据设计的语言进行发布资源描述框架(RDF)、网页本体语言(OWL)和可扩展标记语言(XML)。HTML描述文档和它们之间的链接。相反,RDF、OffL和XML可以描述任何事物诸如人、会议和飞机零件。这些技术组合在一起,以便提供补充或代替Web文档内容的描述。因此,内容可以表述为存储在Web读写数据库中的描述性数据或者表述为文档中的标记(特别是,在散布有XML的可扩展HTML (XHTML)中,或者更常见的是在纯XML中,布局或者渲染提示单独存储)。机器可读的描述允许内容管理器为内容增加含义,即描述知识本身的结构而非文本,采用类似人类推导逻辑和干涉的过程,由此获取更有意义的结果并有助于利用计算机实现自动化的信息收集和研究。例如,文本分析技术现在可以通过使用其他词语例如比喻来规避,或者使用图像代替词语。但是,现有的Web挖掘系统存在的缺陷在于,在挖掘产品时仍然涉及较高程度的用户交互。朝着自动化的方向减少用户交互的重要性至关重要,因为它加速了从Web发现和提取信息。而且由于语义Web的主干是本体论(现在经常是手工的),如果用户交互没有保持在最少的程度,则广泛应用语义Web技术将会延迟或受阻。因此,如果通过一种允许基于自动语义的产品数据Web挖掘的系统来缓解上述缺点,将极其具有优势,基于语义的产品数据自动Web挖掘能定义本体和/或他们的概念的实例,并且可以在用户交互最少的情况下实施。

发明内容
因此,本发明的主要目的是提供一种允许为扩充语义产品数据进行Web挖掘的系统,所述Web挖掘能在最少地涉及用户交互的情况下进行。本发明的另一个目的是提供一种允许为扩充语义产品数据进行Web挖掘的系统, 以允许仅通过插入选定的关键词而从Web中发现和提取有用信息。本发明的另一个目的是提供一种允许为扩充语义产品数据而进行Web挖掘的系统,以允许迅捷快速地从Web发现并提取有用信息。本发明进一步的目的是提供一种允许为扩充语义产品数据进行Web挖掘的系统, 以允许系统地并有目的地从网页发现和提取有用信息。本发明进一步的目的是提供一种允许为扩充语义产品数据进行Web挖掘的系统, 以改善Web挖掘结果。在理解本发明的以下详细描述或者将本发明用于实践之后,本发明的其他和进一步的目的将显现出来。根据本发明的优选方法,提供了一种语义Web挖掘方法,包括步骤将至少一个关键词插入Web页面;向挖掘代理发送所述关键词;收集从互联网挖掘的数据;存储数据用于以后的知识获取;其特征在于,所述向挖掘代理发送关键词跟随在筛选关键词之后;所述存储数据跟随在确定所收集的数据的mime (多目的互联网邮件扩展)类型以及此后让所确定的数据类型接受相关语义处理应用程序和验证程序之后。在本发明的另一个方面,提供了一种语义Web挖掘方法,包括步骤
将至少一个关键词插入Web页面;向挖掘代理发送所述关键词;从互联网收集挖掘到的数据;存储数据用于以后的知识获取;其特征在于,所述存储数据跟随在确定所收集的数据的mime (多目的互联网邮件扩展)以及此后确定了类型的数据接受相关语义处理应用程序和验证程序之后。


在结合附图研究具体实施方式
之后,本发明的其他方面以及它们的优势将体现出来,在附图中图1是用于基于语义的自动Web挖掘系统的简化流程图;图2是用于基于语义的自动Web挖掘的系统的详细流程图;图3示出了用于本发明的Web挖掘代理的架构。
具体实施例方式在以下详细描述中,论述众多具体细节以便彻底理解本发明。但是,本领域技术人员应该理解,在不具备这些具体细节的情况下,本发明也可以实施,在其他实例中,熟知的方法、过程和/或部件没有详细描述,以便不会混淆本发明。参照附图,从仅作为示例给出的本发明的实施方式的描述中,可以更为清楚地理解本发明,这些附图并不是依据比例绘制。参照附图,在所有示出的图形中,同样的附图标记指示类似的部件,图1示出了用于基于语义的自动Web挖掘的系统的简化流程图,而图2示出了用于基于语义的自动Web 挖掘的系统的详细流程图。如图1所示,简化的架构示出了 5个步骤,即由第一方块2指示的关键词插入步骤;由第二方块4指示的Web挖掘步骤;由第三方块6指示的数据处理步骤;由第四方块8指示的语义数据验证步骤;和由第五方块10指示的数据存储步骤。首先, 在关键词插入步骤2中,至少选定的与待发现信息相关的关键词由用户插入到网页中。然后,关键词被发送到Web挖掘代理,该代理用于在Web挖掘步骤4中从互联网诸如谷歌、雅虎、MSN、^u Tube等抓取与插入的关键词或多个关键词具有相关性的全部数据。然后,收集起来的数据在数据处理步骤6中利用语义服务加工成语义数据,以便将单纯的互联网数据转化成机器可读数据。然后在语义数据验证步骤8中,由用户验证经过处理的数据,用于存储在知识库存储器中,优选知识库RDF或三元存储器中,正如在数据存储步骤10中所示。 系统中采用的Web挖掘代理在图3中示出,该代理是利用PHP技术和已知数据库开发的已知Web挖掘代理5。它能够进行编程,以便在互联网7上爬行,从中挖掘数据并将数据暂时存储在数据库9中。暂时存储的数据然后存储在永久的知识库RDF或三元存储器11中,用于后续利用Java技术的语义处理应用程序,诸如待执行的分类服务13A、汇总服务1 和语义注解13C。图2示出了显示基于语义的自动Web挖掘的工作的详细流程图。所述附图更为详细地显示了图1中的过程。首先,在由方块2A所示的第一关键词插入步骤中,用户将至少一个关键词插入Web页面。接下来,在由方块2B所示的第二关键词插入步骤中,对关键词进行筛选,该第二关键词插入步骤通过在来自本体或知识库的一些关键词建议的基础上验证所插入的关键词来完成,这里的本体或知识库从知识库存储器10中获取,在知识库存储器中存储了供获取的现有关键词。从知识库存储器10获取关键词由箭头“A”指示。应该理解,如果关键词首先并未筛选而是像最初由用户输入那样被发送到挖掘代理,本发明也可以工作。经过验证的关键词然后在Web挖掘步骤4中作为变量发送到Web挖掘代理,正如以下段落所述。第一、第二和第三关键词插入步骤2A、2B和2C总体称为图1中的关键词插入步骤2。在第一 Web挖掘步骤4A中,使用优选采用已知PHP和已知数据库的Web挖掘代理, 正如图3中所示。PHP经过编程在互联网上爬行,正如箭头“B”所示,以挖掘数据。利用HTML 信息,由用户输入的关键词将发送到各搜索引擎诸如谷歌搜索引擎、雅虎搜索引擎、MSN搜索引擎、YouTube、谷歌图片、雅虎图片、MSN图片、雅虎视频和分享,以允许挖掘数据并存储, 用于后续获取。来自这些站点的全部结果将在第二 Web挖掘步骤4B中利用DOM Xpath语言进行查询,并且每个链接的信息将被收集并导向挖掘代理,如箭头“C”所示。XPath (XML Path语言)是一种用来从XML文档选择节点的语言,此外,XPath可以用来从XML文档的内容中计算取值(字符串、数字或者布尔值)。XPath由WorldWide Web Consortium(W3C)定义。HTML是XML文档的一部分。然后,挖掘代理将收集全部的明码互联网数据/Web数据, 并且所述数据将在第二 Web挖掘步骤4B中被分类以便将数据的mime类型确定为文本数据 (HTML或文本文档)或者二进制数据。第一和第二 Web挖掘步骤4A和4B总体称为图1中的Web挖掘步骤4。在确定了数据的mime类型之后,数据送往下一阶段,数据处理步骤6,该步骤一般是将由挖掘代理提供的明码互联网数据/Web数据利用语义服务转化为语义产品的过程。 数据处理步骤6包括文本数据处理步骤12和二进制数据处理步骤14。适用的数据处理步骤的类型取决于数据的mime类型。如果数据是文本/HTML文档,则包括若干定义为Web服务的语义处理应用程序(诸如预处理器服务、分类器服务、汇总器服务和语义注解)的文本数据处理步骤12将连续应用到文本数据,以便将Web数据转化为语义产品。在由方块12A 所指示的第一文本数据处理步骤中,挖掘代理将收集到的全部数据送往预处理器服务,在这里文本或HTML内容内的全部标签将被清除。在这一阶段,利用JAVA创建的预处理器服务有能力识别出文本或HTML数据中的最有价值的信息。只有具备重要信息的纯文本被预处理器服务返回到所述代理。接下来,挖掘代理将全部预处理过的数据助推到由方块12B所表示的第二文本数据处理步骤,其中预处理过的数据接受分类器服务。分类器服务12B将根据其预定算法和规则处理并分析获取的全部数据。然后,每个数据(或分类值)将被分类器服务返回到挖掘代理中其各自的分类中,然后将暂时存储在数据库13中,带有属性“hasCategory”以及分类(category)的名称。接下来,挖掘代理将预处理过的数据助推到由方块12C所表示的第三文本数据处理步骤,其中相同的预处理过的数据将被推送到利用JAVA创建的汇总器(summarize!·) 服务。然后,每个数据将被汇总器服务返回,并且这一次挖掘代理将接收汇总版本的预处理过的数据,这种数据也类似地暂时存储在数据库13中,带有包含汇总过的数据的属性 “hasSummary”。然后,在将明码文本数据转化为语义产品的最后一部分,挖掘代理将让预处理过的数据进入由方块12D所表示的第四文本数据处理步骤,在这里预处理过的数据进入利用 JAVA创建的语义注解服务。在这种服务中,语义注解将解锁有关何种实体(或者更一般地说,语义特征)出现在文本中并且它们作了什么的信息。正式地说,语义注解代表专用类别的元数据(metadata),这种数据为实体提供统一资源标识符(URI)或其他类型的唯一标识符形式的参考。除了执行语义注解之外,该服务提供一种元(meta)数据和产生这种meta数据的过程。采用通常方式,从该服务返回的数据将暂时存储在数据库13中。在数据为二进制文档的情况下,包括一系列语义处理应用程序的二进制数据处理步骤14应用到二进制数据,将web数据转化为语义产品。对于二进制数据,过程类似于将文本数据转化为语义数据的过程,但是略微不同的是,挖掘代理不会将二进制数据送往汇总器服务。这是因为二进制数据包含非常有限的信息诸如标题和文件扩展名。虽然从二进制数据收集的信息有限,但是可以提供非常重要的语义值。在由方块14A所表示的第一二进制数据处理步骤中,挖掘代理将确定接收到的每个二进制数据的扩展名。确定过程并不利用任何形式的JAVA服务来进行,因为该过程非常直接。然后,数据分类为文档或者图像或者视频或者音频,并且根据扩展名(extension),将暂时存储在数据库13中,带有属性 "hasExtension,,。类似于上述用来处理文本数据的前述过程,挖掘代理能内部检测二进制数据的 mime类型,如通过方块14B所表示的第二二进制数据处理步骤中所示。所述检测过程简单, 并且不需要非常高级的JAVA服务。挖掘代理将提取每个二进制数据的mime类型信息,诸如用于Jpeg图像的“Image/Jpeg”,用于音频的“Audio/Basic”等等,并且这些信息将暂时存储在数据库13中,带有属性“hasMimeType”。二进制数据的文本信息诸如标题或链接到二进制数据的短小描述将在通过方块14C所表示的第三二进制数据处理步骤中进行处理,该第三二进制数据处理步骤是分类器服务,其中所述文本信息优选利用JAVA分类器服务进行分类。每个二进制数据将得到由该分类器服务返回的其自身的分类,并且将暂时存储在数据库13中,带有属性 "hasCategory"以及分类的名称。二进制数据并未从正在进行的语言注解服务排除。如通过方块14D所表示的第四二进制数据处理步骤中所示,这种用于二进制数据的注解服务能根据知识库信息注解二进制数据。这种注解过程类似于文本数据的注解过程。每个二进制数据的全部被注解的信息将暂时存储在数据库13中。最后,用户需要验证所创建并暂时存储在所述数据库13中的全部语义产品,如验证步骤8中所示。如果用户满足于web挖掘代理从互联网上搜集到的信息,则用户仅需要点击“核准”按钮,以确认所述数据作为经过验证的数据,用于将其转送到知识库存储器10, 优选知识库RDF或者三元存储器,用于永久保存。数据的插入将广泛使用Simple Protocol 禾口 RDF Query Language (SPARQL)。虽然本发明的优选方法及其优势已经在上述具体实施方式
中公开,但是本发明并不限于此,而是由附带的权利要求书的实质和范围来限定。
权利要求
1.一种语义网络Web挖掘方法,包括步骤 将至少一个关键词插入Web表单;将所述关键词发送给挖掘代理; 从互联网收集挖掘到的数据; 存储数据用于以后的知识获取; 其特征在于,所述存储数据跟随在确定所收集到的数据的mime (多目的互联网邮件扩展)类型以及此后让确定了类型的数据接受相关语义处理应用程序和验证过程之后。
2.根据权利要求1所述的语义网络挖掘方法,其特征在于,所述将关键词发送给挖掘代理跟随在筛选关键词之后。
3.根据权利要求2所述的语义网络挖掘方法,其特征在于,所述筛选关键词借助本体或知识库。
4.根据权利要求1或2所述的语义网络挖掘方法,其特征在于,能在应用相关语义处理之前确定所述挖掘代理从互联网收集的数据为文本或二进制数据。
5.一种向如权利要求4所述的文本数据应用语义处理的方法,包括步骤预处理所述文本数据以仅保留带有重要信息的纯文本,暂时存储在数据库(12A)中; 利用预先确定的算法和规则将所述预处理的文本数据分类,暂时存储在数据库(12b)中;将所述预处理的数据汇总成汇总版本,暂时存储在数据库(12C)中; 利用语义注解应用程序将所述预处理的文本数据转化成语义产品,暂时存储在数据库 (12D)中。
6.一种向如权利要求4所述的二进制数据应用语义处理的方法,包括步骤 确定接收到的每个二进制数据的扩展名,暂时存储在数据库(14A)中;提取每个二进制数据的mime类型信息,暂时存储在数据库(14B)中;利用预定的算法和规则将所述预处理的二进制数据分类,暂时存储在数据库(14C)中;利用语义注解应用程序将所述预处理的二进制数据转换成语义产品,暂时存储在数据库(14D)中。
7.根据权利要求5或6所述的语义网络挖掘方法,允许用户在将存储在所述暂存数据库(1 中的数据转发给知识库存储器(10)用于永久存储之前,验证所述数据。
8.根据权利要求1或2所述的语义Web挖掘方法,能用于扩展或扩充语义产品。
全文摘要
本发明一般涉及用于基于语义的自动挖掘的系统,以允许为扩充语义产品而进行的Web挖掘能在用户交互最少的情况下进行。
文档编号G06F17/30GK102439599SQ201080022740
公开日2012年5月2日 申请日期2010年3月23日 优先权日2009年3月23日
发明者佩鲁马尔·A/L·纳根丹, 悦林·阿姆鲁迪恩·阿姆鲁, 洲元凯 申请人:马来西亚微电子系统有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1