数据集成平台的制作方法

文档序号:6600422阅读:229来源:国知局
专利名称:数据集成平台的制作方法
技术领域
本公开内容总体涉及数据集成平台领域。
背景技术
当越来越多的数据库可通过门户网站、可编程接口等从因特网等网络获取时,基于互联网的数据库和数据的集成变得越来越重要。然而,由于数据形式、结构和语义上存在 的异构问题,难以获取和集成多样化的数据。存储在因特网上的数据可能借助于不同的方 法进行了处理,这使它们彼此间难以相互比较,以及可能因不一致的技术术语和命名习惯 而彼此不一致,甚至彼此冲突。一些数据甚至存在严重的质量问题,例如,它们可能是有很 多噪声的,并且并不可靠。这些数据还可能缺少一些内部相关性注释来支持生物信息学上 常做的跨学科分析。

发明内容
本公开内容的一个实施方案描述了一种数据处理平台,其包括查询处理模块和响 应收集模块。该查询处理模块被构造为接收查询,并将该查询翻译成一些适当的用于对各 种源进行查询的形式。响应收集模块被构造为根据所述经翻译的查询,从各种源收集结果, 并提供结果。本公开内容的另一个实施方案描述了一种数据集成方法,其包括以下步骤接收 查询并将该查询翻译成一些适当的用于对各种源进行查询的形式;以及根据所述经翻译的 查询,从各种源收集结果,并提供结果。以上是综述,因此必然涵盖了对细节的简化、概括以及省略;所以,本领域普通技 术人员将明白该综述只是示例性的,并不意在构成任何限制。所述器件和/或过程的其他 方面、特征、优点和/或本文描述的其他主题将通过本文所给的教导而变得清楚。综述的提 供意在以一种简化的方式引入对概念的选取,而该概念的具体内容将稍后做进一步说明。 该综述并不意在明确表明所要求保护主题的关键特征或必要特征,也并不用于辅助限定所 要求保护的主题的范围。


本公开内容的上述特征和其他特征将通过以下描述、所附权利要求以及附图而变 得更为清楚。应理解,这些附图只是描述了本公开内容的几个实施方案,因此,它们并不被 考虑用于限制本公开内容的范围,借助于这些附图,将对本公开内容的更多说明和细节进 行描述。图1示出了根据一示例性实施方案的数据集成平台(DIP) 100的示意性概图;图2示出了根据一示例性实施方案的数据集成平台(DIP) 100的示意图;图3示出了根据一示例性实施方案的功能注释过程的示意图;图4示出了根据一示例性实施方案的DIP的功能的三层结构的示意图5示出了根据一示例性实施方案的基于多个DIP的数据集成方法的示意图;图6示出了根据一示例性实施方案的结果呈现图。
具体实施例方式在以下详细描述中,参考了附图,所述附图构成本公开内容的一部分。在附图中, 相同的符号一般表示相同的部分,除非上下文另有说明。具体说明、附图以及权利要求中所 描述的说明性的实施方案并不意在构成限制。可以利用其他实施方案,以及进行其他改变, 这些并不脱离此处所给主题的精神和范围。易于理解的是,可以以各种不同的构造布置、替 换、组合和设计本公开内容中如此处从整体上加以描述和图示的那些方面,所有这些都被 确切预期并构成本公开内容的一部分。本公开内容主要涉及一些与数据集成平台有关的方法、装置、计算机程序、存储计 算机程序的计算机可读介质以及系统。图1示出了数据集成平台(DIP)IOO的示意性概图。DIP包括查询处理模块101, 其被构造为接收原始查询104,并将该原始查询104翻译成一些适当的用于对各种源103进 行查询的形式。DIP 100还包括响应收集模块102,其被构造为根据所述经翻译的查询,从 各种源103收集一些结果105,并提供结果106。原始查询可以接收自客户计算机设备108。在一示例性实施方案中,查询处理模块101,例如如图2所示,包括查询翻译器 (QT) 2010响应收集模块102包括查询桥(QB) 202,以及结果集结器(RA)203。查询翻译器 201接收诸如关键词查询之类的原始查询104,并将其翻译成内部表达或统一的形式——例 如基于请求分析器(request parsar)等。接着,将所述经翻译的查询传送至查询桥202。查询桥202包括适配器(adapter) 2021、查询调用器2022以及结果收集器2023。 该适配器2021基于每个数据源的信息(如,基本的查询模式、检索数据的方法等),生成应 用接口所要求的正确的或针对性的陈述或表达。将生成的陈述传送至调用每个数据库系统 提供的查询服务的查询调用器2022。查询调用器2022分发,即,传送每个生成的陈述至其 所针对的或对应的数据源。数据源206、207和208接收各自对应的陈述并在数据源处运行 查询。结果收集器2023通过各种方式从诸如数据库206、API207和互联网服务208等各种 源收集结果。例如,结果收集器2023可以被构造具有一个抓取模块(crawlingmodule),该 抓取模块在因特网、局域网或数据库上抓取结果。结果收集器2023还可以被构造为通过可 编程接入点,如API207和网络服务208,来收集结果。适配器2021还将异构的查询结果的 结构和形式转换为统一的内部表达。适配器2021可以针对每个已知源来具体地构造。从 多个数据源获取的结果可能具有各种形式,即文本形式、表示图表的URI、超链接等、后续可 以转化为HTML表目标的数据表;一个错误消息等。结果集结器203处理查询结果,例如分 析交叉查询结果的一致性、识别冲突和矛盾的结果、过滤重复的记录以及产生一整理过的 结果集或结果106。DIP还可以包含一个作为DIP的助理的查询域知识数据库205。该知识数据库可以 包括查询关键词数据。这类数据帮助适配器2021针对不同的源生成正确的查询语句。以 复杂的ID系统为例,知识数据库含有基因的映射关系,从而只需输入一个ID(基因标识), 适配器2021将以正确但不同的关键词自动生成数据库查询语句。在多个查询以后,将不同 形式的数据返回到请求者,而查询域数据库205协助“理解”结果的意思,并将它们组合到标准化的结果中。可以理解的是,该特征可以利用后端应用处的映射系统来实现。例如,可 以利用本体(ontology)来提供该领域里的统一的概念模型。在训练过程中,关键词被附加 上其到概念本体(concept ontology)的映射,以及该关键词通过从使用历史进行学习来保 持更新。一个关键词可以被映射到多个本体概念。因此首先基于后端映射系统分析在线提交的关键词,以识别其统一的本体概念, 以及不同数据库中映射到该相同的本体概念的相应关键词。在这种知识的辅助下,DIP非常智能,能够使用仅仅一个类型的输入,自动地对不 同的互联网站点/数据库进行操作。该多源数据被提供用以供科学家进行分析。在上述描述中,DIP可以接受不同方式的查询请求,包括对某一个数据类型或多个 数据类型、某一平台或交叉平台等的查询请求。在知识系统或查询域知识数据库205的支 持下,也可以以生物模型的形式提出查询,所述生物模型用以表示所有相关的信息,包括基 本的基因信息、实验结果、功能注释以及所推得的结论。可以使用统一的表达首先将所提交 的查询具体化。例如,它可以被编码进XML。然后根据不同的互联网数据库的接口限定,将 统一的查询翻译成不同的形式。DIP含有转换规则方面的知识。例如,它是标准的SQL,或参数化的API。此处的一个假设是互联网数据库遵循某些标准接口。在数据集成过程中,可以提供控制器来控制一个或两个模块的运行。因此,还可以 选择性地包括一个过程管理模块。该过程管理模块用于接收来自外部设备的指令,并执行 该指令,以引导每个模块的运行,所述模块如查询翻译器201、适配器2021以及结果集结器 203。在一些实施方案中,适配器还可以包括服务糅合模块(service mashup module), 其用于提供有过程情景意识的数据集成。一个过程由数据处理和分析操作组成。例如,当 一个如上所述的数据集成平台用于生物领域时,一服务糅合模块被构造为将数据连同它们 的注释集成到一个过程中。如图3所示,服务糅合模块可以包括三个部分1)功能服务池 301,在该处存储了服务描述;2)过程限定302,用以将服务组织成为一个过程以及提供过 程说明;以及3)过程引擎303,用以绑定并调用过程中指定的服务。当调用一个过程时,过 程引擎303装载过程限定302,并找出功能服务池301中的服务。在过程执行中提供动态 绑定和调用过程。过程限定302限定不同功能服务之间的数据流和控制流。例如,限定两 个服务SA和SB依序被调用,服务SA的输出是紧随的服务SB的输入。对于这种工作流和 数据说明有一些标准。例如,用于工作流说明的BPEL4WS和0WL-S,以及用于数据流说明的 SCA/SD0。功能服务池301包含对功能注释服务和工具的描述。池301中的工具被打包成 (bewrapped as)互联网服务,用以支持动态绑定方法。每个服务,如第三方注释服务以及被 打包的服务例如以OWL-S来描述。在OWL-S中,“ServiceProfile”提供了对服务及服务提 供者的高级别描述,以便推广、调用和牵线该服务,所述描述包括服务概要描述、服务功能 以及功能归属。“ServiceGroimding”限定了从抽象描述到具体说明的映射,其指定了访问 服务的具体细节,如协议、消息格式、序列化、传送以及寻址等。“ServiceModel”描述了使 实现服务调用、组合和监控等的服务能力。OWL-S中所描述的“原子过程”用于……。结果 是,功能服务池301保持了如“原子过程”的所有服务和工具,以供过程引擎303来绑定和调用。作为服务池管理,池301可以保持一张可获取的服务的URL列表。它可以维持链接、 分类服务以及根据需要绑定到服务等。服务引擎303解释该过程说明。对于过程限定中的 每个功能,它在池301中找到具体服务、绑定并调用服务,用于执行。过程限定302被限定成XML。过程限定302扩展OWL-S至支持动态绑定。类似 于0WL-S,过程限定302还描述该过程是如何组合的。该OWL-S在如何描述一组合过程方 面提供了良好的参考。组合过程可以被拆解成其他(非组合的或组合的)过程,可以使 用诸如Sequence和If-Then-Else的控制构造来规定它们的拆解。不同于0WL-S,不可拆 解的过程不是一个“原子过程”。换言之,OWL-S过程限定可以被看成一组“原子过程”以 及“组合过程”,和一些控制构造信息。但是过程限定302包括控制构造、“组合过程”以及 "AtomicServiceStub"(而不是 OffL S 中的“原子过程”)。"AtomicServiceStub"限定了 不可拆解过程作为一个服务类型,其包括一套可完成相同运行的可互相取代的服务。例如, Google和Yahoo两者都可以在互联网上搜索文本。因此,这两个了应用可以被分类到相同 白勺 “AtomicServiceStub” 巾。扩展的OWL S过程执行引擎被设计为过程引擎303,以构造和执行服务过程。过程 限定302引导引擎来决定需要绑定和调用哪种服务。在每个步骤中,哪种指定的服务将被 绑定和调用取决于两个因数1)外部决定,其可以从过程管理模块接收;以及2)引擎决定。 外部决定被看成是外部的偏好。外部具有选择服务的特权,该选择具有比引擎决定更高的 优先权。引擎决定是有情景意识的计算。服务情景包括服务装载、服务质量以及其他与服 务有关的信息。功能注释是外交互式的迭代过程。外部可以基于之前的结果以及他/她的 偏好来决定所要进行的运行。DIP可以运行在客户计算设备上。它也可以基于互联网,如Web 2. 0/ffeb 3. 0来运 行。图4示出了根据一示例性实施方案的DIP的功能的三层结构的示意图。该三层包 括数据层401,其用于元数据和词汇管理;知识层,402,其用于信息建模、分析和知识发现; 以及服务层403,其用于提供外部服务。在数据层401,执行元数据管理和处理,诸如元数据 管理4012以及元数据映射4013。例如,针对标准词汇4011定义限定基于元数据的模型。 数据提供者可以登录以及提供与元数据兼容的数据内容或告知DIP从其本地词汇到中心 标准的映射规则。在知识层402,它提供了对信息的不同的看待角度,包括用于数据检索的 直接的看待角度4024,基于特定“规则”,如“中心法则”等来链接和集成数据的模型库角度 4023,以及带有统计和个人信息的概要角度4025。在信息的整个循环过程中,对所有信息应 用出处4021以及分级4022等质量控制机制。基于所提取的信息,挖掘4026、发现4027以 及管理4028知识4029.在服务层403,向数据提供者提供登录4031相关的信息,并提供数 据分类4032、建模4033以及注释4034等服务,以便更好地理解数据。通过个人化代理4036 提供与查询4035有关的服务,该个人化代理4036能够识别个人兴趣,并积累知识用于个人 服务。该服务将触发解释器4037来解释该查询并触发对所返回的结果的集成4038。图5示出了基于多个DIP的数据集成方法的示意图。如该图所示,提供者或登录 者5014将源5012登录到DIP 501,用于公开和检索。它也可以通过一个包5013将其数据 转换到DIP 501所限定的标准形式。包在软件开发上是广为应用的设计模式。当集成不同 的软件部分或子系统时,由于不一致的接口限定,彼此间可能不协调,例如,由于功能命名、参数命名或语义不同。一种简单的解决该问题的方法是将包加入到彼此相通的功能中。该 包将接口转换至彼此一致。 同时,该提供者或登录者可以将转换规则连同其数据模式信息提交至DIP 501,从 而将转换工作留给DIP 501。该DIP 501也可以通过在因特网上进行抓取来获取源5015, 例如通过使用抓取模块。在这种方式中,它要求数据提供者为DIP 501显示标准服务,以供 DIP 501理解其数据形式和语义。DIP 501可以以各种方式返回响应。可以使用异步方法。例如,基于事件的通知以 及主题订阅都是可用于DIP结构的异步技术。在图5中,一组DIP(501,502,503)结合在一起,它们是动态的并且是可扩展的。 DIP(501,502,503)可以基于标准协议来分工和协作。为了避免通信和处理瓶径,一个DIP 可以集中于提供小规模数据服务这样的指定任务。例如,DIP(501,502,503)可以被分类到 不同的领域中。一个DIP可以集中于高吞吐量的基因数据服务,而另一 DIP可以集中于化 合物数据服务。DIP(501,502,503)不停参考其他DIP,并通过协议在运行时建立合作。它 们可以灵活地参与合作或放弃合作。本公开内容还提供了数据集成方法。参考图2,查询翻译器201接收查询104,如 关键词查询,并将其转换成内部表达或正确的形式。通过适配器2021,将该内部表达进一步 转换成应用接口所要求的针对性的陈述或表达。通过调用器2022将针对性的陈述分发至 每个数据库系统。数据收集器2023在因特网和局域网上收集结果,或通过可编程接入点收 集结果,通过适配器2021,该结果被转换为统一的形式。结果集结器203将进一步处理结 果。例如它可以分析结果的一致性、识别冲突和矛盾的结果、过滤重复的记录以及产生一整 理过的结果集。同时,可以提供个人化的服务,例如通过个人化代理。例如,根据个人兴趣 和交易历史处理或呈现该查询或结果。为了在数据集成过程中引导每个模块的运行,可以接受用户指令来引导每个模块 的运行。同时,该方法还包括提供有过程情景意识的数据集成,例如通过服务糅合模块,如 参考图3所描述的。实例以下描述涉及在生物领域里的实施,将参考图6对其进行描述。图6示出了结果 呈现图。外部设备处的用户希望找出一种药物的治疗效果以及所影响的基因。从查询开 始,使用外部设备的用户可以在任何时刻选择所要查看的基因,以及选择要调用的注释服 务。数据集成平台现在支持查询结果的线形图表视图和表格视图。它提供到两个服务的 连接1)KEGG路径服务,其帮助外部设备处的用户理解生命活动过程中的行为和生物学努 力;以及2)DAVID/G0服务,其提供基因信息,包括染色体、位置、疾病、别名、路径名等。外 部设备处的用户可以以默认关键词“PTGS2”以及默认的平台过滤器“U95”来查询数据库, “U95”是来自Affymetri/公司的被广为使用的芯片系列之一。它们也可以输入正式的基 因名称以及通过折叠的选项面板选择平台。查询结果可以以三种视图来显示1)在左面板 上的结果视图602内显示的简要统计,其中有基因名称列表及它们的访问次数;2)数据表 格视图610中的组织和细胞系信息结果。在该视图中,实验结果被收集和呈现在一表格中, 以供科学家获取标准化的数据值;以及3)图表视图612中的值的线形图表。
7
后两种视图以分开的标签显示在图6中。科学家可以比较不同的结果视图,以识 别重要的或不正常的点。作为随后的一个步骤,在工具视图604中提供两个工具。点击任何一个按钮将产 生在线服务调用。该服务的结果将显示在主面板的一个新标签里。KEGG服务606调用具 有两个步骤。第一步骤是路径查询。每个路径具有其自己的超链接(如,花生四烯酸代谢 (Arachidonic Acid Metabolism)) 0第二步骤实际上呈现类似于图6所示的路径图表。不 同ID系统之间的ID翻译过程支持该调用,该ID翻译过程对终端用户是透明的。在翻译过 程中,后端有ID映射系统。该系统可以例如在关系数据库、XML或多维数据库中实施。ID 作为一个关键词被映射到统一的内部表达。该系统限定了每个系统中的每个ID的映射。因 此,查询ID首先被翻译成统一的内部表达,然后被翻译成其他系统中的其他ID。路径图表中的每一个元是可以被点击以生成新的查询和打开来自KEGG网站的网 页的热点,KEGG网站包括了酶、基因或有机组织在内的具体信息。David基因本体服务(David Gene Ontology Service) 608还可以被选择为分析 操作。作为示范,David服务通过限制服务参数而被简化。在原始的David服务中,用户可 以通过设置注释类型、基因ID系统、关键词以及服务工具的偏好来施加他的个人化请求。 FimGene系统基于以前的查询自动生成正确的ID系统和关键词参数。此外,功能服务调用 器将“工具”设置为“基因报告”以及“注释类型”设置为“G0TERM BP ALL”(包括所有生物 学过程注释)。该结果以数据表格呈现,并且也显示在标签中。系统的众多方面的硬件实施和软件实施差别很小,使用硬件或软件通常(但并非 总是,因为在某些情景,硬件和软件之间的选择可能变得非常不同)是一种代表了成本和 效应间的折中的设计选择。存在各种可以实现此处所描述的过程和/或系统和/或其他技 术的效果的方式,而最为优选的方式则随该过程和/或系统和/或其他技术所实施的情景 而变。例如,如果一个实施者确定速度和精确度是非常重要的,实施者可以选择以硬件和/ 或固件实施方式为主;如果灵活性是非常主要的,那么实施者可以选择组合硬件、软件和/ 或固件。以上的详细描述通过使用方块图、流程图和/或实施例阐述了器件和/或过程的 各种实施方案。就这种方块图、流程图和/或实施例包含一个或多个功能和/或运行而言, 本领域普通技术人员将理解,这种方块、流程图或实施例中的每个功能和/或运行可以由 各种硬件、软件、固件或其任意组合,单独实施或组合实施。在一个实施方案中,此处所描 述的主题的几个部分可以通过专用集成电路(ASIC)、现场可编程门阵列(FPGA),数字信号 处理器DSP或其他集成形式来实施。然而,本领域的普通技术人员将认识到此处公开的实 施方案的某些方面,整体上,或部分上,可以作为一个或多个运行在一个或多个计算机上的 计算机程序(如,作为一个或多个运行在一个或多个计算机系统上的程序),作为一个或多 个运行在一个或多个处理器上的程序(如作为一个或多个运行在一个或多个微处理器上 的程序),作为固件,或作为其任意组合,与集成电路等价地实施,而且,本领域普通技术人 员根据此处的公开完全有能力设计电路和/或对软件和/或固件写代码。此外,本领域普 通技术人员将理解,此处所描述的主题的机理能够转化成各种形式的程序产品,以及无论 实际用于执行该转化的信息承载介质的类型为何,此处所描述的主题的示例性实施方案都 适用。信息承载介质包括,但不限于,以下这些可记录型介质,如软盘、硬盘驱动、压缩盘
8(CD)、数码影碟/数字多用光盘(DVD)、数字磁带、计算机存储器等;以及传输型介质,如数 字和/或模拟通信介质(如光纤光缆、波导、有线通信链接、无线通信链接等)。本领域普通技术人员将认识到,在本领域内用此处所给的方式来描述设备和/或 过程,以及随后用工程实践将这种描述的设备和/或过程集成到数据处理系统,是常见的。 也就是说,至少一部分此处所描述的设备和/或过程可以通过适当量的实验被集成到数据 处理系统中。本领域普通技术人员将认识到典型的数据处理系统一般包括一个或多个系统 单元外壳、一个视频显示设备、一个易失和非易失存储器之类的存储器、诸如微处理器和数 字信号处理器之类的处理器、以及诸如操作系统之类的计算实体、驱动器、图形用户接口, 以及应用程序、一个或多个交互设备,如触摸垫或屏,和/或控制系统,包括反馈循环和控 制发动机(如用于感测位置和速度的反馈;用于移动和/或调整部件和/或数量的控制发 动机)。典型的数据处理系统可以利用任何合适的商用部件,如那些通常可以在数据计算/ 通信和/或网络计算/通信系统中找到的商用部件。此处描述的主题有时候示出了含在其他不同部件内的或与其他不同部件连接的 不同部件。要理解的是,如此绘制的结构只是示例性的,实际上,可以实施其他很多也可以 完成同样的功能的结构。就概念上而言,用以实现同一功能的部件的布置实际上都是“关 联”的,以使实现所需功能。因此,此处所组合的用以实现一特殊功能的任意两个部件可以 看成是彼此“关联的”,从而使实现所需功能,而不管结构或中间部件如何。类似地,任何两 个如此关联的部件也可以被看作彼此“操作性地连接”或“操作性地结合”,以获取所需功 能。可操作性结合的具体实施例包括但不限于物理上可成对的和/或物理上相互作用的部 件和/或可无线交互的和/或无线交互的部件和/或逻辑上交互和/或可逻辑上交互的部 件本公开内容不限于该应用中所描述的具体实施方案,这些实施方案意在作为各方 面的示例性说明。而如本领域普通技术人员很显然就能明白的是,可以进行任何修改和变 动,这些修改和变动不脱离其精神和范围。通过前面的描述,本领域普通技术人员很显然 就看到很多此处所例举的方法和装置之外的、落在本公开范围内的功能上等价的方法和器 件。这种修改和变动都被考虑落在所附权利要求内。本公开内容仅由所附的权利要求以及 与这些权利要求相等价的所有范围限定。应该理解,此处所用的术语是仅仅用以描述特定 实施方案的,并不是用以限制的。对于此处所用的基本所有的复数和/或单数术语,本领域普通技术人员可以根据 情景和/应用,将复数切换到单数和/或将单数切换到复数。此处表达性地阐述的各种单 数/复数改变只是为清楚起见而加以应用的。本领域普通技术人员将明白,总体上,此处所用的术语,特别是所附权利要求中的 术语一般都考虑成是“开放式”的术语(如术语“包括”应该解释成“包括但不限于”,术语 “具有”应该解释成“至少具有”)。本领域人员将进一步理解,如果要考虑所引入的权利要 求限定的具体数字,这种意图会具体包括在权利要求中,在没有这种限定的时候,就不存在 这种意图。例如,为促进理解,以下所附的权利要求可能包括使用引入性短语“至少一个”以 及“一个或多个”来引入权利要求限定。然而,使用这种短语不应该被理解为暗示了,由不定 冠词“一”或“一个”引入的权利要求限定将任何含有这种被引入的权利要求限定的特定权 利要求限制在仅仅含有一个这种限定的公开上,即便是相同的权利要求包括了引入性短语“一个或多个”或“至少一个”,以及不定冠词,如“一”或“一个”(如,“一”和/或“一个”通 常应该被解释为“至少一个”或“一个或多个”);对于使用定冠词来引入权利要求限定来说, 这同样成立。此外,即使具体包括了所引入的权利要求限定的具体数字,本领域普通技术人 员将认识到,这种限定通常应该被解释成至少所限定的数字(如,没有其他改变的,纯粹的 限定“两个限定”,通常意味着至少两个限定,或两个或更多个限定)。而且,当使用了类似 于“A,B和C中的至少一个”时,以本领域普通技术人员能明白的习惯用法来考虑(如,“一 个具有A,B,和C中的至少一个的系统”将包括但不限于那些仅仅具有A,仅仅具有B,仅仅 具有C,以及具有A连同B,A连同C,以及B连同C,和/或A,B,C 一起的系统等)。在使用 了类似于“A,B,或C等中的至少一个”时,以本领域普通技术人员能明白的习惯用法来考虑 (如,“一个具有A,B,或C中的至少一个的系统”将包括但不限于那些仅仅具有A,仅仅具有 B,仅仅具有C,以及具有A连同B,A连同C,以及B连同C,和/或A,B,C 一起的系统等)。 本领域普通技术人员还将明白,无论在说明书,权利要求书还是在附图中,实际上任何给出 两个或多个替换性术语的分离性词汇和/或短语应被理解成包含了这样的可能性包括术 语中的其中一个,任何一个,或两个。例如,短语“A或B”将被理解为包括“A”或“B”或“A 和B”这样的可能性。此外,当所公开的特征或方面是对马库什组进行描述时,本领域普通技术人员将 认识到该公开的描述还涉及了该马库什组的各个组成,或这些组成的子组。如本领域普通技术人员将明白的,无论出于什么目的,就提供书面描述而言,此处 所公开的所有范围也涵盖了其所有可能的子范围或子范围的组合。任何列出的范围易于被 方便地认为是充分地描述了该范围被破解到并能够被破解成至少对半、三等分、四等分、五 等分、十等分等等。作为非限制性实施例,此处描述的每个范围易于被破解到较低的三分之 一,中间的三分之一,和上部的三分之一等等。如本领域普通技术人员将会理解的,诸如“上 至”、“至少”、“大于”、“小于”等语言包括了所限定的数字以及指示那些可以随后被破解到如 上所述的子范围的范围。最后,如本领域普通技术人员将明白的,一个范围包括了每个单独 的成员。因此,具有1-3个细胞的组指示那些具有1,2,或3个细胞的组。类似地,具有1-5 个细胞的组指示那些具有1,2,3,4,或5个细胞的组,以此类推。当此处公开各方面和各实施方案时,其他方面和实施方案对本领域普通技术人员 来说将是显而易见的。此处所公开的各个方面和实施方案只是出于说明的目的,并不意在 限制,实际的范围和精神由随后的权利要求来限定。
10
权利要求
数据集成平台,包括查询处理模块,其被构造为接收查询,并将该查询翻译成一些适当的用于对各种源进行查询的形式;以及响应收集模块,其被构造为根据所述经翻译的查询,从各种源收集结果,并提供结果。
2.根据权利要求1的数据集成平台,其中响应收集模块被进一步构造为具有一个抓取 模块,其用于在数据库、因特网或局域网上抓取结果。
3.根据权利要求1的数据集成平台,其中响应收集模块被进一步构造为通过可编程接 入点收集结果。
4.根据权利要求1的数据集成平台,还包括查询域知识数据库。
5.根据权利要求1的数据集成平台,还包括代理模块,其被构造为提供个人化的服务。
6.数据集成方法,包括接收查询;将该查询翻译成一些适当的用于对各种源进行查询的形式;以及根据所述经翻译的查 询,从各种源收集结果,并提供结果。
7.根据权利要求6的数据集成方法,其中该结果通过在数据库、因特网或局域网上抓 取来收集。
8.根据权利要求6的数据集成方法,其中通过可编程接入点收集结果。
9.根据权利要求6的数据集成方法,还包括提供个人化服务。
10.根据权利要求7的数据集成方法,其中个人化服务由代理模块提供,该代理模块识 别兴趣并积累知识用于数据集成。
全文摘要
本发明公开了一种数据集成平台,其包括查询处理模块和响应收集模块。该查询处理模块被构造为接收查询,并将该查询翻译成一些适当的用于对各种源进行查询的形式。响应收集模块被构造为根据所述经翻译的查询,从各种源收集结果,并提供结果。本公开还提供了一种基于该数据集成平台的数据集成方法。
文档编号G06F17/30GK101826108SQ201010142918
公开日2010年9月8日 申请日期2010年4月9日 优先权日2010年4月9日
发明者张宝宇 申请人:北京宇辰龙马信息技术服务有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1