处理大规模数据流的设备的制作方法

文档序号:14911381发布日期:2018-07-10 23:30阅读:126来源:国知局

本发明涉及数据处理领域并且更具体地涉及用于处理大数据量的设备。



背景技术:

数据到处构成我们世界的基本方面,目前明确是数字数据。信息爆炸产生了新的机遇,例如商业机遇。这些大量数据重新定义了产生科学知识并还向企业提供新的增长动力的方式。

数据流交叉,今后冲击大量领域,尤其是经济领域,应该允许存取在单独获得的每个数据流中不可访问的系统性质的信息。语义网络提供了实施该交叉的环境。

语义网络的标准开始普及并稳定(用于表示数据和元数据的RDF(资源描述框架)、OWL(网络本体语言),以及用于交换的协议,主要是HTTP)。已建立这些标准来便于数据的互操作性和交换。网络事实上变成优先的数据源和最活跃的交换场所。开放或半开放公布数据的交付与推广、这些数据与工业数据的结合、利用它们的工具逐渐地催生了使例如经济领域更有活力的更多重要手段。

数据的收集、集成、分析使用、可视化工作在大量参与者中系统化。现在该工作主要地涉及“冷”数据或随时间几乎不变的数据。然而新的兴趣表现到“热”数据并因此接近实时的数据,这提出新的问题并要求新的解决办法。

已存在用于处理数据流的某些组件或工具,开源的或商业性的。这是例如SPARQL(请求语言)的请求执行引擎和triplestore(存储RDF的一种资料库架构)的情况。

然而,对于数据流的当前量、数量或多样性,当前的技术和工具不能符合用户的需求。



技术实现要素:

本发明的目的是克服现有技术中的涉及大数据流的管理和处理的某些缺点。

该目的是如下实现的:一种处理大规模数据流的处理设备,大规模数据流即大数据,该处理设备包括:知识库;构成前端通信设备的一组硬件和软件,允许捕获来自外部环境的流并且在需要的情况下向该外部环境发送数据,该前端通信设备把流传送到平台以便在该平台处经受不同处理,在执行处理操作的过程中轨迹被收集并存储在记忆存储架构中;该平台产生供应给判决器设备的数据,判决器设备包括定义判决准则的一组硬件和软件,所述判决准则允许启动活动或者发起向前端通信设备或者向知识库的反馈。

根据其它特征,所述不同处理包括:流的语义化,或者概述的创建,或者至少两个流的交叉,或者多个流之间的互连。

根据其它特征,该平台包括多个作为流处理过程的“smart’op”,这些流处理过程例如是经由编写装置编写的,用于产生供应给判决器设备的数据。

根据其它特征,活动轨迹在存储架构中的记忆允许平台通过存取这些轨迹来在不同时间执行处理的重复或可能有的动作的重复。

根据其它特征,流的语义化是按照流的描述的本体进行的。

根据其它特征,流的互连能够包括语义推理。

根据其它特征,流所经受的所有操作促进数据的产生。

根据其它特征,所述数据能够是从对流执行的推理得出的警报或特殊之处。

根据其它特征,知识库包括表示外部环境的知识的信息并且包括对传感器和传感器所支持的架构的描述。

根据其它特征,构成知识的这些信息能够被由判决准则启动的反馈修改,所述判决准则位于“判决器”中。

附图说明

参照附图,通过阅读下面的描述,本发明的其它特征和优点变得更清楚,在附图中:

-图1示出根据实施方式的包括至少一个设备和流处理平台的数据流处理系统的示意图。

具体实施方式

本发明涉及用于处理大数据流的设备。

在一些实施方式中,大规模数据流(即大数据)处理设备包括:知识库1(图1);构成前端通信设备2的一组硬件和软件,允许接收来自外部环境3的流并且在需要的情况下向该环境发出数据,前端通信设备向平台4发送流以便在平台4使流经受不同处理,在执行处理操作的过程中活动轨迹被收集并存储在存储记忆架构5中;平台4,产生供给判决器设备6的数据,判决器设备包括定义判决准则的一组硬件和软件,判决准则允许启动动作7或者向前端通信设备2或者向该设备的知识库1发起反馈8。

数据流处理设备和平台4允许用户有效地管理其自己的数据流以及在其活动范围内由其它参与者(伙伴、供应方、客户、组织者、代理机构等)产生的数据。这些数据还包括开放数据、链接开放数据或非链接开放数据,由国际组织或私人机构产生。

在平台4中用于数据描述的语言或格式或所用模型优选地是RDF。RDF(图)模型允许形式地描述网络资源以及其元数据,以便允许自动处理这样的描述。RDF结构的文档是三元组的集合。RDF三元组是联合体(主语,谓语,宾语):

-“主语”表示要描述的资源;

-“谓语”表示可应用于该资源的属性的类型;

-“宾语”表示数据或其它资源,就是属性的值。

主语和在作为资源情况下的宾语可以通过URI(通用资源标识符)标识或者是匿名结点。谓语必须由URI标识。

RDF文档可以以不同的句法写成,其中包括以XML编写。但RDF本身不是XML术语。可以诉诸于其它句法来表示三元组。RDF仅是由结点构成且以图形式组织的数据结构。尽管RDF/XML,即由W3C(世界信息网联盟)提出的XML版本,仅是模型的句法(或串行化),但其常称为RDF。语言的混用既指三元组的图又指该图相关联的XML表示。

如此形成的RDF文档对应于贴标签的有取向的多图。每个三元组因此对应于其标签为谓语、源结点是主语以及目的结点是宾语的有取向的弧。

RDF数据或文档的描述一般基于一个或一组本体。本体是表示信息字段的含义的词和概念的结构化集合,该表示是通过名字空间的元数据进行或是通过知识领域的元素进行。本体本身构成表示领域内的概念的集合以及这些概念之间的关系的数据模型。本体被用来适当地讨论所涉及领域的对象。

概念被组织在图中并且通过一方面是分类关系(概念的分级化)而另一方面是语义关系彼此连接。

该定义使得可以进行用于实施本体的语言的编写。为了构建本体,支配这些概念中的至少三个:

-被动或主动代理的确定;

-其功能的和上下文的条件;

-向受限目标的可能转换。

为了对本体进行建模,使用用于以下操作的这些工具:

-使相邻的概念和词汇表精炼;

-分解成类别和其它主语;

-为主语赋予谓语以便知道相邻的转换并朝内部目标定向;

-使相互对比以便包括概念;

-使相似以便缩减到完全不同的基础;

-使实例化(instancier)以便再现向另一本体的“支路”。

本体被利用在人工智能、语义网、软件工程、生物医学信息科学或信息架构中作为世界或该世界的某一部分的主题的知识的表现形式。本体通常描述:

-个人,构成基本对象;

-类,构成对象1的组、集、类型;

-属性,由对象可具有并共享的性质、功能、特性或参数构成;

-关系,构成对象之间可以具有的连接;

-事件,表示由属性或关系经受的改变;

-元类(语义网络),构成共享某些特性的类的集。

在某些实施方式中,不同处理包括:流的语义化(sémantisation),概要的创建,至少两个流的交叉,或多个流之间的互连。

在某些实施方式中,平台4包括多个作为流处理过程的“smart’op”,这些过程是经由编写工具,例如且非限定性地经由DSL(领域特定语言)编写的,用于产生向判决器设备6提供的数据。

编写的意思是借助于脚本的编程。脚本被定义为解释语言形式的程序。

在某些实施方式中,活动轨迹在存储架构中的记忆允许平台4通过存取这些轨迹来在不同时间执行处理或可能有的动作的重复。

动作的重复或回放的意思是包括使之前执行过且已经观察活动轨迹的处理“重新进行”的操作。

在某些实施方式中,流的语义化符合流的描述的本体。

在某些实施方式中,流的互连可以包括语义推理。

在某些实施方式中,流(透过平台4)经受的所有操作促进产生数据(“判决器”6的输入处的流,参见图1)。

在某些实施方式中,数据可以是从对流执行的推理得出的警报或特殊之处。

在某些实施方式中,知识库包含表示外部环境的知识的信息并且包括传感器和其所支持的架构的描述。

在某些实施方式中,构成知识的这些信息可以被由(位于判决器6中)判决准则启动的反馈8修改。例如且非限定性地,判决器6,发现一个传感器有缺陷,就更新知识库。判决器6因此可以通过与前端通信设备2通信来把数据传送向外部环境3,如图1所示。

在某些实施方式中,平台4具有模块化架构,以便支持(新)组件的添加或更换而无需重编译,并且允许在全部云就绪(cloud-ready)虚拟机上的布置。所述平台4借助抽象的层被模块化,抽象的层允许封装对操作系统(文件系统)、存储系统(数据库,triplestore RDF……)、或交换系统(运送总线)的服务的所有存取。

平台的这种模块化的架构可以依赖于以下市场标准以便被插入用户的系统中,尤其是:

-Java平台及其生态系统。基于Java的平台受益多个优点。在多个操作系统上工作的执行引擎,Java形式的开发尤其继承了平台4的独立性和代码的可移植性,代码因此被以相同的方式在各个平台上执行。这是开源的可用框架和功能库众多的环境,这便于开发。除编程语言之外,Java首先是布置平台(Java虚拟机,库,以及支持多类编程的企业版本和应用服务器(Java EE):强制编程(Java)、动态/编写编程(Groovy,JRuby……)、以及功能编程(Scala,Closure……));

-W3C规范,在数据建模等级(RDF、XML);请求表达式规范(通过SPARQL语言进行请求);基础架构规范(HTTP协议、REST模型);或者表达规范(HTML 5,CSS)。

在某些实施方式中,所述抽象的实施替代允许使适于开发(本地文件系统,存储器中的triplestore,事件观测器)的简单实施过渡到集中于大规模布置(虚拟机库,服务器集群或架)的其它实施:“网格”型的分布式文件系统(MongoDB,Infinispan……),分布式triplestore或集群式triplestore,JMS或AMQP运送总线等。

在某些实施方式中,平台4的架构允许使系统的布置适于目标体积测量,而且还在通过所选组件允许的情况下简单添加虚拟机或者通过替换限制可升级性的组件而演变的情况下来使系统的布置演变。

系统的可升级性的另一方面涉及管理网络流以及优化向系统的流量或来自系统的流量。使用用于向应用和用户提供服务的REST(表述性状态传递)模型允许优化网络架构的使用,不论服务器侧还是客户侧,例如通过缓存器管理命令(服务器、网络(代理)和客户),还允许避免内容再生效类型的无效请求。

类似地,好的内容协商管理允许通过最小化甚至消除用于向资源引导用户所需的重定向的数量来优化交换,所述资源提供适于其约束条件/容量(MIME类型,即多用途互联网邮件扩展)的内容。该架构可以支持针对交换流的这种优化所需的接口。

除了技术方面之外,该任务允许建立与流有关的事件的路由和分布的准则,以便根据平台4的拓扑(结构)和组成平台4的每个smart’op实例的处理能力来使处理的分布自动化和优化。所述架构还允许处理的动态和自适应分布,从而能够考虑以下事件:诸如结点的消失(恢复)及其投入使用,甚至可选地,引入新结点(可热升级性)。

在某些实施方式中,SPARQL请求语言被扩展来进行数据流的概述或实现忘记功能,从而允许记录(historiser)具有随时间而变的粒度的数据流的历史并且保证所述数据流的有限的存储空间。

所述概述还允许指定并实现语义过滤的操作机构(因为被应用于语义化的数据),所述操作机构在输入端使用用户的上下文,其表现为用户的简档,对数据的访问权利,用户的地理位置,用户的偏好,用户的终端以及其环境(时间,季节,等)。

从不同传感器和其它流收集的动态数据是语义化的。该语义化表现为把这些数据转换为RDF三元组,所述三元组被表征这些流的准连续到达的时间维度修饰。

因此,SPARQL语言的扩展,其中集成了如时间窗之类的概念,允许进行查询、对这些语义化的流进行过滤或推理。

当系统需要对连续到达的大量数据进行快速且智能的处理时,在处理全部流之前对它们进行存储变得非常昂贵并且有时冗余或不可能的。因此需要通过实现概述(例如通过统计方法提取代表流的样本)来即时处理语义化的数据并且仅存储相关的语义化的数据。

在某些实施方式中,SPARQL语言被通过引入适应性时间窗(流的定义部分)的概念和特定于流处理的操作机构而扩展。处理数据的请求应当适应于动态数据的到达流率并且被连续评估以便考虑流的演变特性。因此SPARQL请求的语义学还允许基于时间或数据到达顺序的处理。

在某些实施方式中,扩展的SPARQL语言允许通过使可以是静态或动态且短暂的数据互连来使这些数据结合,无论它们的数量、来源或质量如何。

在语义网络的上下文中,存储在知识库中的事实不是自然地顺序排列。然而,流传送的环境及其数据处理的时间窗的概念,强制对此负责。因此,输入的事实和推理的表示管理机制适于按顺序排列所述事实。对数据的速度和容量分析的考虑要求前述操作的优化。因此,必须要接收原始数据、对其进行语义化、并且在受限的时间中在推理机制内对其进行利用,即使数据以极大速度和极大量到达也是如此。与流的分析窗的时间约束一起考虑这两个因素是通过用于它们的中间存储的动态系统来保证的。因此,在某些情况下,流可以仅保存在主存储器中,而在其它情况下,肯定需要把流保持、甚至暂时地保持在辅助存储器中。

为了利用适于在主存储器中存储并提供高级性能的键值类型的数据库,最好使RDF三元组模型在普遍性方面适于采取的键值方法。

为把数据转换为RDF三元组,称作“直接映射”的第一方法允许基于用于类的表格名称和用于属性的列的名称来自动生成RDF。该方法允许基于关系数据库来快速地获得RDF而无需使用词汇表。

另一方法提供允许把词汇表的词语与数据库的图解相关联的R2RML映射语言。在XML的情况下,可以基于大幅的XML文档来实现XSLT类变换以产生RDF。

数据可视化(dataviz)是其用途的键之一。其允许理解、分析、跟踪、检测数据的键元素。通过所有上面这些,其允许用户与数据集成、实体地感知数据。在研究实验室中已经进行了数据可视化有关的大量科学工作。大量的开源组件允许大量专家或者准专家利用它们并且互通其关于数据的观点。

例如,数据新闻学(是旨在通过利用统计数据并且使其公开来更新新闻学的活动)由于两个主要因素而突飞猛进。第一,使数据公开(开放数据)允许快速地存取可信的数据。这些数据的一部分可以以流的形式存取但是该活动趋于因为“物联网”和“智能城市”的到来而扩大。这允许存取来自传感器或者其它相连对象的以数据流形式的数据。第二,实施有吸引力的可视化的能力允许使讨论和争辩更加清楚和有表现力。静态或者相对静态数据的视觉表现达到头等成熟度。扩展SPARQL语言的使用允许模块化平台4还处理动态数据和语义化流的可视化。

本申请参照附图和/或各种实施方式描述了各种技术特征和优点。本领域技术人员理解在一个给定实施方式中的技术特征可以事实上与其它实施方式中的特征组合,除非明确提及相反的指示,或者明显这些特征是不兼容的或者该组合不能提供对于本申请中提及的技术问题中的至少一个问题的解决方案。此外,在一个给定实施方式中描述的技术特征可以脱离该实施方式中的其它特征,除非明确提及相反的指示。

本领域技术人员应该明白本发明允许以其它大量特定形式的实施方式,只要不背离所要求保护的发明的应用领域即可。因此,本实施方式应该被认为是示例性的,而是可以被在各个权利要求的范围限定的领域内修改,而且本发明不被限于上述给出的细节。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1