面向类型化资源的投入驱动的存储与计算一体化的事务处理优化方法与流程

文档序号:12887332阅读:197来源:国知局
面向类型化资源的投入驱动的存储与计算一体化的事务处理优化方法与流程
本发明是面向类型化资源的投入驱动的存储与计算一体化的事务处理优化方法,基于由数据图谱、信息图谱和知识图谱构成的框架对以数据、信息和知识等形态存在的资源进行建模,从资源处理、处理优化的角度对资源进行合理组织和存储,优化资源处理的时空效率,属于分布式计算和软件工程学技术交叉领域。
背景技术
:传统的搜索引擎技术根据用户的查询要求快速检索和排序网页资源,对于搜索引擎反馈的大量资源需要用户进行人工排查和筛选,导致搜索效率低下,难以满足用户快速获取到资源的需求。现有的技术包括基于机器学习的方法和基于本体的方法为应对这一挑战做出了许多贡献,然而,基于机器学习的方法缺乏有效的机制来明确地将经验知识与训练模型结合在一起,基于本体的方法受到人类专家方面沉重负担的限制。知识图谱容纳资源规模较大,涵盖的知识领域广泛,并且能为用户提供智能搜索和问答服务。基于知识图谱的搜索侧重于图结构的逻辑推理计算,基于语义网三元组进行推理补充资源信息,实现web从网页链接向概念链接的转变,支持用户按照语句进行检索,以图形化的方式向用户反馈结构化知识,准确定位用户所需资源,使用户从人工过滤网页寻找答案的模式中解脱出来,提高了搜索效率。本文提出面向类型化资源的投入驱动的存储与计算一体化的事务处理优化方法关键技术在于对不同图谱上的处理效率和将以数据、信息和知识等形态存在的资源根据在数据图谱、信息图谱和知识图谱上的综合代价进行存储,通过对资源的合理组织和存储优化处理事务资源的时空效率。技术实现要素:技术问题:本发明的目的是提供一种对数据(datadik)、信息(informationdik)和知识(knowledgedik)(我们定义数据为datadik,信息为informationdik,知识为knowledgedik)等形态的资源的原始表述的自然语言的机器理解、自动处理、自动综合和自动分析方法,用于解决对不同类型、不同规模资源的高效组织和存储,以便提高在图谱上处理资源的效率,降低事务资源处理中所要耗费的代价。技术方案:本发明是面向类型化资源的投入驱动的存储与计算一体化的事务处理优化方法,基于对现有知识图谱(knowledgegraph)概念的拓展提出了一种三层可自动抽象调整的解决架构。这个架构包括:数据图谱(datagraphdik)、信息图谱(informationgraphdik)和知识图谱(knowledgegraphdik)等三个层面;本发明定义事务资源的类型包括数据(datadik)、信息(informationdik)和知识(knowledgedik)三种。本发明提出基于数据图谱、信息图谱和知识图谱框架从资源建模、资源处理、处理优化的角度对事务资源进行管理和组织,优化时空效率。本发明定义资源建模包括采用资源实例、资源类型、资源集合的概念对资源分类的描述、资源类型转换的描述,具体定义如下:(1)资源实例(rins):描述事务资源的原子级的资源,作为资源分类树的最底层结点,资源实例包括资源类型(retype)和资源规模(resca)两个属性,可表示为rins:=<retype,resca>;(2)资源类型(typedik):本发明定义资源包含三种类型,分别是数据、信息和知识,可表示为typedik:=<datadik,informationdik,knowledgedik>。表1给出了对datadik、informationdik和knowledgedik等资源类型的解释;(3)资源集合:资源集合是不同类型或相同类型资源的集合,由资源实例构成;以上定义中,资源实例和资源类型主要针对事务资源的静态模型,资源集合用来完成各种活动;表1.资源类型的渐进形式datadikinformationdikknowledgedik语义负载没有指定利益相关者/机器指定利益相关者/机器对已知信息进行抽象形式元素的概念集合数据的概念映射和相关关系组合对信息的进一步分类与抽象用法统计与传输交互、协作推理与预测子图datagraphdikinformationgraphdikknowledgegraphdik子图表达形式数组、链表、栈、树、图关系数据库语义网络图1展示了事务资源的元模型,对资源处理框架的构建和资源建模可提供资源共享、个性化推荐等服务。在建模过程中,资源类型转换是有必要的,资源类型转换与目标类型和资源转换的规模有关,并取决于用户期望投入。表2给出了资源类型转换时不同类型资源之间的映射关系。数据到信息的转换在没有上下文背景的情况下数据没有语义,通过直接观察得到的数据,通过概念映射和聚类,将数据进行重组和分类,重组后的数据集合对应不同的类或者概念,可得到信息。数据到知识的转换数据可以从标准的模式中继承语义关系,被有效地集成并被其他应用重用,数据中会存在冗余、不一致等现象,在数据向知识的转换过程中,通过链接数据来源以及语义约束,识别出最可靠的数据,进而形成知识。信息到知识的转换信息用来表达实体之间的交互和协作,通过分类和抽象交互记录或行为记录得到有关实体动态行为的统计规则,即知识。知识可以通过从已知资源中推断得出,推断过程中缺乏的必要信息可通过适当的研究技术来收集,例如实验、调查等。信息到数据的转换离散,从概念集合到资源实例的转换。信息表达了实体之间的动态交互和协作,观察实体对象在某一时刻的静态状态得到数据。知识到数据的转换根据知识推理,对抽取出的知识集合建立相关实例,知识结点之间的关系以属性的方式与实例相关联,得到数据。知识到信息的转换逻辑推理,知识图谱的无结构特征使得其可以链接和利用更丰富的知识库帮助用户做决策,从知识检索到知识创造的过程中得到信息;表2.资源的映射关系datadikinformationdikknowledgedikdatadik直接遍历聚类,联系上下文背景从模式中集成语义信息informationdik碎片化信息直接遍历对informationdik的应用和抽象knowledgedik推导推导直接遍历体系结构本发明建立了数据图谱、信息图谱和知识图谱三层框架模型,如图2所示,数据图谱是包含资源实例的数据集合,在没有上下文背景的情况下,数据是没有语义的;信息可通过概念映射和相关数据的组合得到,对数据赋予上下文背景后,数据含有了语义,成为信息,信息图谱表达了资源之间的交互和协作;知识可由信息抽象得出,知识图谱表达了资源实例及资源集合中所包含的实体之间的语义关系,通过知识推理,可在图谱上挖掘新的关系,链接新的实体,从而扩展知识图谱的点密度和边密度。运用三层图谱对事务资源进行建模,全面覆盖资源实体之间的关系,对资源进行完整的表达。表3所示为trc中资源实例类型转换的原子代价,表4所示为在rog上查询、修改和存储trc的单位代价。下面我们给出datagraphdik,informationgraphdik和knowledgegraphdik的具体说明。本发明定义datagraphdik为:datagraphdik:=collection{array,list,stack,queue,tree,graph}。datagraphdik是各种数据结构包括数组(array)、链表(list)、栈(stack)、队列(queue)、树(tree)和图(graph)等的集合(collection)。datagraphdik只能对图谱上表示的datadik进行静态分析,无法分析和预测datadik的动态变化。本发明定义informationgraphdik为:informationgraphdik:=combination{relateddatadik}。informationgraphdik是相互关联的datadik(relateddatadik)的组合(combination),informationdik是通过datadik和datadik组合之后的上下文传达的,经过概念映射和相关关系组合之后的适合分析和解释的信息。在informationgraphdik上进行数据清洗,消除冗余数据。本发明定义knowledgegraphdik为:knowledgegraphdik:=collection{statisticalrules}。knowledgegraphdik实质是语义网络和由informationdik总结出的统计规则(statisticalrules)的集合(collection)。knowledgegraphdik蕴含丰富的语义关系,在knowledgegraphdik上能通过信息推理和实体链接提高knowledgegraphdik的边密度和结点密度,knowledgegraphdik的无结构特性使得其自身可以无缝链接。信息推理需要有相关关系规则的支持,这些规则可以由人手动构建,但往往耗时费力,得到复杂关系中的所有推理规则更加困难。使用路径排序算法将每个不同的关系路径作为一维特征,通过在knowledgegraphdik中构建大量的关系路径来构建关系分类的特征向量和关系分类器来提取关系;表3.资源实例类型转换的单位代价datadikinformationdikknowledgedikdatadikcostd-dcostd-icostd-kinformationdikcosti-dcosti-icosti-kknowledgedikcostk-dcostk-icostk-k表4.处理资源实例的单位代价查询修改存储datadikqcostdmcostdscostdinformationdikqcostimcostiscostiknowledgedikqcostkmcostkscostk有益效果:本发明提出了面向类型化资源的投入驱动的存储与计算一体化的事务处理优化方法,主要用于解决对于以datadik,informaitiondik和knowledgedik形态存在的资源存储和资源处理等问题。通过使用本发明提出的方法可以实现对不同类型资源的合理组织和存储,花费最合理的存储代价和处理代价并实现最优的时空效率。该方法具有如下优点:1)对资源类型的划分将资源划分为datadik、informationdik和knowledgedik,便于挖掘资源之间的联系,从datadik经过抽象得到informationdik、knowledgedik,从knowledgedik进行推理得到datadik、informationdik;2)允许跨层存储资源本发明提出假定资源已存储在某一类型图谱上,根据资源搜索效率的计算和综合代价的计算协同调整资源的存储和搜索方案;3)存储搜索计算一体化面向类型化资源的投入驱动的存储与计算一体化的事务处理优化方法,通过存储代价和搜索代价综合考虑,选择综合代价最低的存储方案,达到花费较小存储代价的同时获得高效搜索资源的目标。附图说明图1是事务资源实例的元模型。图2是基于datagraphdik、informationgraphdik和knowledgegraphdik的资源处理框架图示意。图3是面向类型化资源的投入驱动的存储与计算一体化的事务处理优化方法流程图。具体实施方式本发明将事务资源集合定义为一个三元组trc:={trc1,trc2,trc3},trci代表相同类型资源的集合,因为事务资源中会包含数据、信息和知识三种类型的资源;trc的类型集合为ttype={ttype1,ttype2,ttype3},每种资源的规模为tsca={tsca1,tsca2,tsca3};本发明定义图谱资源空间为rog:={rog1,rog2,rog3},rog的类型集合rtype={rtype1,rtype2,rtype3},每种资源的规模为rsca={rsca1,rsca2,rsca3};本发明假定trc中所有类型资源已在当前图谱资源空间中以任意一种存储方案存储完毕,通过计算资源在图谱上存储所需空间代价和处理资源所需的计算代价,协同调整事务处理方案,具体实现步骤为:步骤1)对应于图1中操作001,对trc中每个资源实例集合的类型依次取typedik中的值,形成组合情形ttype’={ttype1’,ttype2’,ttype3’};步骤2)对应于图1中操作002,对应类型赋值后的每种情形,根据公式1计算trc中的资源从当前最初状态向赋值后的类型集合ttype’转换的代价和转换后资源所占的空间代价之和(costmt1):(1)其中表示进行类型转换的资源的规模占资源总规模的比重,tscai’表示类型转换后资源的规模,cost表示单位资源进行类型转换的原子代价,如表3所示,d、i和k分别是datadik,informationdik和knowledgedik的缩写;步骤3)对应于图1中操作003,对rog中每个资源实例集合的类型依次取typedik中的值,形成组合情形rtype’={rtype1’,rtype2’,rtype3’};步骤4)对应于图1中操作004,对应类型赋值后的每种情形,根据公式2计算rog中的资源从当前最初状态向赋值后的类型集合rtype’转换的代价和转换后资源所占的空间代价之和(costmt2):(2)其中表示进行类型转换的资源的规模占资源总规模的比重,rscai’表示类型转换后资源的规模;步骤5)对应于图1中操作005,对资源类型转换后的资源集合,根据公式3计算trc中资源在rog中处理的计算代价(costc),本发明中定义对资源的处理操作包含三部分,查询操作、修改操作和存储操作,costc由资源查询代价(qcost)、资源修改代价(mcost)和存储资源的代价(scost)组成,可根据公式3计算:(3)其中tsca’表示资源类型转换后资源的规模集合;步骤6)对应于图1中操作006,根据步骤2、4、5得到的costmt1、costmt2和costc,根据公式4计算不同存储与计算协同调整方案的总代价(total_cost):(4)步骤7)对应于图1中操作007,根据步骤6得到的资源协同调整方案的总代价,根据公式5计算每种方案所需用户投入(inves):(5)其中表示单位代价所需用户投入,可通过数据训练得出;步骤8)对应于图1中操作008,根据步骤7得到的资源协同调整方案的所需投入,根据公式6计算每种方案的效益比(inve_cos):(6)步骤9)对应于图1中操作009,获取用户预期投入(inve0)和期望效益比(inve_cos0);010将不同协同调整方案的inve_cos和inve_cos0进行比较,同时将对应方案所需用户投入(inves)和用户期望投入(inve0)进行比较,011找出inves不超过inve0的并且具有最大inve_cos的方案;步骤10)对应于图1中操作012,判断trc和rog中资源类型组合情形是否穷举完毕,若否,返回步骤1继续枚举;若是,013根据步骤9得到的具有最大inve_cos的方案调整trc和rog中资源的类型。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1