用于使用分布式关联记忆库确定数据相关及其中的收敛的方法、系统和计算机程序产品与流程

文档序号:13110244阅读:168来源:国知局
相关申请本申请要求2013年10月28日提交的美国临时专利申请No.61/896,258的权益,其公开内容通过参考全部结合在本文中。技术领域此发明涉及知识管理系统、方法和计算机程序产品,并且更具体地说,涉及关联记忆系统、方法和计算机程序产品。

背景技术:
关联记忆,也称为内容可寻址记忆,被广泛用于模式匹配和标识、专家系统和人工智能的领域中。广泛使用的关联记忆是Hopfield人工神经网络。例如在Hopfield名称为“ElectronicNetworkforCollectiveDecisionBasedonLargeNumberofConnectionsBetweenSignals”的美国专利4,660,166中描述了Hopfield人工神经网络。尽管关联记忆可避免现有后向传播网络中的问题,但关联记忆可出现缩放和寄生记忆的问题。关联记忆中的近来改进已经尝试解决这些和其它问题。例如,共同发明人Aparicio,IV等人的名称为“ArtificialNeuralNetworksIncludingBoolean-CompleteCompartments”的美国专利6,052,679提供了多个人工神经元和多个布尔完全隔间,其相应隔间耦合相应对人工神经元。通过提供布尔完全隔间,可避免寄生补充记忆。可惜,存在可限制使用关联记忆解决真实世界问题的基本缩放问题。具体地说,许多关联记忆作为输入数量的函数几何缩放。这个几何缩放对支持在保证此类技术的复杂级的应用可能是不合理的。关联记忆中的缩放在共同发明人Aparicio,IV等人的名称为\ArtificialNeuronsIncludingPowerSeriesofWeightsandCountsThatRepresentPriorandNextAssociations\并转让给本发明受让人的美国专利6,581,049中解决了,该申请的公开内容由此通过引用全部结合在本文中,就好像在本文中全面阐述了一样。如在美国专利6,581,049中所描述的,人工神经元包含多个输入和多个树突,多个树突中的相应树突与多个输入中的相应输入关联。每个树突都包括权重的幂级数,并且幂级数中的每个权重都包含关联幂的关联计数。通过将权重表示为幂级数,在常规人工神经元中作为输入的函数的几何缩放可被减小到作为输入的函数的线性缩放。可使用真实世界系统来处置大量输入,由此解决真实世界应用。

技术实现要素:
本发明的一些实施例针对包含分布式关联记忆库的关联记忆系统。分布式关联记忆库可包含关联记忆网络的网络中的至少一个网络。相应关联记忆网络包含相应观察者记忆与由相应观察者记忆观察的多个观察的记忆之间的关联。关联记忆网络中的网络与关联记忆网络中的其它网络在物理上和/或逻辑上独立。实施例包含处理系统,其配置成观察分布式关联记忆库中的关联,并使用与关联记忆网络中多个行中的相应行对应的多个流播队列设想来自分布式关联记忆库的关联。一些实施例规定,流播队列中的队列对应于关联记忆网络中多个物理位置之一。在一些实施例中,处理系统进一步包含查询映射,其配置成将从用户接收的基于语义空间的查询转换成表述为与关联记忆网络中的多个物理记忆位置对应的多个基于行的标识符并且包含在至少一个流播队列中的基于物理空间的查询。一些实施例包含本体,其配置成由查询映射访问,以估计与基于语义空间的查询对应的分类学意义来提供与关联记忆网络的物理表示对应的查询项目。在一些实施例中,查询映射包含与基于语义空间的查询和/或基于物理空间的查询中的多个查询项目中的不同项目对应的多个映射策略中的至少一个。映射策略可以定义包含排名和/或新近性的策略。查询映射可修改与排名和/或新近性策略对应的基于物理空间的查询。在一些实施例中,查询映射进一步配置成标识基于语义空间的查询和/或基于物理空间的查询中的查询项目的一个或多个变体,并将基于物理空间的查询展开成包含一个或多个变体。一些实施例规定,一个或多个变体包含与查询项目中的项目对应的同义词、别名和/或首字母缩略词。一些实施例规定,处理系统包含多个计数服务器节点,它们配置成接收来自流播队列的请求,并响应于接收的请求而提供与分布式关联记忆库中的关联对应的计数数据。处理系统可包含原子表,原子表配置成响应于接收到由计数服务器节点之一接收的流播队列中的对应队列中的基于物理空间的查询而提供矩阵行标识。原子表可进一步配置成提供反向查找表,以将从关联记忆网络返回的结果与基于物理空间的查询关联。一些实施例包含结果控制器,其配置成接收与分布式关联记忆库中的关联对应的计数数据,并重新合成计数数据与基于语义空间的名称空间以将结果提供给用户。在一些实施例中,结果控制器进一步配置成累加与流播队列中的队列对应的原始计数数据,使用由查询映射访问的本体折叠(collapse)多个基于物理空间的查询项目中的相关项目以及对应的原始计数数据,给折叠的基于物理空间的查询项目的次序计数数据排名,并将基于物理空间的结果转换成基于语义空间的结果。本发明的一些实施例包含查询分布式关联记忆库的方法。该方法可包含:将从用户接收的基于语义空间的查询转换成表述为与分布式关联记忆库中的多个关联记忆网络中的至少一个网络中的多个物理记忆位置对应的多个基于行的标识符的基于物理空间的查询。可生成与多个基于行的标识符对应的多个查询队列。查询队列被流播到与关联记忆网络对应的多个计数服务器节点。响应于来自计数服务器节点的查询队列而确定计数信息。来自多个计数服务器节点的计数信息被转换成响应于基于语义空间的查询的基于语义空间的结果信息。在一些实施例中,转换基于语义空间的查询对于基于语义空间的查询中的每个查询项目都包含将查询项目展开成包含查询项目的变体和该查询项目,并且确定是否存在包含与该查询项目对应的分类学项目的分类学映射。如果存在分类学映射,则查询项目被展开成包含分类学项目和查询项目。一些实施例规定,生成与基于行的标识符对应的查询队列对于每一个基于行的标识符都包含绑定队列资源以定义新队列。队列资源包含对绑定到基于行的标识符可用的多个队列资源之一。在一些实施例中,将查询队列流播到计数服务器节点包含将一个或多个查询队列映射到多个节点读取器中的相应阅读器。每一个节点读取器都可对应于计数服务器中的相应服务器。一些实施例规定,节点读取器中的阅读器配置成执行与到计数服务器中相应服务器的查询队列中的多个队列对应的批量请求。一些实施例规定,将查询队列流播到计数服务器节点包含将查询队列映射到在查询队列与节点读取器之间的多对多接口中的多个节点读取器。在一些实施例中,响应于来自计数服务器节点的查询队列而确定计数信息包含对于多个查询项目中的项目确定对应于矩阵地址数据的矩阵标识符值。一些实施例规定,确定对应于矩阵地址数据的矩阵标识符值包含:确定原子表标识数据以确定多个原子表节点中的哪个节点包含矩阵标识符值,确定与查询项目中的相应项目对应的相应标识数据,并将相应标识数据转换成矩阵标识符。在一些实施例中,使用查找操作来确定原子表标识数据。一些实施例规定,使用计算方法来确定原子表标识数据。一些实施例包含查找与矩阵标识符对应的编码矩阵的根页的根页地址。根页可包含标识编码矩阵的编码类型的矩阵类型值。在一些实施例中,转换计数信息包含:累加来自查询队列的原始计数数据,折叠之前展开的变体和分类学项目以及基于物理空间的查询中的每个查询项目的相应计数,并给按序折叠的查询项目排名,以提供对应于计数数据的相对值的相对于彼此的查询项目的相关信息。基于物理空间的查询项目可被转换成基于语义空间的查询项目。本发明的一些实施例包含包括计算机可用存储介质的计算机程序产品,在所述介质中包含计算机可读程序代码。计算机可读程序代码配置成执行对应于本文描述的方法的操作。本发明的一些实施例包含使用分布式关联记忆库的方法。此类方法可包含:生成与表述为多个分布式关联记忆网络中的至少一个网络中的多个相应物理记忆位置的多个基于行的标识符的基于物理空间的查询对应的流播查询队列。流播查询队列中的查询队列可被映射到可操作以从与分布式关联记忆网络对应的多个计数服务器节点接收计数信息的多个节点读取器。所接收的计数信息被映射回流播查询队列的对应队列。本发明的一些实施例包括关联记忆方法,所述关联记忆方法包含提供分布式关联记忆库。分布式记忆库包含关联记忆网络的网络,相应关联记忆网络包含相应观察者实体与由相应观察者实体观察的多个被观察实体之间的关联,关联记忆网络中的网络与关联记忆网络中的其它网络在物理上和/或逻辑上独立。使用与关联记忆网络中的网络的多个行中的行对应的多个流播队列设想来自关联记忆库的关联。一些实施例规定,设想来自关联记忆库的关联包含:将从用户接收的基于语义空间的查询转换成基于物理空间的查询,其表述为与关联记忆库中的至少一个关联记忆网络中的多个物理记忆位置对应的多个基于行的标识符,并生成对应于基于行的标识符的流播队列。在一些实施例中,设想来自关联记忆库的关联包含:响应于来自与关联记忆库中的关联记忆网络中的相应网络对应的多个计数服务器节点的流播队列而确定计数信息。一些实施例规定,设想来自关联记忆库的关联包含:将来自计数服务器节点的关联计数信息转换成响应于从用户接收的基于语义空间的查询的基于语义空间的结果信息。本发明的一些实施例包含对包含由行标识符和列标识符值标识的非零数据位置的大稀疏矩阵中的数据进行编码的方法。根据此类方法,可使用行程长度编码来存储各具有与数据值和计数相同数据值的多个数据值的行程,对矩阵中的数据位置的跨度进行编码。使用无限整数编码来压缩毗邻各具有相同数据值的多个数据值的至少一个行程的可变长度整数值,对非零数据值中的数据值进行编码。在一些实施例中,使用行程长度编码对矩阵中的数据位置的跨度进行编码包含:读取固定长度的编码矩阵索引字,并且对于给定行标识符值,通过提供至少一个固定长度的编码矩阵索引字中的编码偏移值来索引具有零值的连续的接连位。一些实施例规定,使用无限整数编码对非零值中的值进行编码包含:从至少一个固定长度的编码矩阵字中读取可变字长的非零数据值,并将可变字长的非零数据值与对应的列标识符值关联。本发明的一些实施例包含对包含由行标识符和列标识符值标识的非零数据位置的大稀疏矩阵中的数据进行编码的方法。此类方法可包含:读取固定长度的编码矩阵索引字,对于稀疏矩阵中的给定行,通过提供至少一个固定长度的编码矩阵索引字中的编码索引偏移值来索引具有零值的连续的接连位,并从至少一个固定长度的编码矩阵索引字中读取可变字长的非零数据值。方法可包含:从至少一个固定长度的编码矩阵索引字中读取可变字长的非零数据值,并将可变字长的非零数据值与对应的列标识符关联。本发明的一些实施例包含查询分布式关联记忆库的方法。此类方法可包含:将包含至少一个查询搜索元素并从用户接收的基于语义空间的查询转换成表述为与分布式关联记忆库中的多个关联记忆网络中的至少一个网络中的多个物理记忆位置对应的多个基于行的标识符的基于物理空间的查询。方法可包含:生成对应于基于行的标识符的多个查询队列,将查询队列流播到对应于关联记忆网络的多个计数服务器节点,并响应于来自计数服务器节点的查询队列而确定计数信息。方法可包含:计算查询搜索元素与关联记忆查询结果元素中的元素之间的信息距离以确定对应于信息距离的接近度值,并将来自多个计数服务器节点的计数信息转换成响应于基于语义空间的查询的基于语义空间的结果信息。在一些实施例中,查询搜索元素包括第一查询项目和第二查询项目,第一查询项目包含标识第一类别和第一类别的第一成员的类别:值对,第二查询项目包含第二类别。一些实施例规定,计算信息距离包含:标识与第一成员具有关联的第二类别中的多个第二成员。可标识与第二成员中的成员与第一成员之间的关联量对应的计数值。可标识与第一类别的第一成员对应的独立的第一成员计数值,并且可标识与第二成员中的成员对应的独立的第二成员计数值。可标识分布式关联记忆库中的总观察量。一些实施例规定,标识独立的第一成员计数值、独立的第二成员计数值和总观察量包含经由其中一个查询队列读取关联记忆网络中的观察行的总量。在一些实施例中,与第一成员具有关联的第二类别中的第二成员共同定位在分布式关联记忆库内。一些实施例规定,与第一成员具有关联的第二类别中的第二成员被全局排序。在一些实施例中,独立的第一成员计数值包含在计算信息距离中的距离时使用的单个值。一些实施例规定,总观察量包含在计算信息距离中的距离时使用的单个值。在一些实施例中,经由查询队列中的第一队列执行标识与第二成员中的成员与第一成员之间的关联量对应的计数值,并且响应于标识第二成员中的成员与第一成员之间的关联量而经由查询队列中的第二队列执行标识与第二成员中的成员对应的独立的第二成员计数值。一些实施例包含:基于关联记忆结果中的结果与查询搜索项目之间的信息距离对关联记忆查询结果中的结果进行排序。本发明的一些实施例针对包含计算机可用存储介质的计算机程序产品,在所述介质中包含计算机可读程序代码。计算机可读程序代码包含配置成响应于包含至少一个查询搜索元素的基于语义空间的查询而生成与对应于多个关联记忆网络中的至少一个网络中的多个物理记忆位置的多个基于行的标识符对应的多个查询队列的计算机可读程序代码。计算机可读代码还可响应于查询队列而确定计数信息,并计算至少一个查询搜索元素与关联记忆查询结果元素中的元素之间的信息距离以确定对应于信息距离的接近度值。一些实施例包含配置成基于关联记忆结果中的结果与查询搜索项目之间的信息距离对关联记忆查询结果中的结果进行排序的计算机可读代码。在一些实施例中,查询搜索元素包括第一查询项目和第二查询项目,第一查询项目包含标识第一类别和第一类别的第一成员的类别:值对,第二查询项目包含第二类别。在一些实施例中,配置成计算信息距离的计算机可读代码包含配置成标识与第一成员具有关联的第二类别中的多个第二成员的计算机可读代码,标识与第二成员中的成员与第一成员之间的关联量对应的计数值,标识与第一类别的第一成员对应的独立的第一成员计数值,标识与第二成员中的成员对应的独立的第二成员计数值,并且标识分布式关联记忆库中的总观察量。一些实施例规定,配置成标识独立的第一成员计数值、独立的第二成员计数值和总观察量的计算机可读代码包含配置成经由其中一个查询队列读取关联记忆网络中的观察行的总量的计算机可读代码。一些实施例规定,与第一成员具有关联的第二类别中的第二成员被全局排序。在一些实施例中,独立的第一成员计数值包含在计算信息距离中的距离时使用的单个值。一些实施例规定,总观察量包含在计算信息距离中的距离时使用的单个值。在一些实施例中,经由多个查询队列中的第一队列执行配置成标识与第二成员中的成员与第一成员之间的关联量对应的计数值的计算机可读代码,并且响应于标识多个第二成员中的成员与第一成员之间的关联量而经由查询队列中的第二队列执行配置成标识与第二成员中的成员对应的独立的第二成员计数值的计算机可读代码。本发明的一些实施例针对使用分布式关联记忆库的方法。此类方法可包含:生成与表述为多个分布式关联记忆网络中的至少一个网络中的相应多个物理记忆位置的多个基于行的标识符的基于物理空间的查询对应的多个流播查询队列,将流播查询队列中的队列映射到可操作以从对应于分布式关联记忆网络的多个计数服务器节点接收计数信息的多个节点读取器,并将接收的计数信息映射回流播查询队列中的对应队列。方法可包含确定查询搜索元素与关联记忆查询结果元素中的元素之间的相关性。在一些实施例中,确定相关性包含计算查询搜索元素与关联记忆查询结果元素中的元素之间的信息距离以确定对应于信息距离的接近度值。一些实施例包含确定查询搜索元素与关联记忆查询结果元素中的元素之间的收敛值。一些实施例规定,确定收敛值包含计算在不同时间的信息距离以确定信息距离的改变速率。本发明的一些实施例针对包含分布式关联记忆库的关联记忆系统,分布式记忆库包含关联记忆网络的网络中的网络,相应关联记忆网络包含相应观察者记忆与由相应观察者记忆观察的多个观察的记忆之间的关联,关联记忆网络中的网络与关联记忆网络中的其它网络在物理上和/或逻辑上独立。此类系统可包含处理系统,其配置成观察分布式关联记忆库中的关联,并使用与关联记忆网络中多个行中的相应行对应的多个流播队列设想来自分布式关联记忆库的关联。在一些实施例中,处理系统配置成确定响应于分布式关联记忆库的查询而返回的两个项目之间的认知距离。一些实施例规定,系统包含处理器和存储器,存储器包含指令,所述指令当执行时使处理器响应于包含至少一个查询搜索元素的基于语义空间的查询而生成与对应于多个关联记忆网络中至少一个网络中的多个物理记忆位置的多个基于行的标识符对应的多个查询队列,响应于查询队列而确定计数信息,并计算至少一个查询搜索元素与关联记忆查询结果元素中的元素之间的信息距离以确定对应于信息距离的接近度值。要指出,相对于一个实施例描述的本发明的方面可被结合在不同实施例中,不过未相对于此具体描述。也就是,可以任何方式和/或组合来组合所有实施例和/或任何实施例的特征。在下面阐述的说明书中更详细说明了本发明的这些和其它目的和/或方面。附图说明图1是根据本发明各种实施例的关联记忆系统、方法和/或计算机程序产品的框图。图2是图示根据本发明一些实施例用于查询关联记忆库的查询概述的流程图。图3是图示根据本发明一些实施例的关联记忆库的物理名称空间层级的框图。图4是图示根据本发明一些实施例如上面关于图2所描述的查询映射操作20的概述的流程图。图5是图示根据本发明一些实施例如上面关于图4所描述的对应于展开语义空间42的操作的流程图。图6是图示根据本发明一些实施例如上面关于图4所描述的对应于定义展开属性向量的相关矩阵46的操作的流程图。图7是图示按照本发明一些实施例如上面关于图6所论述的选择的矩阵的展开子立方体的框图。图8是图示按照本发明一些实施例如上面关于图4所论述的定义行和列子集的流程图。图9是图示根据本发明一些实施例如上面关于图2所论述的对应于流播队列12的操作的流程图。图10是图示根据本发明一些实施例将在行队列中定义的行映射到行位置号的操作的流程图。图11是图示按照本发明一些实施例的计数服务器的概述的框图。图12是图示根据本发明一些实施例如上面关于图10所论述的用于计数服务器节点中的类别:值到标识位字段映射的操作的流程图。图13是图示根据本发明一些实施例用于计数服务器节点200中矩阵标识的操作的流程图。图14是图示根据本发明一些实施例被编码的标准字节矩阵的框图。图15是图示根据本发明一些实施例如上面关于图14所论述的用于解码标准字节矩阵的操作的流程图。图16是图示根据本发明一些实施例用于编码大矩阵的大矩阵树的框图。图17是图示根据本发明一些实施例如上面关于图16所论述的单元行程编码的框图。图18是图示根据本发明一些实施例如上面关于图17所论述的单元行程编码示例的框图。图19是图示根据本发明一些实施例用于扫描输出类别的操作的流程图。图20是图示根据本发明一些实施例如在大矩阵中所使用的单元行程解码器的操作的流程图。图21是图示根据本发明一些实施例在结果控制器中的操作概述的流程图。图22是图示根据本发明一些实施例用于累加原始计数的操作的流程图。图23是图示根据本发明一些实施例用于变体折叠的操作的流程图。图24是图示根据本发明一些实施例用于累加原始结果的操作的流程图。图25是图示根据本发明一些实施例用于提供排名次序结果的操作的流程图。图26是图示根据本发明一些实施例用于将输出标识符转换成名称空间串的操作的流程图。图27是图示根据本发明一些实施例用于查询分布式关联记忆库的操作的流程图。图28是图示根据本发明一些实施例用于使用分布式关联记忆库的操作的流程图。图29是图示根据本发明一些实施例用于编码大稀疏矩阵中的数据的操作的流程图。图30是根据本发明一些实施例由3位和距1000位的向量之间的平均位向量的距离的概率图定义的立方体。图31是根据本发明一些实施例的熵的维恩图(Venndiagram)。图32是与距离相对频率的示例对应的搜索项目的频率和距离的曲线。图33是图示根据本发明一些实施例所需要计数的记忆组织的框图。图34是图示根据本发明一些实施例确定两件事物之间认知距离的示例中的操作的流程图。图35是图示根据本发明一些实施例确定三个事物之间认知距离的示例中的操作的流程图。图36是图示根据本发明一些实施例链接和认知距离以确定在其间没有直接链接的情况下产品距消费者有多接近的图。图37是图示如本文所公开的应用于图36示例的记忆库的框图。图38是图示根据本发明一些实施例如本文所公开的使用目录记忆的时间切片矩阵提供收敛数据所应用的记忆库的框图。图39是图示根据本发明一些实施例用于查询分布式关联记忆库的操作的流程图。具体实施方式现在将在下文参考附图更全面地描述本发明,附图中示出了本发明的说明性实施例。然而,此发明可以许多不同形式实施,并不应该视为局限于在本文阐述的实施例。而是,提供这些实施例使得本公开将是详尽而完整的,并将向本领域的技术人员传达本发明的范围。将理解到,当元件被称为“耦合到”、“连接到”或“响应于”另一元件时,它可直接耦合到、连接到或响应于另一元件,或者也可存在中间元件。相比之下,当元件被称为“直接耦合到”、“直接连接到”或“直接响应于”另一元件时,不存在中间元件。相似的编号通篇指的是相似的元件。本文所用的术语“和/或”包含一个或多个关联的所列项目的任何组合和所有组合,并且可通过\/\缩写。还将理解,尽管本文中可使用术语第一、第二等来描述各种单元,但这些单元不应受这些术语限制。这些术语仅用于区分一个元件与另一个元件。本文使用的术语仅是为了描述具体实施例的目的,并不打算限制本发明。本文所用的单数形式“一”和“所述”打算也包含复数形式,除非上下文以别的方式明确指出了。还将理解,术语“包括”、“包含”在本文中使用时规定存在所述的特征、步骤、操作、元素和/或组件,但不排除存在或添加一个或多个其它特征、步骤、操作、元素、组件和/或它们的组合。除非另有定义,否则本文使用的所有术语(包含技术和科学术语)都具有与本发明所属领域的普通技术人员通常理解的相同意思。还应理解,诸如那些定义在一般使用的字典中的术语,应解释为具有符合有关领域上下文中它们的意思的意思,并且不要解释为理想化或过分正式的意义,除非在本文特意如此定义。下面参考根据本发明实施例的方法、系统和计算机程序产品的框图和流程图来描述本发明。将理解到,框图和/或流程图的框以及框图或流程图中的框组合可至少部分由计算机程序指令实现。这些计算机程序指令可被提供给一个或多个企业、应用、个人、普及的和/或嵌入式计算机系统,使得经由计算机系统执行的指令创建用于实现在框图框或多个框中规定的功能/动作的部件、模块、装置或方法。在其它实施例中也可使用通用计算机系统和/或专用硬件的组合。这些计算机程序指令也可被存储在计算机系统的存储器中,它们可引导计算机系统以具体方式运作,使得存储在存储器中的指令产生包含实现在框或多个框中规定的功能/动作的计算机可读程序代码的制品。计算机程序指令也可被加载到计算机系统中以使计算机系统执行一系列可操作步骤来产生计算机实现的过程,使得在处理器上执行的指令提供用于实现在框或多个框中规定的功能/动作的步骤。相应地,框图和/或流程图的给定框或多个框提供了对于方法、计算机程序产品和/或系统(结构和/或部件加功能)的支持。还应指出,在一些备选实现中,在流程图中指出的功能/动作可以不按在流程图中指出的次序发生。例如,连串显示的两个框实际上可基本上同时执行,或者这些框有时可按相反次序执行,取决于所涉及的功能性/动作。最后,一个或多个框的功能性可与其它框的功能性分开和/或组合。本文描述的一些实施例提供了包含分布式关联记忆库的关联记忆系统。分布式关联记忆库可包含关联记忆网络的网络中的至少一个网络。一些实施例规定,相应关联记忆网络可包含相应观察者代理与由相应观察者代理观察的多个被观察代理之间的关联。关联记忆网络中的网络与关联记忆网络中的其它网络可在物理上和/或逻辑上独立。一些实施例进一步包含处理系统,其配置成观察分布式关联记忆库中的关联,并使用与关联记忆网络中多个行中的行对应的多个流播队列设想来自分布式关联记忆库的关联。如本文所使用的,流播指的是随时间生成、传送、处理和/或接收一连串队列的特性。一些实施例提供了查询分布式关联记忆库的方法。此类方法可包含:将从用户接收的基于语义空间的查询转换成表述为与分布式关联记忆库中的多个关联记忆网络中的至少一个网络中的多个物理记忆位置对应的多个基于行的标识符的基于物理空间的查询。如本文所描述的,用户可包含能够生成和/或传送查询和/或接收和/或传送查询结果的人、组织、应用和/或硬件装置。一些实施例包含:生成对应于基于行的标识符的多个查询队列,并将基于行的标识符流播到对应于关联记忆网络的多个计数服务器节点。一些实施例包含:响应于来自节点服务器的基于行的标识符而确定计数信息,并将来自节点服务器的计数信息转换成响应于基于语义空间的查询的基于语义空间的结果信息。本发明的一些实施例包含使用分布式关联记忆库的方法。此类方法可包含:生成与表述为多个分布式关联记忆网络中的至少一个网络中的相应多个物理记忆位置的多个基于行的标识符的基于物理空间的查询对应的多个流播查询队列。一些实施例包含:将流播查询队列中的查询队列映射到可操作以从与分布式关联记忆网络对应的多个计数服务器节点接收计数信息的多个节点读取器。方法可进一步包含将接收的计数信息映射回流播查询队列中的对应队列。一些实施例可包含关联记忆方法,方法包含提供包含关联记忆网络的网络中的网络的分布式记忆库。此类网络可包含关联记忆网络中的网络,使得相应关联记忆网络可包含相应观察者实体与由相应观察者实体观察的多个被观察实体之间的关联。在一些实施例中,关联记忆网络中的网络与关联记忆网络中的其它网络在物理上和/或逻辑上独立。一些实施例包含使用与关联记忆网络中的网络的多个行中的行对应的多个流播队列设想来自关联记忆库的关联。本发明的一些实施例包含对大稀疏矩阵中的数据进行编码的方法。此类方法可包含:提供包含由行标识符和列标识符值标识的非零数据位置的稀疏矩阵,并读取固定长度的编码矩阵索引字。一些实施例包含:对于稀疏矩阵中的给定行,通过提供在至少一个固定长度的编码矩阵索引字中具有可变字长的编码索引偏移值,索引具有零值的连续的接连单元、计数和/或位。此外,可从至少一个固定长度的编码矩阵索引字中读取可变字长的非零数据值,并可将可变字长的非零数据值与对应的列标识符关联。如本文所公开的,本发明的实施例可导致之前使用常规技术得不到的计算效率和改进。例如,多个流播技术可用于确定分布式关联记忆库中的查询项目之间的认知距离。尽管本文提供了用于对数据编码的操作示例,但本文描述的架构可对可彼此隔离和/或组合使用的许多不同类型的编码操作开放。例如,许多稀疏矩阵方法中的任一个或多个在本文描述的实施例都是可应用的。在一些实施例中,多于一种类型的编码可组合用于寻址在关联记忆库中的不同矩阵中可出现的不同特性。在这点上,可寻址对应于不同矩阵特性的不同输入-输出映射需求。用这种方式,本文描述的架构不限于特定编码,并且从而可提供有关不同矩阵和/或记忆特性的灵活性。参考图1,其是根据本发明各种实施例的关联记忆系统、方法和/或计算机程序产品的框图。如图1所示,根据本发明各种实施例的关联记忆系统、方法和/或计算机程序产品1000包括关联记忆库1010,关联记忆库1010包含关联记忆网络1013、1015的网络1012、1014中的网络。尽管为了示范目的图示为关联记忆网络1013、1015的两个网络1012、1014,但本文的实施例可包含关联记忆网络1013、1015的一个和/或多于两个网络1012、1014。相应关联记忆网络1013、1015包含相应观察者的多个被观察实体的其中关联和/或其频率。仍参考图1,提供了处理系统、方法和/或计算机程序产品1030。处理系统、方法和/或计算机程序产品1030配置成观察(读取)关联记忆库1010中的关联记忆网络1013、1015的网络1012、1014的网络中的关联,并设想(查询)来自它们的关联。处理系统、方法和/或计算机程序产品1030包含观察者系统、方法和/或计算机程序产品1032以及查询系统、方法和/或计算机程序产品1034。观察者系统、方法和/或计算机程序产品1032配置成观察关联记忆网络1013、1014的相应网络1012、1014中相应观察者实体与由相应观察者实体观察的多个被观察实体之间的关联。查询系统、方法和/或计算机程序产品1034配置成响应于用户查询而设想来自关联记忆网络1013、1015的相应网络1012、1014的实体、用户和/或事件的关联。用户查询结果可配置用于由结果显示器1026显示。相应关联记忆网络1013、1015中的每个都可在物理上和/或逻辑上彼此分散。在一些实施例中,相应关联记忆网络1013、1015可各实现在多于一个物理装置上。一些实施例规定,相应关联记忆网络1013、1015可各实现在包含逻辑上不同的装置的相同物理装置上。在这点上,因为关联记忆库1010可线性或几乎线性缩放,并且由此允许提供关联记忆的大网络。参考图2,其是图示根据本发明一些实施例如上面关于图1所描述的用于查询1034关联记忆库1010的查询概述的流程图。如本文所描述的查询可由系统和/或计算机程序产品连同本文所描述的关联记忆库执行。用户10提交在用户空间方面的用户查询,其可包含可对用户类型和/或用户类特定的语义、词汇、语言、命名法和/或分类学特性。查询映射20接收用户查询,并将查询表述映射到关联记忆库的物理表示。换言之,查询映射20可将查询从用户空间转换到物理空间,其对应于关联记忆库。用这种方式,用户空间或用户本体被向下映射到与被物理存储的对应的空间。例如,用户本体可向下映射到关联记忆、矩阵、行、列和/或其余量中的特定那些。一些实施例提供了可使用本体22确定与关联记忆库的物理表示一致的项目中的用户查询的分类学意义的映射。在一些实施例中,映射可包含确定用户查询中项目的变体。变体的示例可包含与用户查询中的项目对应的同义词、别名和/或首字母缩略词。一些实施例规定,映射可包含应用与查询项目中的不同项目对应的映射策略。在一些实施例中,映射策略可提供有关排名次序和/或新近性的策略,以及其它。例如,在查询项目包含时间维度的情况下,映射策略可规定,信息越新近越具有相关性。用这种方式,映射策略可提供关于查询项目的语义使用的信息。一旦查询被映射到物理空间上,查询就被表述为与对于来自关联记忆、矩阵、行、列和/或其余量中的特定那些中的多个物理位置的计数信息的多个请求对应的一系列队列。一些实施例规定,该系列队列可被流播12,使得每个队列都可对应于对于来自特定关联记忆中特定矩阵的特定行的计数信息的请求。通过提供流播的数据流,可实现查询的完全控制,使得系统不被可另外显著超过典型缓冲器大小的数据量淹没,用这种方式,可提供大规模关联记忆库的快速而灵活的实现。多个计数服务器节点200可接收对应于流播队列12的请求,并响应于此而提供计数信息。在一些实施例中,计数服务器节点200可与可相对彼此独立定位的关联记忆中的特定记忆对应。例如,在一些实施例中,可为每一个关联记忆提供计数服务器节点200。用这种方式,关联记忆库可提供关联记忆网络,其可用几乎无限增长和数据容量实现,而不淹没通信、处理和/或存储硬件资源。原子服务器可操作以包含和/或访问可用于将单个类别:值映射到矩阵中行的原子表节点202。原子表节点202的位置可用于支持反向查找,使得从查询返回的结果可与原始查询中的类别:值关联。在从计数服务器节点接收到计数信息之后,结果控制器24可操作以访问本体22,并将物理语言计数信息重新合成回用户语言。在一些实施例中,结果控制器24可根据映射策略整理和组织计数信息。结果26可被呈现给用户10,并且可以在可充分利用对应于计数的事务频率数据的度量空间中。现在参考图3,其是图示根据本发明一些实施例的关联记忆库1010的物理名称空间层级的框图。物理名称空间中的层级的顶层包含与关联记忆网络的网络1013、1015中的每个对应的网络标识符30。在一些实施例中,关联记忆库可包含许多网络1013、1015,它们可彼此独立地定位、创建、管理、填充和/或发起。每个网络1013从记忆方面进一步分区。具体地说,如本文所使用的,用于分区网络1013的属性可由类别:值有序对标识。例如,可使用将记忆定义为类别并将记忆值定义为值的有序对来标识对应于具体记忆的分区。用这种方式,例如,对应于名为约翰的人的分区可被标识为\人:约翰\。在一些实施例中,每个记忆可包含多个关联记忆和/或矩阵,它们可包含特定标识符。一些实施例规定,一些记忆可仅包含单个关联记忆和/或矩阵。在此类实施例中,在记忆之间可使用诸如“默认”的标识符(以及其它)一致地标识单个关联记忆和/或矩阵。在每个记忆内,可使用上面关于记忆论述的概念类别:值有序对来标识矩阵内的行。例如,对应于城市伦敦的行可被标识为:“地点:伦敦”。本文的一些实施例规定,特定网络中的特定矩阵内的特定行的标识可用于表示查询项目。用这种方式,对应的计数服务器节点可作为输入接收包含被标识为“网络/记忆类别:记忆值/矩阵/行类别:行值”的项目的查询。作为响应,计数服务器节点200可提供以上面提到的类别:值标识形式的对应列信息。在这点上,记忆中的特定单元可被标识为“网络/记忆类别:记忆值/矩阵/行类别:行值/列类别:列值”,并且可包含表示与代理、行和列属性之间的语义关联对应的具体关联频率的计数值。例如,存储在在物理名称空间中标识为“网络/地点:伦敦默认/人:约翰/活动:银行业务”的单元中的值将表示记忆(地方)伦敦观察到的人约翰进行银行业务活动的次数。在这点上,从记忆(伦敦)角度观察行与列(约翰和银行业务)之间的关联。相应地,基于行的查询可用于确定表示记忆、行和列之间三重关联中的计数数量的关联频率。通过确定关联频率,可使用统计过程还有语义报告来评估事件和/或关联。例如,可确定加权、相关性、熵排名的和/或新近性,和/或将它们用于提供三重关联的频率分析。用这种方式,使用体验来分析关联比仅仅存储和/或报告存在关系提供了显著更大的分析值。现在参考图4,其是图示根据本发明一些实施例如上面关于图2所描述的查询映射操作20的概述的流程图。接收用户的逻辑作为查询输入向量40,其可以是由用户提供的一组项目。查询输入向量被展开到语义空间中,以表示与关联记忆库的物理记忆的名称空间对应的物理名称空间(框42)。可使用本体22执行展开,如上面关于图2所描述的,并且可生成可用于定义相关矩阵的属性向量(框44)。换言之,可定义具有属性向量中属性的一些记忆/知识的矩阵中的矩阵。用这种方式,可标识包含与查询相关的信息的物理结构。可定义具有与查询项目中的其它项目对应的信息的相关行(框46)。用这种方式,标识包含与查询项目中的其它项目对应的信息的每一个定义的矩阵内的行的物理位置。例如,在属性向量包含与“人:约翰”、“地点:伦敦”和“活动:银行业务”对应的查询项目的情况下,可定义与“人:约翰”对应的相关矩阵以及与“地点:伦敦”和“活动:银行业务”对应的相关行。因而,与每一个定义的行对应的流播队列可作为到计数服务器节点200的输入进行处理,如上面关于图2描述的。例如,其中一个流播队列可提供定义为“网络1/人:约翰/默认/地点:伦敦”的输入,并且其中另一个流播队列可提供定义为“网络1/人:约翰/默认/活动:银行业务”的输入。可提供输出类别48以定义与属性向量中的查询项目对应的相关列(框50)。用这种方式,确切地标识与属性向量中的查询项目对应的知识的记忆库内的物理位置。一些实施例规定,物理位置的名称空间可被转换和/或解析成整数索引。在一些实施例中,可在层级名称空间结构的每层独立执行将名称空间标识符转换和/或解析成整数索引。一旦定义了与行/列标识对应的每一个物理记忆位置,就可获取与那些物理记忆位置对应的矩阵计数的子集(框52)。当可使用基于行的组织方法时,分区基于名称空间。在这点上,分区可提供可经由流播队列处理的可管理数据量。此外,一些实施例提供了可变数据分布策略,其例如在存储器特别小的情况下可提供存储器路由相对行路由。可变分布策略可考虑存储器大小,并响应于此而调节路由。现在参考图5,其是图示根据本发明一些实施例如上面关于图4所描述的对应于展开语义空间42的操作的流程图。展开语义空间42包含:对于查询输入向量60中的每个类别:值62,确定是否存在属性的分类学,生成分类学映射(框66),确定变体并生成变体映射(框64)。一些实施例规定,变体映射可将查询展开提供成包含与不同拼写、首字母缩略词、缩写等对应的属性。在一些实施例中,分类学映射可提供查询展开,其提供了属性词汇的受控展开。例如,对应于属性“一月”的分类学映射可包含“冬天”、“第一个月”和/或“冷”及其它。类似地,对应于属性“货车”的分类学映射可包含“车辆”、“货物”和/或“Mack”及其它。在一些实施例中,根据分类学的展开可提供在抽象层增大和/或减小的附加属性。在一些实施例中,分类学映射可类似于同义词词典功能进行操作,因为属性可展开成包含同义词。一些实施例规定,分类学映射可提供对应于查询属性的所有名词和动词。如果生成对应于查询属性的变体映射和分类学映射,则相应地展开这些查询属性中的每个属性(框68和70)。一些实施例规定,可提供层级分类学结构以补充和/或替代查询属性。查询输入向量然后被展开成包含变体和/或分类学展开(框72)。用这种方式,查询输入向量现在被提供作为在展开物理名称空间中表述的展开属性向量。现在参考图6,其是图示根据本发明一些实施例如上面关于图4所描述的对应于定义展开属性向量的相关矩阵46的操作的流程图。对于每个类别:值80,操作确定类别:值是否被声明为记忆(框82)。如果类别:值被声明为记忆,则可选择对应的记忆映射策略(框84)。记忆映射策略可操作以定义记忆包含多少矩阵,如果多于一个的话。例如,最简单的映射策略可定义记忆包含单个矩阵。在一些实施例中,记忆映射策略可提供将多个矩阵和/或记忆定义为一个或多个特性(诸如时间分割)的函数的语义。例如,时间切片语义规定,对于每个预先定义的时间单位(诸如小时、天、周、月、季度、季节和/或年及其它),生成/提供新矩阵。用这种方式,可实现稳态系统性能,因为对应于特定时间切片的矩阵可以不继续增长超过可管理标度,并且可提供所检索信息的稳态摄取。在一些实施例中,记忆映射策略可定义对应于时间切片矩阵的新近性偏差。例如,相比不太新近的数据,越新近的数据可能越相关、越感兴趣、越重要和/或越引人注目。在这点上,来自时间切片矩阵的信息可被独立加权,以给越新近的数据提供越大的权重,并给不太新近的数据提供较小的权重。在一些实施例中,可对计数执行矩阵数据加权,因为它们从矩阵检索,使得对应于流播队列接收的计数包含加权。一些实施例规定,在从流播队列接收到结果之后,对计数数据执行加权。一些实施例规定,记忆映射策略可包含基于容量的策略,使得最大矩阵大小可定义成实现含有尽可能合理小的矩阵维度的目标。例如,可基于知道矩阵维度限制的优势,在物理上为系统性能定义记忆映射策略。尽管如上面所论述的,时间切片语义也可自然地实现那个目标,但一些数据可能在时间上不基于,并且从而,时间切片可能不可应用于定义矩阵维度限制。基于记忆映射策略,可添加一个或多个记忆/矩阵(框86),以提供与声明为记忆的每个类别:值对应的相关物理矩阵的子立方体选择(框88)。现在参考图7,其是图示按照本发明一些实施例如在图1中所描述并且在上面关于图6所论述的关联记忆库1010的所选择矩阵的展开子立方体的框图。一些实施例规定,所选择矩阵的子立方体可沿第一轴展开为变体展开92,并沿第二轴展开为分类学展开94。用这种方式,可维持记忆96的相互关系。在一些实施例中,分类学展开94规定,在相同行中提供用于相同矩阵/记忆的不同记忆96。例如,在时间策略的情况下,记忆1矩阵1、2和3可对应于一月、二月和三月的时间切片,并且可排列在行中以保持不同记忆96的相互关系。通过保持记忆96的相互关系,数据可被进一步开发成包含新近性和/或距离偏差等等。一些实施例规定,变体展开92提供了关于变体的记忆的相互关系。例如,记忆的列排列可保持同义词、缩写、替代和/或首字母缩略词及其它之间的关系。要指出,在这点,子立方体由矩阵名称表示,并且不包含行或列信息。例如,如上面所论述的,对应于三重存储关联的频率信息(计数)包含记忆(代理)、行和列。在那点上,所选择矩阵的子立方体表示记忆和/或矩阵的标识。因而,满足该查询还包含定义行和列子集。现在参考图8,其是图示按照本发明一些实施例如上面关于图4所论述的定义行和列子集的流程图。一些实施例规定,对于对应于展开类别:值的每一个矩阵,执行定义行和列子集(框100)。对于每个展开的输入类别:值(框102),对应于类别:值输入的行可被绑定到队列资源(框108)以定义行队列。一些实施例规定,可以不检查矩阵以看看是否包含对应于类别:值的行。在这点上,可在没有矩阵内容的特定知识的情况下定义行队列。在一些实施例中,该确定可包含确定在矩阵中是否存在行。一些实施例规定进行确定,并且如果该行不在矩阵中,则没有绑定对应于那个类别:值输入的队列资源。如果矩阵包含对应于类别:值输入的行,则该行可被绑定到队列资源(框108)以定义行队列。在一些实施例中,当定义行时,多个队列资源可被提供为可用于绑定到行的多个队列的池。一些实施例规定,队列资源可包含固定和/或预先定义的格式和/或大小。用这种方式,可基于固定和/或预先定义的格式和/或大小,使用标准化方法执行处理和/或流播队列。在一些实施例中,当定义行时,可为行生成和/或创建队列资源。对于每个输出类别(框110),将输出类别添加到列类别列表(框112)。用这种方式,可定义行/列子集的列部分。对于每一个定义的矩阵,所定义的行队列和列类别可定义可检索计数的子集114。用这种方式,可定义每一个所定义矩阵的余量。所定义矩阵的余量可用于定义每一个矩阵中的每一行的哪个部分包含对应于该查询的数据。现在参考图9,其是图示根据本发明一些实施例如上面关于图2所描述的对应于流播队列12的操作的流程图。在将队列资源绑定到队列之后,如上面关于图8所论述的,行队列116可被流播以访问与可相对于彼此独立定位的关联记忆/矩阵中特定的那些对应的计数服务器节点。节点映射操作118可用于将行队列116中的多个队列映射到多个节点读取器120,它们可包含与多个计数服务器节点200的一对一对应性。在这方面,节点映射操作118可提供行队列116与节点读取器120之间的多对多接口。在一些实施例中,节点读取器120可基于对应于单行队列116的查询来执行来自其对应计数服务器节点200的请求。一些实施例规定,节点读取器120可基于对应于多个行队列的查询来执行来自其对应计数服务器节点200的批量请求。例如,行队列116中的多个队列可包含来自相同关联记忆和/或矩阵的查询。用这种方式,可减小和/或最小化来自具体计数服务器节点200的矩阵请求数量。响应于来自节点读取器120的请求,计数服务器节点200可将计数数据返回到对应于行队列116的节点读取器120。在一些实施例中,节点读取器120可操作以返回计数和/或将标识符与行队列对应。一些实施例规定,节点映射操作118包含至少一个计算。用这种方式,无需使用查找表就可执行节点映射。因而,分布式关联记忆库可在不超过查找表可能呈现的维度限制的情况下调节和/或增长。现在参考图10,其是图示根据本发明一些实施例如上面关于图9中的节点映射118所论述的用于将在行队列中定义的行映射到行位置号的操作的流程图。由于节点读取器(图9的120)对每一个计数服务器节点(图9的200)可能是特定的,因此确定行位置节点号。对于每个行队列,行级名称空间124连同任何调制变量126可能受散列函数128的影响,以生成表示行位置号130的散列代码。在一些实施例中,散列函数128还可使用网络分配信息122。在一些实施例中,网络分配122可对应于包括关联记忆库1010的网络资源。一些实施例规定,经由计算确定行位置节点号130。在这点上,行级名称空间可被转换成整数行位置节点号,其可包含与大量机器中的哪个机器包含行对应的标识。调制变量126可提供使散列代码偏离到其它空间的其它连结。用这种方式,可提供灵活性。例如,当关联记忆库1010增长时,调制变量可被调整成提供对应于附加机器的标识。一些实施例规定,散列函数128可包含应用到行级名称空间124和/或调制变量126的散列函数以生成散列代码。在一些实施例中,网络分配122可包含群集中的机器量以及机器群集偏移。一些实施例(未图示)规定,可使用群集中的机器量,向散列代码应用模操作。模操作的结果可与机器群集偏移组合,以确定行位置节点号130。然而,在模操作中使用机器群集信息的方法可具有对关联记忆库的增长和规模不必要地施加限制的效应。现在参考图11,其是图示按照本发明一些实施例的计数服务器节点的概述的框图。在一些实施例中,计数服务器包含一个或多个计数服务器节点200和一个或多个原子表节点202,如上面关于图9所论述的。计数服务器节点200可包含配置成驱动内部过程(诸如例如矩阵标识、编码器和/或解码器及其它)的多个处理引擎132。一些实施例规定,计数服务器节点200可包含类别:值到原子表节点映射138,其可提供对应于类别:值属性的原子表位置号。原子表位置号可用于在选择的原子表节点202内选择原子表(如果可应用的话),以解析变成矩阵的关键值的标识符。矩阵的关键值可被用在矩阵索引页134和/或矩阵数据页136中。在一些实施例中,矩阵索引页134可包含一个或多个B+树页,但其它形式的索引页可用于将关键值与矩阵相关。如本文所描述的,矩阵索引页134可包含其它页的标识,这些页也可以是矩阵索引页134,或者可以是矩阵数据页134。矩阵数据页134可包含关于数据(诸如例如对应于查询的计数数据)位置的矩阵位置信息。一些实施例规定,矩阵索引页134基于关键值解析永久存储装置140中数据的物理位置。在一些实施例中,关键值的一部分可将页地址包含在永久存储装置中。从而,计数服务器节点200接收基于名称空间的字符串,并将它们转换成关键值,检索对应于关键值的计数数据。反过来,一些实施例规定,关键值可被转换回基于名称空间的字符串。在一些实施例中,返回的值可被保存为标识符整数,它们可流回到队列流中。用这种方式,随后应用的排序和分级控制可操作在类别:值上,作为整数标识符而不是作为基于名称空间的字符串。用这种方式,可使用更有效的整数比较操作,而不是字符串比较操作。因此,到计数服务器节点200的接口定义是在输入方向建立的名称空间字符串。永久存储装置140对每个计数服务器节点200都是本地的。用这种方式,不同于原子表节点202,本地永久存储装置140提供了不共享任何事物的架构,其中每个节点都是独立的并且自足的,并且跨系统可能都不存在竞争的单点。当计数服务器节点200执行实质搜索并在本地对检索操作计数时,关联记忆库可通过添加附加机器来增大,由此提供分布式关联记忆库中的基本上线性的可缩放性。现在参考图12,其是图示根据本发明一些实施例如上面关于图11所论述的用于类别:值到标识位字段映射(框138)的操作的流程图。对于每个类别:值(框142),执行原子表查找(框144)。在一些实施例中,原子表查找可用于确定多个原子表节点之间的哪个包含对应于查询中类别:值的标识数据。在查找原子表节点之后,在那个原子表节点中查找标识数据(框146)。尽管描述为查找操作,但一些实施例规定,原子表可经由散列函数和/或其它计算方法以计算方式确定原子表。转换标识数据以提供可被称为关键值的标识格式(框148)。在一些实施例中,关键值格式150可包含类别索引字段152、原子节点字段154和/或值索引字段156等等。类别索引字段152、原子节点字段154和/或值索引字段156中的每个都可配置成包含分别对应于类别、原子节点和值信息的数据值。关键值格式150可规定,各种字段152、154和156在长度上是灵活的。通过提供原子节点字段154,可在将来自矩阵的返回数据与类别:值关联时之后执行反向查找。在一些实施例中,关键值格式150可包含固定位长。例如,关键值格式可以是16、32、64、128和/或256位等等。现在参考图13,其是图示根据本发明一些实施例用于计数服务器节点200中矩阵标识的操作的流程图。标识对应于行级名称空间160(诸如例如类别:值属性)的矩阵可包含查找原子表节点(框162)。可查找矩阵标识符,也称为关键值(框164)。在一些实施例中,可压缩关键值和/或其中的一个或多个字段。使用关键值查找矩阵的根页地址(框166)。在一些实施例中,根页表示对应于编码矩阵的起始页。一些实施例规定,读取根页的报头以确定矩阵类型(框168)。在一些实施例中,矩阵类型可包含小到足以包含根页中矩阵的所有行的“字节”类型矩阵。在这点上,可选择(框170)矩阵的解码器用于类型“字节”解码(框172)。一些实施例规定,矩阵类型可包含使用多于一页来标识所有行的大矩阵。在这点上,可选择(框170)矩阵的解码器用于类型“大”解码(框174)。根据本发明的一些实施例,也可提供其它类型解码(框176)。例如,可使用前/后(prior/next)、三角和/或位平面解码及其它。现在参考图14,其是图示根据本发明一些实施例被编码的标准字节矩阵的框图。如上面关于图13所论述的,字节矩阵不是大矩阵,并且可驻留在单个根页上。在一些实施例中,可对于字节矩阵定义最大的大小。例如,总大小可不限于超过16k字节。一些实施例可提供包含可小于和/或大于16k字节的不同总大小的字节矩阵。在一些实施例中,可编码其它类型本地紧凑表示,例如包含前-后(prior-next)、三角和/或位平面及其它。在一些实施例中,字节矩阵包含定义行数182、列数184、行标识符186和/或列标识符188及其它的报头信息180。在一些实施例中,行标识符186和/或列标识符188可按它们的索引次序提供,并且可分别经由诸如“N”和“M”的索引变量确定。在这点上,字节矩阵可包括包含计数的单元190的NxM阵列,通过使用行索引,一旦确定了行索引,就可使用相对于当前行的偏移值直接访问其它行。尽管当初始化时字节矩阵可被大量填充,但当进一步填充字节矩阵时,它变得越来越稀疏。在一些实施例中,可通过包含共享相同日期和/或时间特性的行和/列来使数据平整。现在参考图15,其是图示根据本发明一些实施例如上面关于图14所论述的用于解码标准字节矩阵的操作的流程图。一些实施例规定,解码标准字节矩阵包含读取行数(框220)以及读取列数(框222)。如上面关于图14所论述的,可通过读取报头信息180来确定行数和列数。对于行数(框224),读取到行索引的行标识符(框226)。类似地,对于列数(框228),读取到列索引的列标识符(框230)。通过索引每个索引行标识符和列标识符组合来读取对应于每个单元的计数(框232、234、236)。确切地说,对于查询中的每个行索引(框232)以及与每一个行索引对应的查询中的每个列索引(框234),读取计数数据(框236)。如果计数大于0(框238),则组合(框240)行/列标识符和对应计数以提供标识符:计数结果(框242)。如果计数值为零,则可不提供与标识符对应的结果。现在参考图16,其是图示根据本发明一些实施例用于编码大矩阵的大矩阵树的框图。在一些实施例中,大矩阵树例如可包含B+树页,其可按考虑到有效插入、检索和/或移除计数的方式表示排序数据,其中的每个都可用密钥标识。一些实施例规定,大矩阵树可包含可最小化输入/输出操作数量的大扇出,以提供对非常大、稀疏计数矩阵的观察。用这种方式,大矩阵树可将大矩阵减小到非零计数值的区域。在一些实施例中,大矩阵树包含根页192,根页192可包含可进一步定义叶页198的迭代页194的参考,叶页198包含密钥201和值203,值203包含大矩阵内的行和计数数据。一些实施例规定,根页192和/或迭代页194可包含到其它B+树页196和/或其它迭代页194的参考。一些实施例规定,密钥201定义与一个或多个编码方案对应的编码数据串的起始点。例如,一些实施例规定,密钥201可提供可由值203提供的行程长度编码和/或关联计数编码的起始点。在一些实施例中,值203指向矩阵具体行中的单元的一部分。一些实施例规定,值203可包含固定长度,诸如例如4、8、16、32、64和/或128字节及其它。在一些实施例中,可使用本文所描述的单元行程编码对非常大的稀疏矩阵编码。可进一步参考图17说明单元行程编码的一些实施例,图17是根据本发明一些实施例如上面关于图16所论述的单元行程编码的框图。在一些实施例中,单元行程编码可为非常大的稀疏矩阵提供数据压缩,其可包含行程长度编码和无限整数编码的有选择混杂的特性。行程长度编码是数据压缩形式,其中数据行程可被存储为单个数据值和计数,而不是存储为原始行程。例如,在非常大的稀疏矩阵的情况下,可使用行程长度编码来展开大量零值。此外,无限整数编码提供了可变长度整数值的数据压缩,其可发生在零的行程之间,这在非常大的稀疏矩阵中可能是典型的。作为非限制示例,每个值203都可包含多个字节203,这些字节可各包含多位204。尽管如本文所图示的字节长度包含8位,但本发明不如此限制。例如,一些实施例包括字节,所述字节包含多于和/或少于8位。一些实施例规定,本文所使用的字节大小可取决于数据的一个或多个特性。例如,在数据包含相当低计数的情况下,可减小字节大小以导致此类数据的更大效率。另外,一些实施例规定,计数可使用可变字节长度编码来提供几乎无限的大小,无需经历数据溢流。一些实施例规定,在每个字节203内,“位1”204B可定义值类型位或值位,作为字节203的剩余位的一部分。在这点上,在“位0”204A可能总是延续位的情况下,“位1”204B可提供两个不同使用,取决于是否存在连续。因而,当新值开始(连续在最后一个字节结束)时,然后“位1”204B提供新值类型。例如,如果先前字节的延续位是“1”,则可包含“位1”204B与位2-7作为值位。如果先前字节的延续位是“0”,则“0”的“位0”值可指示具有某个值的当前行程的结束。相反,如果“位0”包含值“1”,则该值在下一字节中延续。一些实施例规定,如果当前行程结束于某个值(先前位0=0),则字节的“位1”204B可指示值类型。例如,如果值类型是“0”,则可指示零行程长度,其规定那个字节中的其余位是0。相比之下,如果值类型是“1”,则可指示关联计数,其可规定,那个字节中的位2-7可以是使用无限整数编码的整数值的二进制表示。现在参考图18,其是图示根据本发明一些实施例如上面关于图17所论述的单元行程编码示例的框图。在此示例中图示的第一字节400在第一位和第二位中包含0。假定先前延续位值是0,第一位0值指示当前字节结束于具有某个值的行程,而第二位0值指示值类型是0行程长度。对应于位2-7的数字值是22,其被添加到标识符(假定初始为0)以生成新标识符,其是22。由于这是0行程,因此没有对应的计数值。第二字节402在第一位和第二位中分别包含0和1。第一位0值指示当前字节结束于具有某个值的行程,而第二位1值指示值类型是整数计数。整数值是对应于位2-7(000110)的数字值,其是6。22的返回标识符值与整数计数值6关联。标识符按1递增变成23。第三字节404在第一位和第二位中分别包含1和0。第一位1值指示当前字节值将延续到下一字节,而第二位0值指示值类型是0行程。剩余2-7位位置(110011)中的位被保持以与随后出现的位连结,直到完全确定0行程值为止。继续,第四字节406在第一位和第二位中的每位中都包含1。第一位1值指示,当前字节值将延续到下一字节。由于先前延续位(第三字节404第一位)是1,则值类型已经被确定为0行程。在这点上,第二位可被包含在值字段中。因而,剩余1-7位位置(1000100)中的位与前一字节的值位连结。因而,当前值是第一值(110011)与第二值(1000100)连结,或1100111000100。仍继续,第五字节408在第一位和第二位中分别包含0和1。第一位0值指示当前字节结束于具有某个值的行程。由于与在第四字节406中一样,先前延续位是1,则剩余位1-7(1000011)可被包含在值字段中。因而,新的当前值是前一当前值(1100111000100)与位1-7(1000011)连结,或11001110001001000011,其是1,688,710。这个值被添加到前一标识符23以导致1,688,733的标识符。第六字节410在第一位和第二位中的每位中都包含1。第一位1值指示,当前字节值将延续到下一字节。由于先前延续位(第四字节406第一位)是0,则值类型可由第二位确定。第二位1值指示,当前字节值将是整数计数值。因而,剩余2-7位位置(000001)中的位被保持以便与随后字节的值位连结。第七字节412在第一位和第二位中分别包含0和1。第一位0值指示当前字节结束于具有某个值的行程。由于先前延续位是1(第五字节410),则剩余位1-7(1000100)可被包含在值字段中。因而,新当前值是前一当前值(000001)与位1-7(1000100)连结,或0000011000100,其是196。由于这个值是整数计数,因此1,688,733的返回标识符值与整数计数值196关联。标识符按1递增变成1,688,734。要指出,在上面描述的8个示范字节内,从标识符0至标识符1,688,735的非零数据被确定,并经由单元行程编码与它们的相应标识符关联。第八字节414在第一位和第二位中分别包含0和1。第一位0值指示当前字节结束于具有某个值的行程。由于前一字节没有延续位1值,因此第二位1值指示,值类型是整数计数。整数值是对应于位2-7(000101)的数字值5。1,688,734的返回标识符值与整数计数值5关联。标识符按1递增变成1,688,735。现在参考图19,其是图示根据本发明一些实施例用于扫描输出类别的操作的流程图。尽管用于扫描输出类别的操作可能更适用于如上面关于图16所描述的大矩阵,但部分扫描操作可适用于如上面关于图14所描述的标准字节矩阵。对于每个查询输入类别,输出标识符360的位字段包含类别索引字段362和值索引字段364。如上面关于图12所描述的,输出标识符(其可被称为关键值)最初可包含类别索引字段152、原子节点字段154和/或值索引字段156等等。然而,为了根据一些实施例的扫描操作的目的,可移除原子节点字段154,使得类别索引152和值索引156可被组合以形成输出标识符360。对于每个查询类别(框366),操作都包含通过将输出标识符值设置成0来初始化扫描(框368)。与那个类别中的输出标识符360对应的单元被解码(框370),并且在大矩阵的实例中返回(框372)单元类型编码。由于标准字节矩阵可能不使用单元行程编码,因此零行程长度可能不发生,并且从而其中的单元类型可能不可应用。如果单元编码是零行程长度,则输出标识符360递增行程长度(框374)。通过将输出标识符360前进到0行程的结尾,可用有效的方式处理非常大的稀疏矩阵。如果单元编码是整数计数,则输出标识符360递增1(框376),使得可评估下一输出标识符值。由于类别索引152和值索引156被连结成单个值,因此一旦输出标识符360被递增超过与值索引156关联的较低位以外,类别索引152就将前进到对应于下一查询类别的值。用这种方式,一旦类别位字段152被递增到对应于查询类别的以外(框378),那么结果就被返回(框380),并用对应的标识符整理(框382)。如果类别索引不大于查询类别,则下一单元被解码(框370)。用这种方式,可对于每个查询类别,评估所有输出标识符360。现在参考图20,其是图示根据本发明一些实施例如在大矩阵中所使用的单元行程解码器的操作的流程图。在一些实施例中,单元行程解码器可包含逐字节解码器,其可提供与使用如上面关于图17描述的单元行程编码而编码的解码字节对应的整数计数和/或散列函数。一些实施例规定,可以如本文所描述的计算标识符值,而不是获取存储的标识符。为了确保起始点不在行程长度或整数计数内,先前字节的延续位是0(框420),并且起始编码值是0(框422)。检索下一字节(框424),并读取先前延续位(框426)。如果先前延续位是0,则编码值与位2-7连结(框428)。要指出,在第一字节(如先前延续位0所指示的)上,读取第二位(位1)以确定值类型(框432),并设置值类型(框434)。在连结(框428)之后,读取第一位(位0)(框436)以确定随后字节是否有必要确定最后编码的值。在这点上,第一位可以是延续位,发信号通知随后字节是当前字节的延续。如果第一位(位0)是1,则那个变成新的先前延续位(框438),并检索下一字节(框424)。如果第一位(位0)是0,则通过读取第二位(位1)来确定值类型(框440)。在第二位的0值指示0行程长度,并且编码值像这样返回(框442)。在第二位的1值指示整数计数,并且编码值像这样返回(框444)。在备选中,如果先前延续位是1,则该字节是前一字节的延续,并且从而值类型已经已知。因而,先前延续位是1(框426),并且值类型经由前一解码的字节是已知的。在这点上,因为值类型已知,因此第二位可包含在值字段中,并且编码值可与位1-7连结(框430)。在一些实施例中,被累加的值包含指向下一非零数据位置的指针和/或指针的形式。在一些实施例中,被累加的值包含整数,其表示计数并且可使用无限整数编码进行编码。在任一实例中,经由上面描述的编码的几乎无限的字段长度可提供几乎无限的值大小,没有数据溢出。在一些实施例中,本文描述的编码可被视为提供到标识符空间的指针的可变字大小链接的列表。现在参考图21,其是图示根据本发明一些实施例如在图2所图示的结果控制器24中操作的概述的流程图。从行队列中累加原始计数数据(框210)。在一些实施例中,原始计数数据包含列标识和对应计数值。一些实施例规定,可在数据位置的物理空间方面定义列标识和对应计数值。语义学可被折叠回查询,以表述查询项目中的返回列标识符和计数数据(框212)。一些实施例规定,最后的结果按序排名(框214)。在一些实施例中,可执行给最后结果打分,以提供关于数据之间相对相关性的信息。例如,在时间切片的上下文中,较新数据可被视为比较老数据更相关。在这点上,结果可被独立加权以捕获数据之间的相对相关性。例如,除了关联的三重存储,计数还用于提供频率信息,其可通过对具有较大发生频率的关联比具有较小发生频率的关联更重地加权而在最后结果中捕获。标识符被转换成属性字符串(框216)。一些实施例规定,通过等待直到排名和/或打分之后,转换的队列流按与在查询方面与相对重要性一致的可预测次序提供。现在参考图22,其是图示根据本发明一些实施例如上面关于图21所描述的用于累加原始计数219的操作的流程图。无论是始发自字节矩阵还是大矩阵,一系列列标识符和对应的计数数据被提供回行队列。在一些实施例中,对应于每个行队列的列标识符可按预先定义的次序提供。例如,列标识符可按升序排列。通过基于列标识符提供预先定义的次序,矩阵的组织方案可定义可保持的数据之间的关系。例如,列标识符可规定,标识符的第一高位值字段描述属性类型(类别),并且第二低位值字段描述属性值(值)以描述类别:值。当读取有序返回的数据时,一旦类别字段前进到新类型,就能推论出,已经读取了对应于前一属性类型的所有值。如在名称空间中所描述的,通过绑定每一个网络:记忆:矩阵:行查询项目可生成的行队列286可匹配到可响应于对于计数数据的请求和/或其满足而流播的队列资源。例如,当被处理的队列内的数据量和/或队列数量为低和/或在所定义的阈值以下(框294)时,则节点读取器296中的一个或多个可从对应的行获取更多列和/或计数。一些实施例规定,以流播方式经由节点读取器296获取列和计数数据,并馈送到对应行队列286,与它被获取一样。列标识符:计数数据可被继续馈送到原始队列286中,直到节点读取器296指示,已经提供了所请求的数据为止。用这种方式,可用可避免淹没处理资源的方式不断处理数据。要指出,列标识符:计数288可按与列标识符相关的预先定义的次序在行队列286中提供和/或排列。在一些实施例中,列标识符:计数288可按列标识符的升序进行排列。一些实施例规定,列标识符:计数288凭借字节矩阵和/或大矩阵树中的数据排列进行排序。例如,矩阵中的数据排列标识基本上未填充的非常大的稀疏矩阵内的非零部分。在一些实施例中,数据排列提供了附加丰富性,因为相关类别的数据可共同定位。因而,列标识符可以是语义上重要的。用这种方式,关联记忆库的组织可直接有助于其开发的速度和灵活性。一些实施例规定,如果列标识符小于未决行队列286的最小列标识符值(框280),则那个列标识符被设置为最小标识符(框282)。换言之,操作可担任列标识符迭代器以按从在行队列中的最小列标识符值开始的次序,从行队列286中检索列标识符:计数数据。与最小标识符值对应的那些行队列286的列标识符:计数数据被检索到,并且如果适用的话,可与那个列标识符的变体进行折叠以整理相关计数(框290)。用这种方式,原始计数292可被累加(框292)。如上面关于图7所描述的,所选择的矩阵的子立方体可被展开为变体展开。现在对应于展开变体的查询结果已经被返回,现在参考图23,其是图示根据本发明实施例的变体折叠操作的流程图。当变体一般被视为等同物时,对应于查询项目变体的计数信息可以是添加项。例如,在查询项目\Joseph\的变体可包含\Joe\和\Joey\时,对应于\Joseph\、\Joe\和\Joey\的原始计数数据可以求和,以折叠之前展开的变体。根据一些实施例的操作可规定,对于每个行队列整理(框480),都可确定变体是否映射到先前行(框492)。如果变体映射到先前行,则新结果被添加到原始计数(框490)中的先前行(框494)的原始计数。原始计数(框490)可被存储为与每个行标识符对应的列标识符:计数数据。例如,原始计数可被提供为\原始标识符、列标识符:计数、列标识符:计数...\。如果变体未映射到先前行,则新行被添加(框496)到原始计数(框490)。对于每个行队列整理内的每个列队列整理(框482),可确定变体是否映射到先前列(框484)。当变体被附加对待时,对于映射到先前列的变体的计数被添加到行计数(框490)中的先前列(框486)的计数中。如果变体未映射到先前列,则列标识符被添加(框488)到原始计数(框490)。在如上面关于图23所描述的变体被折叠之后,原始结果可被累加,如参考图24所描述的,图24是图示根据本发明一些实施例用于累加原始结果的操作的流程图。用于累加原始结果的操作可提供来自于行队列的数据相对于每个列标识符的同步。在一些实施例中,对于每个列步骤(框250)以及对于每个行标识符(网络:记忆:行)(框256),如果计数大于0(框258),则那个列的当前计数(框262)与那个列的其它计数进行累加(框264)。此外,在一些实施例中,那个列的连接数被递增(框260),以维持与在整理的结果中累加的计数对应的连接数(框266)。一些实施例规定,当前列(框254)的名称空间被倒置(框252),并且包含在整理的结果(框266)中,倒置名称空间可提供面向回答的整理。例如,在基于不断增大的粒度来定义原始名称空间的情况下,倒置的名称空间可以是面向列的。在这点上,整理的原始结果可提供每个“列:行:记忆:网络”的行计数和连接数。另外,如上面关于图23所论述的变体的展开和折叠表示可应用到输入查询的布尔结构的一个示例。在这点上,一些实施例规定,输入查询可包含一种或多种类型的布尔结构,其可分别在检索原始计数之前和/或之后展开和/或折叠。因而,在一些实施例中,查询的布尔规范可应用于行队列的解释。用这种方式,布尔满足可用于处理输入查询,包含改变逻辑复杂性的级别,以提取分布式关联记忆库相对于查询逻辑的丰富性。现在参考图25,其是图示根据本发明一些实施例如上面关于图21所论述的用于提供排名次序结果的操作的流程图。可对于每个列输出(框302)的每个记忆角度(框304)执行对整理的结果(框300)的排名次序操作。在一些实施例中,对每一个列/记忆角度组合的操作都可包含:递增跨记忆群体的每列的投票(框306)。投票可对应于非零值,并且可提供为提供连接性测量的临时结果。例如,投票可表示连接的语义存在。一些实施例规定,每个非零列/记忆结果都包含一个投票。使用可从计数和连接方面比较整理结果的比较器函数(框308),对于每个单独记忆都插入一类列(框310)。可比较投票和列排序排名的比较器函数(框312)可提供对应于每个列输出(框316)的总体列排名(框314)以提供按序排名的最后结果(框318)。现在参考图26,其是图示根据本发明一些实施例如上面关于图21所论述的用于将输出标识符转换成名称空间字符串的操作的流程图。如上面关于图11所描述的,输出标识符可包含对应于类别、原子表节点和值的字段。对于每个最终结果输出标识符(框340),原子节点被确定用于反向查找(框342)。执行反向查找以确定对应于输出标识符的查询字符串名称(框344)。查询字符串名称用于替代输出标识符(框346)。现在参考图27,其是图示根据本发明一些实施例用于查询分布式关联记忆库的操作的流程图。从用户接收的基于语义空间的查询被转换成基于物理空间的查询(框500)。一些实施例提供了表述为与分布式关联记忆库中的多个关联记忆网络中的至少一个网络中的相应物理记忆位置对应的多个基于行的标识符的基于物理空间的查询。可生成对应于基于行的标识符的多个查询队列(框502)。查询队列可被流播到与关联记忆网络对应的多个计数服务器节点(框504)。确定来自节点服务器的响应于查询队列的计数信息(框506)。来自节点服务器的计数信息可被转换成响应于基于语义空间的查询的基于语义空间的结果信息。现在参考图28,其是图示根据本发明一些实施例用于使用分布式关联记忆库的操作的流程图。可生成对应于基于物理空间的查询的多个流播查询队列(框510)。在一些实施例中,流播查询队列可表述为多个分布式关联记忆网络中至少一个网络中的相应物理记忆位置的多个基于行的标识符。一些实施例包含:将流播查询队列中的查询队列映射到可操作以从与分布式关联记忆网络对应的多个计数服务器节点接收计数信息的多个节点读取器(框512)。所接收的计数信息可被映射回流播查询队列的对应队列(框514)。现在参考图29,其是图示根据本发明一些实施例用于对大的稀疏矩阵中的数据进行编码的操作的流程图。可提供包含由行标识符和列标识符值标识的非零数据位置的稀疏矩阵(框520)。可读取固定长度的编码矩阵索引字(框522)。对于稀疏矩阵中的给定行,可通过提供在至少一个固定长度的编码矩阵索引字中具有可变字长的编码索引偏移值来索引具有零值的连续的接连位(框524)。可从至少一个固定长度的编码矩阵索引字读取可变字长的非零数据值(框526)。可变字长非零数据值可与对应的列标识符关联(框528)。本文所描述的关联记忆系统、方法和记忆库可用于支持高性能计算,作为大容量“相关”记忆以及连接记忆。正式地讲,“相关性”通常可被理解为变量之间的任何统计关系。例如,在金融中,我们可能想要知道一只股票在关系上如何向另一只股票移动。本文描述的系统可存储连接计数,其可表示原始计数。此类计数数据可以提供或者可以不提供意义信息。例如,将每天早上的太阳升起视为与一天中的每个其它事件一致。对于原始计数,关键:值太阳:升起可与其它一切都具有强关联——最强的可能计数。基于原始重合计数,问查询中的任何事物和太阳:升起将是最强关联。例如,股票:涨将与太阳:升起具有最强的可能关联。然而,在股票:涨和太阳:升起之间没有相依性。太阳升起没有提供股票市场方向的信息。另一方面,假定,如果PunxsutawneyPhilSowerby在土拨鼠日(GroundhogDay)看到他的影子,则可能是晚春。如果否,则可能是早春。如果这个一致模式为真(只是假定),则在Phil看到他的影子与春天的开始之间存在相依性。一般而言,相依性可测量一件事物的存在有多依赖于另一事物的存在。除了存在连接或甚至连接强度,相依性还测量每个链接的更深的信息含量。现在将说明根据本发明一些实施例的认知距离的数学模型,包含用于通过相似性进行推理的其各种近似的推导。除了直观说明,还提供了距离测量的论述,诸如汉明距离和Jaccard相似性(距离),它们都与关联记忆紧密相关。此外,寻址相似性的香农熵测量和Jaccard相似性的相似性。基于香农互信息的Jaccard距离可被一般化成基于Kolmogorov复杂性的信息距离。信息距离的这个归一化形式可被称为认知距离,因为它是可从物理学以及信息论导出的普遍距离测量。此外,当对集合之间的认知距离求近似时,可使用香农互信息。然而,为了对单个对象之间的距离求近似,可使用超出香农熵的近似。将智能视为压缩问题可能更接近Kolmogorov复杂性的真实本质。通过相似性推理可能对关联记忆是基本的。无论是Hopfield网络还是神经计算,两种方法都寻址位距离或者汉明距离。给定两个位变量,它们之间的汉明距离是不同的位的数量。相反,相似性是相同的位的数量。磁自旋的Ising自旋模型,向上或向下以及它们如何交互以从混乱(非磁)转变成有序(磁),可能对关联记忆是同构的。例如,状态向量可存储在彼此连接的神经元网络中。此类神经元网络可通过形成内容可寻址关联记忆的连接和计数来描述。当新位向量被应用到此类网络时,它异步地翻转向量位,以回忆由之前加载的向量形成的最接近的记忆位置(数学上讲是固定点)。现在简要地参考图30,其是根据本发明一些实施例由3位和距1000位的向量之间的平均位向量的距离的概率图定义的立方体。给定三个位,立方体描述汉明空间中每个向量的定点位置。从一个定点到另一定点的汉明距离被看作位翻转次数,诸如从000到111距离为3。随着汉明空间变得更大,诸如达到1000位,距离的概率指数下落。假定500位“开”和500位“关”的平均向量,具有多于80个不同位的似然仅是0.0000001%。不同的向量按这个距离测量是非常不同的。汉明空间的本质特别地规定了,距离概率比在欧几里得空间中更远些。例如,在1000位的随机向量空间中,任两个向量之间的平均距离是500位,具有仅1位的标准偏差(一个“Σ”)。换言之,以到平均值5个标准偏差的距离,仅80位是不同的,但在百万个向量中仅一个向量有可能在这个距离之外。远离的事物是非常远离的。在这点上,汉明空间可比欧几里得空间更加最大化此类分离的概率。汉明空间还可通过离散化来寻址连续变量。离散化的许多技术都是可能的,包含温度计代码、百分位进仓和/或连续可变范围上的基于熵的进仓等等。用这种方式,位向量可表示含有类别向量和连续向量的结构化和非结构化数据源。用图式树图可统一来自不同数据源的连接知识的相同方式,位向量的普遍表示可将不同数据类型统一成用于测量向量之间距离的汉明空间的更理想性质。一些实施例规定,神经元也可通过神经突触的“线译码”而更喜欢面向位的性质。每个突触都是离散的,并且接收神经元不知道输入神经元的源或语义学。与位向量中的每位一样,每个突触输入线都表示其部分输入模式,并且这些输入线全都是可用于其计算的接收神经元。一些实施例规定,本文公开的记忆库可以相同方式工作。矩阵可通过存储类别:值之间的连接和计数、变换成线代码ID来表示简化的神经元。矩阵不知道馈送其角度的ID的源或语义。汉明距离假定,向量空间中的每一位都是“开”或“关”,向量总是完全的。实际上,世界的许多观察可将它们自己呈现为部分向量。例如,两个文档将可能是不同长度和部分不同的项目。更一般化的关联记忆可允许未知位既不作为“开”也不作为“关”。为了比较跨多样观察的不同大小和不同属性的向量,Jaccard距离可类似于汉明距离,但没有对于不匹配“关”位的惩罚。仅看在两个向量中什么是“开”,Jaccard相似性定义为:。换言之,相似性是向量A和B(两位都为“开”)中“开”位的交集的测量,与它们的并集(任一位为“开”)形成对比。本文所公开的记忆库可与仅评估“开”位类似地工作。整个记忆空间都能容易地达到数十亿,如果不是数兆属性的话,而当按连接和相似性推理时,特定查询向量仅涉及全域的子集。根据数据中的应用和不确定性,记忆库可进一步将相似性的测量仅限于所知道的交集。例如,不知道某人是否结婚不能假定为未婚。在国家安全上,众所周知的格言警句:\[a]证据不足不是没有证据\。如根据“已知的已知...已知的未知...以及未知的未知”所著名的,本文所公开的系统、方法和记忆库已经用用于别名检测、寻找与目标人相似的人的折衷方法呈现出更好的准确性。在一些实施例中,已经发现,向量空间匹配比基于规则的模式匹配更准确40倍。一些实施例包含数据的特征和关系连接。例如,给定一件事物,特征和关系可被查找为“签名”向量,以计算Jaccard-Hke相似性。也可计算熵,以对这些连接的“兴趣度”或信息含量加权。例如,在“坏家伙”数据库中,如果所有人都是男性,则为男性是完全无信息含量的。它没添加帮助匹配的信息。相似性距离可基于语义连接以及统计频率。在计算机科学中,熵可以是信息测量,单位是位。熵可测量数据中信息不确定性的程度。熵可提供测量相依性的非参数方法,其独立于实际随机变量,而是依赖于它们的分布。许多传统方法如回归分析、主成分分析(PCA)、费希尔判别分析的主要弱点是,它们在变量变换下不是不变的。例如,输入变量的线性缩放(其可由用于测量的单位改变引起)足以修改PCA结果。对于属于不同类的模式的简单分布足够的特征选择方法在具有更复杂判定边界的归类任务上可能失败。此外,基于线性相依性(如相关性)的方法不能顾及到模式坐标与不同类之间的任意关系。相比之下,熵,并且更精确地说是互信息,可测量变量之间的任意关系,并且可能不依赖于对不同变量起作用的变换。熵不依赖于变量,而相反依赖于它们的分布。从而,熵可提供相依性的更一般测量。现在参考图31,其是图示根据本发明一些实施例的熵的维恩图。维恩图可提供说明熵(由H表示)的不同元素的常见方式。H(X)和H(Y)分别表示变量X和Y的每个单独圆中的信息,称为边际熵。H(X,Y)表示它们的组合信息或联合熵,其是图的整个空间。I(X:Y)是互信息,由X和Y共享。H(X|Y)和H(Y|X)表示有条件熵,诸如当给定Y时X中的信息“剩余”,并且反之亦然。从而,H(X)=H(X|Y)+I(X;Y)。换言之,X的总熵等于给定Y时X的有条件熵和X与Y之间的互信息。此外,H(X|Y)=H(X)-I(X;Y)。这可表示给定Y时X的“发散度”,并且下面论述。互信息以图为中心,并且可以以到距离、相依性、发散度和复杂性的数学链接为中心。更正式地说,相依性是一般概念,其可使用互信息形式化:。为了简洁,逐点的互信息(pmi)测量在关联矩阵中一点、一个单元的x与y之间单元计数的信息内容:。换言之,pmi是提升的对数。上升是两个属性x与y之间重合计数的概率除以每个属性单独的两个概率。例如,关于英语不知道任何事物,我们想学习\vice\和\president\的连结是否具有任何意义。我们探索,多久一次我们在文档中看到“vicepresident”相对单独找到\vice\和\president\。在组合频率提升远离独立频率的程度,\vicepresident\在一起有意义。“互信息”(其例如可以是类别中所有值上的pmi之和)对于I(X;Y)和pmi可互换使用,除非当应用于不同使用时需要清楚区分。在任一情况下,在每个点的互信息的计算可使用来自记忆库的4个计数。p(x,y)的概率使用计数x、y除以N,总数据观察的数量。类似地,p(x)和p(y)使用x和y也除以N的独立计数。另外,两个变量之间的互信息可被延伸到三个和更多变量。在这些越高的交互中经常“存活”越多信息。例如,如果并且仅仅如果I(x,y)=0遵循的P(x,by)=P(x)P(y),则二进制事件a和b是独立的,这暗示x与y无关。然而,独立性不是稳定关系:x可变成依赖于y,如果我们观察到另一事件z的话。例如,定义z碰巧依赖于x和y发生时。“异或”功能可能是一个示例。例如,观察到两个独立的随机事件(例如源生成0和1)。无论何时两个源中的仅一个源生成1,铃声就响起,我们调用事件z。铃声(Z)使源X和Y相关。因此,即便X和Y无关并且随机,但它们在Z上下文中变得相关。此上下文相依性将在下面的应用(例如在假定类为条件的有条件距离或归类的计算)中进一步描述。与对应于XOR功能的深奥交互相比较,3路交互实质上更复杂。例如,考虑通过在巨大量数据中找到规则性来检测犯罪行为的任务。人的雇用和犯罪行为的属性可能不是特别相关的属性(大多数失业的人们可能不是罪犯,而大多数罪犯可能是被雇用的)。然而,添加该人是否突然具有用现金支付的新跑车的知识使这两个属性相关。例如,很可能的是,如果失业的人卷入犯罪行为,则他会用现金购买新跑车。相反可能也是成立的,因为不太可能的是,如果失业的人未卷入犯罪行为,则他将用现金购买新跑车。然而,相依性不是绝对的,因为该人可能失业并且健康。关系仅是更有可能。这个概念通过测量所有三个属性的交集或交互信息来捕获。交互信息可表述为:,其中三个属性之间的交互信息可被理解为对所有属性都共有但在任何子集中都不存在的信息量。像互信息一样,交互信息是对称的,意味着:。三路互信息或交互信息可能在许多困难的归类和模式识别示例中都是非常有关的。例如在生物化学中,在较高维度超矩阵中可发现附加信息。本文所公开的记忆库可存储此类“三重”交互,连同对应的三重语义学。每个矩阵都可包含有条件标签,并且所有其内部统计可能对这个标签都是有条件的。用这种方式,成对互信息被扩展成三路“有条件互信息”(以及交互信息)。这允许记忆库比实现两路相关性(相依性)的系统更好地从噪声中分辨出信号。返回熵的维恩图,两个有条件熵,dxy=H(X|Y)+H(Y|X),可被看作互信息的补充,也称为变化信息。变化信息可表示事物相差多远。它是距离测量,因为它满足dxx=0,是对称的(dxy-dyx),并且满足三角不等式。如在维恩图中所图示的,dxy=H(X,Y)-I(X;Y)。换言之,距离dxy可被看作复杂性项目联合熵H(X,Y)与相似性项目互信息I(X,Y)之间的差。设想两个维恩图,一个在总联合熵熵H(X,Y)上比另一个大得多,但互信息的量是相同的。互信息是相同的,但在较大图中,X与Y之间的距离(即H(X|Y)+H(Y|X))更大。将H(X,Y)铸造为联合分布P(X,Y)的复杂性的测量,距离可被看作复杂性与相似性之间的张力。如果两个属性X和Y与类属性C(例如,C可表示信用风险:C={高,低
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1