基于符号空间的模式压缩的多层系统的制作方法

文档序号:8269374阅读:383来源:国知局
基于符号空间的模式压缩的多层系统的制作方法
【专利说明】
[0001] 相关申请的交叉引用
[0002] 本申请拥有2013年2月12日提交的美国临时申请No. 61/763,554的权益,其内 容以引用的形式并入文中。
技术领域
[0003] 本发明主要涉及模式识别和大数据,特别涉及一种利用模式识别技术和大数据存 储和分析理论的系统和方法。
【背景技术】
[0004] 人们一直努力进行模式识别并且为了存储而合理地对其进行组合,尤其是以一种 紧凑的方式。然而除非特别指定,不能认为所有的模式在数据中都是均匀分布的。因为有 些模式要比其他模式更加突出,它们发生的可能性更大,而其他模式却非常不常见。此外, 一些模式彼此相关,共同形成模式组合,这也是非常普遍的。这就为模式识别系统的应用带 来了问题。例如,为了对两个内容段的相似度测量进行检索,单单考虑对应模式的数量是不 够的,还要考虑每个模式发生的概率。此外,还要考虑模式之间的关联性。例如,如果两个 模式总是同时同现,则它们实质上仅包括单个模式的信息。
[0005] 该影响进而会不利于模式识别系统的可扩展性和精度。即,当处理模式识别系统 的跨多个机器的不同模式时,则大部分处理"不普遍"模式的机器会保持闲置,而少数处理 "普遍"模式的机器则会超负载访问。同时由于模式之间的关联性,也不可能根据它们的先 验概率进行模式处理的分布,其中模式之间的关联性无法进行假设。此外,通常扩展模式识 别系统优选应该避免模式空间的重复,并且不需要使每个机器保留一份模式的拷贝。
[0006] 在一些示例中,手动将多个符号,如模式,减少为更少的容易识别的可控符号。例 如,就像一组合成和弦的音符。和弦是两个或两个以上用来演奏的音符,或者其他听起来像 同时演奏的组合。然而,由于和弦本身具有重复性,因此为了减少提供给演奏者的音符数 量,将音符序列简化为和弦符号,用来代表多个音符。因此,标记为C7的和弦表示演奏者演 奏主音符A、第三C小调C以及纯五度E,从而它们听起来像是同时演奏的。人们可以容易 地将和弦符号译为其指代的特定符号。类似地,可以根据特定的规则,手动构建两组符号的 映射,该规则可以添加、删除或者根据需要进行修改。
[0007] 为模式识别提供一种有效的技术方案,克服现有技术的缺陷一特别是需要人工干 预识别过程的缺陷一是非常有益的。

【发明内容】

[0008] 此处公开的一些实施例公开了一种基于符号空间的模式压缩的方法。该方法包括 接收输入序列,该输入序列具有第一长度,并且包括多个符号;提取输入序列中的所有的共 同模式,其中共同模式包括至少两个符号;生成对应于所有共同模式的提取的输出序列,其 中输出序列具有第二长度,其中第二长度要短于第一长度;在存储器中存储输出序列,作为 数据层,其中输出序列作为后续生成数据层的新的输入序列。
[0009] 此处公开的一些实施例还包括基于符号空间的模式压缩的装置。该装置包括处理 单元;连接到该处理单元的接口,该接口配置为接收输入序列,该输入序列具有第一长度并 且包括多个符号;以及连接到处理单元的存储器,并配置为在存储器中存储多个指令,当处 理单元执行该指令时表现为:提取输入序列中所有的共同模式,其中共同模式包括至少两 个符号;生成与所有共同模式对应的输出序列,其中输出序列具有第二长度,第二长度要短 于第一长度;在存储器中存储输出序列,作为数据层;并且提供输出序列,作为后续生成数 据层的新的输入序列。
[0010] 此处公开的一些实施例还包括大数据存储系统。该系统包括用于存储由Cortex 函数依次生成,对应于输入序列的多个数据层的存储器单元,其中每个数据层包括在该数 据层中使用的符号集合,其中每个生成的数据层的符号空间小于任何后续生成的数据层的 符号空间,其中每一个生成的数据层都比任何后续生成的数据层更不恒定、更不具有重复 性、更相关并且更不均衡。
【附图说明】
[0011] 在说明书结束时,权利要求书会特别指出并明确声明本文公开的主题。上述和本 发明的其他对象、特征及优势可以通过下文详细描述并结合附图而明显。
[0012] 图1所示为根据一实施例的具有第一符号空间的作为用于处理的输入的初始符 号序列;
[0013] 图2所示为根据一实施例的用于映射输入序列并确定符号序列的替换符号的第 一等级表;
[0014] 图3所不为根据一实施例,由大于第一符号空间的第二符号空间构成的表不减少 数量的符号的符号序列;
[0015] 图4所示为根据一实施例的用于映射输入序列并确定符号序列的替换符号的第 -等级表;
[0016] 图5所不为根据一实施例,由大于第二符号空间的第三符号空间构成的表不减少 数量的符号的序列;
[0017] 图6所示为根据另一实施例的用于映射输入序列并确定符号序列的替换符号的 第三等级表;
[0018] 图7所示为根据一实施例,由大于第三符号空间的第四符号空间构成的表示减少 数量的符号的序列;
[0019] 图8A-8D分别表示图像符号,即线、正方形、圆以及三角形的简图,并根据一实施 例应用;
[0020] 图9A和9B为根据一实施例,由基本符号构成的更高等级的图像符号,分别为"房 子"和"椅子";
[0021] 图10A-10D分别为基本符号,即线、正方形、圆及三角形,每一个基本符号均具有 对应的连接端口;
[0022] 图11A-11C为根据一实施例,分别由基本符号构成的更高等级的图像符号,"男 人"、"女人"和"狗"。
[0023] 图12为根据一实施例,描述数据层的创建的流程图,该数据层响应输入符号的输 入序列,该输入序列用于构建基于符号空间的模式压缩;
[0024] 图13为根据一实施例,用于创建数据层的系统,该系统响应输入符号的输入序 列,该输入序列用于构建基于符号空间的模式压缩。
【具体实施方式】
[0025] 需要重要说明一点,文中公开的实施例仅是本申请创新性思想的多个有益应用的 示例。通常,本申请说明书中的陈述并不一定限制各种不同的要求保护的发明中的任一个。 此外,一些说明适用于一些发明特征,但不适于其他特征。通常,除非特别指出,单数形式的 要素也可以是复数形式的,反之亦然,均不丧失其一般性。在附图的多个视图中,相同的数 字表不相同的部分。
[0026] 此处公开的多个实施例允许将自然信号以及/或者从自然信号提取的特征映射 到具有重复性和恒定性的高维空间中的压缩形式。特别地,对于给定的输入空间,分别构建 输入数据的多个数据层(Cortex),该输入数据由更多的符号表示,即至少比紧接着的之前 序列的符号多一个符号,但是总长度要更短,即长度要小于紧接着的之前符号序列的长度。
[0027] 因此,通过符号空间可以以一种更紧凑的方式表达信息,并且更容易组织。输入数 据可以是图像、视频、文字、声音或者其他类型可以映射到多个数据层的数据。在一实施例 中,本公开技术可以描述为一种可以通过与更高数据层的"理想桌子"比较,而确定什么是 "桌子"的能力。特别地,生成模式空间,该模式空间足够大,以至于跨模式识别系统的多个 机器(或处理器),每个机器处理模式空间的不同范围。该模式空间包括一个或多个模式。
[0028] 根据一实施例,输入"模式"由设计为用于寻找内容段中的"模式"的装置(或系 统)接收。该输入模式被笼统地限定为内容段一些特征的任意表示。然而应该说明,接收 到的"模式"还涉及这些模式代表什么以及这些模式的位置的信息。在本文中,这些模式的 集合称为"描述符"。内容段可以通过一个或多个"描述符"表示。例如,如果内容段为2D 图像,则模式会表明在图像中探测到的特定形状和颜色。
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1