自动分类动物行为的制作方法

文档序号:16526911发布日期:2019-01-05 10:24阅读:458来源:国知局
自动分类动物行为的制作方法

本发明是在下列的政府支持下做出的:(1)由美国国立卫生研究院(nih)院长办公室授予的第dp20d007109号nih创新奖;以及(2)由nih国立耳聋与其它交流障碍性疾病研究所(nidcd)授予的第ro1dc011558号nih研究项目基金计划。政府享有本发明中的一些权利。

本发明涉及用于识别和分类动物行为、人类行为或其它行为度量的系统和方法。



背景技术:

下面的说明包括了可能有助于理解本发明的信息。但是,并非承认此处提供的任何信息是现有技术或与当前要求保护的发明有关,或者并非承认任何明确引用或暗示引用的出版物是现有技术。

在从药物研发到理解神经退行性疾病的生物学研究范围中,动物行为的量化是必不可少的第一步。它通常是由手工完成的;训练有素的观察者在现场或是在录像带上观察动物的行为,并记录所有的感兴趣行为的时刻。

单次实验的行为数据可能涉及数百只小鼠,这跨越数百个小时的视频,需要有一个观察者团队,由此不可避免地降低了结果的可靠性和可重复性。此外,什么构成“感兴趣行为”,这一问题基本上留给了人类观察者:虽然对于人类观察者来说为特定行为或一系列行为(即“直立(rearing)”、“嗅(sniffing)”、“侦查(sniffing)”、“行走(walking)”、“凝滞(freezing)”、“进食(eating)”等)赋予拟人化命名是琐碎的,但几乎肯定地存在着由小鼠生成的、与违反简单人类分类的小鼠有关的行为状态。

在更先进的应用中,可以通过计算机程序半自动地分析视频。然而,大脑产生的是随着时间的推移而平稳展开但却由不同的运动模式组成的行为。用于触发动作的各个感觉神经元可以在短至一毫秒内的时间内完成与行为相关的计算,并且用于调解行为的神经群体表现出以数十毫秒到数百毫秒的时间尺度演变的动态[1-8]。这种快速的神经活动与较慢的神经调节系统相互作用,以产生同时以多个时间尺度组织的行为[9]。想要最终理解神经回路如何产生复杂的行为(尤其是由自由地做出行为的动物所表达的自发或先天行为),这需要一个清晰明确的框架来表征行为是如何以与神经系统相关的时间尺度而被组织的。



技术实现要素:

虽然通过演化已经塑造了使得动物能够完成特定目标的行为(如寻找食物或配偶),但目前尚不清楚这些行为是如何随着时间(特别是以快速的时间尺度)组织起来的。然而,一种强大的用于表征行为结构的方法来自于行为学(ethology),该行为学提出:大脑通过将较简单动作的定型模块(stereotypedmodules)表达在特定序列中来建立连贯的行为[10]。例如,监督分类方法和无监督分类方法这两者都已经鉴定出了秀丽隐杆线虫(c.elegans)、黑腹果蝇(d.melanogaster)幼虫和黑腹果蝇成虫在探索过程中表达的潜在行为模块[11-16]。这些实验已经揭示了这些生物体中的行为的基础结构,该基础结构进而又揭示了无脊椎动物大脑所使用的用于使行为适应于环境变化的策略。在秀丽隐杆线虫的情况下,向嗅觉线索的导航至少部分地由神经回路调解,这些神经回路用于将连接行为模块的转移概率调整成依据时间的序列;因此,蠕虫神经系统可以通过对一核心组的行为模块重新排序来产生看似新的感观驱动行为(比如正趋化性(positivechemotaxis))[17-19]。也针对苍蝇幼虫的感官驱动行为进行了类似的观察[11]

这些对行为的基础时间序列结构的了解来自对蠕虫和苍蝇的形态变化进行量化并利用这些数据来识别行为模块的能力[11-16]。然而,要获得对哺乳动物的整体行为组织的类似了解却很困难。虽然研究人员已经将小鼠的天生探索、梳毛、社交方式、攻击行为和生殖行为划分为潜在模块,但是这种将哺乳动物行为分解成若干部分的方法取决于人类规定的对于什么才构成有意义的行为模块(例如跑步、交配、战斗)的定义[20-25],因此,这种方法在很大程度上受到人类感知和直觉的限制。特别地,人类的感知很难识别仅跨越短时间尺度的模块。

对于系统地描述动物的行为的结构并且理解大脑如何改变这种结构以实现适应,需要解决三个关键问题。首先,当试图将小鼠行为模块化时,不清楚哪些行为特征是重要的因而需要测量的。尽管大多数的当前方法跟踪诸如小鼠的位置、速度、或者上下方向或左右方向轮廓的形状等二维参数[20,22-24,26-28],但小鼠表现出复杂的三维姿势动态,这些三维姿势动态是难以捕捉的,但可能提供对行为的组织的重要了解。其次,假如行为在数个时间尺度上并行地演变,那么不清楚如何客观地识别当将行为模块化时所用的相关时空尺度。最后,对行为的有效表征需要符合这样的事实:行为既是定型的(模块化的先决条件),也是可变的(嘈杂的神经和运动系统的无法回避的特征)[29]

这种可变性就向如下算法提出了重大挑战:该算法负责识别在既定实验中被表达出来的行为模块的数量和内容,或者负责将观察到的动作的任何给定情况分配给特定的行为模块。此外,识别当组织自然行为时所用的时空尺度一直是行为学中的明确挑战,因此,迄今为止,大多数用于探索行为的基础结构的努力都一直依赖于对“什么构成了行为模块”的专门定义,并且一直专注于具体的行为而不是系统地考虑整个行为。目前尚不清楚动物表现出来的自发行为是否有可定义的、且能够被用来表征随着时间演变的动作的基础结构。

此外,现有的用于动物行为分类的计算机化系统把用于描述所观察到的行为的参数和手动注释且策划的参数数据库相匹配。因此,在手动情况和现有的半自动化情况中,对动物行为状态的主观评估都是被建立到系统中的——人类观察者必须提前判定什么才构成了特定行为。这导致对该行为的评估存在偏差,并且这使评估局限于研究人员能够以人类感知进行区分的特定行为,因此是有限的,尤其是对于在短时间尺度内发生的行为。此外,部署于这些半监督形式的行为分析中的视频采集系统(几乎总是以二维方式获取数据)仅是针对特定的行为而被优化的,由此既限制了吞吐量并且还由于对准误差而导致所浪费的实验精力增多了。

概要

尽管存在这些挑战,但本发明人已经发现了通过处理动物的视频记录来自动地识别和分类动物行为模块的系统和方法。根据本发明的原理,监测方法和系统使用了能够对动物行为进行分类的硬件和定制软件。动物行为状态的分类是通过使用深度相机在三维中定量地测量动物姿势来确定的。在一个实施例中,使用3d深度照相机来获取具有区域信息和深度信息的动物视频图像流。然后,从多个图像之中的每个图像中移除背景图像(空的试验区域),以生成具有亮区域和暗区域的处理图像。找到多个处理图像中的亮区域的轮廓,并从这些轮廓内的区域图像信息和深度图像信息中提取参数,以形成多个多维数据点,每个数据点表示动物在特定时间的姿势。然后,可以使姿势数据点形成群集,使得点群集表示动物行为。

然后,可以将这些数据馈送到无模型算法中,或者馈送到计算模型中以表征自然行为的结构。在一些实施例中,这些系统使用贝叶斯推理(bayesianinference)中的方法来拟合行为模型,该贝叶斯推理允许从给定数据集内无监督地识别行为模块的最佳数量和身份。基于3d行为数据本身的结构来定义行为模块(而不是使用关于什么应该构成可衡量的动作单位的先验定义(prioridefinitions)),由此识别出先前未探索过的、用于定义当组织行为时所用的时间尺度的亚秒级规律,产生了关于行为的组成和结构的关键信息,提供了对行为变化的本质的了解,并使得人们能够客观地发现图案化动作中的细微变化。

探索旷野的小鼠的视频的示例应用

在一个示例中,本发明人测量了小鼠在自由地探索圆形旷野时它的身体形状如何变化。本发明人利用深度传感器来捕捉小鼠的三维(3d)姿势动态,然后通过将小鼠的图像沿着其脊柱的推理轴居中且对齐,来量化小鼠的姿势如何随时间变化。

通过随着时间的推移绘制这些3d数据,揭示了小鼠行为的特征在于姿势动态缓慢地演变的时段,并通过将这些时段分离的快速转移来打断;这种模式看起来将行为成像数据分解为由少量帧组成的区块,这些少量帧通常持续200ms至900ms。这表明,小鼠行为可以在如下两个不同的时间尺度上进行组织,即:由给定区块内小鼠姿势能够变化的速率定义的第一个时间尺度,以及由区块之间的转移速率定义的第二个时间尺度。

为了表征在这些区块内的小鼠行为,并确定在区块之间行为可能是如何不同的,首先需要估计当这些区块被组织时的时间尺度。在一些实施例中,为了识别区块之间的大致边界,将行为成像数据提交给被设计用来检测数据结构随时间的突然变化的变化点算法(changepointalgorithm)。在一个示例中,该方法自动识别区块之间的潜在边界,并揭示出平均区块持续时间约为350ms。

此外,本发明人进行了自相关和频谱分析,这提供了关于行为的时间尺度的补充信息。小鼠姿势中的时间自相关很大程度上在400ms(τ=340±58ms)内消散,并且几乎所有的将行为小鼠和死亡小鼠区分开的频率成分都集中在1hz至6hz之间(通过频谱比或维纳(wiener)滤波器测量,平均值3.75±0.56hz);这些结果表明,小鼠行为的大多数动态性出现在200ms至900ms的时间尺度内。

此外,对由小鼠表现出的逐个区块模式的行为的可视检查揭示出:每个区块看起来对简短行为主题(motif)进行编码,这些简短行为主题(例如,右转或左转、飞奔(dart)、踌躇(pause)、前半身直立(rear))是以快速的转移与随后的行为主题分离开的。综上所述,这些发现揭示了以前未被重视的亚秒级组织对小鼠行为的影响——在正常的探索期间,小鼠表达出了简短运动主题,这些主题看起来连续地迅速从一者切换到另一者。

行为被自然地分解为简短运动主题的这一发现表明了这些主题中的每个主题都是行为模块,即定型的和可重新使用的行为单元,大脑将这样的行为模块放入序列中,以构建更复杂的动作模式。接下来,公开了用于识别相同的定型亚秒级行为主题的多个示例的系统和方法。

用于识别视频数据中的模块的处理算法和方法

为了识别类似的模块,可以首先使用例如(1)主成分分析和(2)神经网络(例如多层感知器multi-layerperceptron))对小鼠行为数据进行降维处理。例如,使用主成分分析(pca),可以绘制前两个主成分。姿势动态数据中的每个区块对应于通过pca空间的连续轨迹;例如,与小鼠的处于抬高状态的脊柱相关的个体区块对应于pca空间中的特定广度(sweep)。使用模板匹配方法扫描用于匹配主题的行为数据,在不同动物中识别出这种广度的数个额外示例,从而表明这些pca轨迹中的每一个轨迹都可以表示其中重新使用了定型行为模块的个体实例。

鉴于亚秒级模块性的这一证据,本发明人设计了一系列的计算模型——每个模型描述了小鼠行为的不同基础结构——在3d行为成像数据上对这些模型进行了训练,并确定了哪些模型预测或识别小鼠行为的基础结构。特别地,本发明人采用了经过优化从而自动地识别大型数据集内的结构的计算推理方法(包括贝叶斯非参数方法(bayesiannon-parametricapproach)和吉布斯采样(gibbssampling))。

每个模型的不同之处在于:其是否认为行为是连续的或模块化的;模块的可能内容;以及对模块如何随着时间而被放入序列中进行管理的转移结构。为了比较模型性能,对模型进行了测试,以预测出模型未曾露出的真实小鼠行为数据的内容和结构。在备选方案之中,假定小鼠行为由如下各个模块(每个模块捕获到3d身体运动的简短主题)组成的模型实现了最佳的定量预测:这些模块以被我们的对姿势动态数据的无模型分析识别出来的亚秒级时间尺度从一者切换到另一者。

ar-hmm模型

一个模型将每个行为模块表示为ar(vectorautoregressive,向量自回归)过程,该ar过程用于捕获通过pca空间的定型轨迹(stereotypedtrajectory)。另外,在该模型中,使用hmm(hiddenmarkovmodel,隐马尔可夫模型)来表示不同模块之间的切换动态。总之,这个模型在这里被称为“ar-hmm”。

在一些实施例中,ar-hmm基于其如下的能力对小鼠行为进行预测,该能力是:发现(在训练数据内)一组行为模块和能够提供对小鼠行为在其随着时间演变时的总体结构的最简洁解释的转移模式。因此,经过训练的ar-hmm可以被用来从行为数据集中揭示出行为模块的身份以及它们的转移结构,并由此揭露小鼠行为的基础组织。在训练之后,ar-hmm可以将训练的行为数据的每一帧分配到它已经发现的模块之一,从而揭示在给定实验期间内任何给定模块是何时被小鼠表达的。

与识别3d行为数据中的固有区块结构的ar-hmm一致地,由ar-hmm识别的模块边界遵从嵌入在姿势动态数据内的固有区块结构。此外,模型识别的模块持续时间分布类似于变化点识别的区块持续时间分布;然而,由ar-hmm识别的模块边界改进了由变化点分析提出的近似边界(78%的模块边界在变化点的5个帧内)。重要的是,ar-hmm识别行为模块的能力取决于小鼠姿势数据的固有亚秒级组织,对构成小块(即小于300毫秒)中的行为数据的帧进行混编会显著降低模型的性能,而对较大块中的行为数据进行混编则影响不大。这些结果表明,ar-hmm识别出行为数据的固有亚秒级区块结构。

另外,由ar-hmm识别的特定行为模块编码了一组不同的、重新使用的运动主题。例如,被模型分配到一个行为模块的pca轨迹追踪通过pca空间的相似路径。与编码类似的动作主题的这些轨迹中的每者一致地,通过对与该特定模块的多个数据实例相关的3d影片进行校勘和检查,证实了其编码了一种定型的将会被人类观察者称为直立的行为的主题。相比之下,从不同行为模块中绘制的数据实例追踪通过pca空间的不同路径。此外,对被分配到这些模块中的每一模块的3d影片的视觉检查表明,每个模块都编码了一种重复使用的、且连贯的三维运动模式,该三维运动模式可以用描述符(例如,“行走”、“踌躇”和“低直立(lowrear)”模块)进行区分和标记。

为了定量和全面地评估由ar-hmm识别的每个行为模块的区别,我们进行了交叉似然分析,该分析揭示了与给定模块相关的数据实例被分配到该模块,而不是解析中的任何其它行为模块。相比之下,ar-hmm未能在缺乏模块性的合成小鼠行为数据集中识别出任何良好分离的模块,这证明了所发现的真实行为数据中的模块性是数据集本身的特征,而不是模型的人工产物。此外,从随机起点重新开始模型训练过程会返回相同或高度相似的行为模块组,这与追踪并识别行为数据的固有模块化结构的ar-hmm一致。这些数据一起表明,当通过ar-hmm的镜头观察小鼠行为时,小鼠行为从根本上被组织成不同的亚秒级模块。

此外,如果ar-hmm识别出构成小鼠行为的行为模块和转移,则由经过训练的ar-hmm生成的合成行为数据可以提供真实姿势动态数据的合理副本。ar-hmm看起来捕捉到了小鼠行为的丰富性,因为合成行为数据(以脊柱动态的形式,或行为小鼠的3d影片)在质量上很难与实际动物产生的行为数据区分开来。因此,小鼠姿势动态数据具有以亚秒级时间尺度进行组织并且被ar-hmm良好地解析成定义模块的固有结构;此外,对这些模块的最佳识别以及对行为结构的有效预测需要模块性和切换动态的外显建模(overtmodeling)。

sldssvae模型

为了减少冗余维度并使建模在计算上易于处理,可以采用各种技术来将每个图像降维。降维的一种方法是主成分分析,其会将维度降低到线性空间。然而,本发明人已经发现,仅将维度降低到线性空间将不能适应与行为无关的小鼠的各种变化。这包括小鼠的大小、小鼠的品种等的变化。

因此,本发明人已经发现,通过使用某些类型的神经网络,例如多层感知器,人们可以有效地降低图像的维度。此外,这些降维图像提供了一种有效的方法来开发与小鼠或其他动物的大小无关的模型,并能够解释与行为无关的其他变化。例如,可以采用一些将维度降低到三维图像流形的神经网络。

因此,基于这些算法,本发明人开发了svae生成模型和相应的变分族(variationalfamily)算法。作为示例,本发明人重点关注基于切换线性动态系统(slds)(murphy,2012;fox等,2011)的在时间序列上的特定生成模型,其说明了svae如何能够结合具有富概率依赖性的离散隐变量(latentvariable)和连续隐变量。

本发明的系统和方法可应用于各种各样的动物种类,例如动物模型中的动物、临床试验中的人类、需要对特定疾病或失调进行诊断和/或治疗的人。非限制性地,这些动物包括小鼠、狗、猫、牛、猪、山羊、绵羊、大鼠、马、豚鼠、兔子、爬行动物、斑马鱼、鸟类、果蝇、蠕虫、两栖动物(例如青蛙)、鸡、非人灵长类动物、和人类。

本发明的系统和方法可用于多种应用,这些应用包括但不限于:药物筛选;药物分类;遗传分类;包括对疾病发作的早期检测的疾病研究;毒理学研究;副作用研究;学习和记忆过程研究;焦虑研究;以及消费者行为分析。

本发明的系统和方法对于会影响对象行为的疾病特别有用。这些疾病包括:神经退行性疾病,例如帕金森病、亨廷顿病、阿尔茨海默病和肌萎缩侧索硬化症;神经发育性精神障碍,例如注意力缺陷多动症、自闭症、唐氏综合症、门德尔森氏综合症和精神分裂症等。

在一些实施例中,本发明的系统和方法可用于研究已知的药物或测试化合物能够如何改变对象的行为状态。这可以通过比较在向对象施用已知的药物或测试化合物之前和之后所获得的行为表示来实现。在这里使用的术语“行为表示(behavioralrepresentation)”是指使用本发明的系统或方法确定的一组亚秒级行为模块以及它们的转移统计。非限制性地,行为表示可以是矩阵、表格或热图的形式。

在一些实施例中,本发明的系统和方法可用于药物分类。本发明的系统和方法可以基于现有药物和它们所治疗的疾病或失调创建多个参考行为表示,其中每个参考行为表示表示一类药物(例如,抗精神病药物、抗抑郁药、兴奋剂或抑制剂)。可以将测试行为表示与多个参考行为表示进行比较,并且如果该测试行为表示类似于多个参考行为表示中的一者,则该测试化合物就被确定属于由所述特定的参考行为表示代表的相同类别药物。非限制性地,测试化合物可以是小分子、抗体或其抗原结合片段、核酸、多肽、肽、拟肽、多糖、单糖、类脂、糖胺聚糖或它们的组合。

在一些实施例中,这可以包括如下的系统:该系统用于将动物的行为自动地分类为属于相对于替代物列表的一类药物。例如,为了开发该系统,我们可以在许多不同的药物条件下提供一个训练组的多个小鼠,并构建线性或非线性分类器,以发现哪些特征的组合和范围构成了特定药物类的成员资格。一旦训练完成,这个分类器就会被立即固定,从而允许我们可以将它应用到先前未见过的小鼠。潜在的分类器算法可以包括逻辑回归(logisticregression)、具有线性基础核(linearbasiskernel)的支持向量机、具有径向基函数核的支持向量机、多层感知机、随机森林分类器或k型最近邻分类器。

类似于药物分类,在一些实施例中,本发明的系统和方法可以用于基因功能分类。

在药物筛选的某些实施例中,可以将已知的用于治疗特定疾病或失调的现有药物施用到第一测试对象。然后,可以将本发明的系统和方法用于第一测试对象以获得参考行为表示,参考行为表示包括能够表征药物对第一测试对象的治疗效果的一组行为模块。随后,可以将测试化合物施用到与第一测试对象相同的动物类型的第二测试对象。然后,可以将本发明的系统和方法用于第二测试对象以获得测试行为表示。如果测试行为表示与参考行为表示相似,则测试化合物被确定为在治疗特定疾病或失调方面是有效的。如果测试行为表示与参考行为表示不相似,则测试化合物被确定为在治疗特定疾病或失调方面是无效的。应该注意,第一和第二测试对象可以各自是一组测试对象,并且所获得的行为表示可以是平均行为表示。

类似于药物筛选,在一些实施例中,本发明的系统和方法可用于基因治疗筛选。基因治疗可以包括核酸转运和基因敲除。

在一些实施例中,本发明的系统和方法可用于疾病或失调的研究。例如,本发明的系统和方法可用于发现具有特定疾病或失调的对象的新行为模块。例如,本发明的系统和方法可以通过识别患有疾病或失调的人或正处于疾病或失调过程中的对象的参考行为表现来早期诊断疾病或失调。如果在疑似患有该疾病或失调的对象中也观察到参考行为表示或其显著部分,则该对象被诊断为患有该疾病或失调。因此,可以对对象进行早期临床干预。

此外,在一些实施例中,本发明的系统和方法可用于研究消费者行为,例如消费者如何响应香味(例如香水)。本发明的系统和方法可以用于识别代表着对香味有积极反应的参考行为表示。在存在香味的情况下,表现出参考行为表示或其显著部分的人被确定为对香味有积极反应。代表着对香味有消极反应的参考行为表示也可以被识别并用来衡量一个人的反应。

附图说明

并入说明书中并构成说明书的一部分的附图举例说明了本发明的实施例,并与说明书一起用于解释和说明本发明的原理。这些附图旨在以示意的方式说明示例性实施例的主要特征。这些附图并非旨在示出实际实施例的每一个特征或所示出元件的相对尺寸,而且不是按比例绘制的。

图1描绘了根据本发明的各种实施例的被设计成用于拍摄动物的视频数据的系统的图。

图2a描绘了根据本发明的各种实施例的用于示出对视频数据执行的处理步骤的流程图。

图2b描绘了根据本发明的各种实施例的用于示出对视频数据执行的处理步骤的流程图。

图3描绘了根据本发明的各种实施例的用于示出对从处理步骤输出的视频数据执行的分析的流程图。

图4描绘了根据本发明的各种实施例的用于示出ar-hmm算法的实施的流程图。

图5a描绘了根据本发明的各种实施例的用于示出相对于模块组绘制的、按照使用率(x轴)分选的、由每个模块解释的帧的比例(y轴)的图表。

图5b绘制了根据本发明的各种实施例的用于示出按照使用率(y轴)分选的、其中表示有贝叶斯可信区间的模块(x轴)的图表。

图6a-6e描绘了根据本发明的各种实施例的物理环境对模块使用率和空间表达模式的影响。图6a:由ar-hmm识别的并按照使用率分选的模块(n=25只小鼠,总共500分钟,来自圆形旷野的数据)。图6b:观察到的二元模型概率的辛顿(hinton)图,其描绘了任何一对模块被作为有序对而被观察到的概率。图6c:按照情景分选的模块使用率。深色线表示动物的平均使用率,浅色线表示自举(bootstrap)估计(n=100)。在正文中讨论并图6d中示出的标记模块:方形=圆形趋触性(thigmotaxis),圆形=玫瑰花形饰,菱形=方形趋触性,十字形=方形飞奔。图6d:小鼠在圆形旷野(左侧,n=25,总共500分钟)中的占据图表表示所有试验中的平均空间位置。占据图表描绘了圆形趋触性模块(中间,实验中的被表示为箭头区域的平均定向)和圆形富集的玫瑰花结模块(右边,由箭头表示的各个动物的定向)的部署。图6e:方框中的小鼠的占据(occupancy)图表(左边,n=15,总共300分钟)表示所有实验中的累积空间位置。占据图表描绘了方形富集的趋触性模块(中间,实验中的被表示为箭头区域的平均定向)和方形飞奔模块(右边,由箭头表示的各个动物的定向)。

图7描绘了根据本发明的各种实施例的示出与数据集中的所有其它模块相比、在tmt暴露“凝滞(freezing)”之后被差异化地上调并且互连的模块的平均速度的直方图。

图8a-8e描绘了根据本发明的各种实施例的气味避免如何改变转移概率。图8a:在对照条件下(n=24,总共480分钟)并在左下象限(箭头)中暴露于单分子狐狸衍生气味剂三甲基噻唑啉(tmt,载体dpg中5%稀释,n=15,总共300分钟)的占据图。图8b:按“tmt性”分选的模块使用率图。深色线描绘了平均使用率,浅色线描绘了自助估计。在本说明书和图8e中讨论的标记模块:方形=在tmt象限中的嗅探,圆形=远离tmt的凝滞。图8c的左边和中间:小鼠在控制条件下(空白)和tmt暴露转换探索方盒的行为状态图,其中,模块被描绘为节点(与每个节点的直径成比例的使用率),并且二元模型转移概率被描绘为有向边缘。二维布局旨在使所有连接的节点之间的总体距离最小化,并且通过频谱聚类进行播种以强调邻域结构。图8c:状态图描绘了空白与tmt之间的区别。使用率差异通过重新定尺寸的彩色圆圈表示(蓝色表示上调,红色表示下调,黑色表示空白使用率)。改变的二元模型概率用相同的彩色代码表示。图8d:关于tmt角落(x轴)绘制的模块表达和空间位置的联合概率的山脉图;注意,图表的三分之二处的“凹凸”由于两个角落与气味源等距而出现。图8e:占据图表示tmt暴露后的小鼠在发出侦查嗅探模块(左)或踌躇模块时所处的空间位置。

图9a-9c绘制了根据本发明的各种实施例的ar-hmm如何区分野生型的、杂合的和纯合的小鼠。图9a:小鼠表现出的模块的按照“突变体-性质”分选的使用率图(n=6+/+,n=4+/-,n=5-/-,旷野测定,20分钟试验)。黑线描绘了动物中的平均使用率,模糊线描绘了自助估计值。图9b:+/+动物的基线ofa行为的如在图4c中的状态图描述;+/+和+/-基因型(中间)之间以及+/+和-/-基因型(右)之间的如在图4c中的差异状态图。图9c:“蹒跚”模块的图示,其中,动物的后肢抬高到肩胛带以上,并且动物以摇晃的步态向前移动。

图10a-10b绘制了根据本发明的各种实施例的运动皮层的光激发扰动如何产生新的形态和生理模块。图10a:山脉曲线描绘了每个行为模块(每个行为模块在y轴上被分配了唯一的颜色)的作为时间(x轴)的函数的表达概率,其中,在零时间点开始两秒的光刺激(每条曲线图为50次试验的平均)。注意,由于试验结构(其中,小鼠依次暴露于增加的光照水平)的原因,在跨越条件的光起始之前捕获基线行为模式的适度变化。星形表示在中等功率(11mw)而不是高功率(32mw)时也被上调的基线条件期间表达的两个模块;十字表示在光终止时被上调踌躇模块。图10b:在最高刺激条件下诱导的两个模块的示例小鼠的平均位置(箭头表示随时间的定向)。注意,这些曲线是从一只动物中取得的,并代表完整的数据集(n=4);由于病毒表达的变异性的原因,引起行为变化所需的阈值功率因动物而异,但都表达了图10a中确定的自旋行为。

图11a-11c绘制了根据本发明的各种实施例的深度成像如何揭示小鼠姿势动态数据中的区块结构。图11a绘制了使用标准rgb相机(左)和3d深度相机(右,小鼠高度是彩色绘图的,mm=高于地面的mm)在圆形旷野对小鼠进行成像而拍摄的小鼠三维姿势。图11b描绘了表示动物脊柱推理轴的箭头;所有的小鼠图像都沿着该轴居中并对齐,以使在自由行为期间定量测量随时间变化的姿势动态。姿势数据的可视化揭示了3d姿势动态中的固有区块结构。通过随机投射技术对预处理和脊柱对齐数据进行压缩,随着时间的变化,姿势数据呈现零星的急剧转移。在原始数据和动物脊柱的高度上观察到相似的数据结构(上图,任何给定位置处的脊柱高度都是彩色的,mm=高于地面的mm)。当动物正在直立时(当它在数据流的开始处),其相对于相机的横截面轮廓变小;当动物四肢着地时,它的轮廓就变大了。图11c示出了识别这些区块之间的潜在边界的变化点分析(在行为数据的底部处的踪迹中指示的变化点的归一化概率)。通过绘制由变化点分析确定的每个区块的持续时间,表明了区块持续时间分布(n=25,500分钟成像,平均值=358ms,sd495ms)。以黑色绘制平均区块持续时间,其中,以灰色绘制与每个单独的小鼠有关的持续时间分布。图11c,中间和右边。自相关分析显示,小鼠姿势的去相关速率在大约400ms后减慢(左边,以深蓝色绘制平均值,以浅蓝色绘制单独小鼠的去相关,τ=340±58ms)。通过绘制行为小鼠与死亡小鼠之间的光谱功率比率(右边,以黑色绘制平均值,以灰色绘制单独小鼠)显示大多数行为频率组成表示在1和6hz之间(平均值=3.75±0.56hz)。

图12a-12d绘制了根据本发明的各种实施例的小鼠的姿势动态数据如何包含重新使用的行为模块。图12a描绘了小鼠的姿势数据投射在主成分(pc:principalcomponents)空间(底部)中的透射如何揭示在姿势数据中识别的个体区块编码重新使用的轨迹。在对小鼠姿势数据进行主成分分析后,将每个时间点处的前两个pc的值绘制成二维图表(点密度被彩色绘制)。通过追踪与被变化点分析突出显示的区块相关的路径(顶部),识别出pc空间中的轨迹(白色)。通过使用模板匹配程序搜索姿势数据,识别出该区块的编码pc空间中的类似轨迹(从蓝色到红色的变化来指示时间的变化)的其它示例,从而表明模板区块代表了重新使用的运动主题。图12b描绘了通过使用ar-hmm对小鼠姿态数据进行建模来识别个体行为模块。ar-hmm将行为数据解析为一组有限的可识别模块(顶部–标记“标记”,每个模块都有唯一的颜色编码)。与单个行为模块相关的多个数据实例均具有通过pca空间的定型轨迹(左下,绿色轨迹);多个轨迹定义了行为序列(底部中心)。通过描述小鼠的侧视图(从深度数据推理,右下),揭示了行为序列中的每个轨迹编码不同的元素动作(从模块开始到结束,以越来越黑的线表示模块内的时间)。图12c描绘了与步行、踌躇和低直立模块相关的三维成像数据的等距视图图示。图12d描绘了交叉似然性分析,其描绘了被分配到特定模块的数据实例将被另一模块有效建模的概率。计算旷野数据集的交叉似然性,并且被分配到特定模块的任何给定数据实例将被不同的模块准确地建模的似然性被热绘图(单位是nats,其中,enats是似然比);注意,高的似然性对角线和所有非对角线比较相关的低的似然性。通过在对具有匹配真实老鼠数据但缺少模块性的自相关结构的合成数据进行训练的模型上绘制相同的度量标准,揭示了ar-hmm在训练数据中缺少基础模块性时无法识别模块。

图13a-13b绘制了根据本发明的各种实施例的小鼠深度成像数据中的区块和自相关结构。图13a绘制了区块结构存在于随机投射数据、脊柱数据和从对齐的小鼠姿势动态导出的原始像素数据中。图13b示出了活的小鼠在成像数据中表现出明显的区块结构(左盘区),而死亡小鼠则没有表现出(右盘区)。压缩不会显著影响自相关结构小鼠的姿势动态数据。原始像素、pca数据和表示相同深度数据集(左图)的随机投射都以大致相同的速率解相关,这表明数据压缩不会影响成像数据中的精细时间尺度的相关结构。如果小鼠的姿势进化成莱维(levy)飞行(中间盘区)或者随机行走(右盘区),则没有观察到这种相关结构,这表明活的小鼠表达出与切换动态相关的特定亚秒级自相关结构。

图14绘制了根据本发明的各种实施例的在使用主成分分析剔除维度之后解释的方差。用于对所解释的方差(y轴)与所包括的pca维度的数量(x轴)进行比较的曲线表明88%的方差被前10个主成分捕获;这个维度数量被ar-hmm用于数据分析。

图15绘制了根据本发明的各种实施例的小鼠行为的比较性建模。构建了一系列计算行为模型,其中每个模型例示了关于行为基础结构的不同假设,并且这些模型均接受了在小鼠行为数据(从对齐深度数据中提取的前10个主成分的形式)进行训练。这些模型包括高斯(gaussian)模型(其提出小鼠行为是姿势空间中的单高斯模型)、gmm(高斯混合模型,其提出小鼠行为是姿势空间中的高斯混合模型)、gaussianhmm(高斯隐马尔可夫模型,其提出由模型创建的行为,每个行为在姿势空间中都是高斯模型,在时间上与可定义的转移统计相互关联)、gmmhmm(高斯混合模型隐马尔可夫模型,其提出由模型创建的行为,每个行为在姿势空间中都是混合高斯模型,在时间上与可定义的转移统计数据相关联),ar模型(其提出小鼠行为是姿势空间中的单个的、连续的自回归轨迹)、armm(其提出小鼠行为是从模块构建的,其中每个模块编码姿势空间中的自回归轨迹,并且随机地从一者转移到另一者)、以及arshmm(其提出小鼠行为是从模块构建的,其中每个模块编码姿势空间中的自回归轨迹,并且以可定义的转移统计从一者转移到另一者)。在y轴上(以似然单位度量,并且按照高斯模型的性能进行归一化)示出这些模型在预测尚未暴露这些模型的小鼠行为数据结构方面的性能,并且在x轴示出每个模型在逐帧的基础上预测行为的能力(上部)。在不同的时间点对这幅图进行了三片分割,证明了最佳的arhmm在数据固有的切换动态发挥作用的时间尺度上优于替代模型(例如,超过10帧后,误差棒是sem)。

图16绘制了根据本发明的各种实施例的在性质上相似的区块和模块的持续时间分布。相对于区块持续时间(x轴)绘制的给定持续时间(y轴)的区块/模块的百分比表明变化点算法识别的区块和模型识别的行为模块的持续时间分布大致相似。尽管这些分布不相同,但是这些分布预计是相似的,因为变化点算法识别数据结构中的局部变化,而模型基于其内容和其转移统计识别模块;注意,该模型没有直接访问由变化点算法所使用的“局部断裂”度量。

图17绘制了根据本发明的各种实施例的如何以降低ar-hmm性能的快速时间尺度混排(shuffling)行为数据。

图18绘制了根据本发明的各种实施例的模型生成的小鼠行为的可视化,每个模型都在行为数据上进行训练(左),并接着允许生成小鼠行为的“理想”版本(右);在这里,这里的输出为按照动物脊柱形状的随时间的可视化。由每个模型识别的单个模块在每个模型下面用颜色代码表示(标记的“标记”)。

图19绘制了根据本发明的各种实施例的模块互连是如何稀疏的。不进行阈值处理的情况下,平均模块以16.85±0.95与其它模块相互连接;这种适度的互连性即使进行适度的阈值处理(x轴,应用于二元概率的阈值处理)也会大幅度降低,这与个体行为模块之间的稀疏时间互连一致。

图20绘制了根据本发明的各种实施例的确定滤波参数。为了过滤来自kinect的数据,我们使用迭代中值滤波方法,其中,我们在空间和时间上迭代地应用中值滤波器;这种方法已被证明可以有效地保持数据结构,同时消除噪音。为了识别出最佳的滤波器设置,我们拍摄了差异化地摆出死后僵直姿势的死亡小鼠;理想的滤波器设置将能区分姿势不同的小鼠,但是无法区分来自同一小鼠的数据。滤波器设置被表示为((像素)、(帧)),其中每个括号内的数字指的是每轮滤波的迭代设置。为了评估滤波器性能,我们计算了姿势相关比(y轴)之内/之间的差异,其中,相同姿势的所有帧的平均空间相关性除以不同姿势的所有帧的平均空间相关性。这揭示了光滤波(利用设置((3)、(3,5)))优化了数据中的可区分性。

图21绘制了根据本发明的各种实施例的识别变化点算法参数。通过针对变化点比率(在活体小鼠相对于死亡小鼠中识别的变化点的数量,y轴)进行优化,通过网格扫描来识别sigma(σ)和h的明确最佳值(左侧两个盘区)。该变化点比率对k高度不敏感;因此选择了48的设置(在观察到的最大值处)。

图22绘制了根据本发明的各种实施例的ar-hmm的图形模型。对于时间指数t=1,2,…,t,标记y_t的阴影节点表示预处理的3d数据序列。每个这样的数据节点y_t具有对应的状态节点x_t,该状态节点将该数据帧分配到行为模式。其它节点表示用于管理模式之间的转移的参数(即,转移矩阵π)和每种模式的自回归动态参数(即,参数组θ)。

图23绘制了根据本发明的各种实施例的使用神经网络形成图像流形的降维的图像描述。

图24绘制了根据本发明的各种实施例的结构化变分自动编码器的图像表示。

图25绘制了根据本发明的各种实施例的结构化变分自动编码器(structuredvariationautoencoder)的应用。图4是使用小鼠的视频数据进行生成完成的示例。图5是1d弹跳数据的过滤和生成的图像示例。图6是自然梯度更新(底部趋势线)和标准梯度更新(上面)的点问题的比较。图7是小鼠图像流形坐标中的2d网格。

在附图中,为了便于理解和方便,相同的附图标记和任何首字母缩略词标识具有相同或相似结构或功能的元件或操作。为了便于识别任何特定元件或操作的讨论,参考数字中最重要的一个或多个数字指的是首先引入该元件的图形编号。

具体实施方式

在一些实施例中,用于描述和要求保护本发明的某些实施例的诸如尺寸、形状、相对位置等特性应被理解为由术语“约”修饰。

现在将描述本发明的各种示例。下面的描述提供了具体细节,以用于彻底理解这些示例并能够说明这些示例。然而,相关领域的技术人员将理解,可以在没有这些细节中的许多细节的情况下实施本发明。同样,相关领域的技术人员还将理解,本发明可以包括在此没有详细说明的许多其它明显特征。另外,下面将不再详细地示出或说明一些公知的结构或功能,以避免不必要地模糊相关描述。

下面使用的术语应以其最广泛、合理的方式加以解释,即使它与本发明某些特定示例的详细说明一起使用。实际上,某些术语甚至可以在下文加以强调;然而,任何旨在以任何限制的方式解释的术语都将在本详细说明部分中公开和明确地定义。

虽然本说明书包含许多特定的实施细节,但这些细节不应被解释为对任何发明或可能要求保护的内容的范围的限制,而应被理解为对特定发明的特定实施的特性的说明。本说明书中在单独实施的背景下说明的某些特征也可以在单个实施中组合地实施。相反,在单个实施的背景下说明的各种特征也可以在多个实施中单独地实施或者在任何合适的子组合中实施。此外,尽管特征可以被说明为在某些组合中起作用并且甚至如最初所要求保护的那样,但在某些情况下,来自所要求保护的组合的一个或多个特征可以从该组合中删除,并且所要求保护的组合可以涉及子组合或子组合的变体。

类似地,虽然在附图中可以以特定顺序描述操作,但不应被理解为要求以所示的特定顺序或按顺序执行这些操作,或者执行所有示出的操作,以实现期望的结果。在某些情况下,多任务处理和并行处理可能是有利的。此外,上述实施中的各种系统组件的分离不应被理解为在所有实现中都需要这种分离,而且应该理解,所描述的程序组件和系统通常可以一起集成在软件产品中,或者打包成多个软件产品。

概述

本发明人通过处理动物的视频数据发现了用于自动地并客观地识别和分类动物的行为模块(behaviormodule)的系统和方法。这些系统可通过利用深度相机对三维的动物姿势或姿势轨迹进行定量测量、处理和分析来分类动物行为状态。这些系统和方法避免了需要对构成可测量动作单位的内容进行先验定义,从而使行为状态的分类变得客观且是无人监督的。

在一个方面,本发明涉及一种用于分析对象的运动以将其分成亚秒级模块的方法,该方法包括:(i)使用计算模型来处理表示对象运动的三维视频数据,以将视频数据划分为至少一组亚秒级模块和所述至少一组亚秒级模块之间的转移时段;以及(ii)将所述至少一组亚秒级模块分配到表示动物行为类型的类别。

图1示出了可被系统利用的用于将视频帧或帧集合自动地分类成行为模块的过程的实施例。例如,系统可以包括摄像机100和跟踪系统110。在一些实施例中,摄像机100可以是3d深度相机,并且跟踪系统110可以将结构化红外光投射到试验场10中。跟踪系统上的红外接收器能够基于视差来确定目标的位置。在一些实施例中,摄像机100可以连接到跟踪系统110,或者在一些实施例中,它们可以是独立的组件。

摄像机100可以将与来自跟踪系统110的视频图像和/或跟踪数据有关的数据输出到计算设备113。在一些实施例中,计算设备113在通过网络120发送数据以使数据由服务器130分析并保存在数据库160中之前在本地执行数据的预处理。在其它实施例中,可以在计算设备113上本地地处理和拟合数据。

在一个实施例中,3d深度相机100用于获得动物50的具有区域信息和深度信息的视频图像流。然后,从多个图像中的每个图像去除背景图像(空白实验区域),以生成具有亮区域和暗区域的处理图像。可以获得多个处理图像中的亮区域的轮廓,并然后可以从轮廓内的区域图像信息和深度图像信息提取参数,以形成多个多维数据点,其中每个数据点表示动物在特定时间的姿势。然后,可以使姿势数据点形成群集,使得点群集代表动物行为。

然后,可以将经预处理的深度相机视频数据输入到各种模型中,以便将视频数据分类为亚秒级“模块”和转移时段,亚秒级“模块”和转移时段描述了(被组合在一起以形成可被人眼观察的连贯行为的)重复的行为单位。将视频数据分类成模块的模型的输出可以输出数个关键参数,这些参数包括:(1)在给定的实验数据集合中观察到的行为模块的数量(即,状态的数量)、(2)用于描述由与任何给定的模块相关的小鼠表达的运动模式(patternofmotion)的参数(即,状态特定自回归动态参数)、(3)用于描述任何特定模块转移到任何其它模块的频繁程度的参数(即,状态转移矩阵)、以及(4)每个视频帧的该帧至行为模块(即,与每个数据序列相关的状态序列)的分配。在一些实施例中,这些隐变量通过生成概率过程来定义,并且使用了贝叶斯推理算法(bayesianinferencealgorithm)同时地估算。

相机设置和初始化

可以利用各种方法来记录和追踪动物50(例如,小鼠)的视频图像。在一些实施例中,记录的视频可以在三个维度上记录。各种装置可用于该功能,例如,在此公开的实验利用了微软公司(microsoft)的windowskinect。在其它实施例中,可以使用以下的额外装置:(1)立体视觉相机(其可以包括被校准以产生深度图像的两个或更多个二维相机组)、(2)飞行时间深度相机(例如,camcube、primesense、microsoftkinect2)、结构化照明深度相机(例如,microsoftkinect1)以及x射线视频。

摄像机100和跟踪系统110可以将结构化红外光投射到成像场10上,并且在视差上计算成像场10中的对象的三维位置。微软的windowskinect具有0.5米的最小工作距离(在近景模式中);通过对成像场内的丢失深度像素(missingdepthpixel)的数量进行量化,可以确定最佳传感器位置。例如,本发明人已经发现,根据环境光条件和测定材料,kinect的最佳传感器位置为距试验场的0.6和0.75m之间的位置。

数据采集

从摄像机100和跟踪系统110输出的数据可以被计算设备113接收和处理,计算设备113处理深度帧并将其保存为合适格式(例如,二进制或其它格式)。在一些实施例中,来自摄像机100和跟踪系统110的数据可以通过网络120被直接输出到服务器130,或者可以通过usb或其它连接暂时缓冲和/或发送到相关的计算设备113,计算设备113在通过网络120发送到集中服务器130以进行进一步处理之前临时存储数据。在其它实施例中,数据可由相关的计算机113处理而不通过网络120发送。

例如,在一些实施例中,从kinect输出的数据可以通过usb端口发送到计算机,该usb端口利用自定义matlab或其它软件经由官方microsoft.netapi来连接kinect,microsoft.netapi以每秒30帧的速率检索深度帧,并将它们以原始二进制格式(16位的带符号整数)保存到外部硬盘驱动器或其它存储设备。因为usb3.0具有足够的带宽,以允许去往外部硬盘驱动器或具有存储器的计算设备的实时数据流。然而,在一些实施例中,网络可能没有足够的带宽,以允许实时远程数据流。

数据预处理

在一些实施例中,在将视频数据的原始图像保存和/或存储在数据库或其它存储器中之后,可以进行各种预处理以分离视频数据中的动物,并且沿着共同轴来定向动物的图像,以便进一步处理。在一些实施例中,可以利用头部的定向将图像定向在共同方向上。在其它实施例中,可以包含脊柱的推理方向。

例如,对被成像的小鼠的姿势随时间的演变的跟踪需要:在给定视频序列内识别小鼠;从背景中分割出小鼠(在这种情况下,小鼠正在探索的设备);沿着小鼠的脊柱的轴线定向小鼠的分离图像;针对透视失真,校正图像;并然后压缩图像以便通过模型进行处理。

分离动物的视频数据

图2a示出了系统可执行的用于分离感兴趣区域并扣除背景图像以分离动物50的视频数据的过程。首先,为了分离小鼠正作出举止动作的试验场所,系统可以首先识别感兴趣区域(region-of-interest,roi)210,以便进一步分析。在其它实施例中,感兴趣区域210可以包括记录的视频数据的整个视场10。为了分离区域,可以沿着任意的成像场所的外边缘手动地追踪;roi210外部的像素可以被设定为零,以防止虚假目标检测。在其它实施例中,系统可以使用各种方法自动地定义roi210。在一些实施例中,系统可以利用迭代中值滤波器对原始成像数据进行滤波,这非常适合于例如在kinect中去除来自传感器的相关噪声。

在选择感兴趣区域210之后,可以将原始图像裁剪成感兴趣区域215。然后,可以输入丢失像素值225,之后,可以针对每个像素,计算x、y和z位置230,并且可以对像素位置进行重新采样。因此,图像可以重新采样到现实坐标上。然后。系统计算中值现实坐标背景图像240,并且可以从现实坐标图像中扣除中值现实坐标背景图像245。

为了从视频数据中扣除场所的背景图像,可以执行各种技术,这些技术例如包括:扣除视频数据的设定时间段(例如,30秒)的一部分的中值。例如,在一些实施例中,可以从所有视频帧中扣除任何成像流中的前30秒的数据,并且可以将任何小于零的伪值重置为零。

为了进一步确保分析聚焦于动物,系统可以对图像进行二值化(或者使用阈值执行类似的处理),并且消除任何的不会在形态学开运算(morphologicalopening)的一定次数的迭代中存留的目标。因此,一旦完成,系统就可以执行图2b所示的额外处理。因此,可以对背景扣除图像(小鼠视频数据)250进行滤波,并且可去除伪影255。在一些实施例中,这可能涉及迭代中值滤波。

然后,图像数据中的动物可以通过将其定义为场所中的在扣除和掩蔽(masking)处理中存留的最大目标或者通过点检测(blobdetection)来进行识别260。然后,可以提取小鼠的图像265。

识别动物的定向

然后,动物(例如,小鼠)的形心可以被识别为预处理图像的质心或通过其它合适的方法来减小识别270;然后,可以将椭圆拟合到其轮廓285,以检测其整体定向。为了正确地定向小鼠280,可以在一组手动定向的提取的小鼠图像上训练各种机器学习算法(例如,随机森林分类器)。在图像的情况下,定向算法接着返回用于指示小鼠头部是否正确地定向的输出。

一旦识别出位置,可以从视频数据中提取附加信息275,该附加信息包括:动物的形心位置、头部位置和尾部位置、定向、长度、宽度、高度以及它们相对于时间的一阶导数。动物姿势动态的表征需要校正x和y轴上的透视失真(perspectivedistortion)。这种失真可以通过以下方法进行校正:首先在现实坐标中产生每个像素的(x,y,z)坐标数组,然后,重新采样这些坐标以使用德劳内三角化(delaunaytriangulation)使它们落在(x,y)平面中的均匀网格上。

向基于模型的算法或无模型算法的输出

如图3所示,在一些实施例中,定向校正图像的输出将成为主成分分析(principlecomponentanalysis,pca)时间系列310或其它用于减少数据点的统计方法。在一些实施例中,通过模型拟合算法315(例如,本文公开的ar-hmm算法或sldssvae算法)来运行数据,或者可以如所公开的通过无模型算法320来运行数据,以便识别包含在视频数据内的行为模块300。此外,在一些实施例中,不执行pca时间序列。在一些实施例中,将利用多层感知器来降低维度。

在具有无模型算法320的实施例中,在分离具有类似定向轮廓和轨迹的亚秒级行为模块的目标下,可利用算法的各种组合。这里公开了这些算法的一些示例,然而,可以设想将数据分割成行为模块的额外算法。

图像的降维

在一些实施例中,两者包括无模型算法320或模型拟合315算法,在每个像素中捕获的信息通常是高度相关的(相邻像素)或无信息的(图像的边界上的从不代表小鼠身体的像素)。为了既减少冗余维度又使建模在计算方面变得容易处理,可以采用各种技术在维度上减少每个图像。例如,可以执行5级小波分解,从而将图像转换成使每个维度在单个空间尺度上捕获并汇集信息的表示;在该转换中,某些维度可能会在几毫米的尺度上针对精细边缘进行明确编码,而其它的维度在厘米的空间尺度上编码广泛的变化。

然而,这种小波分解将扩大图像的维度。为了减小这种维度,可以应用各种技术。

在一些实施例中,可以利用随机投射(randomprojections)技术来减少数据的维度。随机投射是一种通过如下方式产生从具有维度d_orig的原始信号获得的新维度的方法:对每个原始维度进行随机加权,并接着根据该加权对每个维度进行求和,从而每个数据点生成单个数字。这个过程可以利用新的随机加权而重复多次,以产生一组“随机投射”维度。约翰逊-林登施特劳斯(johnson–lindenstrauss)引理表明,具有维度d_orig的原始数据集中的点之间的距离保留在随机投射维度d_proj中,其中,d_proj<d_orig。

在其他实施例中,可以将主成分分析应用于这些矢量,以便将小波系数投影到十维中,本发明人仍然发现捕获>总方差的95%。例如,可以使用25只6周龄的c57bl/6小鼠,每只记录20分钟的规范数据集构建主成分,并且将所有数据集都透射到该共同姿势空间中。因此,然后可以将pca的输出输入到建模算法中以进行模型识别。

然而,pca会将维度降低到线性空间。本发明人已经发现,将维度降低到线性空间将不适应与行为无关的小鼠中的各种变化。这包括小鼠大小、小鼠品种等的变化。

因此,本发明人已经发现,使用某些类型的神经网络,例如多层感知器,人们在保持更强的鲁棒表达的同时能够有效地降低图像的维度。例如,如本文所公开的,本发明人提出了一种用于降低维度的结构化变分自动编码器。此外,这些降维图像提供了一种有效的方法来开发与小鼠或其他动物的大小无关的模型,并能够解释与行为无关的其他变化。例如,可以使用一些将维度降低到十维图像流形的神经网络。

无模型算法:识别行为模块长度

在具有无模型算法320的一些实施例中,为了评估动物行为自相似的时间尺度(其反映了动物从一种运动模式转移到另一种运动模式的速率),可以进行自相关分析。因为需要某一数据平滑化来消除传感器特有噪声,因此在将自相关图(auto-correlogram)计算为信号的时滞版本之间的统计相关性时,将导致下降的自相关图,即使对于死后僵直的动物(例如,小鼠)也是如此。因此,可以利用小鼠姿势数据的所有10个维度之间的相关距离作为所讨论的时间序列信号的时滞版本之间的比较器,从而针对死亡动物导致值为~1.0的平坦自相关函数,且针对行为动物(例如,小鼠)导致下降的自相关函数。行为小鼠的这种自相关图下降的速率是行为的基本时间尺度的度量,其可以被表征为指数衰减曲线的时间常数τ。τ可以使用莱文博格-马夸特(levenberg-marquardt)算法(非线性最小二乘法)利用scipy优化包进行拟合。

在一些实施例中,可以对小鼠行为数据执行功率谱密度(psd)分析,以进一步分析其时域结构。例如,可以使用维纳(wiener)滤波器来识别在从死亡小鼠提取的信号中必须提高的时间频率,以最佳地匹配行为小鼠。这可以简单地通过采用行为小鼠的psd与死亡小鼠的psd的比率来实现。在一些实施例中,可以使用韦尔奇(welch)周期图方法来计算psd,该方法采用整个信号中的滑动窗口的平均psd。

无模型算法:定位转移时段的变化点

在没有使用模型来识别模块320的一些实施例中,可以使用各种方法来确定转移时段的变化点。通过绘制小鼠深度图像随时间的随机投射,产生了明显的条纹,每个条纹就是随时间的潜在变化点。为了自动识别这些变化点(这些变化点表示随机投射数据中的明显的区块结构之间的潜在边界),可以使用被称为滤波导数算法(filteredderivativealgorithm)的简单变化点识别技术。例如,可以使用用于计算具有k=4帧的滞后的每帧归一化随机投射的导数的算法。对于每个时间点,针对每个维度,算法可以确定信号是否已经跨过某个阈值h=0.15mm。然后,二进制变化点指示符信号可以在每个d=300的随机投射维度中求和,并接着可以使用具有sigma=0.43帧的核心标准偏差的高斯滤波器(gaussianfilter)对所得到的1d信号进行平滑化。然后,可以将变化点识别为该平滑后的1d时间序列的局部最大值。该过程部分地取决于参数k、h和sigma(σ)的具体值;例如,可以利用那些在使行为小鼠中的变化点的数量最大化同时在死亡小鼠中不产生变化点的值。

无模型算法:识别相似的或重复的模块

在一些实施例中,在不使用模型320的情况下分析数据的情况下,可以使用某些算法来识别相似和重复模块。因此,一组重复模块可以被识别为动物行为的词汇或音节。因此,为了确定是否有任何相当长的行为片段(仅大于几个帧)曾经“重复”过(不依赖行为的基本模型),系统可以使用模板匹配过程来识别pca或mlp流形空间中的相似轨迹。例如,为了识别相似轨迹,系统和方法可以计算某个目标片段、“模板”以及等长的每个可能片段(一般通过由变化点分析识别的大致区块边界来定义)之间的欧几里得距离。也可以使用其它类似的方法来识别模块,这包括其它基于统计的方法。

在一些实施例中,相似模块的集合将被选为最相似片段,而忽略发现的彼此之间偏移不到1秒的片段(以确保我们选择了在时间上彼此间隔开且也出现在单独小鼠中的行为片段)。

数据建模

在其它实施例中,可以采用利用数据模型315来识别视频数据中的行为模块的系统和方法。例如,数据模型可以实施生成概率建模的公认范式,该范式通常用于对复杂的动态过程进行建模。这类模型在其描述用于能够通过模型自身来综合地产生观察数据的过程的意义上是生成性的,而且他们是概率性的,这是因为该过程是在对概率分布进行采样的方面数学地定义的。此外,通过将可解释的模型拟合成数据,数据以如下方式被“解析”,该方式揭示了:模型假定的隐变量结构产生数据(包括用于描述状态的数量和同一性的参数以及用于描述状态之间的转移的参数)。

在一些实施例中,模型315可以利用贝叶斯框架(bayesianframework)来表达。贝叶斯框架提供了一种自然方式来表达行为组织、先验或规则化器的分层模型,这些模型反映了已知的或观察到的对3d数据内的运动模式的限制以及不确定性的一致表示。该框架还使重要且完善的计算机器用于推理任何模型的关键参数。在贝叶斯框架内,针对特定的模型结构(例如,状态的时空性质以及它们可能的转移)和隐变量的先验分布,数据修正了隐变量的后验分布。

下面,以如下两个步骤来定义用于表征行为的基于模型的方法:首先,使用的生成模型和先验的数学定义,并且其次,推理算法的描述。

用于识别行为模块的示例模型—ar-hmm

在一些实施例中,系统可以使用离散时间隐马尔可夫模型(hiddenmarkovmodel)315(hmm)来识别行为模块。hmm包含一系列的随机过程,以用于建模顺序和时间序列数据。hmm模型假定:在每个时间点(例如,对于成像数据的每一帧)处,小鼠处于可被给出标记的离散状态(马尔可夫状态)内。每个马尔可夫状态表示动物在处于该状态内的同时采取的简短三维运动主题。因为观察到的小鼠的三维行为取决于动物在近期表达的特定运动模式,因此,在理想情况下,每个马尔可夫状态将基于小鼠近期的姿势动态来预测其未来行为。因此,每个马尔可夫状态由(用于识别动物的行为模式的)隐离散成分以及(用于基于行为模式预测动物的短时间行为的)观察序列的数个延迟组成。该模型结构通常被称为svar(switchingvector-autoregressive,转换向量自回归)模型和自回归hmm(ar-hmm)。

图4提供了ar-hmm算法如何将输入数据(使用pca310被降维405的脊柱对齐深度成像数据305)转换为拟合模型的示例,其中,拟合模型描述了行为模块的数量以及它们在pca空间中编码的轨迹、用于管理给定模块内的任何轨迹的持续程度的模块特定持续时间分布(module-specificdurationdistribution)以及用于描述这些各个模块如何随时间互接的转移矩阵。

此外,ar-hmm可以被配置成将标记分配到训练数据的每个帧,其中该标记将该帧与给定行为模块关联。在预处理和降维405之后,将成像数据分解成训练集合415和测试集合410。然后,将训练集合415提交给ar-hmm315。在随机地初始化模型315的参数(这里,指的是描述每个模块通过pca空间的轨迹的自回归参数、描述用于管理模块之间的时间互连的概率的转移矩阵、描述给定模块的任何实例的可能持续程度的持续时间分布参数以及被分配给成像数据的每个帧并将该帧与特定模块关联的标记)之后,ar-hmm试图通过在保持其它参数不变的同时改变一个参数来拟合模型315。ar-hmm在两个主要更新之间交替:算法315首先尝试将成像数据分割为给出固定组的转移统计量和用于描述任何给定模块的ar参数的固定说明的模块,并接着,该算法切换成用于固定分割,并更新转移矩阵和ar参数455。ar-hmm315使用类似的方法将任何给定的成像数据帧分配到给定的模块。它首先计算给定模块是“正确”模块的概率,该概率与状态的对应自回归参数455以该时间指数描述数据的良好程度以及最终的状态转移与转移矩阵450相一致的良好程度的度量成比例。

在第二步骤中,ar-hmm315改变自回归参数455和转移参数450,以更好地拟合所分配的数据,从而更新每个行为模块以及模块之间的转移模型。这个过程的产物是所描述的参数455,之后,使用从训练475中得出的数据的似然性测量来评估这些参数在描述行为方面的质量。

通过识别与3d姿势序列数据相关联的离散隐状态445,hmm模型315可以识别表现出类似的短时间尺度运动动态的数据片段,并在重新使用的自回归参数的方面解释这些片段。对于每个观察序列,存在着未观察到的状态序列:如果在时间指数t下的离散状态是x_t=i,则离散状态x_(t+1)取值为j的概率是i和j的确定性函数,并且独立于所有先前的状态。在符号方面,

p(xt+1|xt,xt-1,xt-2,...,x1)=p(xt+1|xt)

p(xt+1=j|xt=i)=πij

其中,π是转移矩阵450,其中,(i,j)元素是从状态i转移到状态j的概率。在一些实施例中,离散状态的动态可以通过转移矩阵完全参数化,在这里,转移矩阵被认为不随时间变化。推理算法(以下描述)的任务之一是推理离散状态序列以及管理这些序列的部署的转移矩阵的可能值,从而推理出一系列的重新使用的行为模块以及管理这些这些模块如何随时间连接的转移模式。

在离散状态序列的情况下,可以将相应的3d姿势数据序列建模为条件矢量自回归(var)过程。每个状态特定矢量自回归可以捕获特定于相应离散状态的短时间尺度运动动态;换句话说,可以将每个行为模块建模为其自身的自回归过程。更精确地说,在任何时间指数t下的系统的离散状态x_t的情况下,时间点y_t处的观察的数据矢量的值根据观察序列的k个先前值y_(t-1),…,y_(t-k)的状态特定噪声回归进行分布。推理算法还可以负责推理每个状态的自回归动态参数以及动态中使用的滞后的数量的最可能值。

在一些实施例中,这些切换自回归动态定义了ar-hmm的核心。然而,因为预计不同的动物种群或实验条件会导致行为差异,所以当考虑两个或更多这样的实验条件时,模型可以分层构建:不同的实验条件可以被允许共用相同的状态特定var动态库,但学习它们自己的转移模式以及任何的唯一var动态模式。这个简单的扩展能够使模型显示由于实验的变化而引起的参数变化。此外,所采用的组合贝叶斯推理算法直接扩展了这种分层模型。

为了采用贝叶斯推理方法,可以使用统一表示将未知量(包括转移矩阵450和用于描述每个状态445的自回归参数455)处理为隐随机变量。特别地,弱先验分布465可以置于这些量上,并且对它们在观察的3d成像数据上的调节之后的后验分布465进行研究。针对自回归参数,包含锁套类惩罚(lasso-likepenalty)的先验可以用来促进无信息滞后指数,以使其相应的回归矩阵系数趋于零。

针对转移矩阵450,可以使用分层狄利克雷(dirichlet)过程435先验,以正则化离散隐状态445的数量。此外,转移矩阵450先前还包括粘滞偏差(stickybias),该粘滞偏差是控制离散状态至自转移的趋势的单个非负数。由于该参数控制推理转换动态的时间刻度,所以可以设置该参数,使得模型推理算法的输出与由在此公开的变化点分析(或者识别模块长度的其它方法)确定的无模型持续时间分布和从预处理和未建模3d姿势数据中生成的自相关图(尽可能紧密地)匹配。在一些实施例中,例如,可以对该参数进行调优,以用于定义行为的时间尺度上的先验。

在一些实施例中,通过去除模型结构的某些部分,可以使用比ar-hmm模型更简单的模型。例如,去除在转移矩阵中捕获的离散转换动态并将它们替换为混合模型,从而可以生成替代模型,其中,每个离散状态上的分布不依赖于其先前状态。这是如下情形:动物具有一组可供选择的行为模块,并且用于表达它们中任何给定一者的可能性不取决于它们出现的次序。这种简化导致了自回归混合模型(ar-mm)。

可替代地,使用简单的状态特定高斯输出(gaussianemission)代替条件自回归动态会生成高斯输出hmm(g-hmm);这种模型探讨了这样的假设:每个行为模块最好由简单的姿势来描述,而不是用动态轨迹来描述。应用这两种简化产生了高斯混合模型(g-mm),其中,行为只是一系列的随时间变化的姿势,其中,表达任何给定姿势的概率不依赖于先前的姿势。在去除切换动态后得到纯自回归(ar)或线性动态系统(lds:lineardynamicalsystem)模型,其中,行为被描述为在没有任何重新使用的离散行为模型的情况下姿势空间中的轨迹。

行为模块的分析

在一些实施例中,系统可以提供行为模块之间的关系的指示,描述最常用的行为模块,或者执行行为模块的其它有用分析。

例如,为了表示行为音节之间的语法关系,可以将两个音节相继出现(模块的“二元模型(bigram)”)的概率(例如,二元模型)计算为所有观察到的二元模型的一小部分。在一些实施例中,为了计算每个模块对(i,j)的这个值,例如,可以使用方形n×n矩阵a,其中,n是标记序列中的总模块的数量。然后,系统和方法可以扫描在吉布斯采样的最终迭代处保存的标记序列,每当系统识别出直接位于音节j前面的音节i时使条目a[i,j]递增。在标记序列的末尾处,系统可以除以观察到的总二元模型的数量。

为了直观地组织那些由于操控而被特别上调或选择性地表达的模块,系统可以为每个模块分配选择性指数。例如,在p(条件)表示在模块的百分比使用率的条件的情况下,系统可以按照利用(p(圆形)-p(方形)/(p(圆形)+p(方形))进行的圆形旷野与方形盒的比较来分类模块。在无味气味与狐狸气味(tmt)之间的比较中,系统可以利用(p(tmt)-p(无味))/(p(tmt)+p(无味))来分选模块。

状态图可视化

系统还可以在图表g=(v,e)上输出n个音节的音节二元模型概率和音节使用率,其中,每个节点i∈v={1,2,...,n}对应音节i,并且每个有向边(i,j)∈e={1,2,...,n}2\{{i,i}:i∈v}对应二元模型。该图表可以是作为一组的圆形节点和有向弧的输出,使得每个节点的大小与相应的字母使用率成比例,并且每个弧的宽度和不透明度与图例中所示的最小和最大范围内的相应二元模型的概率成比例。为了以可再现的非(伪)随机方式(直到附图的全局旋转)布置每个图表,系统可以使用频谱布局算法来初始化节点的位置,并且使用fr迭代力导向布局算法(fructherman-reingolditerativeforce-directedlayoutalgorithm)对节点位置进行精细调整;我们使用的这两种算法都可以在networkx软件包中使用。

主推理算法(maininferencealgorithms)的综述

在一些实施例中,推理算法可以应用于模型315,以估计参数。例如,可以使用吉布斯采样来进行近似贝叶斯推理,即马尔可夫链蒙特卡罗(chainmontecarlo(mcmc))推理算法。在mcmc范例中,推理算法根据感兴趣的后验分布来构造近似样本,并且这些样本用于计算平均值或用作后验模式的代理。由算法产生的样本序列分布在逃离低后验概率或不良局部最优区域的同时占据在高后验概率的区域中。在主ar-hmm模型中,感兴趣的隐变量包括:矢量自回归参数、隐离散状态序列以及转移矩阵(例如,定义了任何给定的行为模块内的姿势动态的自回归参数、模块序列以及任何给定模块与任何其它模块之间的转移概率)。mcmc推理算法至3d成像数据的应用生成了用于ar-hmm的这些隐变量的一组样本。

吉布斯采样算法具有自然的交替结构,该结构直接类似于期望最大化(em)和变分平均场算法的交替结构。在从先验初始化成随机样本之后被应用于ar-hmm,该算法可以在两个主要更新之间交替:首先,该算法可以对给出转移矩阵和自回归参数的隐离散状态序列进行重新采样,并且其次,该算法可以对给出隐状态的参数进行重新采样。

换句话说,算法315首先试图在固定的一组转移统计量和用于描述任何给定模块的ar参数的固定说明的情况下将成像数据分割成模块300,并且然后,该算法切换成固定分割并更新转移矩阵450和ar参数455。为了在该过程的第一步骤中将每个3d姿势视频帧分配到行为模式300中的一个,可以从可能的离散状态集中随机地采样用于特定时间指数的状态标记445,其中,对给定状态进行采样的概率可以与状态的相应自回归参数描述当时指数处的数据的程度以及最终的状态转移与转移矩阵450的一致性的程度成比例。在第二步骤中,在将数据子序列分配到状态的情况下,可以对自回归参数和转移参数进行重新采样,以拟合所分配的数据,从而更新每个行为模式的动态模型以及模型之间的转移的模型。由吉布斯采样算法实施的过程具有嘈杂声,使得算法能够避开可能防止算法有效地探索参数空间的局部极大值。

示例

下面公开了此处所述的用于执行所公开的示例的模型的具体实施的示例。可以实施这些模型的变型以识别行为模型。

转移矩阵的先验

粘性hdp先验(stickyhdpprior)被置于具有浓度参数α,γ>0和粘性参数κ>0的转移矩阵π,其中

其中,当i=j时,δij为1,否则为0,并且πi表示π的第i行。gamma先验置于α和γ,设定α~gamma(1,1/100),并且γ~gamma(1,1/100)。

离散状态序列的生成

在转移矩阵的情况下,离散状态序列的先验x为

其中,x1是由稳定分布在π下生成的。

自回归参数的先验

从矩阵正态逆卡方(matrixnormalinverse-wishart)先验中取样每个状态i=1,2,...的自回归参数是:

(a,b),∑~mniw(v0,s0,m0,k0)

或等价地

∑~invwishart(v0,s0)

其中表示克罗内克(kronecker)积,并且(a,b)表示通过将b作为列附加到a而形成的矩阵。此外,关于k0的区块ard先验用于促进无信息滞后缩小到零:

3d姿势序列主成分的生成

在自回归参数和离散状态序列的情况下,根据仿射自回归生成数据序列y:

其中,表示k个滞后的向量:

替代模型是ar-hmm的特例,并通过添加约束来构造。特别地,高斯输出hmm(g-hmm)对应于每个状态指数的约束a(i)=0。类似地,自回归混合(ar-mm)和高斯混合(gmm)对应于将转移矩阵分别限制为在ar-hmm和g-hmm中的行间是恒定的,对于i和i',πij=πi'j=πj。

推理算法在示例中的具体实施

如上所述,吉布斯采样推理算法在两个主要阶段之间交替:在固定转移矩阵以及自回归参数的情况下将数据分段更新为模块,并且在固定分段的情况下更新转移矩阵和自回归参数。在数学上,基于,更新以数据y、自回归参数θ以及转移矩阵π的值为条件的标记序列x采样的分段;即,对条件随机变量x|θ,π,y进行采样。类似地,在分段采样的π|x和θ|x,y的情况下,分别更新转移矩阵和自回归参数。

对于ar-hmm中的推理,采用了狄利克雷过程的弱极限近似,其中,无限模型近似为有限模型。即选择一些有限的近似参数l、β和π,并且利用尺寸为l的有限狄利克雷分布进行建模。

β=dir(γ/l,...,γ/l)

πk~dir(αβ1,...,αβj+kδkj,...,αβl)

其中,πk表示转移矩阵的第i行。转移矩阵的这种有限表示允许状态序列x被作为区块重新采样,并且对于大的l,提供了无限狄利克雷过程的任意良好的近似。

使用弱极限近似,ar-hmm的吉布斯采样器对条件随机变量进行迭代重采样:

x|π,θ,yθ|x,y以及β,π|x。

为了简单起见,在整个本节中,抑制了对超参数进行调节的标记和多个观察序列的上标标记。

采样x|π,θ,y

在动态参数π和θ以及数据y的情况下对状态标记x进行采样对应于对3d视频序列进行分段,并将每个分段分配到用于描述其统计的行为模式。

在观察参数θ和转移参数π的情况下,隐状态序列x是马尔可夫链图。标准的hmm反向消息传递递归是

对于t=1,2,...,t-1且k=1,2,...,k,其中,bt(k)=1,并且其中,yt+1:t=(yt+1,yt+2,...,yt)。使用这些消息,将所有未来状态x2:t的边缘化的第一个状态x1的条件分布为

p(x1=k|π,θ,y)∝p(x1=k|π)p(y1|x1=k,θ)b1(k)

其可以被有效地采样。在采样值的情况下,第二状态x2的条件分布为

因此,在向后传递hmm消息之后,可以递归地向前采样状态序列。

采样θ|x,y

在状态序列x和数据序列y的情况下,对自回归参数θ进行采样对应于更新每个模式的动态参数,以描述被分配到它的3d视频数据段。

为了对以状态序列x和观察y的固定样本为条件的观察参数θ进行重采样,可以利用自回归似然性和mniw先验之间的共轭性。即,该条件还遵循mniw分布:

p(a(k),∑(k)|x,y,s0,v0,m0,k0)=p(a(k),∑(k)|sn,vn,mn,k_n)

其中,(sn,vn,mn,kn)是后验超参数,它们是被分配到状态k的元素y以及先前的滞后观察的函数:

vn=v0+n

其中

因此,重采样θ|x,y包括三个步骤:从被分配到每个状态的数据中收集统计量,形成每个状态的先验超参数,并通过模拟从适当的mniw绘制的图来更新每个状态的观察参数。模拟(a,∑)~mniw(sn,vn,mn,kn)作为如下进行:

∑~invwishart(sn,vn)

其中,

采样β,π|x

在给定状态序列x的情况下,对转移参数π和β进行采样对应于更新行为模块之间的转移概率,以反映在状态序列中观察的转移模式。更新β促进了从模型中删除冗余行为模式,而更新每个πij拟合从状态i到状态j观察到的转移。

通过使用辅助变量采样方案对从(粘性)hdp的弱极限近似中提取的转移参数β和π进行重采样。即,β,\pi|x是通过首先采样辅助变量m|β,x生成的。然后,β,\pi|x,m是通过首先从边界β|m采样并然后从条件π|β,x采样生成的。

采样状态序列x中的转移计数矩阵为

nkj=#{t:xt=k,xt+1=j,t=1,2,...,t-1}。

为了简单起见,限制条件标记,通过以下方式对辅助变量m={mkj:k,j=1,2,...,k}进行采样

其中

其中,bernoulli(p)表示伯努利(bernoulli)随机变量,其在概率的p情况下取值为1,否则取值为0。注意,没有粘性偏差的hdp-hmm的更新对应于在这些更新中设置k=0。

在辅助变量的情况下,对β的更新是狄利克雷多项式共轭,其中

其中,对于j=1,2,...,k,对π|β,x的更新是相似的,有πk|β,x~dir(αβ1+nk1,...,αβj+nkj+kδkj,...,\alphaβk+nkk)。

模型在示例中的应用

对来自旷野实验、气味实验和基因操纵实验的数据集联合地建模,以提高统计能力。由于与光遗传学实验相关的神经植入适度地改变了动物的外形,所以这些数据被单独地建模。在所有的实验中,收集了每只成像小鼠的每个帧的前10个主成分。然后,将数据再次划分,并按3:1的训练:测试比例来分配“训练”或“测试”标记。从训练过程中留存了被标记“测试”的小鼠,并将它们用于通过测量留存似然性来测试其泛化性能。这种方法允许我们直接比较具有反映不同的行为基础结构的组成的算法。

我们使用本文描述的过程对数据模型进行了训练;建模对于初始化设置以及参数和超参数设置来说都是很稳健(κ除外,见下文)。具体地,发现了:在我们的ar观察分布中使用的滞后数和在我们的具有hdp先验的转移矩阵中使用的的状态数对两个先验的特定超参数设置是稳健的。我们将稀疏ard先验的超参数改变了几个数量级,并且留存似然性、使用的滞后数以及使用的状态数变化不明显。我们还将我们的hdp先验的超参数改变了几个数量级,并再次观察到使用的状态数或留存似然性没有变化。所有的联合地训练的数据共享观察分布,但每个处理级别都有自己的转移矩阵。通过吉布斯采样的1000次迭代对每个模型进行了更新;在吉布斯采样的最终迭代中,保存了模型输出;在最终的更新中进行所有的进一步分析。

我们的行为模块的持续时间分布的“粘性”(其由模型的κ设置定义)影响了由ar-hmm发现的行为模块的平均持续时间;这允许我们控制行为建模的时间尺度。如正文中所讨论的那样,自相关、功率谱密度和变化点算法以(如由变化点持续时间分布所封装,并由频谱图和自相关图所反映的)特定的亚秒级时间尺度识别切换动态。因此,我们凭经验设置了时间序列模型的κ粘性参数,以最优地匹配由变化点检测发现的持续时间分布。为了找出这些分布最匹配的κ设置,我们通过密集网格搜索来最小化变化点间间隔分布与后验行为模块持续时间分布之间的柯尔莫可洛夫-斯米洛夫(kolmogorov-smirnov)距离。

小鼠品系、居住和习性

除非另有说明,所有实验都是在6-8周龄的c57/bl6雄性身上进行的(杰克逊实验室)。以与参考c57/bl6小鼠等同的方式,对来自rorβ和rbp4品系的小鼠进行习惯培养和测试。小鼠在4周龄时被带入我们的群体,在那里,在反向12小时光照/12小时黑暗的周期中将小鼠群体饲养两周。在测试当天,将小鼠放入实验室的不透光容器中,在那里,在测试之前在黑暗中对其进行30分钟的习惯培养。

示例1:行为测定:天生探索

为了解决这些可能性,我们首先使用ar-hmm来定义旷野中的小鼠探索行为的基线架构,并接着探求如何通过外部世界的不同操作来修改这个行为模板。

对于旷野测定(openfieldassay,ofa),如上所述地对小鼠进行习惯培养,并然后将其放置在具有15”高墙(美国plastics公司)的18”直径的圆形外壳的中间处,紧接着开始3d录像记录。动物被允许在30分钟的实验时段内自由地探索围栏。除了在下面描述的气味盒中之外,在方形盒中被评估行为的小鼠以与ofa等同的方式被处理和测量。

ar-hmm从圆形旷野数据集中识别出~60个被可靠使用的行为模块(51个模块解释了95%的成像帧,并且65个模块解释了99%的成像帧,图5a,5b),该数据集代表实验室中的正常小鼠的探索行为(图6a,n=25只动物,20分钟试验)。图5a示出了由每个模块(y轴)解释的,相对于模块组绘制的,并由使用率(x轴)分选的帧的比例。通过51个行为模块解释了95%的帧;通过旷野数据集中的62个行为模块解释了99%的帧。

图5b示出了通过使用率(y轴)分选的模块(x轴),并指示贝叶斯可信区间。注意,所有可信区间都小于根据自助(bootstrap)估计计算出的se(图5b)。如上所述,这些模块中的许多模块对人类可描述的行为组件(例如,直立、行走、踌躇、转向)进行编码。

ar-hmm还测量任何给定模块在任何其它模块之前或之后的概率;换句话说,在模型训练之后,每个模块与该组中的每个其它模块被分配成对转移概率;这些概率概括了小鼠在行为期间表达的模块的序列。将这些转移概率绘制为矩阵,该矩阵揭示了它们高度不均匀,其中每个模块择优地在时间上连接到一些模块,而不连接到其它模块(图6b;在没有阈值化的情况下的平均节点度16.82±.95,在阈值化后,二元模型概率低于5%,4.08±.10)。模块对之间的这种特定连接限制了在数据集中观察到的模块序列(8900/~125,000个可能三元模型),这表明某些模块序列受到青睐;这一观察结果表明,小鼠的行为是可预测的,因为知道小鼠在任何特定时刻正在做什么,这可以让观察者了解小鼠下一步可能做什么。转移矩阵的信息理论分析证实了小鼠行为具有显著的可预测性,因为相对于均匀转移矩阵(没有自转移3.78±0.03位,具有自转移0.72±0.01位,均匀矩阵的熵速率6.022位),平均每帧熵速率较低,且互联模块之间的平均交互信息显著大于零(没有自转移1.92±0.02位,具有自转移4.84位±0.03位)。这种质量的确定性品质可能有助于确保小鼠发出连贯的运动模式;与这种可能性一致地,在检查时发现频繁观察的模块序列编码了探索行为的不同方面。

小鼠在圆形旷野中表达的行为反映了场景特定运动探索模式。我们假设小鼠将通过如下方式来适应设备形状的变化:局部改变行为结构,从而产生新的姿势动态,以与情景的特定物理特征相互作用;为了验证这一假设,我们在一个较小的方形盒中对小鼠进行成像,并然后共同训练具有圆形旷野数据和方形数据的模型,从而能够在两种条件(在每种情况下,n=25只小鼠)下直接比较模块和转移。虽然小鼠倾向于探索方形盒子的角落和圆形旷野的墙壁,但在这些设备之间大多数模块的整体使用率相似,这与运动场所中共享单个共同特征的探索行为一致(图6c)。ar-hmm还识别了少量的行为模块,这些模块广泛部署在一个情景中,但在另一种情景中可忽略或完全不存在,这与不同的物理情景驱动新的行为模块表达的观点一致(图6c,基于自助估计,下面讨论的所有的使用率差异p<10-3)。

有趣的是,这些“新”模块不仅部署在与设备的特定功能的物理交互期间(其将被预测引起新的姿势动态),而且部署在不受约束的探索时段期间。例如,一个圆形运动场所特定模块编码了趋触性行为,其中,小鼠在运动场所墙壁附近移动,身体姿势与墙壁的弯曲相匹配。当小鼠靠近圆形运动场所的中心并且与墙壁没有物理接触时,这个模块也被表达出来,这证明了这个模块的表达不仅简单地是与墙壁的物理交互的直接结果,而是反映了小鼠在弯曲运动场所中的行为状态;虽然趋触性行为也发生在方形盒中,但相关的行为模块利用直体编码运动,并在方形和圆形装置的直线轨迹期间使用(图6d至6e,中间盘区)。类似地,在方框内,小鼠表达了情景特定模块,该模块编码了从方形中心到相邻角落之一的快速移动;这种运动模式很可能是方形场有小的中央旷野的结果,而不是施加在小鼠上的物理约束的具体产物。

经发现,择优地在一种情景或另一种情景中表现出一些附加模块,这些上调的模块似乎编码了在由运动场所的形状指定的多中心模式中部署的行为。在圆形运动场所中,例如,小鼠择优地地表现出直立(rear),此时,小鼠在旷野的中心附近踟躇(pause)的同时它的身体向外指向;而在较小的方形盒中,小鼠择优地在盒子的角落处高直立(图6e,数据未示出)。这些结果表明,小鼠的行为(即,自我中心行为)是根据小鼠在空间中的位置(即其中心位置)而调节的。综合起来,这些数据表明,小鼠至少部分地通过增加有限组的情景特定行为模块(其编码适合情景的姿势动态)到基准动作模式中来适应新的物理情景;这些新模块(以及其它的在一种情境或另一种情境中被丰富表达的模块)在空间中差异化地部署,以反应情景的变化。

示例2.行为测定:刺激驱动型先天行为-对气味的反应

因为小鼠在圆形和方形中都表现出相同的基础行为状态(运动探索),所以我们可以预测,在这种情况下观察到的行为模块的变化将是局部的,并且在范围上是有限的。因此,我们探求当小鼠暴露于驱动行为状态的全局变化的感官记忆(在其它情况下为恒定的物理环境内)时如何改变行为的基础结构,其中上述行为状态包括新的且有动机的动作的表现。

为了评估对挥发性气味的先天行为的反应,我们开发了一种气味传递系统,该系统在空间上将气味分离在方形盒的特定象限中。每个12”×12”的盒子由1/4”的黑色磨砂丙烯酸(altech塑料)构成,其中,具有以十字形形成在盒子底部处的3/4”的孔以及1/16”厚的玻璃盖(truvue公司)。这些孔被ptfe管穿透并连接到真空歧管(sigmaaldrich公司),真空歧管提供负压以分离象限内的气味。气味通过1/2”npt-3/8”管接头(cole-parmer公司)注入盒子内。将过滤后的空气(1.0l/min)吹到置于vacutainer注射器小瓶(covidien公司)底部的吸附有气味的吸墨纸(vwr公司)上。然后,带气味的气流通过波纹型ptfe管(zeus公司)进入气味盒子的角落处的四个管接头之一中。

我们通过使用低功率手持式氦氖激光器对盒子照明使汽化的气味或烟雾可视化,由此验证了气味盒在指定象限内分离气味的能力。这种方法使我们能够调节真空流量和气味流量,以实现气味分离,这已经使用光电离设备(aurorascientific公司)进行了验证。为了消除实验间交叉污染的可能性,在整个晚上将气味盒浸泡在1%的alconox(公司)溶液中,然后用70%的乙醇溶液彻底清洗。在实验开始前,将小鼠在实验室内进行30分钟的习惯培养。在对照条件下,将空气中的二丙二醇(1.0l/min)输送到装置的每一个角落,然后将一只小鼠放置在盒子的中心,并允许其自由探索,同时获得20分钟的3d视频记录。对同一组动物进行了气味反应测试,随后将气味空气送到四个象限中的一个进行重复实验。所有的3d视频记录都是在完全黑暗中进行的。tmt从phertech公司中获得,并在5%的浓度下使用。

因此,探索方盒的小鼠暴露于通过气味测量计被传送到方盒的一个象限的厌恶的狐狸气味三甲基噻唑啉(tmt)。这种气味引发了复杂而深刻的行为状态变化,包括气味侦查、逃避以及伴随着皮质类固醇和内源性阿片类物质水平增加的凝滞行为。与这些已知的效果一致地,小鼠嗅闻含有气味的象限,并然后避开包含捕食者线索的象限,并显示出长期的不运动(传统上被描述为凝滞(freezing)行为)(图7)。图7示出了柱状图,该柱状图描述了与数据集中的所有其它模块相比在tmt暴露之后差异化地上调并相互连接的模块的“凝滞”的平均速度。

令人惊讶的是,这套新行为由正常探索期间表现出的同一组行为模块编码;在tmt暴露后,几个模块被上调或下调,但是相对于对照组(在对照条件下n=25只动物,tmt下n=15只动物,同时在两个数据集上共同训练模型),没有新模块被引入或消除。相反,tmt改变了特定模块之间的使用率和转移概率,从而导致编码tmt调节行为的重新偏好的行为序列(下面基于自助估计讨论的所有的使用率和转移差异p<10-3)。

对在暴露于tmt后改变的模块转移进行的绘制在行为状态图中定义了两个邻域;第一个邻域包括被tmt适度下调的模块和相互关联的扩展组,第二个邻域包括被tmt上调的模块和转移的聚集组。在正常行为期间,这些最近相互关联的模块暂时分散,并且单独地出现以编码不同形态形式的踌躇或缩成球状。相反,在tmt的影响下,这些模块被连接成新的序列,经发现,这些新的序列在检查和量化时编码凝滞行为(平均序列期间速度为-.14±0.54mm/s,对于其它模块,34.7±53mm/s)。例如,在tmt暴露后(在成像的300分钟中),最常表达的凝滞三元模型表现了716次,而在对照条件下(在成像的480分钟中)仅表达了17次。强加在这些踌躇模块上以造成凝滞的tmt诱导的邻域结构证明了:可以通过转移概率的聚集变化来改变行为。这种转移概率的局部重写伴随着小鼠行为的总体确定性的增加-由于tmt暴露,其整体行为模式变得更加可预测(在无自转移的情况下,每帧熵速率从3.92±0.02位下降到3.66±0.08位,并且在自转移的情况下,从.82±0.01位下降到.64±0.02位)-这与小鼠执行确定性回避策略一致。

对气味源的接近也管理了特定行为模块的表达模式(图8d至8e)。例如,一组与凝滞相关的模块倾向于在最远离气味源的象限中表达,而侦查直立模块的表达特异性(其总体使用率没有被tmt改变)在气味象限内富集(图8d至8e)。总之,这些发现表明了另外两种机制,通过这两种机制,小鼠神经系统可以产生新的适应性行为。首先,可以改变通常与不同的行为状态相关联的各个模块(例如运动探索)之间的转移结构,以产生新的行为(例如凝滞)。其次,可以调整预存在的模块和序列的部署的空间模式,以支持诸如气味侦查和回避等有动机的行为。因此,行为模块不会随着时间而被重新使用,而是充当行为序列的灵活地相互关联的组件,其中行为序列的表现在时间和空间上动态地调节

示例3.基因和神经回路对模块的影响

如上所述,行为的精细时间尺度结构选择性地容易受到物理或感官环境的变化的影响,这些变化以数分钟的时间刻度影响动作。此外,ar-hmm全面封装了小鼠表现的行为模式(在我们成像的限制内)。这些观察结果表明,在亚秒级时间范围内为小鼠的行为提供了系统性窗口的ar-hmm既可以量化明显的行为显型(phenotype),又可以揭示在实验操作后诱发的新的或微妙的显型,其中这些实验操作在一系列时空尺度内影响行为。

为了探讨各个基因的变化(这些变化作用于小鼠寿命的时间尺度)如何影响快速的行为模块和转移,我们对视黄醇相关孤儿受体1β(ror1β)基因的小鼠突变体(mutant)的显型(phenotype)进行了表征,该基因表达在大脑和脊髓的神经元中;我们选择这只小鼠进行分析,因为纯合突变体动物表现出我们希望通过ar-hmm检测到的异常步态[37-40]。在成像和建模后,经发现,同窝对照小鼠与完全近交的c57/bl6小鼠几乎没有区别,而突变小鼠表达出编码蹒跚步态的独特行为模块(图9a,9c)。这种行为的改变伴随着相反的行为:在野生型和c57小鼠中以不同速度编码正常向前运动的五个行为模块的表达在ror1突变体中下调(图9a,模块间平均速度=114.6±76.3mm/sec)。此外,编码短暂踌躇和点头的一组四个模块的表达也被上调(图9a,模块期间平均速度=8.8±25.3mm/s);这种踌躇显型以前在文献中还未见报道。有趣的是,杂合小鼠(它们不具有报道的显型37-40)看起来表现正常,并且表现出野生型跑轮行为40),也经发现,杂合小鼠表达完全外显的突变体显型:它们过度表达了同样的一组踌躇模块,这些模块在完整的ror1β突变体中上调,而未能表达更戏剧性的蹒跚显型(图9a)。

因此,ar-hmm将ror1β小鼠的病态行为描述为单个新变体蹒跚模块和编码踌躇行为的一小组生理模块的增加的表达的组合;杂合小鼠表达这些行为异常的确定子组,其外显率不是中等的,而是等于突变体中观察到的外显率。这些结果表明,ar-hmm的灵敏度能够在同一窝动物中分离出严重和微妙的行为异常,能够发现新的显型,并且有利于基因型之间的比较。这些实验还证明,行为中的取决于基因型的变异(即,基因组中的特定基因的不可磨灭和终生改变的结果)可以影响在毫秒时间尺度上操作的模块表达和转移统计。

示例4.行为测定:光遗传学-神经运动对模块的影响

最后,我们希望探求由ar-hmm捕捉的行为结构是否能提供对短暂或不可靠的行为变化的了解。因此,我们短暂地触发了运动回路中的神经运动,并探求在不同强度水平下的刺激如何影响即时的行为组织。我们在皮质纹状体神经元41-42中单方面地表达光学门控离子通道channelrhodopsin-2,并且评估在2秒的运动皮层的光介导激活之前、期间和之后的行为反应(n=4只小鼠,以与先前的实验分开地对模型进行训练)。

使用1.5%的异氟烷麻醉将4只成年雄性rbp4-cre(杰克逊实验室)小鼠,并其置于立体定向架(leica公司)中。将微注射移液器(o.d.10-15μm)插入到左侧运动皮层(前卤(bregma)坐标:0.5ap,-1ml,0.60dv)中。在10分钟内对每只小鼠注射0.5μl的aav5.ef1a.dio.hchr2(h134r)-eyfp.wpre.hgh(~1012感染单位/ml,pennvectorcore),在之后的额外10分钟内,使病毒颗粒从注射部位扩散。在注射后,在注射部位上方将带氧化锆陶瓷插针(o.d.200μm,0.37的数值孔径)的裸光纤插入100μm,并使用丙烯酸粘固剂(lang公司)将其固定到头骨上。在病毒注射后的28天内,将小鼠置于圆形运动场所中,并且通过贴片带和旋转接头(doriclenses公司)将光学植入物连接到激光泵(488nm,crystalaser公司)。通过pc直接控制激光。在对运动场所的20分钟的熟悉之后,开始光刺激。激光功率、脉冲宽度、脉冲间隔和串间间隔由定制软件(nilabview软件)控制。每串激光脉冲由15hz下的30个脉冲(脉冲宽度:50ms)组成。连续串之间的间隔设置为18秒。针对每个激光强度,发出50串激光。在实验过程中,动物逐渐暴露在更高的激光强度下。

在最低的功率水平下,没有观察到光诱导的行为变化,而在最高的功率水平下,ar-hmm识别出两个行为模块,这些模块的表达可靠地由光诱导(图10a)。这些模块都没有表达在正常小鼠运动过程中;检查显示出它们编码了两种形式的旋转行为(它们的长度和旋转角度不同),在这两种形式中,小鼠在空间中描绘出半圆形或圆环形(图10b)。尽管在强烈的单侧运动皮层刺激后诱导除新变体行为并不令人惊讶,但是需要注意的是,ar-hmm不仅将这些行为识别为新的,而且还将它们封装为两个独特的行为模块。然而,我们注意到,在大约有40%的时间内,在光线偏移后的几秒内整体行为模式没有返回基线。这种相对于基线的偏离并不是由在光照开始时触发的模块的持续表达引起的;相反,小鼠经常在光偏移时表现出踌躇模块(模块期间平均速度=0.8±7mm/sec),就好像在非自主性运动后的“重置”一样。

由高强度光遗传刺激引起的行为变化是可靠的,因为基本上在每次实验中,动物都会发出两个自旋(spinning)模块中的一个。然后,我们探求了ar-hmm的灵敏度是否能对行为中更微妙的变化(就如在引起特定行为模块的不可靠发出的运动皮层刺激中间机制中发生的)进行定量分析。因此,我们将光刺激的水平降低,直到两个新形态行为模块中的一个不再被检测到,而另一个仅表达在25%的试验中。令人惊讶的是,我们可以检测到第二组行为模块的上调,其中每个模块都表达了25%的时间(图10a)。这些模块不是新生的,而是通常表达在生理学探索期间,并编码了转向和点头行为(数据未示出)。虽然这些单独的光调节模块中每者被不可靠地发出,但是总体而言,所有模块中的行为变化表明较低水平的神经激活可靠地影响行为,但主要通过诱导生理性而不是新生性行为(图10a)。总而言之,对行为模块的刺激锁定诱导和刺激模块使用率的延续性影响的检测表明,神经性诱导的行为变化可以影响行为的亚秒级结构。此外,对生理性表达的一组光调节行为模块的识别(在强烈的刺激条件下其诱导不明显)也表明,ar-hmm可以揭示神经回路与行为的时间序列结构之间的微妙关系。

示例5:降低维度-概率图形模型和变分自动编码器

如图3所示,在校正图像的方向之后,可以利用方法来减少数据的维度。例如,每个图像可以是900维向量,因此降低维度对于模型分析非常重要。在一些实施例中,在每个像素中获取的包括无模型算法320或模型拟合315算法的两者信息通常是高度相关的(相邻像素)或无信息的(图像边框上的像素从来都不代表小鼠的身体)。为了减少冗余维度并使建模在计算上易于处理,可以采用各种技术来降低每个图像的维度。

在一些示例中,在一些实施例中,取向校正图像的输出将是主成分分析时间序列310或用于减少数据点的其他统计方法。然而,pca将维度降低到线性空间。本发明人已经发现,将维度降低到线性空间不能适应与行为无关的小鼠的各种变化。这包括小鼠的大小、小鼠的品种等的变化。

因此,本发明人已经发现,使用某种神经网络,例如多层感知器,能够有效地降低图像的维度。此外,这些降维图像提供了一种有效的方法,来开发与小鼠或其他动物的大小无关的模型,并能够解释与行为无关的其他变化。例如,可以利用一些将维度降低到十维图像流形的神经网络。

本发明人开发了一种新的无监督学习框架,该框架利用深度学习方法组合概率图形模型,并结合各自的优势来降低维度。他们的方法使用图像模型来表达结构化概率分布和深度学习的最新进展,以学习灵活的特征模型和自下而上的识别网络。使用单个目标同时学习这些模型的所有组件,因此,本发明人开发了以下可扩展的拟合算法,该算法能够利用自然梯度随机变分推理、图形模型消息传递以及重新参数化技巧的反向传播。

无监督概率建模通常具有两个目标:第一,学习足够灵活的模型来表示复杂的高维数据,例如图像或语音记录;第二,学习可解释的模型结构,承认有意义的先验,并推广到新的任务。也就是说,仅仅学习数据的概率密度通常是不够的:人们还想学习有意义的表示。概率图形模型(koller&friedman,2009;murphy,2012)提供了许多工具来构建这样的结构化表示,但是它们的容量可能有限,并且在应用于数据之前可能需要大量的特征工程。可替代地,深度学习方面的进步不仅为复杂数据(如图像)提供了灵活、可升级的生成模型,而且还提供了自动特征学习和自下而上推理的新技术(kingma&welling,2014;rezende等,2014)。

考虑到学习用于跟踪的自由行为小鼠的深度视频的无监督生成模型存在的问题,如图23所示。学习这些数据的可解释表示,并研究这些表示如何随着动物的遗传学而被编辑或随着其大脑化学变化而变化,能够为神经科学和高通量药物发现创建强大的行为表征工具(wiltschko等,2015)。视频的每帧是特定姿势中的小鼠的深度图像,因此即使每个图像被编码为30x30=900个像素,数据也位于低维非线性流形附近。好的生成模型不仅必须学习这种流形,而且还代表数据的许多其他突出方面。

例如,从一帧到下一帧,相应的流形点应该彼此靠近,并且实际上,沿着流形的轨迹可以遵循非常结构化的动力学。为了告知这些动态的结构,在行为学和神经生物学中使用的一类自然假设(wiltschko等,2015)是,小鼠的行为由短的、重复使用的动作组成,例如飞奔、后腿直立、和梳毛表演(groomingbouts)。因此,自然表示将包括离散状态,其中,每个状态拍摄特定原始动作的简单动态,这种表示将在无监督的递归神经网络模型中难以编码。

学习图像流形和学习结构化动力学模型的这两个任务是互补的:我们想要学习图像流形,其不仅仅是作为一个集合,而且还就流形坐标而言,结构化动力学模型很好地拟合了数据。在语音中出现了类似的建模挑战(hinton等,2012),其中高维数据位于低维流形附近,因为它们是由具有相对较少自由度的物理系统生成的(deng,1999),但也包括音素、词和语法的离散隐动态结构(deng,2004)。

为了应对这些挑战,本发明人开发了用于表示结构化概率分布的图形模型,并且使用来自变分自动编码器的想法(kingma&welling,2014),不仅用来学习非线性特征流形,而且还用来学习自下而上识别网络以改进推理。因此,该方法使得灵活的深度学习特征模型能够与结构化贝叶斯先验(包括非参数模型)相结合。

该方法产生单个变分推理目标,其中,同时学习模型的所有组件。此外,我们开发了一种可升级的拟合算法,其结合了有效推理的几个进步,包括随机变分推理(hoffman等,2013)、图形模型消息传递(roller&friedman,2009)、以及使用重新参数化技巧的反向传播(kingma&welling,2014)。因此,我们的算法能够利用其存在的共轭指数族结构,有效地计算一些变分参数的自然梯度,从而能够实现有效的二阶优化(martens,2015),同时使用反向传播来计算所有其他参数的梯度。一般方法可以称为结构化变分自动编码器(svae:structuredvariationalautoencoder)。这里使用基于切换线性动态系统(slds:切换线性动态系统)的图形模型来说明该svae(murphy,2012;fox等,2011)。

自然梯度随机变分推理

随机变分推理(svi:stochasticvariationalinference)(hoffman等,2013)将随机梯度上升应用于平均场变分推理目标,其方式是利用指数族共轭来有效地计算自然梯度(amari,1998;martens,2015)。考虑由全局隐变量、局部隐变量组成的模型,其中θ、局部隐变量满足

和观察到的数据

其中,ρ(θ)是指数族p(xn,yn|θ)之前的自然指数族共轭,

lnp(θ)=<ηθ,tθ(θ))-lnzθ(ηθ)(2)

lnp(xn,yn|θ)=<ηxy(θ),txy(xn,yn)>-lnzxy(ηxy(θ))

=<tθ(θ),(txy(xn,yn),1)).(3)

考虑平均场族q(θ)q(x)=q(θ)пnq(xn)。由于共轭结构,最优全局平均场因子q(θ)与先前的ρ(θ)在同一族中,

然后,用于优化局部变分因子q(x)的全局变分参数的平均场目标可以被写成

并且,目标(5)的自然梯度分解成局部预期的充分统计数据的总和(ihoffman等,2013):

其中,q*(xn)是局部最优的局部平均场因子。因此我们能够通过对数据点yn进行采样、对局部平均场因子q(xn)进行优化以及计算按比例估计有足够的统计数据,来计算我们的全局平均场目标的随机自然梯度更新。

2.2.变分自动编码器

变分自动编码器(vae:variationalautoencoder)(kingma&welling,2014;rezende等,2014)是最近提出的模型和推理方法,该推理方法将神经网络自动编码器(vincent等,2008)与平均场变分贝叶斯联系起来。给定高维数据集(例如,图像集合),vae根据低维隐变量yn和带有以下参数的非线性观测模型对每个观测yn进行建模:

其中

hl(xn)=f(wlhl-1(xn)+bl),l=1,2,...,l,(9)

因为我们将重用这个特定的mlp结构,因此我们引入了以下符号

为了近似于后验,变分自动编码器使用平均场族:

图2.变分自动编码器的图形模型

变分自动编码器的关键见解是使用条件变分密度q(xn|yn),其中,变分分布的参数取决于相应的数据点。特别地,我们能够将q(xn\yn)的均值和协方差分别设为n(yn\(p)和e(yrl;</>),其中

(μ(yn;φ),σ(yn;φ))=mlp(yn;φ)(15)

表示一组mlp参数。因此,变分分布q(xn|ijn)的作用就像随机编码器,从观测量到隐变量的分布,而正演模型p(yn|xn)的作用就像随机解码器,从隐变量值到观测分布。

所得的平均场目标表示自动编码器的变分贝叶斯版本。变分参数则是编码器参数和解码器参数,并且目标是

为了有效地优化这一目标,kingma&welling(2014)应用了重新参数化技巧。为了简化符号和计算,首先,我们将目标重写为

术语kl(q(x\y)\\p(x))是两个高斯之间的kl发散,并且其相对于f的梯度可以以闭合形式计算。计算期望项的随机梯度,因为随机变量可以参数化为

期望项可以用montecarloover近似的梯度重写,

也可以使用标准反向传播来计算这些梯度项。对于可量测性,也可以通过montecarlo来近似数据点的总和。

生成模型和变分族

因此,基于这些算法,本发明人开发了svae生成模型和相应的变分族。具体而言,我们专注于基于切换线性动态系统(slds:切换线性动态系统)(murphy,2012;fox等,2011)的时间序列的特定生成模型,其说明了svae如何将具有丰富概率依赖性的离散隐变量和连续隐变量结合起来。

这里所述的方法适用于广泛的概率图形模型,并且不仅限于时间序列,首先,第3.1节示出了生成模型,该模型说明了表示隐结构的图形模型与灵活神经网络的组合以生成观察结果。接下来,第3.2节示出了结构化变分族,其利用了结构化图形的平均场近似和灵活的识别网络。

3.1.具有非线性观测的切换线性动态系统

切换线性动态系统(slds)表示根据一组离散的线性动力学进行演化的连续隐状态的数据。在每一时刻,都有一个指示动态模式的离散值隐状态,以及根据该模式的线性高斯动力学进行演化的连续值隐状态:

图24示出了用于slds生成模型和相应结构crf变分族的图形模型。

离散隐状态根据markov动力学进行演变,

分别生成初始状态:

z1|πinit~πinit,(18)

因此,推理出slds的隐变量和参数,除了不同线性动态之间的马尔可夫切换外,还识别了一组重复使用的动态模式,每一种模式都被描述为隐状态上的线性动态系统。动态参数可以表示为:

在每一次,连续的隐状态都会产生条件高斯的观测结果。

在典型的slds(fox等人,2011)中,可以写成

然而,为了实现图像和其他复杂特征的灵活建模,该算法可以允许依赖性是更通用的非线性模型。特别地,我们考虑的以下等式:

注意,通过构造,密度在指数族中。我们可以选择先前的p(0)作为自然指数族共轭先验,写作

lnp(θ)=<ηθ,tθ(θ)>-lnzθ(ηθ)(23)

lnp(z,x|θ)=<ηzx(θ),tzx(z,x)>-lnzzx(ηzx(θ))

=<tθ(θ),(tzx(z,x),1)>.(24)

我们还可以使用贝叶斯非参数先验,并根据分层dirichlet过程(hdp)hmm(fox等,2011)生成离散状态序列。虽然没有进一步讨论贝叶斯非参数情况,但是这里开发的算法立即使用johnson&willsky(2014)中的方法扩展到hdp-hmm。

作为特殊情况,该结构包含上述vae的生成模型。具体地,vae使用相同类别的mlp观测模型,但每个潜在值xt被建模为独立且相同分布的高斯,而此处提出的svae模型允许丰富的联合概率结构。slds生成模型还包括高斯混合模型(gmm)、高斯发射离散状态hmm(g-hmm)以及高斯线性动态系统(lds)作为特殊情况,因此,在此针对slds开发的算法直接专门针对这些模型。

虽然在每个状态内使用条件线性动力学似乎有限,但是灵活的非线性观测分布极大地扩展了这些模型的容量。实际上,最近关于神经词嵌入(mikolov等,2013)以及神经图像模型(radford等,2015)的研究已经证明了学习的潜在空间,在该潜在空间中,线性结构对应于有意义的语义。

例如,词向量的加法和减法能够对应于词之间的语义关系,并且图像模型的潜在空间中的翻译能够对应于对象的旋转。因此,学习的潜在空间中的线性模型能够产生显著的表现力,同时实现快速的概率推理、可解释的先验和参数、以及其他许多工具。特别地,线性动力学允许人们学习或编码有关时间尺度和频率的信息:每个转移矩阵a(k)的特征值谱直接表示其特征时间尺度,因此,我们能够用非线性动力学模型不允许的方式控制和解释线性动力学的结构。

3.2.变分族和crf识别网络

这里描述的是一个结构化的平均场族,利用该平均场族,能够对3.1节的生成模型的后验分布进行变量推理。该平均场族说明了svae不仅能够利用图形模型和指数族结构,而且还能学习自下而上的推理网络。如下所示,这些结构允许我们组合几种有效的包括svi、信息传递、反向传播和重新参数化技巧的推理算法。

在平均场变分推理中,人们通过破坏后验(wainwright&jordan,2008)中的依赖来构建易处理的变分族。为了针对3.1节中开发的生成模型构建结构化平均场族,人们可以打破动力学参数θ、观测参数、离散状态序列和连续状态序列之间的后验依赖性,将相应的分解密度写为

注意,这种结构化的平均场族不像朴素平均场模型中那样破坏离散状态之间或连续状态之间的依赖性,因为这些随机变量在后验中是高度相关的。通过保持跨越时间的联合依赖性,这些结构化因子提供了更准确的后验表示,同时仍然允许通过图形模型消息传递进行易处理的推理(wainwright&jordan,2008)。

为了利用自下而上的推理网络,可以将因子参数化为条件随机场(crf)(murphy,2012)。也就是说,利用链图中的最优因子是马尔可夫这一事实,我们将其写成对势和节点势项

其中,节点势是观测值的函数。具体地,使用2.2节中的符号,我们选择每个节点势作为高斯因子,其中,精度矩阵和势向量取决于通过mlp进行的相应观测,

这些局部识别网络允许人们适应从每个观测到相应隐状态的概率猜测的回归。使用图形模型推理,可以将这些局部猜测与动力学模型合成为整个状态序列上的连贯关节因子。

该结构化平均场族可以直接与上述变分自动编码器中使用的完全因式分解族进行比较。也就是说,vae的隐变量之间不存在图形结构。svae通过允许识别网络的输出是图形模型中的任意电位(例如,此处考虑的节点电位)来推广vae。此外,在svae中,一些图形模型电位是由概率模型而不是识别网络的输出引起的;例如,最佳成对电位是由动力学参数和隐离散状态的变分因子以及前向生成模型引起的(见4.2.1节)。因此,svae提供了一种方法,以将来自灵活推理网络的自下而上信息与来自结构化概率模型中其他隐变量的自上而下信息相结合。

当p(θ)被选择为共轭先验时,如在等式(23)中那样,最佳因子q(θ)在同一指数族中:

为了简化符号,如在2.2节中那样,我们将观测参数的变分因子作为奇异分布,然后就全局变分参数而言,平均场目标就是

其中,如在等式(5)中那样,最大化超过了局部变分因子的自由参数。在第4节中,展示了如何优化该变分目标。

4.学习和推理

本节公开了一种用于计算等式(29)中的svae目标的随机梯度的有效算法。这些随机梯度可用于通用优化程序中,例如随机梯度上升或adam(kingma&ba,2015)。

如所公开的,svae算法基本上是分别在第2.1节和第2.2节中所描述的svi(hoffman等,2013)和aevb(kingma&welling,2014)的组合。利用svi,svae算法在其可用时,能够利用指数族共轭结构来有效地计算一些变分参数的自然梯度。因为自然梯度适应于变分族的几何,并且对于模型重新参数化(amari&nagaoka,2007)是不变的,因此自然梯度上升提供了有效的二阶优化方法(martens&grosse,2015;martens,2015)。利用aevb,这些算法能够适用于一般的非线性观测模型和灵活的自下而上识别网络。

该算法分为两部分。首先,在第4.1节中公开的是根据模型特定推理子程序的结果用于计算目标梯度的通用算法。接着,在第4.2节中公开的是该模型应用于slds的推理子程序。

4.1.svae算法

这里,使用模型推理子程序的结果来计算svae平均场目标(29)的计算随机梯度。算法总结在算法1中。

对于可量测性,此处使用的随机梯度是在小数据集上计算的。为了简化表示法,假设数据集是n个序列的集合,每个序列长度为t。能够随机均匀地对一个序列进行采样,并能够利用它计算随机梯度。还可以对子序列进行采样,并计算可控制偏置的随机梯度(foti等,2014)。

svae算法计算自然和标准梯度。为了计算这些梯度,如在第2.2节中所述,我们将目标分割为

注意,只有第二项取决于变量动态参数。此外,它是同一指数族(等式(23)和(28))的两个成员之间的kl差异,因此,如hoffman等(2013)和第2.1节所述,我们能够将(30)的自然梯度写成:

其中,q(z)和q(x)被认为是如等式(6)中所示的局部最佳局部平均场因子。因此,通过随机均匀地对序列索引n进行采样,对自然梯度的无偏估计由下式给出:

我们缩写为:

使用第4.2节中所述的模型推理子程序来有效地计算这些预期的充分统计数据。

因此,我们必须通过模型推理子程序用来计算这些量的过程来区分。对slds有效地执行这种区分对应于通过消息传递的反向传播。

4.2.模型推理子程序

由于vae对应于具有有限潜在概率结构的特定svae,因此,该推理子程序可被视为aevb算法(kingma&welling,2014)中两个步骤的推广。然而,svae的推理子程序通常可以执行其他计算:首先,由于svae能够包括其他潜在随机变量和图形结构,因此推理子程序可以优化局部平均场因子或运行消息传递。其次,由于svae能够对全局因子执行随机自然梯度更新,因此推理子程序还可以计算预期的充分统计数据。

为了简化表示法,可以删除序列索引n,用y代替y(n)。该算法总结在算法2中。

4.2.1.优化局部平均场因子

与第2.1节的svi算法一样,对于给定的数据序列y,我们可以优化局部平均场因子。也就是说,对于具有由识别网络输出的自然参数和固定节点电位的固定全局参数因子,我们针对离散隐状态的局部变分因子和连续隐状态的局部变分因子来优化变分目标。通过利用slds指数族表和结构化变分族,能够有效地执行该优化。

4.2.2.样本、预期统计量和kl

模型推理子程序在优化局部变分因子之后,使用优化因子绘制样本,计算期望充分统计量,并且计算kl散度。然后,这些推理计算的结果被用于计算svae目标的梯度。

6.实验

6.1.id中的弹跳点

作为代表性玩具问题,考虑一维序列图像,其中,点以固定速度从图像的一个边缘反弹到另一个边缘。图25示出了适用于这一问题的ldssvae的推理结果。顶部面板显示了随时间变化的噪声图像观测。第二面板显示了对过去和未来图像的模型推理:以垂直红线左侧的观测为条件下,模型正在进行滤波,而以垂直红线的右侧的观测为条件下,模型正在预测。该图表明,已经学会了适当的低维表示和动态的该模型能够连贯地预测未来。

人们还能够使用点问题来说明自然梯度相对于变量动力学参数提供的显著优化优势。在图6中,将三种不同学习速率下的自然梯度更新与标准梯度更新进行比较。自然梯度算法不仅学得更快,而且更稳定:当自然梯度更新使用0.1的步长时,标准梯度动态在步长为0.1和0.05时不稳定并且提前终止。虽然0.01的步长产生稳定的标准梯度更新,但是训练比自然梯度算法慢了几个数量级。

6.2.小鼠行为表型

行为表型的目标是识别行为模式,并研究当动物的环境、遗传或大脑功能发生变化时这些模式如何变化。这里,本发明人使用来自wiltschko等人(2015)的3d深度相机数据集,来示出sldssvae如何能够为这些视频数据学习灵活但结构化的生成模型。

vae的非线性观测模型是学习小鼠的深度图像的流形的关键。图7(在图25中参考)示出了对应于潜在空间中的随机2d网格上的点的图像,从而说明非线性观测模型如何生成准确的图像,svae在拟合结构化潜在概率的同时学习该特征流形。

图4(在图25中参考)说明了一些学习的动态结构,它显示了生成视频完成任务。该图包含模型生成的数据和交替行中的相应实际数据。在模型生成的数据中,两条红线之间的数据是在没有任何相应的观测条件的情况下生成的,而两条红线之外的数据是有条件地生成的。

结论

本发明公开了一种新的模型类和相应的推理算法,该推理算法利用概率图形模型和来自深度学习的灵活特征表示。在时间序列的背景下,该方法提供了几种新的非线性模型,可用于推理、估计甚至控制。例如,通过在svae中保存潜在的线性结构,一些动态编程控制问题可能仍然易于处理。

虽然本发明侧重于时间序列模型,特别是slds和相关模型,但本文提出的结构更为通用:只要图形模型被证明是有用的,学习crf潜能的灵活自下而上推理网络、然后将自下而上信息与结构化模型中的相干概率推理相结合的基本策略就可能是相关的。svae还使概率建模中的许多其他工具能够与更新的深入学习方法相结合,包括分层建模、结构化正则化和自动相关性确定、以及丢失数据的轻松处理。

参考文献

1fettiplace,r.&fuchs,p.a.mechanismsofhaircelltuning.annualreviewofphysiology61,809-834,(1999).

2fettiplace,r.&kim,k.x.thephysiologyofmechanoelectricaltransductionchannelsinhearing.physiologicalreviews94,951-986,(2014).

3gollisch,t.&herz,a.m.v.disentanglingsub-millisecondprocesseswithinanauditorytransductionchain.plosbiology3,e8,(2005).

4kawasaki,m.,rose,g.&heiligenberg,w.temporalhyperacuityinsingleneuronsofelectricfish.nature336,173-176,(1988).

5nemenman,i.,lewen,g.d.,bialek,w.&deruytervansteveninck,r.r.neuralcodingofnaturalstimuli:informationatsub-millisecondresolution.ploscomputationalbiology4,e1000025,(2008).

6peters,a.j.,chen,s.x.&komiyama,t.emergenceofreproduciblespatiotemporalactivityduringmotorlearning.nature510,263-267,(2014).

7ritzau-jost,a.,delvendahl,i.,rings,a.,byczkowicz,n.,harada,h.,shigemoto,r.,hirrlinger,j.,eilers,j.&hallermann,s.ultrafastactionpotentialsmediatekilohertzsignalingatacentralsynapse.neuron84,152-163,(2014).

8shenoy,k.v.,sahani,m.&churchland,m.m.corticalcontrolofarmmovements:adynamicalsystemsperspective.annualreviewofneuroscience36,337-359,(2013).

9bargmann,c.i.beyondtheconnectome:howneuromodulatorsshapeneuralcircuits.bioessays34,458-465,(2012).

10tinbergen,n.thestudyofinstinct.(clarendonpress,1951).

11garrity,p.a.,goodman,m.b.,samuel,a.d.&sengupta,p.runninghotandcold:behavioralstrategies,neuralcircuits,andthemolecularmachineryforthermotaxisinc.elegansanddrosophila.genes&development24,2365-2382,(2010).

12stephens,g.j.,johnson-kerner,b.,bialek,w.&ryu,w.s.dimensionalityanddynamicsinthebehaviorofc.elegans.ploscomputationalbiology4,e1000028,(2008).

13stephens,g.j.,johnson-kerner,b.,bialek,w.&ryu,w.s.frommodestomovementinthebehaviorofcaenorhabditiselegans.plosone5,e13914,(2010).

14vogelstein,j.t.,vogelstein,j.t.,park,y.,park,y.,ohyama,t.,kerr,r.a.,kerr,r.a.,truman,j.w.,truman,j.w.,priebe,c.e.,priebe,c.e.,zlatic,m.&zlatic,m.discoveryofbrainwideneural-behavioralmapsviamultiscaleunsupervisedstructurelearning.science(newyork,ny)344,386-392,(2014).

15berman,g.j.,choi,d.m.,bialek,w.&shaevitz,j.w.mappingthestructureofdrosophilidbehavior.(2013).

16croll,n.a.componentsandpatternsinthebehaviourofthenematodecaenorhabditiselegans.journalofzoology176,159-176,(1975).

17pierce-shimomura,j.t.,morse,t.m.&lockery,s.r.thefundamentalroleofpirouettesincaenorhabditiseleganschemotaxis.journalofneuroscience19,9557-9569,(1999).

18gray,j.m.,hill,j.j.&bargmann,c.i.acircuitfornavigationincaenorhabditiselegans.proceedingsofthenationalacademyofsciencesoftheunitedstatesofamerica102,3184-3191,(2005).

19miller,a.c.,thiele,t.r.,faumont,s.,moravec,m.l.&lockery,s.r.step-responseanalysisofchemotaxisincaenorhabditiselegans.journalofneuroscience25,3369-3378,(2005).

20jhuang,h.,garrote,e.,yu,x.,khilnani,v.,poggio,t.,steele,a.d.&serre,t.automatedhome-cagebehaviouralphenotypingofmice.naturecommunications1,68,(2010).

21stewart,a.,liang,y.,kobla,v.&kalueff,a.v.towardshigh-throughputphenotypingofcomplexpatternedbehaviorsinrodents:focusonmouseself-groominganditssequencing.behaviouralbrain…,(2011).

22ohayon,s.,avni,o.,taylor,a.l.,perona,p.&egnor,s.e.r.automatedmulti-daytrackingofmarkedmicefortheanalysisofsocialbehavior.journalofneurosciencemethods,1-25,(2013).

23dechaumont,f.,coura,r.d.-s.,serreau,p.,cressant,a.,chabout,j.,granon,s.&olivo-marin,j.-c.computerizedvideoanalysisofsocialinteractionsinmice.naturemethods9,410-417,(2012).

24kabra,m.,robie,a.a.,rivera-alba,m.,branson,s.&branson,k.jaaba:interactivemachinelearningforautomaticannotationofanimalbehavior.naturemethods10,64-67,(2013).

25weissbrod,a.,shapiro,a.,vasserman,g.,edry,l.,dayan,m.,yitzhaky,a.,hertzberg,l.,feinerman,o.&kimchi,t.automatedlong-termtrackingandsocialbehaviouralphenotypingofanimalcolonieswithinasemi-naturalenvironment.naturecommunications4,2018,(2013).

26spink,a.j.,tegelenbosch,r.a.,buma,m.o.&noldus,l.p.theethovisionvideotrackingsystem--atoolforbehavioralphenotypingoftransgenicmice.physiology&behavior73,731-744,(2001).

27tort,a.b.l.,neto,w.p.,amaral,o.b.,kazlauckas,v.,souza,d.o.&lara,d.r.asimplewebcam-basedapproachforthemeasurementofrodentlocomotionandotherbehaviouralparameters.journalofneurosciencemethods157,91-97,(2006).

28gomez-marin,a.,partoune,n.,stephens,g.j.,louis,m.&brembs,b.automatedtrackingofanimalpostureandmovementduringexplorationandsensoryorientationbehaviors.plosone7,e41642,(2012).

29colgan,p.w.quantitativeethology.(johnwiley&sons,1978).

30fox,e.b.,sudderth,e.b.,jordan,m.i.&willsky,a.s.inproc.internationalconferenceonmachinelearning(2008).

31fox,e.b.,sudderth,e.b.,jordan,m.i.&willsky,a.s.bayesiannonparametricinferenceofswitchingdynamiclinearmodels.ieeetransactionsonsignalprocessing59,(2011).

32johnson,m.j.&willsky,a.s.thehierarchicaldirichletprocesshiddensemi-markovmodel.arxivabs/1203.3485,(2012).

33teh,y.w.,jordan,m.i.&beal,m.j.hierarchicaldirichletprocesses.journaloftheamerican…,(2006).

34geman,s.&geman,d.stochasticrelaxation,gibbsdistributions,andthebayesianrestorationofimages.ieeetrans.patternanal.mach.intell.6,721-741,(1984).

35wallace,k.j.&rosen,j.b.predatorodorasanunconditionedfearstimulusinrats:elicitationoffreezingbytrimethylthiazoline,acomponentoffoxfeces.behavneurosci114,912-922,(2000).

36fendt,m.,endres,t.,lowry,c.a.,apfelbach,r.&mcgregor,i.s.tmt-inducedautonomicandbehavioralchangesandtheneuralbasisofitsprocessing.neuroscibiobehavrev29,1145-1156,(2005).

37andré,e.,conquet,f.,steinmayr,m.,stratton,s.c.,porciatti,v.&becker-andré,m.disruptionofretinoid-relatedorphanreceptorbetachangescircadianbehavior,causesretinaldegenerationandleadstovacillansphenotypeinmice.theembojournal17,3867-3877,(1998).

38liu,h.,kim,s.-y.,fu,y.,wu,x.,ng,l.,swaroop,a.&forrest,d.anisoformofretinoid-relatedorphanreceptorβdirectsdifferentiationofretinalamacrineandhorizontalinterneurons.naturecommunications4,1813,(2013).

39eppig,j.t.,blake,j.a.,bult,c.j.,kadin,j.a.,richardson,j.e.&group,m.g.d.themousegenomedatabase(mgd):facilitatingmouseasamodelforhumanbiologyanddisease.nucleicacidsresearch43,d726-736,(2015).

40masana,m.i.,sumaya,i.c.,becker-andre,m.&dubocovich,m.l.behavioralcharacterizationandmodulationofcircadianrhythmsbylightandmelatonininc3h/henmicehomozygousfortherorbetaknockout.americanjournalofphysiology.regulatory,integrativeandcomparativephysiology292,r2357-2367,(2007).

41glickfeld,l.l.,andermann,m.l.,bonin,v.&reid,r.c.cortico-corticalprojectionsinmousevisualcortexarefunctionallytargetspecific.natureneuroscience16,219-226,(2013).

42mei,y.&zhang,f.moleculartoolsandapproachesforoptogenetics.biologicalpsychiatry71,1033-1038,(2012).

43lashley,k.s.(edlloydajeffress)(psycholinguistics:abookofreadings,1967).

44sherrington,c.theintegrativeactionofthenervoussystem.thejournalofnervousandmentaldisease,(1907).

45bizzi,e.,tresch,m.c.,saltiel,p.&d'avella,a.newperspectivesonspinalmotorsystems.naturereviewsneuroscience1,101-108,(2000).

46drai,d.,benjamini,y.&golani,i.statisticaldiscriminationofnaturalmodesofmotioninratexploratorybehavior.journalofneurosciencemethods96,119-131,(2000).

47brown,t.g.inproceedingsoftheroyalsocietyoflondonseriesb(1911).

48crawley,j.n.behavioralphenotypingofrodents.comparativemedicine53,140-146,(2003).

49anderson,d.j.&perona,p.towardascienceofcomputationalethology.neuron84,18-31,(2014).

50berg,h.c.&brown,d.a.chemotaxisinescherichiacolianalysedbythree-dimensionaltracking.nature239,500-504,(1972).

51berg,h.c.chemotaxisinbacteria.annualreviewofbiophysicsandbioengineering4,119-136,(1975).

52berg,h.c.bacterialbehaviour.nature254,389-392,(1975).

53hong,w.,kim,d.-w.&anderson,d.j.antagonisticcontrolofsocialversusrepetitiveself-groomingbehaviorsbyseparableamygdalaneuronalsubsets.cell158,1348-1361,(2014).

54lin,d.,boyle,m.p.,dollar,p.,lee,h.,lein,e.s.,perona,p.&anderson,d.j.functionalidentificationofanaggressionlocusinthemousehypothalamus.nature470,221-226,(2011).

55swanson,l.w.cerebralhemisphereregulationofmotivatedbehavior.brainresearch886,113-164,(2000).

56aldridge,j.w.&berridge,k.c.codingofserialorderbyneostriatalneurons:a"naturalaction"approachtomovementsequence.thejournalofneuroscience:theofficialjournalofthesocietyforneuroscience18,2777-2787,(1998).

57aldridge,j.w.,berridge,k.c.&rosen,a.r.basalganglianeuralmechanismsofnaturalmovementsequences.canadianjournalofphysiologyandpharmacology82,732-739,(2004).

58jin,x.,tecuapetla,f.&costa,r.m.basalgangliasubcircuitsdistinctivelyencodetheparsingandconcatenationofactionsequences.naturepublishinggroup17,423-430,(2014).

59tresch,m.c.&jarc,a.thecaseforandagainstmusclesynergies.currentopinioninneurobiology19,601-607,(2009).

60flash,t.&hochner,b.motorprimitivesinvertebratesandinvertebrates.currentopinioninneurobiology15,660-666,(2005).

61bizzi,e.,cheung,v.c.k.,d'avella,a.,saltiel,p.&tresch,m.combiningmodulesformovement.brainresearchreviews57,125-133,(2008).

62tresch,m.c.,saltiel,p.&bizzi,e.theconstructionofmovementbythespinalcord.natureneuroscience2,162-167,(1999).

63berwick,r.c.,okanoya,k.,beckers,g.j.l.&bolhuis,j.j.songstosyntax:thelinguisticsofbirdsong.trendsincognitivesciences15,113-121,(2011).

64wohlgemuth,m.j.,sober,s.j.&brainard,m.s.linkedcontrolofsyllablesequenceandphonologyinbirdsong.journalofneuroscience30,12936-12949,(2010).

65markowitz,j.e.,ivie,e.,kligler,l.&gardner,t.j.long-rangeorderincanarysong.ploscomputationalbiology9,e1003052,(2013).

66fentress,j.c.&stilwell,f.p.letter:grammarofamovementsequenceininbredmice.nature244,52-53,(1973).

选择的实施例

尽管以上说明和所附权利要求公开了本发明的多个实施例,但是在以下进一步的实施例中还公开了本发明的其它替代方面。

1.一种用于分析对象的运动以将其分成模块的方法,所述方法包括:

使用计算模型来处理表示所述对象的运动的三维视频数据,以将所述视频数据划分成至少一组模块和所述模块之间的至少一组转移统计数据;以及

将所述至少一组模块分配给表示动物行为类型的类别。

2.根据实施例1的方法,所述处理包括以下步骤:在所述视频数据中将所述对象从背景中分离。

3.根据实施例2的方法,所述处理进一步包括以下步骤:针对于每个帧的共同坐标系,在所述视频数据的一组帧上识别所述对象的特征的定向。

4.根据实施例3的方法,所述处理进一步包括以下步骤:在所述一组帧的至少子组中修改所述对象的所述定向,使得所述特征定向在相对于所述坐标系的相同方向上,以输出一组对齐帧。

5.根据实施例4的方法,所述处理进一步包括以下步骤:使用主成分分析(pca)处理所述对齐帧,以输出姿势动态数据,其中,所述姿势动态数据表示每个对齐帧中所述对象通过主成分空间的姿势。

6.根据实施例4的方法,所述处理进一步包括以下步骤:使用多层感知器(mlp)处理所述对齐帧,以输出姿势动态数据,其中,所述姿势动态数据表示每个对齐帧中的所述对象通过流形空间的姿势。

7.根据实施例5的方法,所述处理进一步包括以下步骤:使用计算模型处理所述对齐帧,以将所述姿势动态数据暂时分割成不同组的模块,其中位于一组模块中的所有亚秒级模块表现出相似的姿势动态。

8.根据实施例7的方法,其中,所述模型是切换线性动态系统(slds)模型。

9.根据实施例7的方法,其中,所述多层感知器是结构化变分自动编码器。

10.根据实施例6的方法,其中,使用梯度下降和反向传播训练所述模型。

11.根据实施例7的方法,其中,利用mlp处理所述对齐帧与利用所述计算模型处理所述帧同时发生。

12.根据实施例5的方法,其进一步包括以下步骤:显示在所述三维视频数据中以高于阈值的频率出现的每组模块的表示。

13.根据实施例1的方法,其中,所述计算模型包括:将所述亚秒级模块建模为向量自回归过程,所述向量自回归过程表示通过pca空间的定型轨迹(stereotypedtrajectory)。

14.根据实施例1的方法,其中,所述计算模型包括:使用隐马尔可夫模型来建模亚秒级模块之间的转移时段。

15.根据实施例1的方法,其中,所述三维视频数据首先被处理以输出多维向量空间中的一系列点,其中,每个所述点表示所述对象的三维姿势动态。

16.根据实施例1-10中任一项所述的方法,其中,所述对象是动物研究中的动物。

17.根据实施例1-10中任一项所述的方法,其中,所述对象是人类。

18.一种用于分析对象的运动以将其分成模块的方法,所述方法包括:

对表示所述对象的运动的三维视频数据进行预处理,以将所述对象从背景中分离;

在所述视频数据的一组帧上,识别所述对象的特征相对于所有帧的共同坐标系的定向;

在所述一组帧的至少子组中,修改所述对象的所述定向,使得所述特征定向在相对于所述坐标系的相同方向上,以输出一组对齐帧;

使用多层感知器(mlp)处理所述对齐帧,以输出姿势动态数据,其中,所述姿势动态数据表示每个对齐帧中的所述对象在三维图形空间中的姿势;

处理所述对齐帧,以将所述姿势动态数据暂时分割成不同组的亚秒级模块,其中,一组模块中的所有亚秒级模块表现出相似的姿势动态;以及

显示在所述三维视频数据中以高于阈值的频率出现的各个组模块的表示。

19.根据实施例18的方法,其中,使用无模型算法来执行处理所述对齐帧的步骤。

20.根据实施例19的方法,其中,所述无模型算法包括计算自相关图(auto-correlogram)。

21.根据实施例18的方法,其中,使用基于模型的算法来执行处理所述对齐帧的步骤。

22.根据实施例21的方法,其中,所述基于模型的算法是ar-hmm算法。

23.根据实施例21的方法,其中,所述基于模型的算法是slds算法。

24.根据实施例18的方法,其中,所述多层感知器是svae。

25.根据实施例24的方法,其中,使用变分推理目标并执行梯度上升来训练所述svae和mlp。

26.根据实施例25的方法,其中,同时训练所述svae和mlp。

27.根据实施例18-22中任一项所述的方法,其中,所述对象是动物研究中的动物。

28.根据实施例18-22中任一项所述的方法,其中,所述对象是人类。

29.根据实施例18-22中任一项所述的方法,其中,在使所述对象的大小发生变化的足够长的时间段内分析所述对象。

30.根据实施例25的方法,其中,使用基于不同小鼠或大鼠品系的数据训练所述svae和mlp。

31.一种分类测试化合物的方法,所述方法包括:

在将所述测试化合物施用到测试对象之后,识别所述测试对象中的包括一组模块的测试行为表示;

将所述测试行为表示与多个参考行为表示进行比较,其中,每个参考行为表示表示每类药物;以及

如果所述测试行为表示被分类器识别为与表示一类药物的所述参考行为表示匹配,则确定出所述测试化合物属于所述一类药物。

32.根据实施例31的方法,其中,所述测试行为表示通过以下步骤来识别:

接收表示所述测试对象的运动的三维视频数据;

使用计算模型来处理所述三维数据,以将所述数据划分为至少一组模块和所述模块之间的至少一组转移时段;以及

将所述至少一组模块分配到表示动物行为类型的类别。

33.根据实施例32的方法,其中,所述计算模型包括将亚秒级模块建模为向量自回归过程,所述向量自回归过程表示通过主成分分析(pca)空间的定型轨迹。

34.根据实施例32的方法,其中,所述计算模型包括:将所述亚秒级模块建模为同时拟合的slds,同时mlp学习用于所述亚秒级模块的特征流形。

35.根据实施例34的方法,其中,所述mlp是svae。

36.根据实施例33的方法,其中,所述计算模型包括:使用隐马尔可夫模型对转移期进行建模。

37.根据实施例31–36中任一项所述的方法,其中,所述三维视频数据首先被处理,以输出多维向量空间中的一系列点,其中,每个点表示所述测试对象的3d姿势动态。

38.根据实施例31–37中任一项所述的方法,其中,所述测试化合物选自由小分子、抗体或其抗原结合片段、核酸、多肽、肽、拟肽、多糖、单糖、类脂、糖胺聚糖以及它们的组合构成的群组。

39.根据实施例31–38中任一项所述的方法,其中,所述测试对象是动物研究中的动物。

40.一种用于分析对象的运动以将其分成模块的方法,所述方法包括:

接收表示在向所述对象施用试剂之前和之后所述对象的运动的三维视频数据;

预处理所述三维视频数据,以将所述对象从背景中分离;

在所述视频数据的一组帧上,识别所述对象的特征相对于所有帧的共同坐标系的定向;

在所述一组帧的至少子组中,修改所述对象的定向,使得所述特征定向在相对于所述坐标系的相同方向上,以输出一组对齐帧;

使用多层感知器(mlp)处理所述对齐帧,以输出姿势动态数据,其中,所述姿势动态数据表示每个对齐帧中所述对象在三维特征流形中的姿势;

利用计算模型处理所述对齐帧,以将所述姿势动态数据暂时分割成不同组的模块,其中,一组亚秒级模块组中的所有亚秒级模块表现出相似的姿势动态;

确定在向所述对象施用所述试剂之前每组亚秒级模块中的模块数量;

确定在向所述对象施用所述试剂之后每组亚秒级模块中的模块数量;

将向所述对象施用所述试剂之前和之后每组亚秒级模块中的模块数量进行比较;以及

输出在向所述对象施用所述试剂之前和之后每组模块中的模块数量的表达频率变化的指示。

41.根据实施例40的方法,其中,基于与表示行为模块的参考数据的比较,将每组亚秒级模块分类成预定行为模块。

42.根据实施例40或41的方法,将在向所述对象施用所述试剂之前和之后每组模块组中的模块数量的所述表达频率变化与表示在暴露于已知类别的试剂之后模块的表达频率变化的所述参考数据进行比较。

43.根据实施例42的方法,其进一步包括以下步骤:基于与表示暴露于已知类别的试剂之后的所述频率变化的参考数据的比较,将所述试剂分类为多个所述已知类别的试剂中的一者。

44.根据实施例40-42中任一项所述的方法,其中,所述试剂是药用活性化合物。

45.根据实施例40-42中任一项所述的方法,其中,所述试剂是视觉刺激或听觉刺激。

46.根据实施例40-42中任一项所述的方法,所述试剂是气味剂。

47.根据实施例40-46中任一项所述的方法,其中,所述对象是动物研究中的动物。

48.根据实施例40-46中任一项所述的方法,所述对象是人类。

本发明的计算机和硬件安装

首先应理解,本文的公开内容可以使用任何类型的硬件和/或软件来实施,并且可以是预先编程的通用计算设备。例如,该系统可以使用服务器、个人计算机、便携式计算机、瘦客户端或任何合适的一个或多个设备来实施。本发明和/或其组件可以是单个位置处的单个设备,或者在单个或多个位置处的多个设备,在所述位置处,它们使用任何适当的通信协议通过任何通信介质(例如电缆、光纤电缆或无线方式)连接在一起。

还应注意的是,为了在本文中将本公开示出和讨论为具有执行特定功能的多个模块。应该理解,为了清楚起见,这些模块仅仅基于其功能而被示意性示出,并且不需要代表具体的硬件或软件。在这方面,这些模块可以是用于大体上执行所讨论的特定功能的硬件和/或软件。此外,这些模块可以在本公开中被组合在一起,或者根据所期望的特定功能被划分为附加模块。因此,本公开不应被解释为限制本发明,而仅仅被理解为说明其一个示例实施方式。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离,并且通常通过通信网络进行交互。客户端和服务器之间的关系是通过在各自的计算机上运行的并具有客户-服务器关系的计算机程序而产生的。在一些实施中,服务器将数据(例如,html页面)发送到客户端设备(例如,用于向与客户端设备交互的用户显示数据和从用户接收用户输入)。可以从服务器处的客户端设备接收在客户端设备处生成的数据(例如,用户交互的结果)。

本说明书中描述的主题的实施可以在计算系统中实施,该计算系统包括后端组件(例如,作为数据服务器),或者包括中间组件(例如应用服务器),或者包括前端组件(例如,具有图形用户界面或web浏览器的客户端计算机,通过图形用户界面或web浏览器,用户可以与本说明书中所述的主题的实施方式交互),或者包括一个或多个这样的后端组件、中间组件或前端组件的任意组合。系统的组件可以通过数字数据通信的任何形式或介质(例如,通信网络)互连。通信网络的示例包括局域网(“lan”)和广域网(“wan”)、互联网络(例如,因特网)和点对点网络(例如,临时点对点网络)。

本说明书中描述的主题和操作的实施可以在数字电子电路或计算机软件、固件或硬件中实施,包括本说明书中公开的结构及其结构等同物,或其中一个或多个结构的组合。本说明书中描述的主题的实施可以实施为编码在计算机存储介质上的一个或多个计算机程序(即计算机程序指令的一个或多个模块),或用于由数据处理设备执行或控制数据处理设备的操作。可替代地或者此外,程序指令可以被编码在人工生成的传播信号上,例如,机器生成的电、光或电磁信号,这些传播信号用于编码信息以发送给合适的接收设备,以通过数据处理设备执行。计算机存储介质可以是计算机可读存储设备、计算机可读存储基板、随机或串行存取存储器阵列或设备,或者它们中的一个或多个的组合,或被包括在其中。此外,虽然计算机存储介质不是传播信号,但计算机存储介质可以是在人工生成的传播信号中编码的计算机程序指令的源或目的地。计算机存储介质也可以是一个或多个独立的物理组件或介质(例如,多个cd、磁盘或其它存储设备)或被包括在其中。

本说明书中所述的操作可以被实施为由“数据处理设备”对存储在一个或多个计算机可读存储设备上的数据或从其它来源接收的数据执行的操作。

术语“数据处理设备”涵盖了用于处理数据的各种设备、装置和机器,例如包括可编程处理器、计算机、片上系统,或多个上述设备,或上述设备的组合。这些设备可以包括专用逻辑电路,例如fpga(现场可编程门阵列)或asic(专用集成电路)。除了硬件之外,该设备还可以包括为所述计算机程序创建执行情景的代码,例如构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时情景、虚拟机或其中一个或多个的组合。该设备和执行情景可以实现各种不同的计算模型基础设施,如web服务、分布式计算和网格计算基础设施。

计算机程序(也称为程序、软件、软件应用程序、脚本或代码)可以用任何形式的编程语言编写,包括编译或解释语言、声明性语言或过程语言,并且可以以任何形式部署,包括作为独立程序或作为适合在计算情景中使用的模块、组件、子程序、对象或其它单元。计算机程序可能(但不一定)对应于文件系统中的文件。程序可以存储在保存其它程序或数据(例如,存储在标记语言文档中的一个或多个脚本)的文件的一部分中,可以存储在专用于所述程序的单个文件中,也可以存储在多个协调文件中(例如,存储一个或多个模块、子程序或部分代码的文件)。计算机程序可以被部署在一台计算机或多台计算机上执行,这些计算机位于一个站点或分布在多个站点上,并通过通信网络互连。

本规范中描述的过程和逻辑流可以由执行一个或多个计算机程序的一个或多个可编程处理器执行,以通过对输入数据的操作和产生输出来执行操作。这些过程和逻辑流程也可以由专用逻辑电路来执行,并且设备也可以实现,例如,fpga(现场可编程门阵列)或asic(应用专用集成电路)。

本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程处理器执行,以通过对输入数据进行操作并生成输出来执行操作。这些过程和逻辑流程也可以由专用逻辑电路(例如,fpga(现场可编程门阵列)或asic(专用集成电路))来执行,并且设备也可以被实现为专用逻辑电路。

举例来说,适用于执行计算机程序的处理器包括通用和专用微处理器,以及任何类型的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于根据指令执行动作的处理器以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个海量存储设备(例如,磁性、磁光盘或光盘),或者可操作地连接到存储设备以从存储设备接收数据或将数据发送到存储设备或者两者同时执行。然而,计算机不需要这种设备。此外,可以将计算机嵌入另一设备中,例如移动电话、个人数字助理(pda:apersonaldigitalassistant)、移动音频或视频播放器、游戏控制台、全球定位系统(gps:aglobalpositioningsystem)接收器或便携式存储设备(例如,通用串行总线(usb)闪存驱动器)等等。适于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储设备,例如,包括半导体存储设备(例如,eprom、eeprom和闪存设备);磁盘(例如,内部硬盘或可移动磁盘);磁光盘;以及cd-rom和dvd-rom磁盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

结论

以上所述的各种方法和技术提供了多种实施本发明的方法。当然,应该理解,并不是所述的所有目标或优点都可以按照本文描述的任何具体实施例来实现。因此,例如,本领域的技术人员将认识到,这些方法可以以实现或优化本文所教示的一个或多个优点的方式来实现,而不必实现本文所述或所建议的其它目标或优点。这里提到了各种替代方案。应该理解,一些实施例具体地包括一个、另一个或几个特征,而另一些实施例则具体地排除了一个、另一个或几个特征,而还有一些实施例则通过包含一个、另一个或几个有利特征来规避特定特征。

此外,本领域技术人员将认识到来自不同实施例的各种特征的适用性。类似地,上面讨论的各种元素、特征和步骤以及每一种元素、特征或步骤的其它已知等价物都可以由本领域技术人员以不同的组合使用,以按照本文所述的原则执行方法。在不同的实施例中,各种元素、特征和步骤之中一些元素、特征和步骤将被具体地包括,而其它步骤被具体地排除。

尽管已经在某些实施例和示例的背景下公开了本申请,但是本领域的技术人员将理解,本申请的实施例扩展到具体公开的实施例以外的其它替代实施例和/或使用和修改及其等同物。

在一些实施例中,在描述本申请的特定实施例(特别是在以下某些权利要求的上下文中)中使用的术语“一”、“一个”和“该”以及类似的参考可以被解释为既包括单个也包括多个。这里对数值范围的引用仅仅是用作单独提及落入该范围内的每个单独值的便捷方法。除非在此另有说明,否则每个单独的值都被包含在说明书中,就好像它在此被单独列举一样。在此描述的所有方法都可以以任何合适的顺序执行,除非在此另有说明或者与上下文明显矛盾。使用了任何和所有示例或示例性语言(例如,“这样的”)。在这里提供的关于某些实施例的内容只是为了更好地说明应用,而不是对以其它方式声称的应用范围造成限制。本说明书中的任何语言都不应被解释为表示任何对应用实践来说必不可少的非要求保护的元素。

在此描述了本申请的某些实施例。这些实施例的变化对于本领域的普通技术人员在阅读上述说明后将变得显而易见。预期技术人员可以适当地使用这种变化,并且可以以与本文具体所述不同的方式来实施本申请。因此,本申请的许多实施例包括适用法律所允许的所附权利要求中所述主题的所有修改和等效内容。此外,本申请涵盖上述元件在其所有可能的变型中的任何组合,除非在此另有说明或者与上下文明显矛盾。

已经描述了主题的特定实施方式。其它实施方式在以下权利要求的范围内。在某些情况下,权利要求中所述的操作可以按不同的顺序执行,并且仍能取得期望的结果。此外,附图中所描述的过程不一定需要所示出的特定顺序或连续的顺序来取得期望的结果。

此处所引用的所有专利、专利申请、专利申请出版物以及其它材料(例如文章、书籍、说明书、出版物、文献、物品等),在此通过引用整体并入本文用于所有目的,但除了与其相关的任何起诉档案历史记录,与本文件不一致或与本文件相冲突的任何专利或可能对本文件目前或以后最广泛的权利要求范围有限制影响的任何专利外,均在此全部纳入本文件。例如,如果说明、定义和/或使用与任何合并材料相关的术语和与本文件相关的术语之间存在任何不一致或冲突,则应以本文件中的说明、定义和/或使用为准。

最后,应该理解,本文所公开的申请的实施例说明了本申请的实施例的原理。可以在本申请的范围内可以采用的其它修改。因此,作为示例而非限制,可以根据本文的启示采用本申请的实施例的替代构造。因此,本申请的实施例不限于如所示或所描述的实施例。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1