持续学习图像流处理系统的制作方法

文档序号:26008862发布日期:2021-07-23 21:28阅读:74来源:国知局
持续学习图像流处理系统的制作方法

相关申请

本申请要求申请号为62/776,630,于2018年12月7日提交的美国临时申请的优先权。

本发明涉及用于通过安排以观察环境的传感器获取的数据对真实世界环境的模型进行持续自适应开发的系统和方法。



背景技术:

例如工厂车间、交通枢纽和分拣及分配的场所等工作环境都涉及人员、产品和设备的复杂交互。为了加强安全和交通管理及控制,这些地方的视频监控变得越来越普遍。此类系统捕获的视频数据随后进行自动分析,以检测事故情况或其他异常。

与上述类型的视频数据的自动分析相关联的一个难点为被监控场景的不断变化的的性质。交通枢纽的典型特征是快速移动的汽车、公共汽车和其他车辆。机场登机口不断地经历飞机、服务车辆以及人员的抵达和离开。并且工厂经常挤满了人和机器。另外,场地的照明条件可能会在几分钟、几小时或几天的过程中发生变化,并且由于阴影等原因,监控数据的不一致可能导致自动过程在其分析中记录误报和漏报。

因此,尽管生成发生在全世界范围的物理现象的越来越准确的数字记录对于分析和预测很有价值,但是迄今为止还没有完整系统的实现,该完整系统从外部事件捕获数字流,开发并迭代地精化(refine)外部环境的内部模型,并生成事件的数字概括,该概括可以随着内部模型的改进而扩张。现有技术无法容易地将新设备捕获的新信息合并到现有的模型中,并且不具有用于持续集成和适应于变化的环境的通用机制。



技术实现要素:

本发明的实施例提供了一种系统,该系统从单个传感器的数据和不完全甚至不存在的传感器环境的模型开始。该系统持续地适应从传感器获取的数据并从中学习,并且通过合并额外的传感器持续地增长,系统从额外的传感器中适应和学习。该系统没有限制用于捕获本地环境各个方面的传感器的数量,系统会持续地适应本地环境的变化。

在一个实施例中,用于对不断增长的数据流的持续分析的持续改进的系统包括一个或多个图像源和/或传感器数据,该图像源和/或传感器数据被通信地耦合至计算资源。该计算资源被配置为存档数据流,选择用于分析的流部分,对该部分中感兴趣的项目进行注释,并且根据数据流的对象的迭代精化的模型对感兴趣的项目进行分析。计算资源同时开发和精化在数据流中表达的环境和对象的数字概括的表达。该概括的表达适用于质量控制,因此适于增量改进,并且当作为更新的对象模型布置到计算机资源时,允许数据流的改进的注释和分析。

在某些情况下,此类系统的输出还可以用于生成解释数据流内容的报告。再者,此类系统的实例可以使熟悉对象报告的内容的人能够提供关于源内容的准确反馈,从而推动模型的再训练和适应。在某些情况下,预训练的通用对象模型可以来自外部源和/或初始模型,该初始模型可以由初始部署之前的手动注释和训练提供。再者,在此类系统中,在线训练的系统模型可以同时地用于分析数据流。通过改变模型超参数、使用那些新参数进行训练和根据现有的模型进行验证现持续地生成新对象模型,本发明能够通过模型参数空间进行定向优化搜索,并且实现持续分析的改进。

本发明的这些和更多的实施例将在下文进行详细描述。

附图说明

本发明通过举例而非限制的方式在附图的图形中示出,其中:

图1示出了根据本发明实施例的持续学习数据流处理系统的示例,该系统包括由远程网络连接的硬件设备捕获的图像和传感器数据流的反馈回路。

图2示出了图1所示的持续学习数据流处理系统的训练周期的示例。

图3示出了根据本发明实施例的向新的原始传感器数据添加场景配置的示例。

图4示出了根据本发明实施例的场景分析和精确度监控的示例。

图5示出了根据本发明实施例的用于利用先前迭代的精确度测量值的机器学习模型的训练序列的示例。

图6示出了根据本发明实施例的一系列自动编码器训练和输出的示例,该输出向从现有模型改变的模型提供数据,以分析新数据源。

具体实施方式

为了更好地理解本发明,在描述技术细节之前首先展示示例是有帮助的。在这个例子中,使用公共汽车站作为要建模的真实世界环境。公共汽车站由公共汽车站的监控系统的传感器观察。传感器提供数据至公共汽车站的监控系统的处理单元,且处理单元操作数据以提供帮助优化运行效率和交通系统的安全性的输出,其中公共汽车站是该交通系统的组成部分。安装在公共汽车站旁的摄像机捕捉公共汽车的到达与离开、乘客排队和上车、自行车停放架或轮椅升降机的使用等图像。此外,图像表示出公共汽车司机的存在、转向灯或其他灯的正确使用、确认遵守交通灯、和道路上任何障碍物的位置等。

图像是对公共汽车站、其使用者和其特征的一种形式的测量。为了准确地报告来自公共汽车站的这些测量,使用计算机视觉算法和机器学习模型来生成场景的关键要素(即在特定时间或时间段的公共汽车站的情况)的数字表达,以从图像和(可选地)其他传感器流中提取数据。这些算法和模型显式地和隐式地对数据流中的特征进行编码,这些特征表示人员、门、坡道和灯等的存在、位置、状态和活动,其出于报告的目的被追踪。因此典型的报告从时间线的角度总结了在公共汽车站的一天的活动,该时间线显示公共汽车的抵达和离开、与时刻表的一处或多处差异、安全问题和总客流量的信息等。

一个用于给定公共汽车站的持续监控系统的实例将包括多个数据捕获设备;该设备的数量无论多少都足以构建公共汽车站活动的数字表达、设计算法和训练模型,从而提取所需的特征来报告正在发生的事件。如果要监控额外的公共汽车站,可以采用相同的用数据捕获设备来“仪表化”该公共汽车站(及每个连续的公共汽车站)的程序。但是,由于每个公共汽车站的物理环境不同,因此可能会出现以前的工作对完成新的部署几乎没用的情况(如果有的话)。环境的每一处不同,例如日出/日落时间、季节性天气、公共汽车站方向、交通、公共汽车的尺寸和/或配置和外观(clothing)等,都需要做出新的努力来适应。

为了启动持续改进过程,本发明利用了预训练的视觉模型和预先存在的视觉算法,尽管这些模型和算法并非特定于在公共汽车站可能会遇到(因此需要识别)的对象,但是足以创建基线,从该基线进一步提高系统的精确度。在某些情况下,可以通过在与公共汽车站监控系统的对象匹配的现有数据集上训练模型以建立基线。在没有预先存在的数据或模型的情况下,可以通过使用聚类算法以通过像素相似性来组织对象,从而创建模型。通过这些基线中的一个,可以测量出在实际监控情况中捕获的哪些对象聚类与现有模型性数据足够不同,并因此批准添加至后续模型的训练中。这些改进的后续模型与现有模型一起在沙盒环境中进行测试,并通过检查现有模型和新模型不一致的地方来测量表现的差异。当新模型的表现胜过现有模型的表现时,新模型将取代现有模型。

为了使例如这样的学习系统能够完全地自适应,学习系统不仅必须响应于来自传感器流的数据的变化,还必须响应于可用算法和模型的更新。当新技术出现时,学习系统必须能够并入新技术。新技术还与现有模型一起进行测试,并且在它们被引入系统之前经历它们自己的训练周期。新机器学习的方法的快速发展是一个很好的例子。将新算法和模型与现有的算法和模型放置在一起,并参照现有基线的结果评估它们的输出。可以采用组合模型的组合结果,或者如果现有的模型较差,则替换现有模型。特别地,这种方法允许合并由现有基线的输出直接训练的半监督和无监督的方法。

系统中的每一个持续改进过程都通过差异或比较的方法而建立,并且通过对以前结果的测量和验证而延续。这些步骤中的每个都是自动进行的,并且可以通过增加外部数据、模型和算法、和步骤精确度的手动验证和确认而扩张。迭代地合并新模型并且使用现有模型和新模型之间推断的差异对现有模型进行再训练,将实现整个系统改进的加速和简化。由于持续改进是系统机制的一部分,所以系统也能适应环境的变化,这不同于静态算法和模型。

将模型的再训练和改进合并至整个系统的另一个好处是,可通过改变模型超参数以持续生成新对象模型。获取以这种方式的多个候选对象模型,用那些新参数训练它们,并且根据现有模型验证它们,从而能够通过模型的参数空间进行定向优化搜索。如果它们在精确度上取代了现有模型,则在每个训练周期的结尾仅保留最佳的候选。

当从头开始建立公共汽车站监控系统时,物理设计、算法设计、数据集和网络选择、数据集注释、模型训练和精确度验证的步骤通常手动进行。通常地,对每一个添加至系统的新公共汽车站都会重复此过程,尤其当公共汽车站不在同一个交通系统中时。另外地,环境改变(例如光照的季节性差异、新公共汽车模型的引入、道路建设引入的新交通模式等)可能会迫使数据集、模型和算法的修订。在具有双层巴士、左侧交通和夜间服务的新市场中的部署可能会引发更多的修订。最后,算法和模型本身的变化意味需要根据现有模型的改进版本以及随着它们改进的新算法和模型,来持续地评估传入数据。在持续学习的系统中需要的是,从不完美的精确度的最小的最初部署开始,并且随着其发展为不受规模限制的越来越准确的系统而适应。

在本发明的实施例中,持续学习数据流处理系统包括图像和传感器数据流的反馈回路,该图像和传感器数据流由远程网络连接的硬件设备捕获,其馈送至服务器,该服务器对流进行存档,选择用于分析的流的子集,对流子集中感兴趣的项目进行注释,并且根据流的对象的可精化模型分析所述项目,返回服从于质量控制和与原始数据流对比的数字概括表达,该数字概括表达能够通过升级所有系统设备的全系统释放机制实现分析功能的迭代改进、对象模型的迭代精化以及它们的部署。

参考附图可以最好地理解上述内容。在图1中,描绘了上述反馈回路10的示例。在这个回路中,源自观察/监控外部对象14a-14m的摄像机和/或其他传感器12a-12n的数据流通过系统,并由系统对其进行处理,从而引起传感器环境的模型、流分析功能、硬件设备和数据流流经的设备的软件配置的更新。在图1中,正常的从上到下的数据流动(由实线箭头表示)由反馈数据、配置、模型和代码流补充,它们如虚线所示地向上行进(即在系统内反向传播)。

在反馈回路10内经过的数据流是来自摄像机和/或其他传感器12a-12n的图像和传感器数据流。例如,其特征可以是对应于外部环境的摄像机或一个或多个传感器测量的原始数字信号(例如图像、声音、温度、压力等)的持续捕获和传递。在图1所示的示例中,这被示为通过一个或多个摄像机和/或一个或多个传感器12a-12n对外部对象14a-14m的捕获,和将捕获的信号对监控系统的传输。

一个或多个摄像机和/或一个或多个传感器12a-12n是远程的网络连接硬件的示例。除了摄像机和其他传感器外,这种硬件可以包括放置在受监控的物理环境中的计算和/或信标硬件,其通过有线或无线通信方式自身联网,或者可以直接连接至本地计算设备,该计算设备可以生成信号并通过网络将测量传输到服务器以用于存档和分析。如图1所示,在一个或多个资源16a-16p处或通过一个或多个资源16a-16p处理/上传来自远程的网络连接硬件资源的数据,并且将其储存在原始数据存档18中。

基于生成流的环境的模型,然后通过联网的计算元件(例如,服务器)对来自存档18的持续数据流进行分析。流的子集被选择,然后基于子集对模型进行精化。例如,如图1所示的例子,根据摄像机/传感器观察的环境的模型,通过机器学习(ml)和数据处理元件20对来自存档18的原始数据由进行操作,然后将其储存在数据存储22中。模型可以被视为系统规范,其结合了版本化配置数据、分析算法和机器学习,使服务器能提取仪表化环境的捕获的数据流中的感兴趣的项目的数字概括。版本代表系统在给定时间内的可复写的表达。子集选择过程由算法的组合实现,这些算法从整个数据流中选择能够精化关于感兴趣项目的模型的数据流部分。在一个实施例中,这些算法实现以下项中的一个或多个:第一,所有相关传感器流的平衡采样,其通过时间、位置、幅度、设备、感兴趣项目的类别等进行平衡;第二,当信号被内容检索时,通过高维特征距离的分布进行采样;第三,通过信号的机器学习模型表达中的权重分布进行采样。可选地,也可以采用基于流内容的专家观测的流的人工辅助采样。在图1中,这个过程由数据验证/选择操作24表示,由报告数据生成26、网络/应用程序报告28和(可选的)外部评审30补充。

基于数据验证和选择,模型数据被更新32。如上所述,这包含流子集中感兴趣的项目的注释。为了执行此操作,使用了在数据流中时间地和空间地定位感兴趣项目的算法组合。这些算法首先测量并标记信号流中的变化幅度;其次,测量和标记数据流中的节奏/模式变化。可选地,也可以使用数据流中感兴趣的项目的类别的位置和时间的人工辅助注释。然后可以将更新的模型数据用于模型训练34。接收到的数据流通过分析算法运行,该分析算法返回以成套的上述注释形式的流的感兴趣项目的数字概括。因此,仪表化环境的模型是一个可精化的模型,因为它顺从于提高其精确度的迭代更新。例如,在图像流中更精确地定位感兴趣的项目的发生的配置更改,或可以通过附加新训练数据继续训练的机器学习模型。在图1中,此迭代过程由数据验证/选择、模型数据更新和模型训练过程之间的回路表示。

传感器环境的数字概括表达是由环境中的摄像机、传感器和信标捕获的数据流与系统中分析算法生成的注释组合成表达出感兴趣项目的统一模型。在图1中,这在从模型训练到代码/配置更新36的转换44处表示。为了允许质量控制,可以采用提供关于系统生成的注释的精确度的决策过程的算法的组合。例如,第一种,提供注释过程识别的改变模式的漂移和变化的测量的算法;第二种,提供模型版本之间模型输出差异的比较的算法;以及可选的第三种,提供与数据流或物理传感器环境进行比较的由系统生成的注释输出的人工辅助验证的算法。在图1中,这被标识为沙盒测试38。

如上所述,这些数字化的、概括的表达能够通过更新所有系统设备的全系统释放机制,实现分析功能的迭代改进、对象模型的迭代精化以及它们的部署。系统模型的初始版本使数据收集能够开始。该数据收集向反馈回路提供初始输入,并且将物理传感器环境的第一表达储存和部署在反馈回路中。随后,反馈使为系统模型选择的分析算法和机器学习模型超参数的改进版本成为可能。精化过程称为训练周期,并且不同的训练传递路径执行完成此功能所需的所有功能。

通过释放部署,参考了用配置、软件和机器学习模型更新系统组件以继续对进入数据流进行迭代处理的系统服务。在图1中,这由释放过程40和代码/配置和模型到监控系统的反馈46表示。

现在参考图2,示出了训练周期50的示例。这个重复序列的操作包括数据集的选择和预处理、训练模型生成、验证和调整。对象传感器数据的线性化路径(从初始捕获直到用于识别后续捕获数据的训练模型的生成)表示训练传递路径。在图2中,从左上角到右下角的数据流动就是这条传递路径。使用当前部署的ml模型52,传递路径从远程数据收集54开始。计算、摄像机、传感器和信标硬件的组合用于捕获和初步处理来自外部环境的数据流。该处理过的原始数据存储在数据存储器56中。

接下来是训练数据选择58。如上所述,这通过使用算法和来自传递路径的数据的选择(可选为人工)的组合来执行,以在模型训练中使用。然后使所得数据集60可用于后面的传递路径阶段。

图像流处理系统中的数据验证/选择程序(图1中的步骤24和图2中的步骤56)以多种方式进行。最简单地,将由于图像的随机选择所致的图像分类或识别与其他识别方法进行比较。这些方法包括但不限于机器视觉算法、模型的先前版本、在同一数据集的不同样本上训练的模型、或手动分类。与随机选择不同,验证过程还将偏向于趋于与分析的置信度分数低的图像类似的图像的选择。该过程还可以偏向于上述其他识别方法不适合模型的图像。此外,样本选择可以偏向于趋于与被验证过程的早期迭代归类为不正确的图像类似的图像。将验证过程的输出反馈回到模型训练过程是主动学习功能的本质。

给定在机器视觉传递路径中处理的图像流,有三个自然触发器用于启动主动或自适应学习过程。每当模型处理现有流时,输出上的验证步骤(手动或自动的)将捕获错误,包括模型感兴趣对象的误报和漏报。当错误率超过定义的界限时,将调用简单的主动学习过程,该过程从流中展示出与验证过程中发现的错误相似的子集图像。在一个实现中,相似性被定义为模型域的度量和其他简单度量的线性组合。源图像之间的余弦距离就是一个这样的简单度量。这样,当最初在流上没有限定合适的深度学习模型时,低相似度图像的聚类子集可用于初始主动学习过程。此外,当存在用于新图像流的合适的预训练模型时,它可以作为用于主动学习过程的图像选择基础,以支持在该模型上的迁移学习。最后,当新图像源被添加到正在运行的系统中时,现有模型度量中的聚集的正负样本的子集会被生成,以作为用于主动学习过程的输入。然后,从该过程生成的标签数据可以用作模型更新版本的补充训练数据。

返回到图2,在62处,数据集注释发生。随后,训练集64被创建以用于受训练的模型的创建,从而识别数据捕获的对象。这些训练集用于模型训练66以生成环境68的模型的不同版本。训练和验证模型的重复过程、更多数据集生成的回路68、以及生成更新模型所需的注释倾向于使每个连续训练的模型优于前一个模型。

深度学习系统的性能深受在训练集中定义为噪声以及通过部署模型处理的图像流的影响。图像噪声可以理解为图像中的伪影,该伪影将感兴趣的对象转换为非规范示例以用于识别目的。噪声的非详尽的列表是环境的影响,例如眩光、反射和阴影、由于树木、天空和无关活动引起的背景变化、由于雨、雪、灰尘、摄像机镜头障碍物引起的前景变化、以及感兴趣项目重叠和障碍物,特别是当多个项目出现在同一图像中时。由于图像噪声会出现误报和漏报。自动化噪声减轻过程迭代地减少了两者的发生。缺乏物理地改变摄像机环境的情况下,环境的影响是较难在算法上解决的问题之一。这是由于这些影响最频繁地导致图像流中识别的漏报。在这些情况下,通过平均过滤器将多张图像与较短或较长的曝光相结合是有效的。当图像中出现眩光或阴影的特征信号时,图像流可以这样被重新配置。通过识别噪声的特征信号和应用平均滤波器,前景变化性也在不修改曝光长度的情况下得到了改善。

背景变化性和外围图像噪声是图像流中误报的常见来源。当前景中感兴趣的项目更加静态或通过增加摄像机的帧速率使其可能更加静态时,这种变化性可以达到平均数。这些模式和变化性区域为可被特征信号识别的。可以通过裁剪提交给系统的图像过滤周边图像噪声,使它们集中在感兴趣的区域以用于检测。具有远程控制性能的摄像机(例如平移倾斜变焦摄像机)被重配置以排除持续的外围噪声。

当不具有感兴趣项目的图像在图像传递路径中持续引起误报时,可以创建额外的地面或背景图像种类以从感兴趣的种类中排除这些图像。在用新种类重新训练网络之前,应用更简单的噪声减轻过程很重要。这些添加的种类将是特定于摄像机的,除非摄像机始终如一地放置和配置。随着训练集随时间的推移而增长,感兴趣项目的样本空间变得完整得多,且来自背景的误报发生减少,并且用于背景伪影的继续训练的需求下降。当图像流中的项目重叠和阻塞变得频繁时,可以扩展模型训练集以包括局部的感兴趣的项目。这些扩展模型的精确度与局部项目的最大数量的可用性密切相关,从而扩展了训练过程。当训练集较小且具有少量变化时,这些问题的严重性也更大。降噪是将系统从极其详细的初始配置扩展到充分实现准确和通用的模型的关键方面之一。

在图2中,在输出模型的释放和现有模型的替代之前的输出模型的沙盒测试70允许验证。该测试可以将新模型的输出与先前已验证的现有模型的“黄金数据集”输出进行比较。假设由于新模型准确地(可能在预定容差内)反映了监测环境,因而新模型被认为是可接受的,更新的模型被释放72,并且现在部署的新机器学习模型74取代原始模型52,以用于进一步的数据收集和分析。应该很明显的是,一个训练周期的结束也是下一个训练周期的开始。

根据上述讨论现在应该很明显的是,本发明使用机器学习超越了传统的图像处理。在本发明之前,本领域致力于集中于分析图像中的给定对象,例如,以给定的置信度识别对象。本发明涉及使这样的系统发展,以随着时间在图像流中,和在日益增多地补充原始图像流的附加图像流中识别或标记递增地更多对象。它更普遍地适用于必须收集日益递增数量的数据、识别数据中越来越多类型的信号,并逐步提高返回的识别信号的正确性和质量的学习系统。

这样的系统始于自主的数据捕获设备;传感器,该传感器可以捕获、记录和传输如图像、声音、振动、压力、温度、化学浓度的物理信号或其他样本。随着时间的推移,视频或音频记录或图像流或其他信号样本代表了一系列测量。在许多情况下,数据捕获设备将是一个或多个图像捕获设备,该设备以定期的间隔收集静止图像或收集连续视频。被捕获的图像被数字化并通过网络转发到服务,该服务将这些图像流与任何随附的元数据收集并存档。图像的处理可以在与每个捕获设备相关联的计算机中独立于其他图像进行,或者在与图像存档服务相关联的计算机中与其他设备的图像共同地进行。在任何一种情况下,对于描述场景中感兴趣的对象的每个图像流以及该流所经历的任何处理步骤,将存在可扩展的配置文件。每个图像的图像处理的输出被添加到从图像流中提取的元数据或模型中。

如上参考图1所讨论的,数据捕获设备生成数据流,该数据流通过网络传输到远程计算系统,该系统记录该流并生成流的内容的模型,该模型由识别场景中感兴趣的区域或对象的配置,以及包含一系列标签和出现在传感器对象区域中的项目在时间和空间上的位置的报告组成。最初,模型是空的,计算机系统仅存档数据流。模型构建包含数据流上的反馈回路,该数据流包含应用于流的自动导出或手动计算的函数,并经过迭代精化。为了精化这样的过程,有必要定义专门针对它的更新阈值和质量基准。质量基准可以迭代地应用于处理数据流的过程的修改版本,并且当满足阈值时,系统更新触发器导致在整个系统中调整过的过程的部署。以下是可调过程(用于完整的持续学习系统的必备的前三个)的示例,其可以应用于系统的数据流。

场景配置的生成(自动或手动)。

a.自动:场景中的变化的表达。

b.手动:感兴趣区域的边界区域。

例如,变化的表达可以是测量场景中随时间推移的像素变化的热图,或者前景(动态)和背景(静态)像素之间的边界。同样,边界区域可以是与场景的其他元数据一起存储的坐标集。更新阈值可以是像素变化图上的稳定性测量。

场景中对象的活动的分析(自动或手动)。

a.自动:感兴趣的区域的空间和时间的模式的详细阐述。

b.手动:标记感兴趣区域中项目的位置和时间的例程。

模式可以像频繁出现的像素块一样简单。更新阈值可以包含由用最小频率对重复出现的像素块的识别。例程是识别和标记感兴趣区域中观察到的项目的代码。质量基准可以包括对由例程生成的标签的随机采样的手动验证。

模型精确度的监控(自动或手动)。

a.自动:根据不同派生算法的输出的样本和验证模型输出。

b.手动:根据源数据对模型输出的质量控制。

不同的算法或算法的不同参数化可以充当主算法输出的验证。与例程的输出相比,对原始源数据的视觉检查用作精度测量。同样,相同精度监控过程的不同实现之间的分歧可以作为所需更新的指标。

可选地:模型生成系统的调整/训练(自动或手动)。

a.自动:针对早期基线,比较使用新数据增强的系统的精确度和使用参数变化增强的系统的精确度。

b.手动:更新标记例程并针对之前的基准进行比较。

模型的数据和参数调整以及针对早期基线的测量的结果允许模型随着时间的推移持续地发展。用于模型的更新触发器可以是模型变量相比于以某些预定义速率正在运行的模型的改进。

可选地:针对现有模型对新的流进行建模(自动或手动)。

a.自动:从另一个流上的现有模型中聚类新的流数据模式和标签。

b.手动:为新的场景环境调整标签例程。

在对新数据流进行任何分析之前,可以仅根据内容将流组织到相关组中,并使用此组织来查看先前存在的过程是否可以处理新组。质量基准可以是场景中持续存在的对象的固定百分比的成功聚类。

当数据流被添加到流处理系统时,上述所有过程都将依次应用于数据流。上面列举的每个过程类型都依赖于之前的模型的模型输出,以便自己生成模型输出(如果之前的过程没有自己生成输出,则不生成)。这就是系统的初始功能为仅仅归档数据流的原因。在第一次系统更新后,可以开始处理图像流以识别对象及其在数据流中的状态的标签,一旦这些标签开始出现在模型输出中,就可以测量它们的精确度并触发后续的系统更新集。

每个过程还可以对先前获取的输出数据集迭代地执行处理或训练的简化形式。如果在训练周期中达到质量阈值,则有可能触发生产系统的更新。这些更严格的训练周期单独发生,但与更大的完整生产数据收集和处理周期并行发生。

质量基准和更新阈值的系统化和统一的实施能够系统化地引导体现在数据集的场景中的对象的特征识别,从而能够对处理系统提取的场景模型进行持续学习和精化。

图3示出了向新原始传感器数据添加场景配置的示例,该数据在此之前只是简单地存档。和以前一样,规定反馈回路集成到过程中。原始数据80在被存储之前根据现有模型经历处理82。向所存储的数据集添加场景配置84,并且验证由此生成的新模型的精确度86,并且如果认为可接受,则部署88,在那里它们成为处理新的原始数据捕获的模型。

图4示出了场景分析和精确度监控的示例。原始数据90在被存储之前根据现有模型经历处理92。配置例程针对存储的数据运行,并且向得到的数据集添加调整的对象配置94。由此验证生成的新模型的精确度96,如果认为可接受,则部署98,在那里它们成为处理新原始数据捕获的模型。

图5示出了用于机器学习模型的训练序列的示例,该模型利用了先前迭代的准确度测量。原始数据100在被存储之前根据现有模型经历处理102。机器学习模型被应用于存储的数据并且结果被添加至来自新训练的模型104的结果中。新训练的模型是根据现有模型108和修改的参数对捕获的数据106进行预处理的结果。结果的精确度被验证110,并且如果认为可以接受,则部署112,在那里它们成为处理新原始数据捕获的模型。

图6示出了一系列自动编码器训练和输出的示例,该输出馈送改编自现有模型的模型以分析新数据源。原始数据120在被存储之前经历处理122模型。无人监督的机器学习模型被应用于存储的数据,并将结果添加至新训练模型124的结果中。新训练的模型是根据自身持续更新的现有模型128对捕获的数据126进行预处理的结果。结果的精确度被验证130,如果认为可以接受,则部署132,在那里它们成为处理新原始数据捕获的模型。

因此,根据本发明的实施例配置的系统包括向计算机系统提供数据流以进行处理的远程自主传感器,以及与远程传感器相关联以预处理数据流的可选计算设备。流处理计算设备包括:

a.原始数据存档,其用于接收来自传感器的数据流。

b.场景/对象/配置存储,其用于管理传感器场景的收集和更改。

c.场景处理器,其用于对流应用函数。

d.精确度监控器,其用于采样以及针对数据流对验证输出。

e.训练模块,其用于使模型参数化且训练模型以标记场景对象。

f.训练集存储器,其用于管理生成针对流进行操作的模型的数据集。

g.模型存储器,其用于管理训练模块生成的模型。

h.聚类系统,其可用于开始为从其他源识别的新数据源生成标签。

i.配置管理器,其用于将软件部署到自主传感器和计算机系统中。

系统的持续更新输出包括:

a.原始传感器数据。

b.传感器数据中发现的特征/对象的配置

c.报告,其包括:

i.标签。

ii.每个标签出现的时间/间隔、位置/区域。

d.用于生成数据配置和报告的模型/例程。正如系统可以合并手动或自动过程,系统还可以合并来自外部源的数据、训练集和模型,以提高流处理的初始速度和精确度。

因此,已经描述了用于通过由布置为观察环境的传感器获取的数据对真实世界环境的模型的持续自适应开发的系统和方法。传感器在规律的时间间隔下对其环境进行采样。作为序列的样本形成数据流,该数据流被传送到将处理或转发收集到的数据的计算设备。遥感数据可以由中间计算设备聚合,该设备可以在将数字化样本和分析发送到数据存储(可能是分布式存储)之前预先计算一些微分分析,在该数据存储中可以计算数据的进一步微分分析。这些收集到的数据流和微分分析最终被收集在分布式数据存储中,这样可以以特别的方式总结和存在其对象的提取特征。数据存储及其内容本身表示由上述传感器、计算和存储设备的系统测量和检测的物理环境的数字化和概括。

通过系统并由系统观察到的数据通常是具有明确定义的时间和位置特征的信息流。它可能包括由单个摄像机捕获的图像的时间序列,随着时间的推移通过来自附近多个摄像机的图像时间序列得到增强,然后扩展到多个站点。这些图像序列代表数百万个像素序列,每个像素序列都具有与它们相关的时间和位置属性。这样的流可以通过测量空间时间上邻域之间差异的函数进行处理。这些函数可以是差分函数、采样函数、聚合函数、聚类函数、谱函数和在时间和空间中从流中提取变化特征的变换。任何计算流中差异的流上的函数(例如,亮度函数)都可以用于从数据中提取模式。将此类函数系统地应用于流中构成了微分分析,并且可以对相同数据或先前分析的输出并行计算多个此类分析。在这方面,微分分析的输出被简单地视为与其源输入流相关的附加数据流。

应用于数据流的分析有助于阐明、绑定、标记、比较和精化在物理世界中检测到的变化的模式。通过系统地将它们应用于越来越多的数据流,可以区分可以被认为是背景模式的数据的整体模式,然后通过重新应用该模式不同于整体模式。在根据本发明配置的系统中,由真实世界传感器捕获的越来越多的数据流通过使用计算方法来操作以识别模式、前景和背景。从这些流中,前景模式被优化为越来越多的越来越精化的对象集合。对数据流分析的不断精化构成了对流的学习过程,该过程随着其他流被添加到系统中而扩展到其他流。

在前面的描述中,所述的操作是指机器操作。用于执行本发明的操作的有用机器包括数字计算机(例如,上述“服务器”和“联网计算元件”)或其他类似设备。在所有情况下,建议读者记住操作计算机的方法与操作计算方法本身之间的区别。本发明涉及用于操作计算机、耦合到一系列网络并处理电信号或其他物理信号以生成其他期望物理信号的方法步骤(即,执行以生成期望结果的算法)。用于执行这些操作的装置可以为所需目的而专门构造,或者它可以包括专门编程的计算机,其中程序存储在该计算机的存储器或其他存储元件中。例如,这样的计算机程序可以存储在计算机可读存储介质中,例如但不限于任何类型的盘,包括软盘、光盘、光盘只读存储器(cd-rom)和磁光盘、只读存储器(rom)、闪存驱动器、随机存取存储器(ram)、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)、快闪存储器、其他形式的磁或光存储器介质或适合存储电子指令的任何类型的介质,并且每个介质都可被计算机处理器访问(例如,通过系统总线或其他通信方式)。

通常,可以在其上实现本发明的实施例的计算机系统包括用于传送信息的总线或其他通信机制,以及与该总线耦合用于处理信息的一个或多个处理器。还包括主存储器(例如随机存取存储器(ram)或其他动态存储设备),用于存储信息和要由处理器执行的指令以及用于存储此类指令执行期间的临时变量或其他中间信息,以及只读存储器(rom)或其他静态存储设备,用于存储处理器的静态信息和指令。也可以提供和耦合其他存储设备,例如磁盘、光盘或固态盘,用于存储信息和指令。所有各种存储设备都耦合到总线以与处理器进行通信。可以在其上实现本发明的实施例的计算机系统还可以包括例如显示器(用于向用户展示信息)、一个或多个输入设备(例如数字字母键盘,用于将信息和命令选择传送到处理器),光标控制设备(用于将方向信息和命令选择传送到处理器并用于控制显示器上的光标移动)等的元件。并且,计算机系统还可以包括在一个或多个网络上提供双向数据通信的通信接口。根据本发明的一个实施例,本文提供的算法通过处理器执行包含在主存储器中的指令序列的方式在计算机系统上执行。此类指令可以从另一计算机可读介质(例如rom或其他存储设备)读入主存储器。包含在主存储器中的指令序列的执行引起处理器执行上述处理步骤。

实施例

实施例1:一种用于持续增长数据流的持续分析的持续改进系统,该系统包括:一个或多个传感器流的源,其通信地耦合至计算资源,该计算资源被配置为存档数据流、选择用于分析的数据流部分、在数据流部分中注释感兴趣的项目并且根据由所述计算资源开发的迭代精化的模型分析所述感兴趣的项目,所述模型构成表达在数据流中的环境和对象的数字概括表达,所述概括表达可用于质量控制,从而进行增量改进,并且该概括表达在其被作为更新的对象模型部署到计算资源时,允许计算资源对数据流的注释和分析。

实施例2:根据实施例1所述的系统,其中计算资源被进一步配置为生成解释数据流内容的输出报告。

实施例3:根据实施例1或2所述的系统,其中计算资源使用的模型的第一实例包括从外部源贡献的预训练的通用对象模型。

实施例4:根据前述实施例中所述的任一个的系统,其中计算资源使用的模型的第一实例包括在模型的初始部署之前由手动注释和训练贡献的初始模型。

实施例5:根据前述实施例中所述的任一个系统,其中使用计算资源的模型的实例包括同时地在线训练和使用的系统模型,以分析数据流。

实施例6:根据前述实施例中所述的任一个系统,其中计算资源使用的模型通过改变模型超参数连续生成候选模型的新实例、用新参数训练并针对模型的现有实例进行验证以迭代地精化,允许通过模型参数空间的定向优化搜索以及持续分析的改进。

实施例7:一种方法,包括:接收——在服务器处并从监测外部对象的多个传感器接收传感器数据流;存储——由服务器将传感器数据流存储在原始数据存档中;分析——通过一个或多个联网计算元件,根据环境(在其中生成传感器数据流以提取和存储传感器数据流中存在的感兴趣项目的数字概括)的初始模型,通过使用机器学习和数据处理元件对传感器数据流进行操作,来分析存储在原始数据存档中的传感器数据流;更新——在分析的基础上将环境的初始模型更新为环境的版本化模型,并使用环境的版本化模型重复接收、存储和分析未来的传感器数据流。

实施例8:根据实施例7所述的方法,其中传感器数据流的特征是数字信号,该数字信号代表外部对象所在环境的测量值。

实施例9:根据实施例7或8任一项所述的方法,其中传感器数据流包括图像、声音、温度和压力中的一些或全部。

实施例10:根据实施例7-9中任一项所述的方法,其中分析包括数据验证/选择操作和报告生成。

实施例11:根据实施例7-10中任一项所述的方法,其中数据验证/选择操作包括以下中的一个或多个:相关传感器数据流的平衡采样;通过时间、位置、幅度、设备和/或感兴趣的项目类别进行平衡;当信号被内容检索时,通过高维特征距离的分布进行采样;以及通过信号的机器学习模型表达中的权重分布进行采样。

实施例12:根据实施例7-11中任一实施例所述的方法,其中将环境的初始模型更新为环境的版本化模型包括在传感器数据子集的子集中注释感兴趣的项目。

实施例13:根据实施例7-12中任一实施例所述的方法,其中对感兴趣的项目进行注释包括在传感器数据流中时间地和空间地定位感兴趣的项目。

实施例14:根据实施例7-13中任一项所述的方法,其中对感兴趣的项目进行注释还包括测量和标记构成传感器数据流的信号的变化幅度,以及测量和标记传感器数据流中的模式变化。

实施例15:根据实施例7-14中任一项所述的方法,其中在使用环境的版本化模型重复接收、存储和分析未来传感器数据流之前,采用环境的版本化模型进行模型训练。

实施例16:一种方法,包括:使用在多个传感器观察下的环境模型的初始版本,通过传感器收集数据以向被配置为分析输入的服务器提供初始输入,所述初始输入作为环境中传感器捕获的信号的数据流存在于服务器中;使用反馈,使用环境模型的分析算法和机器学习模型超参数的迭代改进版本重复分析信号的数据流,其中对于数据流分析的每次迭代,生成环境模型的更新实例,测试环境模型的更新实例,并且选择和释放环境模型的更新实例之一代替用于在数据流分析的下一次迭代中分析数据流的前一个环境模型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1