通信设备的制作方法

文档序号：11844527阅读：172来源：国知局

本申请要求于2015年4月30日由本发明的发明人提交的、题目为“Novel Method and System for Remote Audiovisual Communication(用于远程视听通信的新颖方法和系统)”的美国临时专利申请No.62/154,928以及于2015年7月26日提交的、题目为“Methods and Systems for Audiovisual Communication(用于视听通信的方法和系统)”的美国专利申请No.14/809,218的优先权，其全部内容通过引用的方式并入本文。

技术领域

本发明一般涉及数字视频摄像机领域。更具体地，本发明涉及一种通信设备。

背景技术：

数字成像技术的发展促成了数字视频摄像机(尤其是监控安全摄像机)的广泛使用。这些摄像机安装于许多位置并且所述位置的数量在快速增长，包括公共场所、公司以及私人住宅，并用于实时和延迟监视摄像机成像的空间/区域。在现有技术的系统中，监控摄像机的角色通常限制于被动监视和记录。

监控摄像机观察到多个需要立即响应、帮助或至少通知一些相应人员的事件和情况，其通常在事件期间仍未被观察且尚未获得。这种事件包括但不限于：安全事件、犯罪和暴力、事故、医疗紧急情况、儿童走失等。

在大部分情况下，当可以通过及时响应而防止或减轻犯罪、事故、灾祸或悲剧时，如果有的话则仅在记录视频中进行彻底和消耗精力的事后调查和搜索之后才能检测到。

技术实现要素：

在本公开中，描述了为了拥有者和社会利益的新颖的交互式视频监控系统和方法。所公开的系统能够识别某些情况，并立即通过发送适当消息或建立通信信道而通知相关收信人。

此外，随着视频消息和视频通信数量的增长，社会享有电信的广泛使用和成长。但是在现有技术的情景中，需要智能电话或计算机来建立电信。视频处理硬件和算法的进步以及连接到数据网络上的视频摄像机的扩展将允许实现新颖的通信方法，其中，当根据对视频流的分析检测到预定义的触发情形或事件时，通过由视野内的用户给予摄像机的语音或手势命令或者由系统自身而发起呼叫。

作为对用户命令或触发事件的响应，摄像机可以确定收信人以及所需的响应。所需的响应可以是发送描述性文本消息、视频总结消息或者建立在监控域内的用户和收信人之间的完整音频或视频通信。

附图说明

在说明书的总结部分特别指出并明确要求作为本发明的主题。然而，当结合附图阅读时通过参考后续详细描述，可以关于操作的组织和方法最佳地理解本发明及其目标、特征和优点，在附图中：

图1是所公开系统的示例性实施例的示意图；

图2是根据本发明的一些实施例示出的示例性监控/成像系统的基本框的框图；

图3是根据本发明的一些实施例的包括示例性监控/成像系统的操作步骤的流程图；

图4是根据本发明的一些实施例的包括在检测到触发事件时示例性创建通知消息的步骤的流程图；

图5是根据本发明的一些实施例的示例性分布系统的示意图，所述系统包括连接到网络上并使能用户通信的若干合作监控系统；

图6是根据本发明的一些实施例的包括示例性呼叫摄像机系统的操作的步骤的流程图；以及

图7是包括示例性训练示例性监控/成像系统以识别新命令的操作的步骤的流程图。

可以理解的是，出于简便和清晰图示的目的，在图中示出的元件不一定按照比例绘制。例如，为了清晰，一些元件的尺寸可以相对其它元件而被扩大。

可以理解的是，呈现附图仅是为了阐明后续详细描述，因此其在本质上是示例性的且并不包括本发明所有的可能排列。

具体实施方式

在后续详细描述中，阐述了多个具体细节以便提供对本发明的透彻理解。然而，本领域技术人员可以理解的是，可以不用这些具体细节而实现本发明。在其它情况下，没有详细描述已知的方法、过程、部件和电路，以免模糊本发明。

除非另有明确表述，否则显然根据后续讨论可以理解的是，整个说明书讨论中所使用的术语，例如“处理”、“计算”、“运算”、“判定”等指的是计算机或计算系统或者类似电子计算设备的动作和/或过程，其可以将表示为计算系统的寄存器和/或存储器中的物理量(例如，电子量)的数据操纵和/或转换为类似表示为在计算系统的存储器、寄存器或其它这种信息存储、传输或显示设备中的物理量的其它数据。

本发明的实施例可以包括用于执行本文操作的装置。该装置可以专门构造用于期望的目的，或者其可以包括由计算机内存储的计算机程序选择性激活或重新配置的通用目的计算机。这种计算机程序可以存储于计算机可读存储介质中，例如但不限于任意类型的永久性存储器，包括固态驱动和闪速存储器、光盘、CD-ROM、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、电可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡，或者适于存储电子指令并能够耦接到计算机系统总线的任意其它类型的介质。

本文呈现的过程和显示本质上与任意特定计算机或其它装置无关。可以根据本文的教导将各种通用系统与程序一起使用，或者可以证明构造更专门的装置来执行期望的方法是方便的。根据以下描述，用于多种这些系统的期望结构将变得清晰。另外，本发明的实施例并非参照任意特定编程语言进行描述。可以理解的是，可以使用各种编程语言来实现如本文所描述的发明的教导。

以下我们公开了若干场景以及期望的系统响应，然后公开了使能所述场景和响应的系统的结构和功能。

本文所描述的所有场景都是非限制性例子，可以经由系统配置和编程对其进行修改和扩展。存在许多其它使用所公开系统的场景，其详尽描述将是不切实际的长，但是它们对于本领域技术人员而言是显而易见的。换句话说，可以理解的是，呈现以下例子来解释和说明本发明的原理，因此仅代表可以实现本发明的多个可能场景。

术语“(单数以及复数)呼叫”、“产生呼叫”、“执行呼叫”、“建立的呼叫”以及类似术语在执行通知或建立通信的最通常意义下使用。其可以表示任意种类的通知，包括但不限于：发送文本消息、视频消息、图像或任意其它种类的信息或数据等；向电话消息传送系统、电子邮件、任意消息传送程序发送；向电话或任意通信程序或者能够接受这种消息以进行存储、处理或进一步中继等的任意其它程序和系统建立电话音频、视频或组合呼叫。

可以通过电话网络、计算机数据网络、因特网和/或支持这种通信的任意其它数据网络或基础设施中继信息。

术语“收信人(addressee)”指的是接收呼叫的一方。其可以是特定的人、特定的电话号码、程序、设备、计算机系统——即，作为呼叫/通信的意图目的地的任意人或数据系统。

术语“用户”通常指的是发起系统动作的人，并且通常是在视频摄像机的监控域内的人。然而，取决于上下文，用户还可以是发起从传统电话或计算机到监控系统的呼叫的人。

作为第一示例性场景，考虑儿童在装备了监控系统的起居室玩耍。该儿童刚刚画了一幅新画并想要向他的妈妈展示，而他妈妈当前不在现场。他太小而不能使用电话，但是他可以转向摄像头，挥舞着手中的图画并且说：“妈妈，看我的画！”。系统识别到命令(执行视频呼叫)、收信人(儿童的妈妈)，并建立对其的视频呼叫。该视频呼叫可以被中继到妈妈的电话、计算机或者她所拥有的能够实现通信的任意其它设备。根据其它实施例，来自妈妈的音频和视频可以被经由摄像机系统的扬声器和显示器或者任意其它适当的附近的扬声器和显示器中继回给儿童。

可以通过多种方式中的任意一种获得使用户与其特定收信人关联的信息。例如，可以编程到配置文件，设置到用于每个特定用户的特定地址簿，从每个特定用户的地址簿、从他的电话、他使用的通信和社交程序等的电子邮件地址、链接列表、地址、电话号码、朋友等处获得。

还可以通过处理和分析包括给定用户的社交互动的已获得的视频来获知特定的收信人。例如，在大的家庭住宅中，几代的大家庭的许多人以及每代中的多个兄弟姐妹居住或偶尔拜访该住宅，叫做Anna的具体儿童通常将一个特定的女人jenifer认作“妈妈”。另一个叫做Sam的儿童将特定的男人Daniel认作“祖父”。后来，当Anna说“呼叫妈妈”时，系统将产生对Jenifer的呼叫，而当Sam说“向祖父展示这个”时，系统将产生视频消息并将其发送给Daniel。换句话说，系统可以被编程为基于分析视频而学习在视频中出现的主体之间的关系。在另一例子中，如果Mark经常称Abraham为“爸爸”，则系统可以获知Abraham是他的父亲。类似地，如果Abraham经常称Samantha为“妈妈”，则系统可以获知Samantha是Abraham的母亲。根据另一实施例，系统还可以适于根据上述事实推断Smantha是Mark的祖母。

在另一示例性场景中，老年人或残疾人可能在医疗紧急情况下想要呼叫护理人员。人的语音可能是含糊的和/或由于其医疗状况而被妨碍。喃喃细语、相对较低音量的语音以及语音的清晰度是表示潜在医疗紧急情况的语音特性，并可以根据本发明的实施例被语音分析系统检测到。虽然人们可能不能使用电话，但人们的医疗紧急情况可以被系统识别，并且可以执行向适当的收信人发送适当的消息和/或向适当的收信人的音频/视频呼叫。

此外，在由于检测到主体的运动、位置、时间延迟、速度等的异常、含糊语音和/或喃喃低语、比平时音量低的语音、语音的清晰度而标记紧急情况之后，系统所生成的消息可以通过将主体的部分视频附加到视频总结或突触(synapsis)包括对医疗情况的指示。通过解析和分析先前记录的视频，能够将有关的异常场景包含于总结消息中，所述异常场景最初被评定为低于触发阈值但仍被检测为异常的。

预定义的紧急情况收信人可以是通用911服务、护理他的特定人员或公司、根据视频分析由系统明确定义或推理出的近亲属、任意其它相关方和/或以上组合。包括收信人并描述了情形的总结消息以及可能的总结视频可以被发送或可用于检索和核查。总结视频的内容可以取决于触发事件。在医疗紧急情况下，例如，其可以包括与有助于触发决策相同的时刻和场景，以及一些临时且情形上相邻/相关的时机和场景。

可以通过分析视频和/或根据来自其它传感器(例如，音频、3D、心率传感器等)的数据检测医疗紧急情况。医疗紧急事件的线索可以是人的倒下，尤其是以异常的姿势和位置(倒在任意区域的地板上与躺倒在床上不同)、静止或异常运动、异常呼吸、心率、身体位置、声音等。

注意，触发事件可能要求超过运动、位置、时间延迟、速度等的异常的特定阈值。含糊和喃喃低语、较低音量以及清晰度是表示可能的医疗紧急情况的特征的例子，并且其可以由语音分析系统检测到。然而，在已经检测到医疗紧急情况之后，也可以通过解析和分析先前记录的视频组成描述消息。最初低于触发阈值的先前相关异常场景也可以包含于总结消息中。

类似地，在儿童和/或婴儿监控情况下，医疗紧急情况以及所有随后动作(即，生成报警呼叫)也可以被定义为没有或异常呼吸以及危险睡眠位置(例如，脸向下睡眠以及其它阻碍呼吸的睡眠)。关于分析的更具体细节以及紧急情况标志将在[A1]中进行讨论，[A1]通过引用并入本文。

另一示例性场景是宠物监控。在喂食器区域徘徊的宠物可以向其主人生成表示它饿了的消息。在更高级的智能家庭场景中，可以向自动进料器发送适当的命令。如果宠物进入禁止区域(例如厨房)或者执行了禁止行为(例如，从桌子上偷食物)，则通知消息以及可能的视频总结将被发送给主人。

作为示例性场景，考虑猫或狗进入禁止的厨房区域并从桌子上或冰箱里偷走食物。在这种情况下，可以执行自动呼叫并创建到主人的视频信道。也可以打开来自主人的视频信道，从而主人可以喊叫或者其它动作来阻止宠物。

在另一实施例中，基于触发事件，将来自主人的适当语音命令的记录播放给宠物。

在另一例子中，安装在商店中的监控系统监视顾客以防偷盗，并在顾客进入限制区域或未付账而拿走商品时通知监管者。安装在店铺区域内的系统监控系统跟踪从架子上取走的产品。任何未被放到购物筐内的特定产品(而是被顾客藏到口袋或衣服下的产品)产生触发，可以产生事件的相应的视频总结(产品如何被拿走且藏起来)并发送到适当的监管者/监管方。为了礼貌和轻松地解决这个情况，可以在收银机处或商店出口“提醒”顾客：他是想要为特定商品付账还是将其留在商店。

其它技术类似的场景包括在儿童/婴儿离开特定房间或定义区域或者进入禁止区域时触发事件。所述系统可以配置为防止儿童自己危害行为，例如爬向窗口或者高的家具；使得儿童房朝向楼梯，玩火等。在来自所述列表的触发事件或者其它相关触发事件的情况下，可以通知儿童的监管者、进行相关紧急呼叫(例如，消防局)、激活警报、采取自动补救/预防措施(例如，切断相关电路)和/或生成任意其它适当的响应。

在一些特定高安全环境中，例如敏感的银行设施或军事设施，特定人员可能不被授权离开或进入特定区域。因此，当他们分别进入或离开指定区域时，可以通知监管者、进行相关紧急呼叫、激活警报、采取自动补救/预防措施(例如，自动锁定特定设施)和/或生成任意其它适当的响应。

本发明处理的另一必要性是发送自动创建的总结视频。可以在预定义的时间或基于触发事件而发送总结视频消息。在第一情况下，将总结预定义时段的关键时刻的视频发送给预定义的收信人。在第二情况下，视频消息可以包含触发事件的总结，并且将其发送给根据系统配置和触发事件确定的一个或多个收信人。

总结视频可以被准备并发送给用户。可以根据经由视频分析自动选择并压缩的场景和时刻准备总结视频的时刻，通过以下方式实现：选择具有检测到的运动、场景变化的时刻、统计上不常见的时刻、可选地通过当响应于类似“记录这个”、“拍摄”的命令时摄像机附近的用户请求、或者根据分析在场景中观察到的事件导出的触发事件以及用户语音和行为而选择的时刻。

作为一个例子，考虑放置在儿童房间中的摄像机产生一个或多个孩子生活中最有趣事件的日常总结。用于最有趣事件的触发参数可以是表示儿童活动和兴奋峰值的各种线索。参与者的数量和身份、运动速度、房间中声音级别、心率范围级别、视线方向、动作、身体位置、手臂运动或者类似“给妈妈看这个、呼叫保姆、记录这个”的明确命令—所有这些都用作非常有趣的场景的线索。

快速运动、跳跃、跑步或者相反地在活动(例如，画画、玩具组装或玩耍)期间需要集中精力都可以用作评估特定事件的重要性的线索和特征。另外的参与者(例如，其它儿童和宠物)可以用作另一类型的线索。视频处理技术、提取心率和呼吸率及强度可以帮助提取额外的兴奋测量。提取心率和呼吸率及幅度的一种方式是基于放大视频序列中相邻帧的色彩以及位置的差异。

因此，儿童房间中日常活动的视频总结可以包括以下中的一个或多个：与宠物玩耍，由于参与者(儿童和宠物)、活动(该玩耍可能会是活跃的，具有增加的运动速度、呼吸、心率和声音级别—例如，由于喊叫和吠叫)而进行选择；与邻居儿童玩耍—由于参与者，绘画—由于注意力集中，其通过运动活动和视觉跟踪绘画的儿童检测，以及最后对绘画本身详细的拍摄—由于当儿童在摄像机前面挥动绘画时的直接命令“给父母看这个”。

作为另一例子，考虑医疗紧急情况。对于医疗紧急情况的最强的线索可以是跌倒和不运动的身体位置，尤其是在正常休息区域(例如，床或沙发)的外部。多个额外线索可以作为以下的因素：呼吸模式、延长依靠某物、咳嗽、手触摸胸部或胃部等。每个线索和/或其组合可能需要超过特定阈值以引起警报(触发事件)。例如，在浴室中短时间依靠墙壁达几秒，或者单次咳嗽正常情况不会激活触发。然而，在超过触发阈值之后，所有具有警报线索的先前警报时刻将被添加到摘要视频，即使在线索发生时没有超过阈值的情况下，或者阈值级别可以被追溯地降低和重新检查。阈值参数的例子可以是：咳嗽的时间和强度，趟在地板或依靠墙壁的时间，异常低或异常高强度的呼吸，并且以异常的级别和持续时间作为参数。

通常而言，监控系统可以分析视频流以及来自其它传感器(例如，音频、3D)的流以查找潜在的触发情形。触发情形也可以是明确的用户命令、医疗紧急情况、定义区域的侵害、给宠物设定的行为规则、暗示人们的区域规则、针对婴儿、老年人或残疾患者定义的危险姿势、擅自进入的情况、暴力、类似火灾的事故等。

当检测到触发情形时，系统可以确定适当的收信人。收信人可以是依赖情形的，例如，在医疗紧急情况下，收信人可以是护理人员服务；在火灾的情况下，则是消防局；收信人可以是用户特定的，例如，“呼叫妈妈”的命令可能导致呼叫该特定人物的特定的母亲。选择收信人可以依赖于系统配置、给出呼叫命令的特定用户的地址薄等。

对触发情形的系统响应可以是以下选项中的一个：通过以下通知收信人：相应的文本消息、摘要视频消息和/或建立通信信道。建立的通信信道可以是音频和/或视频，单向或双向。通信信道和消息可以通过电话或数据网络进行输送，另外其可以在收信人侧通过他的电话、智能手机、计算机、平板计算机或任意其它便于音频和/或视频通信的门户(portal)而被启用。

考虑以下具有不同系统响应的示例性场景。宠物监控，其中，宠物进入到例如厨房的禁止空间，并从桌子上或冰箱偷走食物，系统可以建立非对称通信，其中视频从观察到宠物的摄像机传送到主人，并且音频从主人传送到宠物。

在侵入检测的情况下，来自摄像机的视频可以被传送给主人，并且没有任何事物从主人传送回公寓。通知文本或视频总结消息可以是替代选项。

在儿童开始呼叫他的妈妈的情况下，可以建立双向音频和视频通信信道。

在医疗紧急情况下，可以将视频摘要消息以及文本通知发送给对应的监管者或者医疗紧急服务。

在所公开的发明的一些实施例中，可以使用包括安装在相同或不同住户的多个监控系统的分布式系统。考虑具有两代或更多代的多个夫妻的大而友好的家庭，其居住在不同住处。儿童经常拜访他们在不同住处的表亲，兄弟和姐妹可以搜索彼此并想要在待在不同住处的同时进行通信。Jack说出一个简单的命令“呼叫Jim”，Jack最经常通信的是他的兄弟Jim，所述命令可以使得系统通过请求安装在大家庭的受托户的合作系统而找到Jim，检测Jim当前所处的具体位置，并与Jim建立通信信道。

显然，上述例子并不局限于大家庭的多户的具体情况，而是可以用于连接到网络上并能够进行信息交换的任意数量的摄像机。

提供以下描述的附图进行进一步的图示和阐明系统架构和操作并使系统架构和操作。

图1示意性示出了所公开系统的一些实施例。具体细节将随不同的实现方式、使用场景、硬件和软件配置而变化。

110表示一个或多个视频摄像机，其可选地与诸如音频传感器115以及3D扫描仪120的其它传感器耦合；视频分析软件125可以具体实现于摄像机中、监控系统中，或者位于远程处理单元/服务器上。当检测到触发事件时，可以确定和通知该事件的目标收信人135。

图2更详细地示出了一些实施例的框图。220表示视频摄像机，240表示麦克风，245表示3D扫描仪，250表示其他可选传感器或输入，其可以包括额外的摄像机、麦克风、3D扫描仪和/或红外摄像机、生物传感器等。输入的设置、类型和数量可以依赖实现方式和配置而变化，但是我们通常假设存在至少一个视频摄像机。235、240、245、250表示传感器驱动器的硬件和算法以及基本低级信号处理。例如，摄像机驱动器235可以适当调整摄像机220的曝光、对焦、白平衡、去噪以及对于获得用于在系统中进一步处理和分析的好视频所必要的其它基本属性。3D扫描仪驱动器245可以负责操作3D扫描仪230，并获得场景的3D扫描的时间序列以进行进一步分析和处理。

255、260、265和270表示处理来自传感器信号的处理框。例如，视频分析框255可以处理来自摄像机220的视频流，并执行例如面部识别、对象跟踪、手势识别等的操作。语音识别框260可以执行分析和识别由麦克风215所测量的语音。3D分析框265可以处理从3D扫描仪230获得的3D信息，并且执行姿势估计、手势识别、位置计算、位置规则验证等其它3D分析操作。

框272表示用于分析系统级输入的硬件和软件。在框272处，可以基于根据在框255、260、265、270处获得的各个传感器信道的分析的组合结果而检测和验证触发情形。在远程服务器280上可以进行一些计算。

可以在系统配置文件274中定义呼叫或消息的具体触发情形、收信人、规则、类型和格式。可以为具体系统实现方式定义配置文件，并且可以例如在计算机290的帮助下修改配置文件。

框273组合了呼叫逻辑计算和支持。这包括确定收信人、创建可选文本或视频消息、形成数据流以及其它呼叫支持操作。

276表示系统接口，其可以选择和压缩适当的数据，并将其传送到一个或多个远程服务器280。服务器可以是一个或多个专用服务器，“在云中的”分布式处理服务或者在系统202之外进一步处理的任意其它适当方式。

可以在系统202外的外部计算机280上执行一些操作，例如数据存储、视频和音频分析以及其它计算量大的命令操作。该计算机可以是网络上的远程服务器、“在云中的”的分布式处理和存储、或者本领域中已知的支持增强计算和连接的任意其它适当方案。

282表示经由基站282朝向收信人210的通信设备284中继通信的一种方式。当今已知的或将来设想到的任意通信技术可以实施以根据本文描述的原理而联系收信人。

在用户205和收信人210之间的呼叫可以由用户205、收信人210或者检测触发事件的系统202发起。呼叫可以是文本或视频总结消息、音频和/或视频呼叫。

被授权的收信人(用户)210(对于所述特定场景210实际上是用户，并且在这里将被称作用户)可以发起呼叫以监视系统，或者查询来自特定的一个或多个摄像机的视频摘要、时间间隔或事件，他能够查核和改变系统配置文件，以对系统进行编程来检测新颖的事件或新颖的响应。

图3是示出视频分析软件的示例性操作的流程图。305表示为系统提供视频流的一个或多个视频摄像机。310是可选的其它传感器，例如3D扫描仪、麦克风或者任意其它相关感测、检测或测量输入。315表示系统的配置。

系统配置可以包括：具体触发事件的定义，包括具体人、情形、场所、时间；目标收信人的定义；以及对于所述事件的消息或呼叫的形式。例如，儿童躺在地毯上玩耍可以是普通情形，而老年人躺在地板上可能被配置为医疗紧急情况并生成对护理人员的紧急呼叫。家庭成员或儿童的朋友进入可以配置成正常的，但是陌生人或者“警告列表”的具体人的进入会产生通知呼叫预定义人员。类似地，壁炉中检测到火是正常情形，但是在其它位置处检测到火可以生成对消防局的呼叫。

框320、325、330、335、340表示视频分析模块，其可以包括面部检测和识别320、对象跟踪325、模式学习和识别330、姿势估计和场景分析332和/或触发检测框340，其可以分析在框320-335中获得的结果以及由可选附属传感器提供的信息，并基于配置315的设置和定义来检测呼叫触发情形。

如果检测到触发情形，则基于情形和配置315以及通信类型，在框345中可以确定相关收信人。如果必要的话则准备消息。所述消息可以是描述事件的文本消息、事件的记录视频和/或自动准备的记录视频。其可以是建立单向或双向通信信道(音频、视频或组合的)。可以通过裁掉静态、不相干或非信息段来压缩准备好的视频序列，或者以任意适当方式对其进行修改。

在框350中可以发起呼叫。可以通过多种方式利用电话网络或计算机网络连接来执行呼叫。呼叫可以指向收信人的电话、计算机或支持通信的其它设备。

配置文件315可以包括受监视场景的列表，例如，火、包括一般入侵者的安全紧急情况、家庭暴力和/或具体人员的列表、要监视的时间和事件。还可以包括每个事件的适当的目标收信人的列表以及优选通信方法和/或细节。

可以有警告收信人的多个不同连接和数据选项。呼叫可以通过电话网络或计算机网络进行。电话呼叫可以由计算机服务器或者经由预先安装的软件和与与监控系统的WiFi/Bluetooth通信通过本地电话完成。呼叫可以指向人类用户或者其它系统，例如自动灭火、移动摄像机或无人机进行进一步的监视。警报呼叫可以是总结事件的文本消息或者建立单向或双向音频、视频或组合的通道。视频可以是实时视频或者是经压缩且自动创建的描述性视频序列。

图4是示出当检测到触发事件时示例性创建通知消息的流程图。在405中，连续获得并存储视频和传感器数据。如果必要的话，可选地擦除远程较早的记录以释放存储器。在410处，分析视频和传感器数据以检测触发事件。可以在系统制造期间，通过进一步的软件和固件更新和/或用户配置，而对多个可能的触发事件进行编程或配置。

在于410处检测到触发事件之后，在415处建立触发事件的类型。触发事件的一些可能的例子是用户发起的呼叫、医疗紧急情况、侵入、火灾、宠物的不当行为等。

在420处，基于触发事件而确定所需动作。所述动作的例子可以是建立呼叫，其进而可以是音频呼叫、视频呼叫或不对称呼叫，其中视频和/或音频仅在一个特定方向传送；创建视频总结，存储或发送视频总结；发送通知消息等。

在425处，确定目标收信人。注意，在一些实施例中，步骤可以并行执行或者以不同次序执行，例如425在420之前。

在430处，确定消息类型，并且经由编辑和选择与触发事件最相关的记录视频的场景和部分来组成描述事件的视频消息。

在435处，建立所需要的呼叫，和/或将描述消息发送给收信人和/或进行存储，播放记录的语音消息和/或通过系统执行其它适当的动作。

图5是示例性分布式系统的示意图，所述系统包括连接到网络上并使能用户通信的多个合作监控系统。505和520是具有可选麦克风和额外传感器的视频摄像机，510是可选显示器，其作为系统的一部分或者是能被系统访问的连网显示器。515是处理、存储和通信中心，其可以检测用于通信的合适收信人，并便于用户之间的通信。

当用户525说“呼叫Jim”时，他的请求被传送到中央或分布式处理服务器515，在此确定特定收信人“Jim”，他的具体身份可以取决于用户525的身份、他的地址簿、联系人列表和常用联系人以及概况。在可用的并且通过所有连接和合作的系统和摄像机识别的用户之间执行搜索“Jim”，并且然后建立到Jim(530)的通信。

图6是示出了示例性呼叫摄像机系统的操作的流程图。为了简明，一些框可以表示多个替代选项，其将在解释中提及。具体实施例的灵活性允许扩充或简化某些阶段，这将在后续解释中阐明。

框602表示从一个或多个摄像机获取视频和/或3D视频。传统的2D视频流和3D视频流都将被称作视频流，在必要时将提及对其处理的不同。在系统中开发了多种视频和3D分析方法。

视频处理和分析的通用大纲可以划分为以下阶段：框604、624、618、634中的预处理；去噪——在框606中示出，然而可选地存在于多个其它框(尤其是624、618、608)中，且为了清晰起见没有示出；框608、618、626、636中的特征提取；610、620、630、640中的模式识别；650中的事件序列识别和高级分析。

现在考虑更详细的流程图。在602处获得的视频在若干并行路线中处理：

在路线604-604中，可以在604处计算光流以供后续阶段进行进一步处理。光流是计算并将运动向量归于视频帧的像素的计算机视觉方法。可以通过在时间分离视频帧上发现对应点来对运动向量进行计算。光流计算的本质在很多情况下导致噪声、在计算出的光流中的非规则性和模糊性。可以通过606中的去噪和正则化的若干方法解决这些模糊性。去噪采用各种滤波技术，包括中值、高斯和各向异性滤波、双边滤波，以及本领域已知的其它滤波技术。正则化基于几何对象的连续性原理、边界的能量最小化，并利用根据先前帧和对象识别的对象形状和运动的先验知识。

可以对来自框606的经处理的光流数据进行复制，并将其划分以在两个信道608-610和618-620中进行进一步处理。在框608处，可以提取运动签名。经验法则基于数据压缩和特征向量的提取，对用户的身体运动进行表征，并滤除其它对象的运动，在框610处进行规则演化和调谐以增强模式识别性能。

模式识别可以实现为备选分类器的加权和，其有助于结果(权重)能够可选地设置为零。受训分类器有支持向量机、深度学习算法以及Blayvas等人在[A2]中公开的机器学习算法，其基于特征空间中每类的多分辨率概率密度估计。框611示出了模式识别的受训引擎(或多个引擎)。

分析光流的另一信道可以是618-620。可以将来自606的经处理的光流传递到框618以在框中进行形态分析，其中基于尺寸、几何比例、身体模型和身体运动模型的线索结合额外的启发式规则，从背景中整顿出人体、宠物或感兴趣的其它对象。提取的身体模型及其运动可以有助于模式识别引擎620(其不同于610)，该引擎被训练为识别手势或用于输入的其他所需模式。621显示了用于模式识别的引擎。

处理的另一信道可以是在626中从视频帧直接进行特征提取，而无需初步的运动流计算。这可以根据在624的分割之后的图片的分离区域进行，或者直接从整个帧提取而无需初步分割。提取出的特征馈送至模式识别引擎630。框631“直接模式”和629“3D模式”反映了这样的事实：所有处理信道624-626-630示出了两个不同的实际处理信道：用于2D视频以及用于3D视频，并且其每一个具有在其自己的样本上训练的其自己的模式识别引擎以及数据库。

最终，处理信道632-634-636-640示出了通过麦克风或其它传感器的示例性数据获取(632)、数据处理(634)、特征提取(636)以及语音识别(或用于其它传感器的模式识别)框640。

独立的模式识别引擎610、620、630、640可以被编程以识别隔离的身体部分、对象和手势。此外，他们的结果通常是不相干的。

投票机650被训练为基于根据“弱分类器”投票的610、620、630、640导出的部分信息来执行特定分类决策“强分类”。

在660处，可以将特色运动的序列组合并验证为手势的特定序列，根据一些实施例，其可以基于贝叶斯网络分析。框662示出了对识别出的手势的示例性系统验证，其可以基于从660处获得的置信值、用户确认以及其它线索。如果识别出的手势或用户命令超过特定置信阈值，则在框664处通过系统执行命令。在特定较高阈值级别，也更新模式识别引擎并在新的视频序列和提取的特征上进行训练。

方便、简化和增强用于用户和用于系统的手势界面的鲁棒性的方法之一是叠加用户的视频和界面的按钮，并在同一屏幕上将两层都显示给用户(显示用户的视频层，而显示界面的按钮的图形层)。因此，可以更易于用户正确地引导他的移动，并且对于系统则更容易进行正确的处理和识别。此外，在用户视频上叠加手势路径可以允许系统训练用户来使用正确的手势，来示出期望的方向，或者来提供系统如何获得和解释手势的反馈。

图7是示出系统的示例性训练以识别新命令的流程图。当用户想要添加新命令时，他开始于通知在系统菜单中选择或配置，如框705所示。这可以调用专用程序用于获取新的命令。开始于框710的获取视频、3D、音频和/或传感器数据。提升(boosting)711是一种技术，其中训练数据的量增加，而不会对用户增加不必要的负担来多次记录相同的命令。

用于增加训练数据的数量的方法包括复制具有额外随机噪声、几何和时间畸变、对比曝光的改变、改变的背景(尤其在3D信息可用时)的相同序列以及其它类似方法。

视频处理和特征提取框715可以组合两种操作：处理，其中对视频进行标准化以使其对不相关参数是不变的，所述参数例如是照度、几何偏移、缩放等；特征提取，其是提取与模式识别相关信息同时降低和减去不相关信息的方法的集合。特征提取方法包括压缩、二次采样、主成分分析、以适当基函数进行标量积、降维和其它技术。

框716表示提升提取出的特征向量，其中训练特征向量的量通过增加随机噪声并且线性组合在先前框711处通过提升获得的多个特征向量而增加。

可以将在框715和716中获得的特征与存储于命令数据库722中的其它命令的特征进行比较。为了便于识别和区分新命令，并且减少或消除分类错误，应该以可能的最好方式将新的特征向量与对应于其它命令的其它特征向量分离，同时在若干训练序列中或通过提升(711、716)获得的所有多个新的特征向量应该尽可能紧凑地位于特征空间中。在720处，可以执行特征空间转换，其是通过线性鉴别分析(LDA)、典型鉴别分析(CDA)以及增强类间分离并减少类内散布的其它转换特征空间的技术执行的。

最后，在725处基于多分辨率概率密度估计[A3]以及深度学习算法训练分类器之后，可以在730处基于命令数据库722执行性能验证。在分类错误的情况下，用户可以获得通知并请求重复训练。

根据一些实施例，可以提供一种通信设备，其包括以下中的一个或多个：

a.视频摄像机，用于从场景获取视觉信息，并将所述视觉信息转换为视频流；

b.视频处理电路，用于：(a)接收所述视频流，(b)从所述视频流提取用户相关特征；以及(c)检测并表征一个或多个用户动作；

c.控制器，用于接收所述视频处理电路的一个或多个输出，并响应于在所述视频流内的一个或多个检测到的事件的指示而触发所述通信设备和收信人设备之间的通信会话，其中不同的收信人设备与不同的检测到的动作相关联；

d.麦克风；

e.音频处理电路，用于表征由所述麦克风收集到的声学信息；

f.用户特定收信人联系数据存储设备，用于包含用户的具体记录，所述记录将特定用户的特定的检测到的动作或特定的检测到的发声与一个或多个特定收信人设备的标识符相关联；以及

g.一个或多个三维传感器。

根据前一段所提及的实施例的一些实施例：

a.所述控制器可以至少部分地基于所述音频处理电路的输出而选择收信人设备；

b.所述音频处理电路或所述视频处理电路可以包括用户识别功能以识别特定人；

c.所述联系数据存储设备可以包括针对给定收信人的多个设备标识符以及在尝试与所述给定收信人进行通信会话时所使用的设备的优选次序的指示；

d.所述控制器在接收到与所述给定收信人相关联的用户动作或用户发声的指示，可以尝试根据所述收信人设备的优选次序与所述给定收信人进行通信会话；

e.如果所述控制器与按所述次序的第一设备的通信尝试失败，则所述控制器可以尝试与按所述次序的第二收信人设备进行通信会话；

f.所述第一收信人设备可以与所述第二收信人设备具有不同类型，并使用与所述第二收信人设备不同的通信信道；以及

g.可以通过所述设备使用一个或多个三维传感器的输出，用于：(a)从所述视频流提取用户相关特征；以及(b)检测并表征一个或多个用户动作。

根据一些实施例，可以提供一种通信设备，其包括以下中的一个或多个：

音频-视频获取组件，其包括：(a)摄像机，用于从场景获取视觉信息，并将所述视觉信息转换为视频流；以及(b)麦克风，用于从所述场景获取声学信号，并将所述声学信号转换为音频流；

b.音频-视频处理电路，用于：(a)从所述视频流提取用户相关特征；(b)检测并表征一个或多个用户动作；以及(c)表征在所述音频流中的信息；

c.控制器，用于接收所述音频-视频处理电路的输出，并响应于在接收到的输出中检测到事件而触发所述通信设备和收信人设备之间的通信会话，其中不同的收信人设备与检测到的动作和发声的不同组合相关联，从而在通信会话发起之前，通过所述设备解决被发声主观收信人指定；以及

d.一个或多个三维传感器，用于生成表示用户移动或手势的信号。

根据在前一段中提及的实施例的一些实施例：

a.可以利用保存用户特定记录的用户特定联系数据存储设备来解决用户的主观收信人指定，所述记录将特定用户的检测到的动作或发声与特定收信人设备的标识符相关联；以及

b.来自所述一个或多个三维传感器的输出可以被处理以检测用户的动作或者发生于用户的事件。

根据一些实施例，可以提供一种通信设备，包括以下中的一个或多个：

a.音频-视频获取组件，其包括：(a)摄像机，用于从场景获取视觉信息，并将所述视觉信息转换为视频流；以及(b)麦克风，用于从所述场景获取声学信号，并将所述声学信号转换为音频流；

b.数据缓冲器，用于存储至少一部分音频或视频流；

c.音频-视频处理电路，用于：(a)从所述视频流提取用户相关特征；(b)检测并表征在所述视频流内的一个或多个用户动作；以及(c)表征在所述音频流中的信息；

d.控制器，用于接收所述音频-视频处理电路的输出，并响应于特定事件类型的事件的识别而触发所述通信设备和收信人设备之间的通信会话，其中所述通信会话包括与所述事件相关的且基于在所述数据缓冲器中存储的数据的自动生成的音频-视频突触；

e.检测到的事件特定的联系数据存储设备，其包含事件特定记录，这些事件特定记录将检测到的事件类型或检测到的特定用户的发声与特定收信人设备的标识符关联；以及

f.内容自动生成器，可以基于与用于至少一个事件类型而自动生成音频-视频突触有关的事件特定联系数据存储设备记录而自动生成音频-视频突触。

根据在前一段提及的实施例的一些实施例：

a.所述触发事件类型可以选自由以下项组成的组中：(a)跌落，(b)绊倒，(c)危急手势，(d)在场景中出现陌生人，(e)大的噪声，(f)降低音量和/或清晰度的用户语音，以及(g)停止呼吸；

b.用于特定的检测到的事件类型的突触自动生成指令可以包括：用于在缓冲的音频或视频流中识别具体部分的指令，所述特定部分包括与理解检测到的事件类型相关的特定特征、特定动作或特定事件；以及用于将所识别出的部分附到所述突触上的指令；

c.所述设备可以适于并发地将所述自动生成的突触和场景的现场音频-视频馈送传送到所述收信人设备；以及

d.所述设备可以建立与所述收信人设备的双向通信会话。

本领域技术人员还应该理解的是，可以通过本发明的其它实施例的不同部件来执行描述为由系统的具体部件所执行的一些功能。

可以采用传统的工具、方法和部件来实践本发明。因此，在本文中没有详细阐述任何这种工具、部件和方法的细节。在先前的描述中，阐述了多个具体细节，以便提供对本发明的透彻理解。但是可以理解的是，可以无需恢复到所具体阐述的细节而实践本发明。

在本发明的实施例的说明书和权利要求中，“包括”、“包含”和“具有”中的每个词及其形式不必受限于与该单词相关联的列表中的成员。

在本公开中仅示出和描述了本发明的示例性实施例以及其通用的几个例子。可以理解的是，本发明能够以各种其它组合和在其他环境中使用，并能够在如本文所表达的创造性构思的范围内进行改变或修改。

根据实施例，设备可以包括显示器和适于在所述显示器上呈现控制元件的界面生成器。控制元件可以是所呈现的按钮，例如“新消息”、“呼叫”、“发送”等。设备的控制器可以适于使用视频处理电路的输出来允许用户利用身体移动和/或手势与呈现的控制元件交互。

虽然在本文已经示出并描述了本发明的某些特征，但是本领域的技术人员现在可以想到许多修改、替换、改变和等价物。因此，可以理解的是，随附权利要求意图覆盖所有这些落入到本发明真实精神内的这种修改和改变。

参考文献列表

[A1]SIDS and Other Sleep-Related Infant Deaths；PEDIATRICS第128卷第5期2011年11月1日；第e1341-e136页

[A2]美国专利US 6,886,008B2 4/2005 Blayvas等

[A3]美国专利US 8,754,763 B2 6/2014 Morehead等

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：佛里登特·荣;布拉瓦斯·依亚;赵莉莉;
技术所有人：小蚁科技（香港）有限公司;
我是此专利的发明人

上一篇：一种摩擦轮式爬索检测机器人的制作方法与工艺
上一篇：一种节水的喷水电风扇的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。