基于姿势的注释的制作方法

文档序号:14203825阅读:244来源:国知局
基于姿势的注释的制作方法

背景

会议涉及多个参与者以及各参与者之间不同模式的交互。记录会议中发生的至少一些交互可能是有意义的。会议抄本或会议纪要已被普遍地用来记录会议中的话语方面的交流。传统地,会议的抄本可由与会人员制作。目前,抄本可通过记录会议中的会话并使用语音识别技术将其转换成文本来生成。在一些情况下,会议视频也可被记录以供将来参考。为了对抄本中的文本提供上下文或进行补充,注释可被使用。例如,注释可以是强调标志、朝向特定人员的语音、请求、顺序等。对使用语音识别转录(如果支持的话)的文本的注释可或者手动进行,或者基于发言者的话语线索。手动注释可包括人使用输入设备来输入或选择注释。基于话语线索的注释可包括对话语线索的语音识别。话语线索可与特定注释相关联。在检测到话语线索的情况下,对应于话语线索附近的一段时间的转录文本可用对应的注释来标注。

概述

提供本概述以便以简化的形式介绍将在以下的详细描述中进一步描述的一些概念。本概述并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于限定所要求保护的主题的范围。

在一个实施例中,示出了一种用于将会议中的会话转换成文本并对文本进行注释的设备。在一个实施例中,公开了一种会话转换器,其包括处理器,以及包括一组指令的存储介质。所述一组指令致使处理器接收包含会议的参与者的语音的音频记录,接收所述参与者的视频,标识所述参与者,将所述参与者的音频记录转换成数字文本,开发所述参与者的骨架图,从所述骨架图中识别所述参与者的姿势,以及检测并标识所述姿势的目标。基于所述目标和所述姿势,会话转换器确定用于与所述姿势的时间点相对应的数字文本的注释。

随着许多附带特征通过结合附图和对应的参考标记参考下面的详细描述而变得更好理解,这些附带特征将更易于被领会。

附图简述

根据附图阅读以下详细描述将更好地理解本说明书,在附图中:

图1例示了根据一个实施例的用于记录和注释会议抄本的设备的示意表示;

图2例示了根据另一实施例的用于记录和注释会议抄本的设备的示意表示;

图3a和3b例示了根据一个实施例的具有骨架图的姿势;

图4例示了根据一个实施例的会议空间中的设备配置;

图5例示了根据一个实施例的会议空间中的另一种设备配置;

图6例示了根据一个实施例的用于注释会议的录音文本的方法的示意流程图;

以及

图7例示了根据一个实施例的作为来自设备的输出的示例性会议抄本的一部分。

在各个附图中使用相同的附图标记来指代相同的部件。

详细描述

下面结合附图提供的详细描述旨在作为各实施例的描述,并不旨在表示可以构建或使用实施例的唯一形式。然而,可以通过不同的实施例来实现相同或等效功能和结构。

图1示出了根据一个实施例的用于记录和注释会议抄本的设备200的示意例示。设备200可包括至少一个相机201、至少一个话筒203、至少一个处理器202以及至少一个存储204,存储204包括致使处理器实现本文描述的功能的指令。存储204可包括骨架绘图模块219以及其它指令。根据一个实施例,设备200可实时记录和注释会议抄本。在一些实施例中,设备200还可记录和注释来自之前记录的会话的抄本,其中记录既包括视频也包括音频。根据一个实施例,会议可包括至少两个人之间的任何话语交流或交互。会议可例如是商务或办公室会议、非正式的聚会、社交事件、讲课、讲座等。

参考图1中例示的实施例,至少一个相机201可被配置成捕捉会议的视频。话筒203可被配置成捕捉来自会议空间的音频。相机201和话筒203可与处理器202和存储204耦合,使得音频和视频的记录被恰当地同步。相机201可以至少一种方式与处理器202和/或存储204通信。话筒203可以至少一种方式与处理器202和/或存储204通信。在一个实施例中,相机201和话筒203可包括单个设备。这类设备可以是例如视频相机、网络相机、深度相机、相机阵列、具备高帧率能力的静态相机等。在一个实施例中,话筒203可以是具备波束成形能力的阵列话筒。波束成形可被用于捕捉来自多个发言者中的单个发言者的音频。在一个实施例中,相机201可以是360°视野相机。在一个实施例中,相机201包括能够从不同视角记录会议的相机阵列。

相机201可捕捉会议中的参与者的视频,而话筒203可捕捉会议中的参与者的音频。处理器202可分析来自视频相机201的视频以识别会议的参与者。处理器202可分析来自话筒203的音频以将音频转换成数字文本。对会议中的参与者的位置的认知可被处理器202开发。位置认知可包括人类参与者和物理对象,比如白板、模型、屏幕等。位置认知可以是多维坐标系统中的坐标的形式。会议中的每一个参与者和/或物理物体可被分配坐标系统中的坐标。处理器202可分析来自相机201的视频以向参与者和/或物理对象分配坐标。在一个实施例中,对视频的分析可在包括该视频的各单帧上执行。图像处理技术可被用于检测图像中的对象。在一个实施例中,相机201的物理参数可被用来计算图像中检测到的对象之间和/或对象和相机201之间的距离。例如,在给定相机201的焦距和某个参考对象的测量值的情况下,可开发图像上的维度和距相机的距离之间的关系,该关系可被用于计算其它对象距相机的距离。根据一个实施例,参考对象可以是用户之一。对用户的一些身体测量可以是已知的。根据另一实施例,人眼间的平均距离或瞳孔间距可被用作为参考。根据一个实施例,平均瞳孔间距可被取为6厘米。对象之间的角距离也可被计算。例如,在给定相机的孔径角的情况下,可计算相机捕捉的图像中的各对象之间的角距离。这一信息中的一些或全部可由处理器201用来向来自相机201的视频中的对象分配坐标。

根据一个实施例,对视差效应的分析可被用来计算各参与者之间的距离。根据另一实施例,设备可进一步包括陀螺仪(在图1中未例示)。相机201所放置的高度可以是已知的。相机可被倾斜以聚焦在地板上的点,会议参与者正坐在或站在该点上,相机201的倾斜的角度可通过陀螺仪来测量。来自陀螺仪的角度和相机在地板之上的高度可被用来计算参与者距相机201的距离。这一距离和图像上测得的(例如以像素数计的)诸维度的比率以及参考参数(如瞳孔间距)的实际值可随后例如被用来计算其他人距相机201的大致距离。各参与者之间的角距离和他们各自距相机的距离可随后被用于向每一个参与者分配坐标。

处理器202可分析来自相机201的视频和/或来自话筒203的音频以确定发言者以及发言者相对于其它参与者的位置。对象跟踪和/或声音定位可被用于将发言者与其他参与者予以区分。图像识别、语音识别、生物特征识别或这些的组合可随后被用来标识发言者。处理器202可将数字文本与对应的发言者相关联。与对来自会议的音频的分析同时地,骨架绘图模块219可致使处理器202通过处理来自相机201的视频来生成会议的参与者的实时骨架图。骨架图可由处理器202分析以检测和识别姿势。处理器202可从骨架图和认知目标的位置来识别发起者以及姿势的至少一个目标。姿势的目标可以是会议的人类参与者或物理对象(例如会议辅助工具)。会议辅助工具可包括白板、投影仪屏幕、电子显示器或任何物理对象。在一个实施例中,姿势的目标可根据骨架图中的至少一个肢体的角度和方向连同已经处理的位置认知来定位并标识。在一个实施例中,姿势的目标可通过使用用于分辨身体移动和/或朝向的图像识别技术来定位在一个实施例中,姿势的目标可通过骨架图和图像识别等的组合来定位和/或标识。姿势可以是可由用户编制的。对于每一个姿势,可定义对应的注释。

如果姿势被识别,则处理器202可指定一时间段作为姿势窗口。姿势窗口可开始于该姿势被作出时的时间点之前的一时间长度。姿势窗口可结束于该姿势被作出时的时间点之后的一时间长度。姿势窗口的长度可以是可由用户定义的。基于被识别的姿势,处理器202可将预定义的注释与根据作出姿势的发言者在姿势窗口期间的音频所生成的数字文本相关联。每一个可识别的姿势可具有与其相关联的注释。根据一个实施例,被处理器202关联到数字文本的注释可包括与姿势相关联的预定义注释、姿势的发起者的身份以及姿势的目标的身份。根据一个实施例,可使得包括姿势和相关联的注释的数据库对处理器202可用。根据一个实施例,与姿势相关联的注释可以是可由用户定义的。在一个实施例中,姿势可包括以特定方式指向目标。这可被定义为例如动作点。抄本中的动作点可意味着例如发言者向姿势的目标分配一个任务。

根据一个实施例,发言者可不需要给出话语线索来标识目标和/或指定注释。替代地,可被普通地关联于特定上下文含意的姿势可被定义作为用于设备200的注释的触发。在一个实施例中,姿势的注释可被定义以便与其现实世界含意基本相似。在一个实施例中,当姿势被识别时,设备200可给出反馈,例如非干扰型的低音量音频哔哔声、led的闪光或闪烁(图1中未例示)等等。

在一个实施例中,基于发言者的身份,处理器202可选择针对该发言者的特定语音识别简档。在一个实施例中,处理器202可分析来自话筒203的音频以识别和标识发言者。在一个实施例中,处理器202可使用来自话筒203的音频使用声音源定位来定位发言者。在一个实施例中,处理器202可使用图像识别连同声音源定位和/或语音识别来标识发言者并且在抄本中将对应的数字文本与其名字相关联。

在一个实施例中,存储在存储204中的计算机可读指令可致使处理器202如本文所例示的工作。

图2例示了可执行类似于根据图1中例示的实施例的功能的实施例。设备200可被实现为计算和/或电子设备210的形式,该计算和/或电子设备210耦合到至少一个话筒203和/或至少一个相机201。设备200可包括一个或多个处理器202,这些处理器可以是微处理器、控制器或用于处理计算机可执行指令以控制设备200的操作的任何其他合适类型的处理器。可在装置上提供包括操作系统206或任何其他合适的平台软件在内的平台软件以使得应用软件208能够在设备上被执行。应用软件208可包括骨架绘图模块219(图2中未例示)以及其它指令集。

设备200可包括被布置成向可与设备200分开或集成在一起的输出设备216输出信息的输入/输出控制器214。输入/输出控制器214还可被布置成接收和处理来自一个或多个输入设备218、201以及203的输入。在一个实施例中,输出设备216也可用作输入设备。输入/输出控制器214还可向除输出设备之外的设备输出数据,例如,本地连接的打印设备。根据一个实施例,至少一个相机201以及至少一个话筒203可经由输入/输出控制器214耦合到至少一个处理器202。根据另一实施例,至少一个相机201以及至少一个话筒203可经由通信接口212耦合到至少一个处理器202。此外,至少一个相机201和/或至少一个话筒203可以在设备200内部或者可被配置成在设备200外部。例如,相机201和话筒203可被配置作为输入218,尽管图2将它们例示为分开的实体,或者它们可以是可被插入到设备210中的外部设备。

术语“计算机”、“计算设备”、“装置”或“移动装置”在本文中被用于指带有处理能力以便可以执行指令的任何装置。本领域技术人员可以理解,这样的处理能力被结合到许多不同设备中,并且因此术语“计算机”和“计算设备”各自包括pc、服务器、移动电话(包括智能电话)、平板计算机、ip语音电话、机顶盒、媒体播放器、游戏控制台、个人数字助理、视频会议设备和许多其他设备。此外,如本领域技术人员将理解的,本实施例可适合应用于各种不同类型的计算设备,这些计算设备包括和/或可被耦合到至少一个话筒和至少一个相机并且可被配置成注释会议录音文本。

可使用设备200能够访问的任何计算机可读介质来提供计算机可执行指令。计算机可读介质可包括例如诸如存储器之类的计算机存储介质(本文中称为存储204)和通信介质。诸如存储器之类的计算机存储介质包括以用于存储如计算机可读指令、数据结构、程序模块或其他数据等信息的存储的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于,ram、rom、eprom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光存储、磁带盒、磁带、磁盘存储或其他磁存储设备,或者可被用来储存信息以供计算设备访问的任何其他非传输介质。相比而言,通信介质可以以诸如载波或其他传输机制之类的已调数据信号来体现计算机可读指令、数据结构、程序模块或者其他数据。如本文所定义的,计算机存储介质不包括通信介质。因此,计算机存储介质不应被阐述为本质上是传播信号。传播的信号可存在于计算机存储介质中,但是传播的信号本身不是计算机存储介质的示例。虽然存储204被示为在设备200内,然而本领域的技术人员将理解,该存储204可以是分布式的或位于远程并经由网络或其他通信链路(例如,使用通信接口212)来访问。

本文所述的功能可至少部分地由一个或多个硬件逻辑组件来执行。根据一个实施例,计算设备200由程序代码206、208配置,当程序代码206、208被处理器202执行时执行所描述的操作和功能的各实施例。在一个实施例中,本文所描述的功能可由204中存储的固件代替操作系统206或应用软件208或两者来执行。替换地或附加的,本文所描述的功能可以至少部分由一个或多个硬件逻辑组件来执行。例如,但非限制,可被使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(fpga)、程序专用的集成电路(asic)、程序专用的标准产品(assp)、片上系统(soc)、复杂可编程逻辑器件(cpld),图形处理单元(gpu)。

图3a和图3b例示了根据一个实施例的示例姿势。参考图3a,设备200可被放置在桌子300中间。参与者50和60可正坐在桌子300附近。参与者60可以正在发言并且可被称为发言者。话筒203可捕捉语音并将其发送给处理器202以供语音识别以及转换成文本。相机201可捕捉会议的视频并将其发送给处理器202以供检测、识别以及标识参与者。处理器202可通过分析来自相机201的视频和/或来自话筒203的音频来生成并维护会议中的参与者的位置认知。根据一个实施例,处理器可维护参与者50、60的实时骨架图501、601。处理器202可通过面部识别来标识发言者60并将数字文本与其相关联。此外,当参与者60作出姿势(例如用他们的手臂605向着参与者50的指向姿势602)时,处理器202可识别该姿势并将该姿势与已存储姿势的列表作比较。该比较可例如基于参数,如骨架图中包括姿势的骨架线之间的角度或骨架线所形成的形状。基于与姿势602相关联的注释,处理器202可将注释与通过对发言者60的语音的语音到文字的转换所获得数字文本相关联。姿势可朝向一目标,例如朝向图3中的参与者50。处理器202可使用对参与者的位置的认知以及姿势602的方向来确定姿势的预期目标。

参考图3b,处理器202可找出作出姿势的肢体相对于参考线(例如,将设备200连接到参与者60的线)的实际角度610,并且使用已计算出的参与者的位置来标识预期目标。这可通过例如测量作出姿势的肢体的至少一部分的外观长度612并将该外观长度与肢体的该至少一部分在伸展位置下的实际长度613作比较。肢体相对于参考线的外观角度61也可是已知的。其它三角方法也可被用来标识姿势和/或确定姿势的目标。

在一个实施例中,至少一个相机201和至少一个话筒203可被配置以便全部被包含在设备200内。在一个实施例中,设备200可被基本放置在桌子的中心,会议的参与者可坐在或位于该桌子周围。在一个实施例中,多个相机201和多个话筒203可被配置为遍布会议空间(例如会议室)。多个相机201和多个话筒203可耦合到至少一个处理器202和/或至少一个存储204。

根据一个实施例,会议的非话语交流的一些元素可基于物理姿势通过注释来捕捉在会议抄本中。根据一个实施例,在例如向会议中的人分配任务时使用的自然指向姿势可被分配“动作点”的注释。根据一个实施例,朝向白板或显示屏幕的指向姿势可被分配“参考白板/屏幕的内容”的注释。在这种情况下,注释可包括白板的内容的时间戳和/或数字副本等以及其它可能的信息。根据一个实施例,录音文本可通过将因用户而异的语音识别简档用于语音到数字文本转换来开发。根据一个实施例,设备200可在不需要话语线索的情况下生成具有注释的会议抄本。根据一个实施例,会议抄本和注释的生成可实时进行,而不影响会议的自然进程。根据一个实施例,可基于注释进行动作点的生成,指示针对会议的参与者的任务。根据一个实施例,注释和动作点可自动生成,而无需参与者除所描述的以外的特别付出。

图4例示了设备200在会议空间301中的配置的俯视图。根据图4中例示的实施例,设备200被基本放置在桌子300的中心,桌子300被放置在会议空间301中。参与者50、60、70和80以及物理对象90。在一个实施例中,位置认知可包括以设备200为原点的3维坐标系。设备200可向会议中的每一个参与者分配坐标。根据一个实施例,设备200可包括单个360°相机或被配置成捕捉360°视频的共处一处的相机阵列。被配置成捕捉360°视频的相机可捕捉一个或多个平面中所有方向上的视频。根据一个实施例,设备200可包括单个360°话筒或被配置成捕捉360°音频的共处一处的话筒阵列。

图5例示了设备200在会议空间301中的另一示例性配置的俯视图。包括设备200的相机2011、2012、2013、2014和2015中的至少一个可被放置在会议空间301内的各个位置。类似地,话筒2031、2032、2033、2034和2035可被放置在会议空间301周围的各个位置。在一个实施例中,至少一个话筒2036和/或至少一个相机2036可被配置在桌子300上,参与者50、60、70和80以及物理对象90可位于桌子300周围。在一个实施例中,至少一个相机2014以及至少一个话筒2034可以共处一处。可存在各种不同种类的将相机和话筒放置在会议空间中的配置,而图5例示了如何放置它们的一个示例性选项。

虽然本文中公开的主题可能已用针对设备的语言来描述,但是将理解,同样的功能可被实现为其中本文描述的结构和/或功能组件中的一些或全部可不共处一处的系统。具体地,至少一个处理器202和/或至少一个存储204不需要与至少一个相机201和/或至少一个话筒共处一处。这包括但不限于通过有线或无线网络的实现以及基于云的实现。

图6以示意流程图例示了根据一个实施例的用于生成和注释会议抄本的方法。参考图6,根据一个实施例,方法可被使用在图1和图2中例示的设备200中,用于基于对会议的参与者所作出的姿势的识别对会议抄本进行注释。根据一个实施例,图2的过程可被编译成程序代码206、208。

步骤400可包括监视会议的视频和音频。监视可包括在视频中分辨各个参与者,例如之前讨论过的发言者或以其它方式参与会议而没有发言的参与者,另外也分辨各个音频流。各个参与者可通过处理包括视频的帧来检测。在一个实施例中,声音源定位可至少部分地有助于检测会议空间301中存在的参与者。

步骤401可包括开发会议空间301中存在的各个参与者的位置认知。位置认知可包括各个参与者和对象在会议空间中相对于彼此和/或参考点的位置的知识。在一个实施例中,会议空间301中存在的会议的参与者和对象被分配欧几里德三维坐标系中的坐标。会议空间中的参与者和对象之间的距离可通过图像处理技术和/或音频处理技术来计算。在一个实施例中,对相机的光学元件和因会议空间而异的参数的知识可至少部分有助于开发会议空间301中的参与者的位置认知。

步骤402可包括对检测到的位于会议空间中的参与者的标识。参与者的标识可包括为每一个参与者分配名字或标识。图像识别技术可被应用在视频中检测到的参与者上以标识他们。名字可例如根据例如数字数字企业通信套件中的联系人数据库来分配。根据一个实施例,会议的参与者的名字和相关联的图片可在会议开始时被获取。此外,在步骤402,会议的参与者的骨架图可被开发。骨架图可确定视频中检测和标识的参与者的身体的各个枢轴点并对其进行建模。骨架绘图可实时进行以便准确地跟踪参与者的姿势。在一个实施例中,至少一个参与者的名字可在会议期间通过分析音频和/或视频来习得。在一个实施例中,发言者或其它参与者的标识可至少部分地受对参与者的生物特征的分析影响。在一个实施例中,标识信息还可从参与者携带的设备中读取。这类设备可以是能够携带个人标识信息的任何设备,诸如例如智能电话、电子id卡、rfid安全卡等。

步骤403可包括监视会议空间301以寻找发言者并且标识在那个时间点是主发言者的参与者。监视可基于接收的音频信号。发言者的标识可受图像识别和/或声音源定位以及步骤401中开发的位置认知的影响。在会议中,多个人可能同时发言,但是通常一个人(即主发言者)有发言权。在不止一个发言者的情况下,可通过确定参与者的头和眼睛移动和/或朝向来标识主发言者。在单个主发言者不确定的情况下,可同时标识多个发言者。

步骤404可包括将主发言者的语音转换成数字文本。语音识别技术可被用于影响语音到数字文本的转换。在一个实施例中,基于发言者的身份的语音识别简档可被用于语音到数字文本转换。在步骤405中,数字文本可与其发言者的身份相关联。另外,语音的时间点和相应的数字文本可被检测和获得。

步骤406,骨架图可被连续监视以检测参与者所作出的可能的姿势。检测可关注于参与者的骨架图的某些部分,这取决于预定义的姿势涉及哪些身体部位。步骤407可包括确定发言者的骨架图中检测到的姿势是否被识别为一组预定义姿势中的一个。如果没有发现匹配,则在步骤406,对骨架图的监视继续。如果姿势被识别,则在步骤408,其相关联的注释被抓取。

步骤409可包括将步骤408中抓取的注释与步骤405的文本相关联并保存该文本。如果没有姿势被识别,则与发言者相关联的文本可被保存而不带注释。此外,时间和位置戳可被添加到数字文本。

在步骤410,会议的状态被监视。如果会议没有结束,在步骤403,监视和标识可继续。

图7例示了根据实施例的示例性抄本。抄本可包括关于会议的索引数据101。索引数据101可包括任何细节,如标题、被邀请人、议程、日期、地点、持续时间等。抄本可包括会谈的简单数字文本102,其不涉及任何姿势。数字文本可与发言者108的名字和时间戳109相关联。抄本的一些部分103、104、105、106、107可包括基于识别的姿势的注释。在一些情况下,如在抄本的部分103、104中,注释可高亮发言者提到的会议辅助工具。在一个实施例中,这类注释可包括连接到会议辅助工具所显示或播放的内容的超链接。例如,姿势的同时播放或显示的内容可被记录或通过网络获取。在一些情况下,如部分105、106、107中,数字文本的注释可包括动作点。动作点可指示从一个参与者到一个或多个参与者与任务有关的指令。在一个实施例中,注释的数字文本可被高亮以增加易用性。在一个实施例中,可提供包括会议的所有动作点的概要。在一个实施例中,概要可列举会议中提到的所有内容。根据一个实施例,注释可以是用户定义的。可为不同姿势定义各种注释。虽然特定注释可已经在本文中被讨论,但它们仅仅旨在作为示例而不以任何方式被解释为限制。

本文描述的方法和功能可由有形存储介质上的机器可读形式的软件来执行,例如计算机程序的形式,该计算机程序包括在该程序在计算机上运行时适用于执行本文描述的任何方法和功能的所有步骤的计算机程序代码装置并且其中该计算机程序可被包括在计算机可读介质上。有形存储介质的示例包括计算机存储设备,计算机存储设备包括计算机可读介质,诸如盘、拇指型驱动器、存储器等而不包括所传播的信号。传播的信号可存在于有形存储介质中,但是传播的信号本身不是有形存储介质的示例。软件可适于在并行处理器或串行处理器上执行以使得各方法步骤可以按任何合适的次序或同时执行。

这承认,软件可以是有价值的,单独地可交换的商品。它旨在包含运行于或者控制哑(“dumb”)或标准硬件以实现所需功能的软件。它还旨在包含例如用于设计硅芯片,或者用于配置通用可编程芯片的hdl(硬件描述语言)软件等“描述”或者定义硬件配置以实现期望功能的软件。

本领域技术人员会认识到,被用来储存程序指令的存储设备可分布在网络上。例如,远程计算机可储存被描述为软件的进程的一部分或全部示例。本地或终端计算机可以访问远程计算机并下载软件的一部分或全部以运行程序。可另选地,本地计算机可以根据需要下载软件的片段,或在本地终端上执行一些软件指令,并在远程计算机(或计算机网络)上执行另一些软件指令。替换地或附加的,本文描述的功能可以至少部分由一个或多个硬件逻辑组件来执行。作为示例而非限制,可使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑器件(cpld)等。

本文给出的任何范围或设备值可被扩展或更改而不损失所寻求的效果。任何实施例也可与另一实施例相组合,除非明确不允许。

尽管用结构特征和/或动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述具体特征或动作。相反,上述特定特征和动作是作为实现权利要求书的示例而公开的,并且其他等价特征和动作旨在处于权利要求书的范围内。

可以理解,上文所描述的优点可以涉及一个实施例或可以涉及多个实施例。各实施例不仅限于解决任何或全部所陈述的问题的那些实施例或具有任何或全部所陈述的优点那些实施例。进一步可以理解,对一个摂项目的提及是指那些项目中的一个或多个。

本文所描述的方法的步骤可以在适当的情况下以任何合适的顺序,或同时实现。另外,在不偏离本文所描述的主题的精神和范围的情况下,可以从任何一个方法中删除各单独的框。上文所描述的任何示例的各方面可以与所描述的其他示例中的任何示例的各方面相结合,以构成进一步的示例,而不会丢失寻求的效果。

此处使用了术语“包括”旨在包括已标识的方法的框或元件,但是这样的框或元件不包括排它性的列表,方法或设备可以包含附加的框或元件。

可以理解,上面的描述只是作为示例给出并且本领域的技术人员可以做出各种修改。以上说明、示例和数据提供了对各示例性实施例的结构和使用的全面描述。虽然上文以一定的详细度或参考一个或多个单独实施例描述了各实施例,但是,在不偏离本说明书的精神或范围的情况下,本领域的技术人员可以对所公开的实施例作出很多更改。

根据一个实施例,公开了一种系统,系统包括:处理器以及包括一组指令的存储器;其中所述一组指令致使所述处理器:接收包含会议的参与者的语音的音频记录;接收所述参与者的视频;标识所述参与者;将所述参与者的语音转换成数字文本;开发所述参与者的骨架图;从所述骨架图中识别所述参与者的姿势;检测并标识所述姿势的目标;基于所述目标和所述姿势,确定用于与所述姿势的时间点相对应的数字文本的注释。

根据或补充上述实施例,所述注释包括包含所述姿势的时间点以及朝向所述姿势的目标的动作点。根据或补充上述实施例,所述动作点包括由正在发言的参与者将任务分配给会议中的一个或多个参与者。根据或补充上述实施例,包括存储的指令进一步致使所述处理器开发参与者和至少一个目标的位置的认知。根据或补充上述实施例,所述对位置的认知包括所述参与者和所述目标在多维坐标系中的坐标。根据或补充上述实施例,目标包括:至少一个物理对象或会议的至少一个参与者;或者会议的至少一个参与者和至少一个物理对象。根据或补充上述实施例,系统进一步包括至少一个话筒和至少一个相机,其中所述处理器从所述至少一个话筒接收参与者的音频记录并且从所述至少一个相机接收所述参与者的视频。根据或补充上述实施例,话筒包括指向性话筒阵列。根据或补充上述实施例,系统进一步包括多个相机,其中所述相机被配置成以分布式方式遍布会议空间。根据或补充上述实施例,系统进一步包括多个话筒,其中所述话筒被配置成以分布式方式遍布会议空间。根据或补充上述实施例,会议的参与者的识别和标识受生物特征识别的影响。根据或补充上述实施例,会议的参与者的识别和标识受从所述参与者所携带的设备读取标识信息的影响。根据或补充上述实施例,包括存储的指令进一步致使所述处理器开发会议的所有参与者的骨架图。根据或补充上述实施例,姿势的识别包括监视所述发言者的骨架图并且将检测到的姿势与一组预定义的姿势作比较。根据或补充上述实施例,因发言者而异的语音识别简档被用于语音到数字文本转换。

根据一个实施例,公开了一种设备,设备包括:至少一个话筒;至少一个相机;至少一个处理器;以及包括一组指令的至少一个存储;其中所述一组指令致使处理器:从所述至少一个话筒接收包含会议的至少一个参与者的音频记录;从相机接收所述至少一个参与者的视频;标识所述至少一个参与者;将语音转换成数字文本;开发所述至少一个参与者的骨架图;从所述骨架图中识别所述参与者的至少一个姿势;检测并标识所述至少一个姿势的至少一个目标;基于所述至少一个目标和所述至少一个姿势,确定用于与所述至少一个姿势的时间点相对应的数字文本的注释。

根据或补充上述实施例,设备进一步包括能够测量所述相机的倾斜的角度的陀螺仪,其中所述角度被用于测量参与者距所述相机的距离。

根据一个实施例,公开了一种方法,方法包括:接收包含会议的至少一个参与者的语音;接收所述至少一个参与者的视频;标识所述至少一个参与者;将语音转换成数字文本;开发所述至少一个参与者的骨架图;从所述骨架图中识别所述至少一个参与者的至少一个姿势;检测并标识所述至少一个姿势的至少一个目标;基于所述至少一个目标和所述至少一个姿势,确定用于与所述至少一个姿势的时间点相对应的数字文本的注释。

根据或补充上述实施例,方法进一步包括开发对至少一个参与者和至少一个目标的位置的认知。根据或补充上述实施例,所述至少一个参与者的标识受生物特征识别的影响。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1