为不支持视频的视频电话参与者提供非言辞通信的描述的制作方法

文档序号:6583158阅读:126来源:国知局
专利名称:为不支持视频的视频电话参与者提供非言辞通信的描述的制作方法
技术领域
本发明的一个示例性的方面涉及非言辞通信。更具体地,一个示例性的方面涉及 为讲话者或收听者以音频形式提供关于非言辞通信的信息,以使得他们能够从非言辞通信 的知晓中获益。
背景技术
非言辞通信(NVC)通常理解为通过发送和接收不用语言表达的消息来进行通信 的过程。这样的消息可以通过姿势、肢体语言或体态、面部表情和眼神交流、不安习惯的出 现或消失、对象通信(比如衣着、发型、或者甚至是建筑、符号和信息图形)来通信。讲话也 可以包含已知为辅助语言的非言辞元素,包括语音质量、情感和说话方式、以及节律特征, 比如节奏、语调和重音。同样地,手写文本也具有非言辞元素,例如书写字体、单词的空间排 列、或者表情符号的使用。然而,非言辞通信的大多数研究都集中在面对面的交流上,其中, 它可以被分为三种基本领域通信发生的环境条件、通信者的物理特性、以及交流期间通信 者的行为。非言辞通信在多种情形下可以比言辞通信传达更多的信息。当讨论的参与者不能 受益于这些非言辞通信的暗示时,不利于他们感知整个(言辞和非言辞)消息。参与者可能 没有受益于非言辞通信的暗示的这些情形包括,但不限于,当他们视觉受损时,当他们位于 另一个地方且仅仅通过语音参与和/或用户在移动且因为有关的(例如开车时观看视频) 法律不能看视频或因为他们的装置不支持视频的情况。

发明内容
本发明的一个方面提供了一种方法,通过用于描述这些非言辞通信的替代性(可 听的、文本的和/或图形的)装置来进行通信。这些替代性的非言辞通信可将关于任何讲 话者或收听者的内容发送到该通信会话中的任何其它方,且可以在谈话或聆听的同时传送
日首不。本发明的另一方面涉及向演讲者或讲话者提供关于他们表现出的非言辞暗示的 反馈,他们可能想要知道这些反馈。这种情况的例子包括,但不限于,有人显露情感;盲人主 义(从出生就看不见的人可能产生的、对其它人来说令人烦恼的行为),持续凝视成目不转 睛等可能被视为负面的行为,等等。除非一个人能够看到通信的对方,否则实时通信通常不会传送任何非言辞信息。 这种情况背后的原因包括姿势或其它非言辞检测技术的限制、因为处理时间所导致的传输 方面的延迟和非言辞通信的简洁概要的使用。根据另一个示例性实施例,检测到的非言辞通信暗示的利用,及其概要,被用于提 供可听的、文本的和/或图形的输入给1.由于任何原因无法受益于能够看到非言辞通信的暗示的收听者,或2.有特殊习惯的讲话者或有要传送给其它方的其它非言辞信号的讲话者。
这包括在讲话或听的同时给出的暗示。例如,A方作为主要的讲话者而B、C为收 听者。假设这三方都仅使用语音,对于上述情形1来说,这个方法能够将A方的暗示传送给 B和C,将B方的暗示传送给A和C (又是情形1),以及将C方的暗示传送给A和B (又是情 形1)。类似地,对上述情形2来说,给讲话者或回答者的反馈可以针对通信会话中的任何一 方和所有方。提供非言辞通信的这种概要的一种方法是对收听者或讲话者的所谓的耳语声明。 另一个示例性方法是提供图形提示,比如表情符号。还有另一种方法可以是文本的概要。每 个示例性方法在特定的情形下都有其优点且在其它情形下有其缺陷。本系统的一方面允许 定制以使得系统能够提供最适合于目标设备和/或用户的形式。考虑到目标设备和用户,类似地可以实现非言辞输入的集成。例子可以包括当用 户能够看到他们的设备但不能通过头戴式耳机听到耳语声明时使用表情符号。对于看不见 的用户来说,可以通过可刷新的盲文显示来呈现触摸可辨别的表情符号。与本发明的一个示例性实施例相关联的可以是偏好文件,其指示了用户期望非言 辞通信的方式,作为时间、地点、设备、装备或个人能力等等的函数。类似地,需要对自己发 送的非言辞的暗示的反馈的讲话者或演讲者也可具有关于如何将这种信息提供给他们的 偏好。例如,对讲话者或演讲者来说,提供表情符号或按键比耳语声明会较少打断他们。当知道了姿势识别的特定方面,本发明的另一个示例性方面涉及姿势识别的调 节,特别是关键姿势,并基于该姿势执行一些动作。例如,自动过程可以观看并分析一个或 多个会议参与者和/或一个讲话者的姿势。如下文所讨论的,可以在言辞通信和姿势之间 产生相关,该姿势可以接着被记录下来,例如,以转录的方式。一旦识别出姿势,姿势的概 要可以通过一个或多个文本信道、耳语信道、非视频信道、SMS消息、或其它类似的信道被发 送,并通过一个或多个表情符号来提供。姿势的识别甚至可以是动态的,从而当识别出某个 姿势时,特定的动作发生。此外,姿势识别可以被用于自分析,群组分析,以及反馈进入姿势 识别模型以进一步提高姿势识别能力。姿势识别,以及向其他参与者提供非言辞通信的姿势的描述无需以用户为中心, 而是也可以基于组中的一个或多个个体,比如视频会议、与网络摄像机相关联的一个或多 个用户,等。仍然按照另一个示例性实施例,对姿势和情绪中的一个或多个的检测、监视以及 分析可以被用于例如辅助在远程教室中的教学。例如,可以识别出比如要表示用户想要提 问的举手姿势,且以类似的方式,可以为比如老师的用户提供指示器,其基于对一个或多个 学生的分析,显示出学生开始犯困。例如,这个分析可以通过对教室里一个或多个学生打呵 欠的检测而触发。如所讨论的,对情绪和姿势中的一个或多个的检测也可以触发动态的行为。例如, 某些情绪和姿势可以被描绘为“关键情绪”或“关键姿势”且将特定的动作与这些“关键情 绪”或“关键姿势”中的一个的检测相关联。例如,在继续上述情景时,如果学生举手提问, 这可以被识别为关键姿势且相应的动作是视频摄像头的遥摄和移动聚焦于正提问的用户, 同时使抛物面反射式传声器重定向以保证能够听到该用户的问题。除了能够提供动态的行为之外,对一个或多个情感和姿势的识别也可以用于提供 例如视频会议的易理解的抄本。例如,所述抄本可以包括传统信息,比如会议中所讲的内容,并且补充了由本发明示例性实施例所识别的情绪或姿势信息中的一个或多个。仍然按照另一个示例性实施例,可以存在多个不支持视频的参与者且他们希望接 收非言辞通信的指示。因此,不支持视频的一个或多个参与者可具有相关联的配置文件,其 允许对用户将要接收何种类型的情绪和/或姿势进行选择和过滤中的一个或多个。另外, 该配置文件可以规定与非言辞通信的描述相关的信息应该如何被呈现给该用户。如所讨论 的,这个信息可以通过文本信道、通过耳语,比如当会议在B信道上进行时在A信道上的耳 语、和/或与会议相关联的非视频信道、和/或以SMS消息、或支持例如表情符号的MSRP消 息服务来呈现。这个配置文件可以是以用户为中心的、以端点为中心的或与会议系统相关 联。例如,如果用户与带宽或处理器受限的端点相关联,则使配置文件与会议系统相关联会 更有效。可选地,或者另外地,例如,在与用户相关联的端点处是膝上型电脑和相关联的网 络摄像机,该配置文件(以及与之相关联的功能性)的一个或多个方面可以位于该膝上型 电脑中。相应地,本发明的一个示例性方面涉及为不支持视频的参与者提供非言辞通信描 述符。本发明的另一个方面涉及为不支持视频的视频电话参与者提供非言辞通信的描 述。本发明的另一个方面涉及在视频会议环境中检测和监控情绪。本发明的另一个方面涉及在视频会议环境中识别、分析并传送一个或多个姿势。本发明的另一个方面涉及当确认姿势是一个关键姿势时的姿势反应。本发明的另一个方面涉及产生、管理并将特定姿势与特定动作相关。本发明的另一个方面涉及用户配置文件,其规定一个或多个要接收的消息类型以 及用于该消息的通信形式。本发明的若干方面也涉及与视频会议相关联的抄本的生成和制作,该抄本包括情 绪和姿势信息中的一个或多个。这些情绪和姿势信息可与一个或多个会议参与者相关联。本发明的另一个方面为视频会议的参与者,比如主持人或讲话者,提供对在他们 陈述期间呈现的情绪和/或姿势的类型的反馈。本发明的另一些方面涉及评价一个或多个会议参与者的能力,对于每个不支持视 频的参与者,基于例如他们的能力和/或偏好而将消息传递偏好与他们相关联。本发明的另一些方面涉及分析和识别能够为其提供描述的一系列姿势。本发明的另一些方面涉及识别与会议中的一个或多个用户相关联的音频和/或 视频输入的各种类型,并利用这个信息进一步改进当识别出关键姿势时可以发生或可以不 发生的一个或多个动作。为了简化讨论,本发明将一般描述有关姿势的识别和分析。然而,应当意识到姿势 和情绪中的一个或多个可被识别和分析,以及作出他们是否关键的决定,并执行与之相关 联的动作。本发明的另一些方面涉及提供一种能力以调整一个会议抄本的粒度,从而决定什 么类型的情绪和/或姿势应该被包括在其中。例如,可以选择忽略一些姿势,比如打喷嚏, 而另一方面,一个人摇动他们的头或微笑可能期望被捕获。本发明的一些方面在询问、采访、宣誓作证、法院听证会、或者通常在会希望在记录的抄本中包括一个或多个姿势和情绪信息的任何环境中被证明是有用的。本发明的另一些方面涉及为一个或多个会议参与者提供一种指示的能力,该指示 表明哪个姿势可能触发相应的动作。例如,再次与教室环境有关,可以给学生这样的信息 举手将导致会议摄像头移动并聚焦向他们,使得他们可以提问。这使得,例如,一个或多个 用户通过使用深思熟虑的姿势来积极地控制会议。因此,例如,在会议室内,许多用户面对没有任何接入到视频会议功能性控制按钮 的摄像头时,发送命令给会议系统的一种方式可以利用关键姿势。这种通过使用姿势的动 态会议控制在许多环境中都有广泛的应用,且可以被用于无论一个人是位于会议的端点, 或者多个个体。例如,利用基于手的信令,用户可以请求视频摄像头移动向他们,一旦完成 了他们的点,就提供另一个基于手的信号,将摄像头返回到观察所有的听众。如所讨论的,本发明的一个示例性方面提供了音频的和/或文本输入给无法看见 由一个或多个其他会议参与者可能作出的情绪和姿势中的一个或多个的会议参与者。可以 如何提供这种信息的例子包括1.对于具有单一的单声道的只有音频的端点的会议参与者,情绪和/或姿势的音 频描述可以通过“耳语”通知被提供。2.对于具有多于一个的单声道的只有音频端点的会议参与者,他们可以利用端点 中的一个收听会议讨论,然后利用另一个接收情绪和/或姿势的音频描述。另外,他们可以 接收指示,该指示表明是否识别到关键姿势,并执行相应的动作。3.具有双声道的只有音频的端点的会议参与者可以利用其中一个信道收听会议 讨论,并利用另一个接收检测到的情绪、姿势、关键姿势等种的一个或多个的音频描述。4.具有支持email、SMS、IM的音频端点的会议参与者可以通过这些相应的接口接 收描述。5.具有能够接收和显示流文本(说明性地,一个支持IETF建议RFC-4103 “用于 文本会话的RTP负载”的SIP端点)的音频端点的会议参与者可以令描述滚动过端点的显 示器,从而文本展示与会议桥上的发言信息同步。本发明能够提供许多依赖于特定配置的优点。通过本发明包含在这里的公开内 容,这些和其它优点将显而易见。术语“至少一个”、“一个或多个”、以及“和/或”都是开放式的措辞,它们在操作中 包括连接的和不连接的两种。例如,“A、B和C中的至少一个”、“A、B或C中的至少一个”、 “A、B和C中的一个或多个”、“A、B或C中的一个或多个”和“A、B和/或C”中的每个措辞 表示A、B、C、A和B —起、A和C 一起、B和C 一起、或者A、B和C 一起。术语“一个(a) ”或“一个(an),,实体指一个或多个该实体。同样地,术语“一个 (a)”(或“一个(an)”)、“一个或多个”和“至少一个”在这里可以互换使用。也需要注意 的是术语“包含”、“包括”和“具有”可以被互换使用。术语“自动的,,及其变异,使用在这里,指任何程序或操作在执行时没有重要的人 工输入。然而,即使程序或操作利用了在执行前接收的人工输入,无论是重要的还是不重要 的,它们也可以是自动的。如果这种输入影响了程序或操作的执行方式,则人工输入被认为 是重要的。不影响程序或操作的执行的人工输入不认为是“重要的”。这里用到的术语“计算机可读介质”指任何有形的存储器和/或传输介质,其用于提供处理器所运行的指令。这样的介质可以采用多种形式,包括但不限于,非易失性介质、 易失性介质、和传输介质。非易失性介质包括,例如,NVRAM、或磁盘或光盘。易失性介质包 括动态存储器、比如主存储器。计算机可读介质的通用形式包括,例如,软盘、软碟、硬盘,磁 带、或任何其它的磁介质、磁光介质、CD-ROM、任何其它的光介质、穿孔卡片、纸带、任何其它 的具有孔图案的物理介质、RAM、PR0M、以及EraOM、FLASH-EraOM、固态介质比如存储卡、任何 其它的存储芯片或编码磁带、如这里描述的载波、或计算机可读的任何其它介质。E-mail的 数字文件附件或其它自包含信息存档文件或存档文件组被认为是相当于易失性存储介质 的分布式介质。当计算机可读介质被配置为一个数据库时,应该理解该数据库可以是任何 类型的数据库,比如关系的、分级的、面向对象的等等。虽然电路或数据包交换类型的通信可以被用于本发明,但是这里所公开的的概念 和技术可用于其它协议。相应地,本发明被认为包括有形的存储介质或分布式介质和现有技术可识别的等 同物和后继的介质,本发明所执行的软件存储在其中。术语“确定”、“估算,,和“计算,,及其变异,如这里所用到的,可用于相互替换且包 括任何类型的方法学、程序、数学操作或技术。这里用到的术语“模块”指任何已知的或之后发展的硬件、软件、固件、人工智能、 模糊逻辑、或能够执行相关细件的功能的软件和硬件的组合。而且,由于本发明是按照示例 性实施例的方式来描述,应该认识到本发明的各个方面可以被分开主张权利要求。前述本发明的简要概述述提供了本发明某些方面的理解。这个概述既不是本发明 及其不同实施例的概观的延伸,也不是它们的穷举。它既不是有意的识别本发明关键的或 重要的组件,也不是描绘本发明的范围,而是以简化的方式给出本发明选择性的概念,作为 下面给出的更加详细描述的内容的一个介绍。将会意识到,本发明的其它实施例也可能会 利用,单独的或以组合的方式,上面所述的或下面详细描述的一个或多个特征。


图1示出了根据本发明的一个示例性通信环境;图2-3示出了根据本发明的示例性的会议抄本;且图4简述了根据本发明的一种示例性的方法,用于为不支持视频的会议参与者提 供非言辞通信的描述。
具体实施例方式下面将要描述的发明与一个通信环境有关。尽管很好地适用于电路交换网络或数 据包交换网络,但本发明并不限于用于任何特定类型的通信系统或系统组件的配置,且本 领域技术人员将会认识到这里公开的技述可以用于期望提供安全特性接入的任何应用。例 如,这里所公开的系统和方法也将很好地与基于SIP的通信系统和端点一起工作。另外, 这里所描述的各种端点可以是任何的通信装置,比如电话、扬声器电话、蜂窝电话、支持SIP 的端点、软件电话、PDA、会议系统、视频会议系统、有线或无线通信装置、或者通常的能够发 送和/或接收语音和/或数据通信的任何通信装置。本发明的示例性系统和方法也被描述为与软件、模块、和相关联的硬件和网络有关。为了避免不必要地模糊本发明,后面的描述接纳了公知的结构、零件和装置,它们可能 以众所周知的结构图的形式被示出,或以其它概要的形式。为了解释的目的,提出了许多的细节以提供本发明的彻底的理解。但是应当认识 到,本发明可以超越这里所提出的特定细节,而以多种方式实现。图1示出了根据本发明的一个示例性通信环境100。根据这个示例性实施例,该通 信环境是用于多个端点之间的视频会议。更明确地,通信环境100包括会议模块110、和一 个或多个网络10、和相关联的链路5,连接到观察一个或多个会议参与者端点105的视频摄 像头102。通信环境100也包括网络摄像机115,其与会议参与者端点125相关联,和一个 或多个不支持视频的会议参与者端点135,其通过一个或多个网络10和链路5连接到会议 模块110。会议模块110包括消息模块120、情绪检测和监视模块130、姿势反应模块140、姿 势识别模块150、姿势分析模块160、处理器170、抄本模块180、控制模块190和存储器195、 以及为了简洁而没有示出的其它的标准会议桥细件。在操作中,在会议模块110的协作下建立视频会议。例如,视频摄像头102,其可 具有相关联的音频输入和呈现装备,比如显示器和扩音器,可以与会议参与者105相关联。 为会议参与者125提供网络摄像机115,来自该网络摄像机115的音频和视频被分配到其 它的会议端点。由于端点能力或用户损伤的原因而无法看见视频的会议参与者135无法接 收或观看视频内容。一旦视频会议开始时,这些不同端点的能力可以注册到会议模块110, 且特别是消息模块120。可选地,消息模块120可询问一个或多个端点并且确定它的能力。 另外,每个端点和/或与每个端点相关联的用户中的一个或多个可以具有配置文件,其不 仅规定端点的能力,而且还规定消息传递偏好。如所讨论的,这些优选的消息传递偏好可包 括要接收的信息的类型以及应该如何呈现该信息。如这里以更多的细节所讨论的,消息模 块120通过一个或多个请求形式将这些信息转发到一个或多个会议端点。应该认识到,虽 然消息模块120通常仅将描述信息发送给不支持视频的会议参与者,但是这个消息通常可 以被发送给任何会议参与者。抄本模块180,与处理器170和存储器195中的一个或多个协作,能够被设置为在 视频会议开始时创建会议抄本,其包括一个或多个下述的信息参与者信息、情绪信息、姿 势信息、关键姿势信息、反应信息、定时信息,以及通常与视频会议相关联的任何信息和/ 或所述的模块中的一个。会议抄本可以是以会议参与者为中心的或,“主要的”会议抄本,其 能够捕获和记录视频会议的任何一个或多个方面。视频会议一旦开始,就监视一个或多个支持视频的参与者且识别一个或多个他们 的情绪和姿势。与情绪检测监视模块130和姿势识别模块150相协作,一旦识别出一个或多 个情绪和姿势,就作出其是否是一个值得报告的姿势的决定。如果其是一个值得报告的姿 势,且与抄本模块180协作,那个情绪或姿势就被记录到一个或多个合适的抄本中。另外, 姿势分析模块160分析识别出的姿势以确定它是否是关键姿势。如果该姿势是关键姿势, 且与姿势反应模块140协作,作出与该关键姿势相关联的相应的动作。存储器195可以存 储,例如,画有关键姿势和相应反应之间的相关性的表。一旦确立了关键姿势和相应的反应 之间的相关性,姿势反应模块140就和控制模块190相协作以执行该动作。如所讨论的,这 个动作通常可以是能够被通信环境100中的任何一个或多个组件执行的任何动作,且甚至
9更加普遍地,可以是与视频会议环境相关联的任何动作。由姿势识别模块150作出的姿势是否是值得报告的决定可以是基于一个或多个 “主要的”配置文件以及与一个或多个会议参与者相关联的单个的配置文件。配置文件也可 以与一组会议参与者相关联,该组会议参与者期望某个公共报告动作。因此,姿势识别模块 150能够并行操作,以确保抄本模块180接收所有必需的信息以保证记录所有期望的值得 报告的事件和/或将其转发到一个或多个端点。典型的姿势信息包括举手、摇头、点头等,且更加一般地可以包括由所监视的会议 参与者作出的任何举动。情绪通常是这样的项目,比如会议参与者是否紧张、脸红、微笑、 哭,或者一般地说会议参与者可以表达的任何情绪。虽然上面描述了与姿势反应模块相关 的内容,应该认识到,可以基于一个或多个情绪的检测提供可比较的功能性。类似的,应该 认识到可以是一个单个的情绪或姿势触发了相应的反应,或者是一个或多个情绪和/或姿 势的组合触发了一个相应的反应。反应的例子包括一个或多个遥摄、倾斜、移动、增大麦克风音量、减小麦克风音量、 增大扩音器音量、减小扩音器音量、打开摄像头盖、和通常的任何会议功能性。图2-3示出了根据本发明的示例性实施例的示例性会议抄本。在会议抄本200中, 如附图2所示,有四个示例性的会议参与者(210、220、230、和240)参与且,当每介参与者 讲话时,他们的讲话被识别,例如,利用语音到文本的转换器并记录到抄本中。另外,存在情 绪部件250,用于随着视频会议的时间的推进,概括识别出的一个或多个各种情绪和姿势。 情绪部件250可以是以参与者为中心的,且也可以包括用于可能同时做出相同姿势或产生 相同的情绪的多个参与者的动作和/或姿势。甚至更通常地,由会议参与者做出的任何举 动也可被总结在这个情绪部件250中,比如会议参与者1在会议参与者3讲话的时候打字。 如上所述,这个会议抄本200和以类似方式运行的会议抄本300,可以被定制为基于,例如, 特定的会议参与者的配置文件。这个会议抄本可以向一个或多个会议参与者实时呈现,并 存储在存储器195中,或存储在一个端点中和/或转发到,例如,由会议结论的配置文件所 指出的目的地,例如,email。图3示出了会议抄本300的可选实施例。在这个特定实施例中,情绪和/或姿势 信息位于相应的会议参与者邻近处。这对于帮助更加确切的聚焦于某个特定的会议参与者 可能有用。另外,会议抄本200和会议抄本300中的一个或多个可以是动态的且,例如,是 可选择的从而用户可以在会议结束后返回到会议抄本,并且重放会议的一个重编码部分和 /或与记录的情绪和/或姿势相关联的特定的连续镜头。即使没有示出,会议抄本200和 300中一个或多个也可以包括反应栏,其提供指示在会议期间执行哪些一个或多个反应。图4示出了操作的一种示例性方法,用于为不支持视频的视频电话参与者提供非 言辞通信的描述。由于图4通常关注于姿势,应该认识到相应的功能性可以被应用于情绪 和/或一系列情绪和姿势,当它们组合起来时,就是一个触发事件。特别地,控制从步骤 S400开始并继续到步骤S410。在步骤S410,系统可以选择性地评估一个或多个会议参与者 的能力。接下来,在步骤S420,且对于不支持视频的每一个会议参与者,可以确定一个或多 个会议参与者的消息传递偏好和/或能力。接着,在步骤S430,可以产生抄本模板,其包括, 例如一个或多个会议参与者的部分、情绪、姿势、和反应部分。控制接着继续到步骤S440。在步骤S440,会议开始 且转录可选地开始。接下来,在步骤S450,且对于每个支持视频的参与者,它们的姿势被监视并识别。接着,在步骤S460,做出姿势是否是值得记录的 姿势的决定。如果姿势是值得记录的,控制继续到步骤S470,其中与姿势的描述相应的姿势 信息是提供和记录中的一个或多个到一个或多个合适的端点。控制接着继续到步骤S480。在步骤S480,做出姿势、或一系列姿势,是否是关键姿势的决定。如果是关键的姿 势,控制继续到步骤S490,否则控制跳转到步骤S520。在步骤S490,确定与该姿势相关联的控制动作。接下来,在步骤S500,作出该控制 动作是否是可允许的决定。例如,可以基于一个或多个端点的能力中的一个或多个、决定来 自该特定端点的姿势是否将被识别的与配置文件相关联的信息,以及特定的关键姿势等来 做出该决定。如果该动作是可允许的,则控制继续到步骤S510,在那里执行该动作。如所讨 论的,这个动作也可以记录到抄本中。控制接着继续回到步骤S520。
在步骤S520中,做出会议是否结束的决定。如果会议还没有结束,则控制跳回步 骤S450,接着监视姿势。否则,如果转录已经开始,则其结束并且控制跳到步骤S530,在那 里结束控制序列。本发明的许多变异和改进可以被利用。对于本发明没有给出或声明的某些特性, 可能会给出或要求其权利。本发明已经描述了与增强视频会议相关的示例性系统和方法。然而,为了避免不 必要地模糊本发明,说明书省略了许多已知的结构和装置。这个省略不能被解释为对本发 明所要求的保护范围的限制。给出的具体细节是为了提供对本发明的理解。然而,应当认 识到,本发明可以以多种方式,超越这里所给出的具体细节来实现。此外,虽然这里给出的示例性实施例示出了系统配置的多种组件,但系统的某些 组件可以位于远端,在分布式网络,比如LAN、电缆网络、和/或因特网的远程部分、或在一 个专用系统内部。因此,应该认识到,系统的组件可以被组合到一个或多个装置中,比如网 关,或配置在分布式网络的特定节点中,比如模拟和/或数字通信网络、包交换网络、电路 交换网络或电缆网络。从前面的描述应该认识到,且由于计算效率的原因,系统的组件可以被安排在组 件的分布式网络内的任何位置,而不会影响系统的操作。例如,各种组件可以位于比如PBX 和媒体服务器的交换机、网关、电缆提供者、娱乐系统中、在一个或多个通信装置中、在一个 或多个用户房屋中,或者它们的组合。类似地,系统的一个或多个功能性部分可以分布在通 信装置和相关联的计算装置之间。此外,应该认识到连接各个元件的各种链路,比如链路5,可以是有线的或无线的 链路,或者它们的组合,或者任何已知的或以后发展的能够提供和/或传送数据往来于所 连接的元件的元件。这些有线或无线链路也可以是安全链路且可能能够进行加密信息的通 信。作为链路使用的传输介质,例如,可以是用于电信号的任何合适的载体,包括同轴电缆, 铜线和光纤,且可以采用声波或光波的形式,比如那些在无线电波和红外数据通信期间产 生的声波或光波。而且,虽然已经讨论并示出了与事件的特定顺序相关的流程图,应该认识到对这 个顺序的改变、增加、和省略在实质上不影响本发明的操作的情况下可能发生。仍然是在另一个实施例中,本发明的系统和方法可以被实现为与专用目的计算 机、编程的微处理器或微控制器和外围的集成电路元件、ASIC或其它集成电路、数字信号处理器、硬连线电子的或逻辑电路比如分立元件电路、可编程逻辑装置或门阵列比如PLD、 PLA、FPGA、PAL,专用目的计算机、任何相当的装置等相协作。通常,能够实现这里所示出的 方法的任何设备或装置都可以用于实现本发明的各种方面。能够用于本发明的示例性硬件包括计算机、手持装置、电话(例如,蜂窝的、支持因特网的、数字的、模拟的、混合的、及其它)、以及序领域已知的其它硬件。某分这些装置包 括处理器(例如,单个或多个微处理器)、内存、非易失性存储器、输入装置、以及输出装置。 此外,可选的软件实现包括,但不限于,分布式处理或组件/目标分布式处理、并行处理、或 者虚拟机处理也可以被构建以实现这里所描述的方法。在另一个实施例中,所公开的方法可以容易地与使用对象的软件或基于面向对象 的软件开发环境相结合来实现,其提供便携式的源代码,其可以用于多种计算机或工作站 平台。可选地,公开的系统可以部分地或全部以利用了标准逻辑电路或VLSI设计的硬件来 实现。根据本发明的系统是否利用软件或硬件来实现取决于系统、特定的功能、以及利用的 特定软件或硬件系统或微处理器或微计算机系统所需的速度和/或效率要求。在另一个实施例中,公开的方法可以部分地以可以存储在存储介质上的软件来实 现,由编程的通用计算机与控制器和内存、专用计算机、微处理器等合作来执行。在这些例 子中,这个发明的系统和方法可以被实现为内嵌在个人计算机上的程序,比如JAVA小程序 (applet)、JAVA 或CGI脚本,可以被实现为驻留在服务器上或计算机工作站上的源程 序,可以被实现为内嵌在专用测量系统、系统组件上的程序,等等。该系统也可以通过将系 统和/或方法物理地合并到一个软件和/或硬件系统中来实现。尽管本发明描述了关于特定的标准和协议的实施例中实现的组件和功能,但是本 发明并不限于这些标准和协议。存在这里没有提到的其它类似的标准和协议且它们也被认 为包括在本发明中。此外,这里提到的标准和协议以及这里没有提到的其它类似的标准和 协议会被实质上具有相同功能的更快或更有效的相当的标准和协议周期性地替换。本发明,以各种实施例、配置,和方面,包括这里所充分描述和形容的组件、方法、 程序、系统和/或装置,包括多种实施例、子组合、和它们的子集。本领域技术人员在理解了 本公开后将会明白如何制作和利用本发明。本发明,以各种实施例、配置,和方面,包括在目 录的摘要中提供的这里没有描述和/或形容的装置和程序,或关于这个的各种实施例、配 置,或方面,包括在这些目录的摘要中且可能利用在前面的装置或程序中,例如,为了提高 性能,轻易地实现和/或降低实现的代价。前面给出的关于本发明的讨论是为了阐明和描述本发明。前述内容不是为了将本 发明限制到那些形式或这里所公开的形式。在前述的详细描述中,举例说明,本发明的各种 特性被组合进一个或多个实施例、配置或方面里,是为了组织本公开的目的。本发明的实施 例、配置、或方面的性能可以被结合到不同于上面所讨论的那些的另外的实施例、配置、或 方面中。本公开的方法不是为了解释为反映一种意图,即权利要求主张的发明比每个权利 要求所清楚描述的内容需要更多的特性。更确切的说,如后面的权利要求所反映出的,发 明的方面存在于比单个的前面公开的实施例、配置、或方面的所有特性少。因此,后面的权 利要求在这里被合并到这个详细描述中,每个权利要求本身就是本发明的单独的优选实施 例。此外,尽管本发明的描述包括了一个或多个实施例、配置、或方面的描述以及某些变异和改进,但是其它的变异、组合和改进也包括在本发明的保护范围内,例如,可能包括在本领域技术人员在理解了本公开后的范围内。想要获得的权利包括可选择的实施例、配 置、或方面的准许的范围,包括那些所声称的可选的、可互换的和/或对等的结构、功能、范 围或步骤,无论这些可选的、可交换的和/或对等的结构、功能、范围或步骤在这里已经公 开,或这没有想要公开地致力于任何可获得专利的主题。
权利要求
一种为不支持视频的视频会议参与者提供非言辞通信的方法,包括识别姿势和情绪中的一个或多个;确定描述所述姿势和情绪中的一个或多个的信息;且基于偏好信息,将所述信息转发到一个或多个目的地,其中所述一个或多个目的地是视频会议端点。
2.如权利要求1中的方法,其中所述一个或多个目的地是不支持视频的会议端点。
3.如权利要求1中的方法,进一步包括以下的一个或多个 确定一个或多个姿势是否是关键姿势;基于该关键姿势执行一个或多个动作; 确定一个或多个情绪是否是关键姿势; 基于该关键姿势执行一个或多个动作;以及 产生包括所述信息的抄本。
4.如权利要求1中的方法,其中所述信息是文本、表情符号、消息、音频描述和图形中 的一个或多个。
5.如权利要求1中的方法,进一步包括以下中的一个或多个将配置文件与视频会议相关联,该配置文件规定要描述的姿势和情绪中的一个或多个 的一个或多个类型以及用于提供该描述的形式;以及对于具有单一的单声道的只有音频的端点的会议参与者,通过“耳语”声明提供信息作 为音频描述;对于具有多于一个的单声道的只有音频的端点的会议参与者,利用端点中的一个收听 会议,并利用另一个端点接收所述信息的音频描述;对于具有双声道的只有音频的端点的会议参与者,利用其中一个信道收听会议讨论, 并利用另一个端点接收所述信息的音频描述;对于具有电子邮件能力、SMS能力、或IM能力的音频端点的会议参与者,通过一个或多 个这些相应的接口发送所述信息;以及对于具有接收和显示流文本能力的音频端点的会议参与者,在端点的显示器上滚动所 述信息
6.一种计算机可读存储介质,其上存储有在运行时执行权利要求1中的步骤的指令。
7.一种或多种用于执行权利要求1中的步骤的装置。
8.—种为不支持视频的视频会议参与者提供非言辞通信的系统,包括 姿势识别模块,用于识别姿势和情绪中的一个或多个;消息模块,用于确定描述所述姿势和情绪中的一个或多个的信息,且基于偏好信息,将 所述信息转发到一个或多个目的地,其中所述一个或多个目的地是视频会议端点。
9.如权利要求8中的系统,其中所述一个或多个目的地是不支持视频的会议端点。
10.如权利要求8中的系统,进一步包括以下的一个或多个姿势反应模块,用于确定一个或多个姿势是否是关键姿势并基于该关键姿势执行一个 或多个动作;姿势反应模块,用于确定一个或多个情绪是否是关键姿势并基于该关键姿势执行一个 或多个动作;以及抄本模块,用于产生包括所述信息的抄本,其中所述信息是文本、表情符号、消息、音频 描述和图形中的一个或多个;以及进一步包括配置文件,该配置文件与视频会议相关联,该配置文件规定要描述的姿势 和情绪中的一个或多个的一个或多个类型以及用于提供该描述的形式, 其中对于具有单一的单声道的只有音频的端点的会议参与者,通过“耳语”声明提供信息作 为音频描述;对于具有多于一个的单声道的只有音频的端点的会议参与者,利用端点中的一个收听 会议,并利用另一个端点接收所述信息的音频描述;对于具有双声道的只有音频的端点的会议参与者,利用其中一个信道收听会议讨论, 并利用另一个端点接收所述信息的音频描述;对于具有电子邮件能力、SMS能力、或IM能力的音频端点的会议参与者,通过一个或多 个这些相应的接口发送所述信息;以及对于具有接收和显示流文本能力的音频端点的会议参与者,在端点的显示器上滚动所 述信息
全文摘要
本发明涉及为不支持视频的视频电话参与者提供非言辞通信的描述。检测到的非言辞通信暗示,及其摘要的使用被用于提供音频的、文本的和/或图形的输入给那些由于任何原因无法收益于能够看到非言辞通信暗示的收听者,或提供给具有特殊习惯的或他们发送其它的非言辞信号给其他人员的讲话者。这个包括在讲话或聆听时给出的暗示。一个或多个情绪和姿势的检测也可以触发动态行为。例如,某些情绪和姿势可以被辨别为“关键情绪”或“关键姿势”且特定的动作与这些“关键情绪”或“关键姿势”的检测相关联。
文档编号G06K9/00GK101860713SQ20091021166
公开日2010年10月13日 申请日期2009年9月29日 优先权日2009年4月7日
发明者B·K·迪尼克拉, P·R·麦克里斯 申请人:阿瓦亚公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1