在点对点和多点音频/视频会议期间显示动态呼叫者身份的制作方法

文档序号:6580759阅读:187来源:国知局
专利名称:在点对点和多点音频/视频会议期间显示动态呼叫者身份的制作方法
技术领域
本申请一般涉及视频会议领域。更具体而非限制性地,本申请涉及在视频会议环
境中识别当前发言者以及在信息框中呈现关于当前发言者的信息的方法。
背景技术
在现代商业组织中,具有地理上分散的个人的团体参加视频会议而不是面对面开会并不少见。公司和组织越来越多地使用视频会议来减少差旅费并且节省时间。但是,视频会议系统不能完美地模拟与会者在典型的与其它与会者面对面开会期间可能期待的那样,这可能会抵消掉财务和时间上的节省。在视频会议期间会显著缺少面对面会议的与会者自身低估了其价值(take for granted)的重要的感觉信息,而这阻碍了有效且高效的交流。
由于视频会议系统的性质,经由视频会议链接的不同的会议地点通常包含多个与会者。在这样的情况下,可能有利的是倾听的与会者识别发言的与会者,因此他能将他正在接收的听觉信息放到背景(context)中。发言的对话根据发言者可以具有不同的意义或重要性。不幸的是,常常是这样的情况由于使用的视频会议技术的限制,与会者对发言者的识别被推迟或变得不可能。例如,视频屏幕可能太小或质量很差,因而与会者可能不能感知远程与会者的嘴唇的运动或他的身体语言。此外,声音的方向性可能会丢失,因为它是在远程位置被再现的。

发明内容
在一个实施例中,本申请提供了一种在多方多地点视频会议或仅有音频和视频的混合的会议中确定并显示个人信息以帮助其它与会者的方法。在会议期间,不同的人将在不同的时间发言,并且可以通过检测在视频会议的终端处的音频输入并使用它识别当前谁正在发言,来识别当前发言的与会者。 一被识别出来,就可以将与被识别的人相关联的个人信息提供给会议的其它终端,作为对在这些其它终端处的与会者的帮助。例如,如果他们不具有对那人的识别特征的个人认识,则将为他们呈现当前发言的与会者的姓名和头衔。
在另一个实施例中,存储多种识别信息,以努力增大自动识别当前发言的与会者的准确度。在此实施例中,独立地处理不同类型识别信息中的每一个,并且比较独立处理的结果以在提供个人信息之前确定是否已经找到一致的结果。另外,如果没有获得一致的结果,则可能让呼叫主持人(call moderator)输入识别信息,并且此更新的识别信息随后可以用于提高未来自动识别的准确度。


图1示出了具有多个地点和可能正在视频会议中的多个与会者的示例公司。
图2以示例形式示出了在多方、多地点视频会议的一个或多个地点定义会议与会者的过程。 图3以示例形式示出了识别视频会议的当前发言的与会者的过程。
5
图4示出了识别视频会议的当前发言的与会者的可替换实施例。
图5示出了视频会议系统的一个实施例的框图。
具体实施例方式
在典型的面对面会议中,倾听的与会者确定哪一个与会者当前正在发言通常是直
接且容易的。需要一种在视频会议的背景下模拟此常规识别任务的视频会议系统。但是,即使倾听的与会者能够辨别哪个人正在发言,他也可能不知道发言者的姓名和头衔。还需要一种在视频会议环境中呈现当前发言者的个人识别信息的系统。 本申请公开了满足这些需要并且包括其它有利特征的方法和系统。在特定的实施例中,将视频会议设备描述为基于用户定义的输入参数结合计算的识别参数来呈现当前发言者的个人信息。计算的识别参数包括但不限于,通过语音识别和/或人脸识别软件、定向传声器及其它环境感测技术获得的参数。 以下本申请还描述了用于在视频会议系统的背景下识别并呈现关于当前发言者的个人信息的方法和系统。本领域技术人员将理解,可以将本申请的发明性质延伸到其它类型的在社区或商业组织(诸如,共享的工作空间、虚拟会议室和在线社区)之间共享的多用户通信技术。请注意,尽管用视频会议来描述本申请的发明性质,但是它也可以应用于仅有音频的会议、遥现、即时消息等。 在现代商业组织中,具有地理上分散的个人的团体参加同时发生的音频会议、视
频会议或两者的结合并不少见。例如,参考图l,在配置100中示出了企业A,其具有位于纽
约(105)、休斯顿(110)和特拉华(115)的办公室。企业A经由通过网络170连接的视频会
议来举行每月的、企业范围的状态会议。每个地点安装有扬声器电话(185)、摄像机(181)
和显示设备(180、180a)。在这样的会议期间,当前视频会议系统允许地理上分散的与会者
看见并听见他们的远程的同事,但是若干限制可能妨碍体验的有效性。 第一,与会者确定谁正在远程地点发言可能是困难的。当前系统常常自动显示发
言者所在的地点的名称,并且放大从该地点供给的视频,但是由于视频和音频再现方面的
限制,远程与会者仍然可能不能辨别发言者的身份。因而,可以提醒(alert)休斯顿的会
计(150)他正听到的声音来自于在纽约的企业总部中的人,但是它属于谁可能是未知的。
没有此信息的话,远程与会者可能无法区别CE0(120)的发言与会计(130)的发言,因为
CE0(120)和会计(130) 二者处于相同的地点。这样的方案明显不是最佳的。 第二,在较大的公司中,即使与会者可以识别出发言者,他也可能不知道他的姓名
和头衔。此外,为了最佳地参与会议,每个与会者知道在纽约发言的未知面孔的人属于同级
还是上级(例如,副总裁125)会是有利的。通过自动显示发言的与会者的"个人信息",可
以消除上述缺陷,并且视频会议可以更有效地模拟面对面会议并且或许甚至提供一些不用
科技帮助就不可用的附加信息。所显示的"个人信息"可以包括但不限于姓名、头衔、位置
及其它与会议有关的信息。 可以用各种方式来实现点对点和多点视频会议期间的发言者身份的显示。在一个实施例中,大量的设备和技术一齐工作以实现及时的发言者识别。例如,视频捕获设备和定向传声器向处理系统发送环境数据,该处理系统依靠与会者信息的储存库而运行语音识别和人脸识别软件。此外,一个或多个地点处的主持人可以监视所显示的个人信息的准确度,
6并且在错误的情况下,对在处理系统中获得的结果进行校正。此外,学习算法可以分析这些 校正,从而增大未来的准确度。 这里所用的"视频会议"可以是被配置为便于一群人之间同时通信的一个或多个 终端的任意组合。这包括其中一些与会者地点仅仅通过音频连接来连接而其它与会者地点 通过音频与视频连接来连接的会议。在这样的情况下,可以预见,在发言之后,将向配备有 视频能力的地点显示仅有音频的与会者的个人信息。在一个实施例中,语音识别软件将确 定仅有音频的与会者的身份。 现在参考图2,过程200描述可以如何将具有显示当前发言者的个人识别信息的 能力的视频会议系统配置用于多地点、多个与会者的会议。应当注意,图2描述在许多会 议地点中的仅仅一个地点处的设置过程,并且所描述的步骤可以在视频会议之前在许多或 全部会议地点处发生。当与会者在会议开始之前到达会议地点时,可以给主持人(145)分 派将每个与会者输入到视频会议系统中的任务。在可替换实施例中,单个主持人从单个地 点管理所有会议地点,并且由与会者自己执行视频会议设置。 一个或多个地点处的主持人 (145)也可以是视频会议的与会者。 从块210开始, 一旦与会者就座,主持人(145)就可以将摄像机调焦(zoom)到与 会者并且创建和与会者及他的位置相关联的摄像机预置内容(preset)。同样在块210处, 摄像机还可以捕获与会者的随后的人脸识别所需的视觉信息。 移动到块220,与会者然后可以口头上确定自己的身份,并且向主持人提供适合于 会议的有关的个人信息。在一个实施例中,口述的个人信息可以用传声器来记录,并且由视 频会议系统上的语音到文本软件来转换成文本。也可以稍后由语音识别软件使用所记录的 音频信息来识别会议期间的与会者。在另一个实施例中,与会者的个人信息可以由主持人 145或与会者利用诸如键盘或触摸屏的输入设备手动输入。主持人145然后可以将与会者 提供的个人信息和与会者及他的位置相关联,如块230所述。此任务还可以包括将与会者 的个人信息与所捕获的用于人脸识别的视觉信息和所捕获的用于语音识别的音频信息相 关联。 在块240处,确定是否需要将此会议地点处的另外的与会者输入该视频会议系统 中。如果是(块240的"是"分支),则流程返回到块210,并且主持人145将摄像机调焦到 下一与会者并且再次开始该过程。如果会议地点中的所有与会者都已被输入到该视频会议 系统中(块240的"否"分支),则当已经与远程地点建立视频会议通信时开始会议,如块 250所述。 可以将在过程200中收集的每个与会者的个人信息存储在位于每个会议地点处 的视频会议系统终端中,或者可以将它存储在控制该视频会议的会议桥中。在一个实施例 中,会议桥是多点控制单元(MCU)。此外,可以使用任意数目的协议(诸如但不限于,SIPID、 H323 ID、终端ID和远端摄像机控制(FECC)ID)将所收集的个人信息传递到其它的会议地 点终端或MCU。 在可替换的实施例中,会议室的呼叫设置过程可以包括第一与会者提供会议标识 (例如,键入、口述、从菜单中选择)。接着,此第一与会者和相同地点处的任何另外的与会 者可选地经由输入装置提供个人信息。该桥/MCU管理员(admin)可以配置将要从每个与 会者那获得什么信息,并且可以为相同房间中的多个与会者提供输入非多余信息的选项。
7或者,每个与会者可以在证件(badge)读取设备上刷他的企业证件,并且可以从公司服务 器自动获得与会者的个人信息。当每个与会者刷他的证件时,可以将信号发送给该系统,并 且将与会者的位置自动地记录为摄像机预置内容。此外,数据收集过程可以包括上述的组 合,其中与会者说出他的姓名,桥/MCU从该公司服务器获得个人信息并且可选地向与会者 确认该信息。 现在参考图3,过程300描述视频会议系统可以进行的用来识别当前发言的与会 者并且显示关于该与会者的个人信息的过程。过程300中描述的实施例涉及这样的情形 正在发言的与会者在与图2中的块220处的与会者相关联的预置位置处发言(即,该与会 者没有四处走动)。过程300起始于块305,此时与会者在他的预置位置处发言。在块310 处,传声器检测在与会者的预置位置处的话语。在一个实施例中,传声器可以是中央位置中 的定向传声器,而在另一个实施例中,该传声器可以专用于各个与会者的位置。响应于检测 到话语,摄像机调焦到预置的发言者位置,如块315所述。这可以通过Steven L. Potts等 人的于2003年7月15日授权的题为"Locating anAudio Source"的美国专利6, 593, 956 描述的主题来实现,通过参考将该专利合并于此。 流程然后继续到块320和325,其中可以通过两种不同的方法来计算发言者身份。 第一,可以基于与发出该话语的预置位置相关联的身份来解析发言者身份。第二,可以由运 行在视频会议系统的处理器或可通信地耦接到视频会议系统的单独的处理器上的语音识 别软件来解析发言者身份。可以将所检测的话语与图2中的块220处获得的语音样本相比 较。然后可以在块330中比较两个发言者身份结果。如果两个结果都匹配于相同的与会者 (块330的"是"分支),则在供给到可适用的会议地点的视频会议视频上显示与该与会者 相关联的个人信息,如块360所述。在一个实施例中,该信息被包含在信息框中,该信息框 被配置为不遮盖当前发言者的图像。 但是,如果由预置位置关联获得的身份结果和由语音识别软件获得的身份结果不 匹配(块330的"否"分支),则流程继续到块335,其中人脸识别软件尝试计算发言者的身 份。可以将当前发言者的图像与在图2中的块210处的会前设置期间捕获的与会者的视频 相比较。系统然后可以将由人脸识别软件得到的发言者身份与由预置位置关联获得的身份 结果和由语音识别软件获得的身份结果二者相比较(块340)。如果人脸识别结果匹配于预 置位置结果或语音识别结果(块340的"是"分支),则系统可以更新与会者身份信息以提 高未来的发言者识别准确度,如块355中所述。 在一个实施例中,运行在视频会议系统上的学习算法执行动作以提高产生不一致 的发言者身份结果的特定身份检测元件的准确度。但是,如果由人脸识别软件计算的发言 者身份结果与先前的两个结果都不匹配(块340的"否"分支),则流程继续到块345,其中 可以提醒会议主持人145身份结果不一致。主持人145然后可以选择正确的发言者身份, 如块350中所述。在主持人145已经做出他的选择之后,更新该系统以反映如上所述的当 前发言者和与会者身份信息之间的正确的关联。最后,可以在所供给的视频会议视频上显 示与发言的与会者相关联的正确的个人信息,如块360所述。 现在参考图4,过程400描述视频会议系统可以进行的用来识别当前发言的与会 者并且显示关于该与会者的个人信息的过程的可替换实施例。此实施例针对这样的情形 发言的与会者不在与图2中的块220处的与会者相关联的预置位置处。例如,当与会者已经离开他的座位并且在白板上展示材料时可以采用此可替换识别过程。 过程400起始于块405,此时与会者从除了会前设置期间和与会者相关联的位置
之外的其它位置发言。在块410处,传声器检测与会者的话语。在一个实施例中,传声器具
有检测话语来自于哪个方向的能力。响应于检测到话语,摄像机瞄准并且调焦到当前发言
者的方向,如块415所述。流程继续到块335和325,其中可以通过两种不同的方法来计算
发言者身份。 第一,可以由运行在视频会议系统上的人脸识别软件来解析发言者身份。可以将 当前发言者的图像与在图2中的块210处的会前设置期间捕获的与会者的视频相比较和匹 配。第二,可以由运行在视频会议系统上的语音识别软件来解析发言者身份。可以将所检测 的话语与图2中的块220处获得的语音样本相比较。然后可以在块420处比较两个发言者 身份结果。如果两个结果都匹配于相同的与会者(块420的"是"分支),则可以在所供给 的视频会议视频上显示与该与会者相关联的个人信息,如块360所述。但是,如果由人脸识 别软件获得的身份结果与由语音识别软件获得的身份结果不匹配(块420的"否"分支), 则流程继续到块345,其中提醒主持人145身份结果不一致。主持人145然后可以选择正确 的发言者身份,如块350中所述。在主持人已经做出他的选择之后,更新该系统以反映如上 所述的当前发言者和与会者身份信息之间的正确的关联。最后,可以在所供给的视频会议 视频上显示与发言的与会者相关联的正确的个人信息,如块360所述。
图5示出了视频会议系统500的一个实施例的框图。视频会议单元(510)包含可 以被编程来执行各种数据操作和收集功能的处理器(520)。视频会议单元(510)还包含网 络接口 (530),其能够使用异步传输模式(ATM)、以太网、令牌环或本领域技术人员公知的 任何其它网络接口或视频会议协议来与其它网络设备通信。示例输入设备(键盘540和鼠 标550)连接到视频会议单元并且提供与视频会议系统的用户交互。显示器560是示例输 出设备,其还可以包括触摸屏输入能力,用于以用户菜单或输入屏幕的形式显示图像和文 本信息二者,如本申请始终说明的。各种显示设备是本领域技术人员所公知的,并且包括但 不限于,HD监视器、计算机屏幕、蜂窝电话和电视监视器。 在可替换的实施例中,当与会者参加会议时,可以向所有其他会议与会者通知该 新与会者的详情和个人信息。每个终端(音频或视频)可以基于用户喜好确定在进行中的 会议期间如何或者是否它应该显示此信息。类似地,当与会者发言并且被识别时,可以将发 言的与会者的详情传送到所有终端,并且每个终端可以配置在会议期间如何或是否它应该 显示此信息。 在不脱离以下权利要求的范围的情况下,可以对所示出的操作方法的图示以及细 节进行各种改变。例如,示例性的过程方法200、300和400可以按照不同于这里所公开的 顺序来执行识别步骤。或者,一些实施例可以将在这里描述的活动结合为单独的步骤。类 似地,可以根据正在实施该方法的特定操作环境而省略所描述的步骤中的一个或多个步 骤。此外,可以由执行被组织成一个或多个程序模块的指令的可编程控制设备来执行根据 本申请的方法的动作。可编程控制设备可以是单个计算机处理器、专用处理器(例如,数字 信号处理器"DSP")、通过通信链路耦接的多个处理器或用户设计的状态机。用户设计的状 态机可以被具体实现为诸如集成电路的硬件设备,该集成电路包括但不限于专用集成电路 ("ASIC")或现场可编程门阵列("FPGA")。适合于有形地具体实现程序指令的存储设备包括但不限于磁盘(固定磁盘、软盘和可移动磁盘)和磁带;光学介质,诸如CD-ROM和数 字视频盘("DVD");以及半导体存储设备,诸如电可编程只读存储器("EPROM")、电可擦 除可编程只读存储器("EEPROM")、可编程门阵列和闪速存储器。
权利要求
一种确定并显示关于音频/视频会议的当前发言的与会者的个人信息的方法,包括检测来自当前发言的与会者的音频输入;识别该当前发言的与会者;以及提供与所确定的身份相关联的个人信息,用于在该音频/视频会议的一个或多个终端处显示。
2. 如权利要求1所述的方法,还包括 将摄像机定位朝向该当前发言的与会者。
3. 如权利要求2所述的方法,其中识别该当前发言的与会者的步骤包括使用人脸识别 软件。
4. 如权利要求2所述的方法,其中将摄像机定位朝向所检测的音频输入的步骤包括使 用定向传声器来将摄像机定位朝向该当前发言的与会者。
5. 如权利要求1所述的方法,其中识别该当前发言的与会者的步骤包括使用语音识别 软件。
6. 如权利要求1所述的方法,其中识别该当前发言的与会者的步骤包括手动校正不正 确的自动确定的身份并且将该手动校正后的信息用于未来的发言的与会者的身份的自动 确定,其中改善自动确定以用于随后的发言的与会者的识别。
7. 如权利要求1所述的方法,其中显示与所确定的身份相关联的个人信息的步骤包括 显示选自由正式姓名、头衔和位置组成的组中的信息。
8. —种在视频会议呼叫中识别与会者的方法,包括存储对与会者唯一的一个或多个标识数据项,以便在以后用于将与会者自动识别为当 前发言的与会者;获得该与会者的个人信息,其中该个人信息用来向其他与会者表示当前发言的与会者 的身份;使用所存储的该一个或多个标识数据项中的一个或多个来识别当前发言的与会者;以及在该视频会议呼叫期间,每当识别出当前发言的与会者时,就提供相应的所获得的该 与会者的个人信息。
9. 如权利要求8所述的方法,其中对与会者唯一的所述一个或多个数据项选自由先前 存储的会议室内的与会者的物理位置、用于语音识别的语音样本和用于人脸识别的图像组 成的组中。
10. 如权利要求8所述的方法,其中使用所存储的该一个或多个数据项中的一个或多 个的步骤包括独立地处理来自于所存储的该一个或多个标识数据项中的多于一个数据项, 并且在提供该与会者的个人信息之前,验证该多于一个数据项中的每一个的处理一致地识 别出当前发言的与会者。
11. 如权利要求8所述的方法,其中获得该与会者的个人信息的步骤包括使用语音到 文本能力,凭借该语音到文本能力,一个或多个与会者说出他们需要的个人信息。
12. 如权利要求8所述的方法,其中获得该与会者的个人信息的步骤包括将从外部源 检索的预定义的个人信息与该与会者相关联。
13. 如权利要求8所述的方法,其中存储对与会者唯一的一个或多个数据项的步骤包 括使用智能卡阅读器来识别该与会者的位置和个人信息。
14. 如权利要求12所述的方法,其中该外部源是智能卡阅读器。
15. 如权利要求12所述的方法,其中该外部源是计算机服务器。
16. —种视频会议系统,包括 可编程的处理单元;一个或多个摄像机,其耦接到该可编程的处理单元; 网络通信设备,其可通信地耦接到该可编程的处理单元;禾口 用户输入端,其耦接到该可编程的处理单元; 其中该可编程的处理单元被配置为 检测音频输入;将该一个或多个摄像机定位朝向所检测的音频输入; 确定发言的与会者的身份;以及向远程视频会议设备提供所确定的身份,以便用于在该远程视频会议设备处显示与该 发言的与会者对应的个人信息。
17. 如权利要求16所述的视频会议系统,其中该可编程的处理单元还被配置为处理所检测的音频输入并且使用语音识别软件将该音频输入与一个或多个语音样本相比较,以确 定发言的与会者的身份。
18. 如权利要求16所述的视频会议系统,其中该可编程的处理单元还被配置为处理来 自于朝向所检测的音频输入定位的该一个或多个摄像机的视频输入并且使用人脸识别软 件将该视频输入与一个或多个图像样本相比较,以确定发言的与会者的身份。
19. 如权利要求16所述的视频会议系统,还包括使用耦接到该可编程的处理单元的一个或多个传声器来帮助将摄像机定位朝向所检测的音频输入。
20. 如权利要求16所述的视频会议系统,其中该用户输入端选自由键盘、鼠标、智能卡 阅读器、磁条阅读器或RFID收发器组成的组中。
21. —种视频会议系统,包括 可编程的处理单元;连接到该可编程的处理单元的一个或多个摄像机和显示设备; 网络通信设备,其可通信地耦接到该可编程的处理单元;禾口 用户输入端,其耦接到该可编程的处理单元; 其中该可编程的处理单元被配置为存储视频会议的一个或多个与会者的识别信息的一个或多个数据项; 获得该一个或多个与会者的个人信息;使用所存储的识别信息的数据项中的一个或多个来确定当前发言的与会者的身份;以及向一个或多个远程视频会议设备提供关于该当前发言的与会者的相应的个人信息。
22. 如权利要求21所述的视频会议系统,其中该识别信息的一个或多个数据项选自由 会议室内与会者的物理位置、语音样本和图像样本组成的组中。
23. 如权利要求21所述的视频会议系统,其中该可编程的处理单元还被配置为处理所检测的音频输入并且使用语音识别软件将该音频输入与一个或多个语音样本相比较,以确 定发言的与会者的身份。
24. 如权利要求21所述的视频会议系统,其中该可编程的处理单元还被配置为处理来 自于朝向所检测的音频输入定位的一个或多个摄像机的视频输入并且使用人脸识别软件 将该视频输入与一个或多个图像样本相比较,以确定发言的与会者的身份。
25. 如权利要求21所述的视频会议系统,还包括使用耦接到该可编程的处理单元的一 个或多个传声器来帮助将摄像机定位朝向所检测的音频输入。
全文摘要
本申请涉及在点对点和多点音频/视频会议期间显示动态呼叫者身份。本申请提出了一种用于有效确定并显示通过多个输入和计算的参数而确定的与视频会议呼叫相关联的有关信息的方法。使用在整个视频会议期间来自于终端处的用户输入以及计算的信息来向所有与会者呈现关于当前发言的人的个人信息,从而执行该用于有效确定并显示此个人信息的方法。视频会议系统一般由多个地点处的多个人使用。本申请的方法允许更多的用户交互以及在与会者中间的知识传输。通过在不同的地点之间共享信息,与会者更多地知道在任何给定时间谁正在发言并且知道该特定的人所说的话的重要性。
文档编号G06K9/00GK101715102SQ200910177629
公开日2010年5月26日 申请日期2009年9月27日 优先权日2008年10月2日
发明者M·雷曼 申请人:宝利通公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1