在点对点和多点音频/视频会议期间显示动态呼叫者身份的制作方法

文档序号：6580759阅读：187来源：国知局

专利名称：在点对点和多点音频/视频会议期间显示动态呼叫者身份的制作方法
技术领域：
本申请一般涉及视频会议领域。更具体而非限制性地，本申请涉及在视频会议环
境中识别当前发言者以及在信息框中呈现关于当前发言者的信息的方法。
背景技术：
在现代商业组织中，具有地理上分散的个人的团体参加视频会议而不是面对面开会并不少见。公司和组织越来越多地使用视频会议来减少差旅费并且节省时间。但是，视频会议系统不能完美地模拟与会者在典型的与其它与会者面对面开会期间可能期待的那样，这可能会抵消掉财务和时间上的节省。在视频会议期间会显著缺少面对面会议的与会者自身低估了其价值(take for granted)的重要的感觉信息，而这阻碍了有效且高效的交流。
由于视频会议系统的性质，经由视频会议链接的不同的会议地点通常包含多个与会者。在这样的情况下，可能有利的是倾听的与会者识别发言的与会者，因此他能将他正在接收的听觉信息放到背景(context)中。发言的对话根据发言者可以具有不同的意义或重要性。不幸的是，常常是这样的情况由于使用的视频会议技术的限制，与会者对发言者的识别被推迟或变得不可能。例如，视频屏幕可能太小或质量很差，因而与会者可能不能感知远程与会者的嘴唇的运动或他的身体语言。此外，声音的方向性可能会丢失，因为它是在远程位置被再现的。

发明内容
在一个实施例中，本申请提供了一种在多方多地点视频会议或仅有音频和视频的混合的会议中确定并显示个人信息以帮助其它与会者的方法。在会议期间，不同的人将在不同的时间发言，并且可以通过检测在视频会议的终端处的音频输入并使用它识别当前谁正在发言，来识别当前发言的与会者。一被识别出来，就可以将与被识别的人相关联的个人信息提供给会议的其它终端，作为对在这些其它终端处的与会者的帮助。例如，如果他们不具有对那人的识别特征的个人认识，则将为他们呈现当前发言的与会者的姓名和头衔。
在另一个实施例中，存储多种识别信息，以努力增大自动识别当前发言的与会者的准确度。在此实施例中，独立地处理不同类型识别信息中的每一个，并且比较独立处理的结果以在提供个人信息之前确定是否已经找到一致的结果。另外，如果没有获得一致的结果，则可能让呼叫主持人(call moderator)输入识别信息，并且此更新的识别信息随后可以用于提高未来自动识别的准确度。

图1示出了具有多个地点和可能正在视频会议中的多个与会者的示例公司。
图2以示例形式示出了在多方、多地点视频会议的一个或多个地点定义会议与会者的过程。图3以示例形式示出了识别视频会议的当前发言的与会者的过程。
5
图4示出了识别视频会议的当前发言的与会者的可替换实施例。
图5示出了视频会议系统的一个实施例的框图。
具体实施例方式
在典型的面对面会议中，倾听的与会者确定哪一个与会者当前正在发言通常是直
接且容易的。需要一种在视频会议的背景下模拟此常规识别任务的视频会议系统。但是，即使倾听的与会者能够辨别哪个人正在发言，他也可能不知道发言者的姓名和头衔。还需要一种在视频会议环境中呈现当前发言者的个人识别信息的系统。本申请公开了满足这些需要并且包括其它有利特征的方法和系统。在特定的实施例中，将视频会议设备描述为基于用户定义的输入参数结合计算的识别参数来呈现当前发言者的个人信息。计算的识别参数包括但不限于，通过语音识别和/或人脸识别软件、定向传声器及其它环境感测技术获得的参数。以下本申请还描述了用于在视频会议系统的背景下识别并呈现关于当前发言者的个人信息的方法和系统。本领域技术人员将理解，可以将本申请的发明性质延伸到其它类型的在社区或商业组织(诸如，共享的工作空间、虚拟会议室和在线社区)之间共享的多用户通信技术。请注意，尽管用视频会议来描述本申请的发明性质，但是它也可以应用于仅有音频的会议、遥现、即时消息等。在现代商业组织中，具有地理上分散的个人的团体参加同时发生的音频会议、视
频会议或两者的结合并不少见。例如，参考图l，在配置100中示出了企业A，其具有位于纽
约(105)、休斯顿(110)和特拉华(115)的办公室。企业A经由通过网络170连接的视频会
议来举行每月的、企业范围的状态会议。每个地点安装有扬声器电话(185)、摄像机(181)
和显示设备(180、180a)。在这样的会议期间，当前视频会议系统允许地理上分散的与会者
看见并听见他们的远程的同事，但是若干限制可能妨碍体验的有效性。第一，与会者确定谁正在远程地点发言可能是困难的。当前系统常常自动显示发
言者所在的地点的名称，并且放大从该地点供给的视频，但是由于视频和音频再现方面的
限制，远程与会者仍然可能不能辨别发言者的身份。因而，可以提醒(alert)休斯顿的会
计(150)他正听到的声音来自于在纽约的企业总部中的人，但是它属于谁可能是未知的。
没有此信息的话，远程与会者可能无法区别CE0(120)的发言与会计(130)的发言，因为
CE0(120)和会计(130) 二者处于相同的地点。这样的方案明显不是最佳的。第二，在较大的公司中，即使与会者可以识别出发言者，他也可能不知道他的姓名
和头衔。此外，为了最佳地参与会议，每个与会者知道在纽约发言的未知面孔的人属于同级
还是上级(例如，副总裁125)会是有利的。通过自动显示发言的与会者的"个人信息"，可
以消除上述缺陷，并且视频会议可以更有效地模拟面对面会议并且或许甚至提供一些不用
科技帮助就不可用的附加信息。所显示的"个人信息"可以包括但不限于姓名、头衔、位置
及其它与会议有关的信息。可以用各种方式来实现点对点和多点视频会议期间的发言者身份的显示。在一个实施例中，大量的设备和技术一齐工作以实现及时的发言者识别。例如，视频捕获设备和定向传声器向处理系统发送环境数据，该处理系统依靠与会者信息的储存库而运行语音识别和人脸识别软件。此外，一个或多个地点处的主持人可以监视所显示的个人信息的准确度，
6并且在错误的情况下，对在处理系统中获得的结果进行校正。此外，学习算法可以分析这些校正，从而增大未来的准确度。这里所用的"视频会议"可以是被配置为便于一群人之间同时通信的一个或多个终端的任意组合。这包括其中一些与会者地点仅仅通过音频连接来连接而其它与会者地点通过音频与视频连接来连接的会议。在这样的情况下，可以预见，在发言之后，将向配备有视频能力的地点显示仅有音频的与会者的个人信息。在一个实施例中，语音识别软件将确定仅有音频的与会者的身份。现在参考图2，过程200描述可以如何将具有显示当前发言者的个人识别信息的能力的视频会议系统配置用于多地点、多个与会者的会议。应当注意，图2描述在许多会议地点中的仅仅一个地点处的设置过程，并且所描述的步骤可以在视频会议之前在许多或全部会议地点处发生。当与会者在会议开始之前到达会议地点时，可以给主持人(145)分派将每个与会者输入到视频会议系统中的任务。在可替换实施例中，单个主持人从单个地点管理所有会议地点，并且由与会者自己执行视频会议设置。一个或多个地点处的主持人 (145)也可以是视频会议的与会者。从块210开始，一旦与会者就座，主持人(145)就可以将摄像机调焦(zoom)到与会者并且创建和与会者及他的位置相关联的摄像机预置内容(preset)。同样在块210处，摄像机还可以捕获与会者的随后的人脸识别所需的视觉信息。移动到块220，与会者然后可以口头上确定自己的身份，并且向主持人提供适合于会议的有关的个人信息。在一个实施例中，口述的个人信息可以用传声器来记录，并且由视频会议系统上的语音到文本软件来转换成文本。也可以稍后由语音识别软件使用所记录的音频信息来识别会议期间的与会者。在另一个实施例中，与会者的个人信息可以由主持人 145或与会者利用诸如键盘或触摸屏的输入设备手动输入。主持人145然后可以将与会者提供的个人信息和与会者及他的位置相关联，如块230所述。此任务还可以包括将与会者的个人信息与所捕获的用于人脸识别的视觉信息和所捕获的用于语音识别的音频信息相关联。在块240处，确定是否需要将此会议地点处的另外的与会者输入该视频会议系统中。如果是(块240的"是"分支)，则流程返回到块210，并且主持人145将摄像机调焦到下一与会者并且再次开始该过程。如果会议地点中的所有与会者都已被输入到该视频会议系统中(块240的"否"分支)，则当已经与远程地点建立视频会议通信时开始会议，如块 250所述。可以将在过程200中收集的每个与会者的个人信息存储在位于每个会议地点处的视频会议系统终端中，或者可以将它存储在控制该视频会议的会议桥中。在一个实施例中，会议桥是多点控制单元(MCU)。此外，可以使用任意数目的协议(诸如但不限于，SIPID、 H323 ID、终端ID和远端摄像机控制(FECC)ID)将所收集的个人信息传递到其它的会议地点终端或MCU。在可替换的实施例中，会议室的呼叫设置过程可以包括第一与会者提供会议标识 (例如，键入、口述、从菜单中选择)。接着，此第一与会者和相同地点处的任何另外的与会者可选地经由输入装置提供个人信息。该桥/MCU管理员(admin)可以配置将要从每个与会者那获得什么信息，并且可以为相同房间中的多个与会者提供输入非多余信息的选项。
7或者，每个与会者可以在证件(badge)读取设备上刷他的企业证件，并且可以从公司服务器自动获得与会者的个人信息。当每个与会者刷他的证件时，可以将信号发送给该系统，并且将与会者的位置自动地记录为摄像机预置内容。此外，数据收集过程可以包括上述的组合，其中与会者说出他的姓名，桥/MCU从该公司服务器获得个人信息并且可选地向与会者确认该信息。现在参考图3，过程300描述视频会议系统可以进行的用来识别当前发言的与会者并且显示关于该与会者的个人信息的过程。过程300中描述的实施例涉及这样的情形正在发言的与会者在与图2中的块220处的与会者相关联的预置位置处发言(即，该与会者没有四处走动)。过程300起始于块305，此时与会者在他的预置位置处发言。在块310 处，传声器检测在与会者的预置位置处的话语。在一个实施例中，传声器可以是中央位置中的定向传声器，而在另一个实施例中，该传声器可以专用于各个与会者的位置。响应于检测到话语，摄像机调焦到预置的发言者位置，如块315所述。这可以通过Steven L. Potts等人的于2003年7月15日授权的题为"Locating anAudio Source"的美国专利6， 593， 956 描述的主题来实现，通过参考将该专利合并于此。流程然后继续到块320和325，其中可以通过两种不同的方法来计算发言者身份。第一，可以基于与发出该话语的预置位置相关联的身份来解析发言者身份。第二，可以由运行在视频会议系统的处理器或可通信地耦接到视频会议系统的单独的处理器上的语音识别软件来解析发言者身份。可以将所检测的话语与图2中的块220处获得的语音样本相比较。然后可以在块330中比较两个发言者身份结果。如果两个结果都匹配于相同的与会者 (块330的"是"分支)，则在供给到可适用的会议地点的视频会议视频上显示与该与会者相关联的个人信息，如块360所述。在一个实施例中，该信息被包含在信息框中，该信息框被配置为不遮盖当前发言者的图像。但是，如果由预置位置关联获得的身份结果和由语音识别软件获得的身份结果不匹配(块330的"否"分支)，则流程继续到块335，其中人脸识别软件尝试计算发言者的身份。可以将当前发言者的图像与在图2中的块210处的会前设置期间捕获的与会者的视频相比较。系统然后可以将由人脸识别软件得到的发言者身份与由预置位置关联获得的身份结果和由语音识别软件获得的身份结果二者相比较(块340)。如果人脸识别结果匹配于预置位置结果或语音识别结果(块340的"是"分支)，则系统可以更新与会者身份信息以提高未来的发言者识别准确度，如块355中所述。在一个实施例中，运行在视频会议系统上的学习算法执行动作以提高产生不一致的发言者身份结果的特定身份检测元件的准确度。但是，如果由人脸识别软件计算的发言者身份结果与先前的两个结果都不匹配(块340的"否"分支)，则流程继续到块345，其中可以提醒会议主持人145身份结果不一致。主持人145然后可以选择正确的发言者身份，如块350中所述。在主持人145已经做出他的选择之后，更新该系统以反映如上所述的当前发言者和与会者身份信息之间的正确的关联。最后，可以在所供给的视频会议视频上显示与发言的与会者相关联的正确的个人信息，如块360所述。现在参考图4，过程400描述视频会议系统可以进行的用来识别当前发言的与会者并且显示关于该与会者的个人信息的过程的可替换实施例。此实施例针对这样的情形发言的与会者不在与图2中的块220处的与会者相关联的预置位置处。例如，当与会者已经离开他的座位并且在白板上展示材料时可以采用此可替换识别过程。过程400起始于块405，此时与会者从除了会前设置期间和与会者相关联的位置
之外的其它位置发言。在块410处，传声器检测与会者的话语。在一个实施例中，传声器具
有检测话语来自于哪个方向的能力。响应于检测到话语，摄像机瞄准并且调焦到当前发言
者的方向，如块415所述。流程继续到块335和325，其中可以通过两种不同的方法来计算
发言者身份。第一，可以由运行在视频会议系统上的人脸识别软件来解析发言者身份。可以将当前发言者的图像与在图2中的块210处的会前设置期间捕获的与会者的视频相比较和匹配。第二，可以由运行在视频会议系统上的语音识别软件来解析发言者身份。可以将所检测的话语与图2中的块220处获得的语音样本相比较。然后可以在块420处比较两个发言者身份结果。如果两个结果都匹配于相同的与会者(块420的"是"分支)，则可以在所供给的视频会议视频上显示与该与会者相关联的个人信息，如块360所述。但是，如果由人脸识别软件获得的身份结果与由语音识别软件获得的身份结果不匹配(块420的"否"分支)，则流程继续到块345，其中提醒主持人145身份结果不一致。主持人145然后可以选择正确的发言者身份，如块350中所述。在主持人已经做出他的选择之后，更新该系统以反映如上所述的当前发言者和与会者身份信息之间的正确的关联。最后，可以在所供给的视频会议视频上显示与发言的与会者相关联的正确的个人信息，如块360所述。
图5示出了视频会议系统500的一个实施例的框图。视频会议单元(510)包含可以被编程来执行各种数据操作和收集功能的处理器(520)。视频会议单元(510)还包含网络接口 (530)，其能够使用异步传输模式(ATM)、以太网、令牌环或本领域技术人员公知的任何其它网络接口或视频会议协议来与其它网络设备通信。示例输入设备(键盘540和鼠标550)连接到视频会议单元并且提供与视频会议系统的用户交互。显示器560是示例输出设备，其还可以包括触摸屏输入能力，用于以用户菜单或输入屏幕的形式显示图像和文本信息二者，如本申请始终说明的。各种显示设备是本领域技术人员所公知的，并且包括但不限于，HD监视器、计算机屏幕、蜂窝电话和电视监视器。在可替换的实施例中，当与会者参加会议时，可以向所有其他会议与会者通知该新与会者的详情和个人信息。每个终端(音频或视频)可以基于用户喜好确定在进行中的会议期间如何或者是否它应该显示此信息。类似地，当与会者发言并且被识别时，可以将发言的与会者的详情传送到所有终端，并且每个终端可以配置在会议期间如何或是否它应该显示此信息。在不脱离以下权利要求的范围的情况下，可以对所示出的操作方法的图示以及细节进行各种改变。例如，示例性的过程方法200、300和400可以按照不同于这里所公开的顺序来执行识别步骤。或者，一些实施例可以将在这里描述的活动结合为单独的步骤。类似地，可以根据正在实施该方法的特定操作环境而省略所描述的步骤中的一个或多个步骤。此外，可以由执行被组织成一个或多个程序模块的指令的可编程控制设备来执行根据本申请的方法的动作。可编程控制设备可以是单个计算机处理器、专用处理器(例如，数字信号处理器"DSP")、通过通信链路耦接的多个处理器或用户设计的状态机。用户设计的状态机可以被具体实现为诸如集成电路的硬件设备，该集成电路包括但不限于专用集成电路 ("ASIC")或现场可编程门阵列("FPGA")。适合于有形地具体实现程序指令的存储设备包括但不限于磁盘(固定磁盘、软盘和可移动磁盘)和磁带；光学介质，诸如CD-ROM和数字视频盘("DVD");以及半导体存储设备，诸如电可编程只读存储器("EPROM")、电可擦除可编程只读存储器("EEPROM")、可编程门阵列和闪速存储器。
权利要求
一种确定并显示关于音频/视频会议的当前发言的与会者的个人信息的方法，包括检测来自当前发言的与会者的音频输入；识别该当前发言的与会者；以及提供与所确定的身份相关联的个人信息，用于在该音频/视频会议的一个或多个终端处显示。
2. 如权利要求1所述的方法，还包括将摄像机定位朝向该当前发言的与会者。
3. 如权利要求2所述的方法，其中识别该当前发言的与会者的步骤包括使用人脸识别软件。
4. 如权利要求2所述的方法，其中将摄像机定位朝向所检测的音频输入的步骤包括使用定向传声器来将摄像机定位朝向该当前发言的与会者。
5. 如权利要求1所述的方法，其中识别该当前发言的与会者的步骤包括使用语音识别软件。
6. 如权利要求1所述的方法，其中识别该当前发言的与会者的步骤包括手动校正不正确的自动确定的身份并且将该手动校正后的信息用于未来的发言的与会者的身份的自动确定，其中改善自动确定以用于随后的发言的与会者的识别。
7. 如权利要求1所述的方法，其中显示与所确定的身份相关联的个人信息的步骤包括显示选自由正式姓名、头衔和位置组成的组中的信息。
8. —种在视频会议呼叫中识别与会者的方法，包括存储对与会者唯一的一个或多个标识数据项，以便在以后用于将与会者自动识别为当前发言的与会者；获得该与会者的个人信息，其中该个人信息用来向其他与会者表示当前发言的与会者的身份；使用所存储的该一个或多个标识数据项中的一个或多个来识别当前发言的与会者；以及在该视频会议呼叫期间，每当识别出当前发言的与会者时，就提供相应的所获得的该与会者的个人信息。
9. 如权利要求8所述的方法，其中对与会者唯一的所述一个或多个数据项选自由先前存储的会议室内的与会者的物理位置、用于语音识别的语音样本和用于人脸识别的图像组成的组中。
10. 如权利要求8所述的方法，其中使用所存储的该一个或多个数据项中的一个或多个的步骤包括独立地处理来自于所存储的该一个或多个标识数据项中的多于一个数据项，并且在提供该与会者的个人信息之前，验证该多于一个数据项中的每一个的处理一致地识别出当前发言的与会者。
11. 如权利要求8所述的方法，其中获得该与会者的个人信息的步骤包括使用语音到文本能力，凭借该语音到文本能力，一个或多个与会者说出他们需要的个人信息。
12. 如权利要求8所述的方法，其中获得该与会者的个人信息的步骤包括将从外部源检索的预定义的个人信息与该与会者相关联。
13. 如权利要求8所述的方法，其中存储对与会者唯一的一个或多个数据项的步骤包括使用智能卡阅读器来识别该与会者的位置和个人信息。
14. 如权利要求12所述的方法，其中该外部源是智能卡阅读器。
15. 如权利要求12所述的方法，其中该外部源是计算机服务器。
16. —种视频会议系统，包括可编程的处理单元；一个或多个摄像机，其耦接到该可编程的处理单元；网络通信设备，其可通信地耦接到该可编程的处理单元；禾口用户输入端，其耦接到该可编程的处理单元；其中该可编程的处理单元被配置为检测音频输入；将该一个或多个摄像机定位朝向所检测的音频输入；确定发言的与会者的身份；以及向远程视频会议设备提供所确定的身份，以便用于在该远程视频会议设备处显示与该发言的与会者对应的个人信息。
17. 如权利要求16所述的视频会议系统，其中该可编程的处理单元还被配置为处理所检测的音频输入并且使用语音识别软件将该音频输入与一个或多个语音样本相比较，以确定发言的与会者的身份。
18. 如权利要求16所述的视频会议系统，其中该可编程的处理单元还被配置为处理来自于朝向所检测的音频输入定位的该一个或多个摄像机的视频输入并且使用人脸识别软件将该视频输入与一个或多个图像样本相比较，以确定发言的与会者的身份。
19. 如权利要求16所述的视频会议系统，还包括使用耦接到该可编程的处理单元的一个或多个传声器来帮助将摄像机定位朝向所检测的音频输入。
20. 如权利要求16所述的视频会议系统，其中该用户输入端选自由键盘、鼠标、智能卡阅读器、磁条阅读器或RFID收发器组成的组中。
21. —种视频会议系统，包括可编程的处理单元；连接到该可编程的处理单元的一个或多个摄像机和显示设备；网络通信设备，其可通信地耦接到该可编程的处理单元；禾口用户输入端，其耦接到该可编程的处理单元；其中该可编程的处理单元被配置为存储视频会议的一个或多个与会者的识别信息的一个或多个数据项；获得该一个或多个与会者的个人信息；使用所存储的识别信息的数据项中的一个或多个来确定当前发言的与会者的身份；以及向一个或多个远程视频会议设备提供关于该当前发言的与会者的相应的个人信息。
22. 如权利要求21所述的视频会议系统，其中该识别信息的一个或多个数据项选自由会议室内与会者的物理位置、语音样本和图像样本组成的组中。
23. 如权利要求21所述的视频会议系统，其中该可编程的处理单元还被配置为处理所检测的音频输入并且使用语音识别软件将该音频输入与一个或多个语音样本相比较，以确定发言的与会者的身份。
24. 如权利要求21所述的视频会议系统，其中该可编程的处理单元还被配置为处理来自于朝向所检测的音频输入定位的一个或多个摄像机的视频输入并且使用人脸识别软件将该视频输入与一个或多个图像样本相比较，以确定发言的与会者的身份。
25. 如权利要求21所述的视频会议系统，还包括使用耦接到该可编程的处理单元的一个或多个传声器来帮助将摄像机定位朝向所检测的音频输入。
全文摘要
本申请涉及在点对点和多点音频/视频会议期间显示动态呼叫者身份。本申请提出了一种用于有效确定并显示通过多个输入和计算的参数而确定的与视频会议呼叫相关联的有关信息的方法。使用在整个视频会议期间来自于终端处的用户输入以及计算的信息来向所有与会者呈现关于当前发言的人的个人信息，从而执行该用于有效确定并显示此个人信息的方法。视频会议系统一般由多个地点处的多个人使用。本申请的方法允许更多的用户交互以及在与会者中间的知识传输。通过在不同的地点之间共享信息，与会者更多地知道在任何给定时间谁正在发言并且知道该特定的人所说的话的重要性。
文档编号G06K9/00GK101715102SQ200910177629
公开日2010年5月26日申请日期2009年9月27日优先权日2008年10月2日
发明者M·雷曼申请人:宝利通公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：Ｍ.雷曼
技术所有人：宝利通公司
我是此专利的发明人

上一篇：基于距相邻mos晶体管的栅极间距的电路仿真的制作方法
上一篇：基本输入输出系统支持多种触控屏幕的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。