来自视听流的隐私感知会议室转录的制作方法

文档序号:30515617发布日期:2022-06-25 03:13阅读:80来源:国知局
来自视听流的隐私感知会议室转录的制作方法

1.本公开涉及来自视听流的隐私感知会议室转录。


背景技术:

2.说话者日志化(speaker diarization)是根据说话者身份将输入音频流划分为同质段的过程。在具有多个说话者的环境中,说话者日志化回答问题“谁在何时说话”,并且具有各种应用,包括多媒体信息检索、说话者轮次分析和音频处理,仅举几例。特别地,说话者日志化系统能够产生具有显著提高声学语音辨识准确性的潜力的说话者边界。


技术实现要素:

3.本公开的一个方面提供了一种用于从内容流生成隐私感知会议室转录本的方法。该方法包括在数据处理硬件处接收包括音频数据和图像数据的视听信号。该音频数据对应于来自话音环境中的多个参与者的话音话语,以及图像数据表示话音环境中的多个参与者的面部。该方法还包括在数据处理硬件处接收来自多个参与者中的参与者的隐私请求。该隐私请求指示与话音环境中的参与者相关联的隐私条件。该方法进一步包括由数据处理硬件将音频数据分割成多个片段。对于音频数据的每个片段,该方法包括由数据处理硬件基于图像数据从多个参与者中确定音频数据的对应片段的说话者的身份。对于音频数据的每个片段,该方法还包括由数据处理硬件确定对应片段的说话者的身份是否包括与由所接收到的隐私请求指示的隐私条件相关联的参与者。当对应片段的说话者的身份包括参与者时,该方法包括将隐私条件应用于对应片段。该方法进一步包括由数据处理硬件处理音频数据的多个片段以确定音频数据的转录本。
4.本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中,将隐私条件应用于对应片段包括在确定转录本之后删除音频数据的对应片段。附加地或替代地,将隐私条件应用于对应片段可以包括增强图像数据的对应片段以在视觉上隐藏音频数据的对应片段的说话者的身份。
5.在一些示例中,对于与应用隐私条件的音频数据的片段中的一个片段对应的转录本的每个部分,处理音频数据的多个片段以确定音频数据的转录本包括将转录本的对应部分修改为不包括说话者的身份。可选地,对于应用隐私条件的音频数据的每个片段,处理音频数据的多个片段以确定音频数据的转录本可以包括省略转录音频数据的对应片段。隐私条件可以包括内容特定条件,内容特定条件指示要从转录本中排除的内容的类型。
6.在一些配置中,从多个参与者中,确定音频数据的对应片段的说话者的身份包括基于图像数据确定说话者的多个候选身份。在此,对于多个候选身份中的每个候选身份,生成置信度分数,置信度分数指示基于图像数据的对应候选身份的面部包括音频数据的对应片段的说话面部的可能性。在该配置中,该方法包括选择音频数据的对应片段的说话者的身份作为与最高置信度分数相关联的多个候选身份中的候选身份。
7.在一些实施方式中,数据处理硬件驻留在多个参与者中的至少一个参与者本地的
设备上。图像数据可以包括由数据处理硬件处理的高清晰度视频。处理音频数据的多个片段以确定音频数据的转录本可以包括处理图像数据以确定转录本。
8.本公开的另一方面提供了一种用于隐私感知转录的系统。该系统包括数据处理硬件以及与数据处理硬件通信的存储器硬件。存储器硬件存储指令,指令当在数据处理硬件上执行时,使数据处理硬件执行操作。该操作包括接收包括音频数据和图像数据的视听信号。音频数据对应于来自话音环境中的多个参与者的话音话语,以及图像数据表示话音环境中的多个参与者的面部。该操作还包括接收来自多个参与者中的参与者的隐私请求,隐私请求指示与话音环境中的参与者相关联的隐私条件。该方法进一步包括将音频数据分割成多个片段。对于音频数据的每个片段,该操作包括基于图像数据从多个参与者中确定音频数据的对应片段的说话者的身份。对于音频数据的每个片段,该方法还包括确定对应片段的说话者的身份是否包括与由所接收到的隐私请求指示的隐私条件相关联的参与者。当对应片段的说话者的身份包括参与者时,该操作包括将隐私条件应用于对应片段。该操作进一步包括处理音频数据的多个片段以确定音频数据的转录本。
9.该方面可以包括以下可选特征中的一个或多个。在一些示例中,将隐私条件应用于对应片段包括在确定转录本之后删除音频数据的对应片段。可选地,将隐私条件应用于对应片段可以包括增强图像数据的对应片段以在视觉上隐藏音频数据的对应片段的说话者的身份。
10.在一些配置中,处理音频数据的多个片段以确定音频数据的转录本包括对于转录本的与音频数据的片段中的应用隐私条件的一个片段对应的每个部分,将转录本的对应部分修改为不包括说话者的身份。附加地或替代地,处理音频数据的多个片段以确定音频数据的转录本可以包括对于音频数据的应用隐私条件的每个片段,省略转录音频数据的对应片段。隐私条件可以包括内容特定条件,内容特定条件指示要从转录本中排除的内容的类型。
11.在一些实施方式中,从多个参与者中,确定音频数据的对应片段的说话者的身份的操作包括基于图像数据确定说话者的多个候选身份。该实施方式包括对于多个候选身份中的每个候选身份,生成置信度分数,置信度分数指示基于图像数据的对应候选身份的面部包括音频数据的对应片段的说话面部的可能性。该实施方式还包括选择音频数据的对应片段的说话者的身份作为与最高置信度分数相关联的多个候选身份中的候选身份。
12.在一些示例中,数据处理硬件驻留在多个参与者中的至少一个参与者本地的设备上。图像数据可以包括由数据处理硬件处理的高清晰度视频。处理音频数据的多个片段以确定音频数据的转录本可以包括处理图像数据以确定转录本。
13.在附图和以下描述中阐述了本公开的一个或多个实施方式的细节。其他方面、特征和优点将从说明书和附图以及权利要求书中显而易见。
附图说明
14.图1a是具有转录器的示例性集会环境的示意图。
15.图1b-1e是具有隐私感知转录器的图1a的示例性集会环境的示意图。
16.图2a和2b是示例性转录器的示意图。
17.图3是用于在图1a的集会环境内转录内容的方法的操作的示例性布置的流程图。
18.图4是可以用于实现本文描述的系统和方法的示例性计算设备的示意图。
19.图5是存储在转录器可访问的存储器硬件中的示例性简档的示意图。
20.各个附图中相同的附图标记表示相同的元件。
具体实施方式
21.由视频会议系统使用和生成的数据的隐私是这种系统的重要方面。会议参与者可以具有他们自己关于在会议期间获取的音频和视频数据的隐私的个人观点。因此,存在如何提供一种视频会议系统的技术问题,该视频会议系统可以准确地生成用于视频会议会议的转录本,同时还以可靠和准确的方式满足这种隐私要求。本公开的实施方式通过使得会议的参与者能够设置他们自己的隐私配置(例如,选择加入或选择退出视频会议系统的各种功能)来提供技术解决方案,然后视频会议系统准确有效地实现参与者的期望,由于该视频会议系统当生成转录本时不仅基于会议期间捕获的音频而且还基于会议期间捕获的视频来识别来自参与者的口头贡献——这确保了视频会议的贡献者的识别的更高准确性,从而能够提高转录本的准确性,同时使得能够准确和可靠地实现参与者的定制隐私要求。换句话说,提供了一种更准确、可靠和灵活的视频会议系统。
22.此外,在一些实现中,生成视频会议的转录本的过程对于视频会议的一个或多个参与者是本地执行的,例如,通过与那些参与者在相同房间中的设备。换句话说,在这样的实施方式中,生成转录本的过程不是远程执行的,诸如经由一个或多个远程/云服务器。这有助于确保可以满足某些隐私期望,同时还确保本地捕获的全/原始分辨率和全/原始质量视频数据可用于在视频会议期间识别说话者时使用(与可能会降低说话者识别的准确性的在较低分辨率和/或较低质量视频上操作的远程服务器相反)。
23.在集会环境(通常也称为环境)中,人们聚集在一起以传达思想、想法、时间表或其他关注。集会环境充当其参与者的共享空间。该共享空间可以是物理空间,诸如会议室或教室、虚拟空间(例如,虚拟会议室)或其任何组合。环境可以是集中位置(例如,本地托管)或分散位置(例如,虚拟托管)。例如,环境是参与者聚集的单个房间,诸如会议室或教室。在一些实施方式中,环境是链接在一起以形成参与者集会的多于一个共享空间。例如,会议具有主办位置(例如,会议的协调者或发言人可能所处的位置)以及(例如,使用实时通信应用)参加会议的一个或多个远程位置。换句话说,企业主办来自芝加哥的办事处的会议,但是(例如,在旧金山或纽约)企业的其他办事处远程参加会议。例如,存在跨若干办事处具有大型会议的许多企业,其中,每个办事处具有参与会议的会议空间。因为团队成员分布在公司(即,在多于一个位置)或甚至远程工作变得越来越普遍,尤其如此。此外,随着应用对于实时通信变得更加健壮,可以为远程办事处、远程雇员、远程合作伙伴(例如企业合作伙伴)、远程客户等托管环境。因此,环境已经演进成适应各种各样的集会组织工作。
24.通常,作为用于通信的空间,环境招待多个参与者。在此,每个参与者可以在存在于环境中时贡献音频内容(例如,通过说话的可听话语)和/或视觉内容(例如,参与者的动作)。在环境中有多于一个参与者的情况下,跟踪和/或记录任何或所有参与者的参与是有益的。当环境容纳广泛的集会组织工作时尤其如此。例如,当芝加哥办事处主办与纽约办事处和旧金山办事处两者远程出席的会议时,芝加哥办事处中的某人可能难以识别远程位置之一中的说话者。为了说明,芝加哥办事处可以包括捕获远离芝加哥办事处的每个办事处
的会议室的视频馈送。即使使用视频馈送,芝加哥办事处的参与者也可能无法区分纽约办事处的所有参与者。例如,纽约办事处的说话者位于远离与视频馈送相关联的摄像头的位置,使得芝加哥办事处的参与者难以识别谁是纽约办事处中的说话者。当基于芝加哥的参与者不熟悉会议内的其他参与者(例如,不能通过他/她的语音识别说话者)时,这也可能是困难的。当不能识别说话者时,这可能是有问题的,因为说话者的身份可能是会议期间的关键组成部分。换句话说,识别说话者(或内容源)以理解要点/交付成果或通常理解谁共享什么内容可能是重要的。例如,如果纽约办事处的sally承担了可交付给芝加哥办事处的johnny的行动项目,但是johnny无法识别sally承担了该行动项目,则johnny可能在稍后跟进该行动项目时有困难。在另一场景中,因为johnny不能识别sally承担了行动项目,所以johnny可能不正确地识别(例如,也在纽约办事处的)tracy承担了该行动项目。在参与者之间简单对话的基本层面上也是如此。如果sally谈论某个主题,但johnny认为是tracy在说话,则johnny可能会在会议的稍后时刻让tracy加入关于该主题时引起混乱。
25.当说话者讨论另一参与者不熟悉和/或不能完全理解的名称、首字母缩略词和/或行话时,可能出现另一个问题。换句话说,johnny可能正在讨论在运输期间使用的运输工具出现的问题。pete可能会插话帮助解决johnny的问题,说“oh,you will want to speak with teddy in logistics about that.(哦,你将想要在组织工作中与teddy谈论这一点)”。如果johnny不熟悉teddy和/或组织工作团队,则johnny可能会记下与freddie而不是teddy的谈话。对于在给定行业中使用的首字母缩略词或其他行话,也可能发生这种情况。例如,如果芝加哥办事处正在与西雅图公司举行会议,其中,芝加哥办事处主办会议并且西雅图公司远程参加会议,则芝加哥办事处的参与者可能使用西雅图公司不熟悉的首字母缩略词和/或行话。不幸的是,在没有芝加哥办事处呈现的内容的记录或转录的情况下,西雅图公司可能无法理解会议(例如,导致会议效果不佳)。附加地或替代地,当参与者试图在会议期间理解内容时,位置之间或与会议托管平台的不良连接也可能使参与者的事情复杂化。
26.为了克服这些问题,在环境中存在转录设备,其(例如,实时地)生成在环境内发生的内容的转录本。当生成转录本时,设备可以识别说话者(即,生成音频内容的参与者)和/或将内容与也存在于环境内的参与者相关联。利用在环境中呈现的内容的转录本,转录设备能够记住要点和/或可交付成果,并提供谁发起参与者可访问的内容的记录以供参考。例如,参与者可以在会议期间(例如,实时地或基本上实时地)或在会议之后的某个稍后时间参考转录本。换句话讲,johnny可以参考由转录设备生成的转录本的显示来辨识teddy(而不是freddie)是他需要在组织工作中与之交谈的人,并且关于该行动项目他应该跟进sally(而不是tracy)。
27.不幸的是,尽管转录本可能解决环境中遇到的一些问题,但是它提出了关于隐私的问题。在此,隐私是指在由转录设备生成的转录本上具有免于被观察的状态。尽管可能存在许多不同类型的隐私,但是一些示例包括内容隐私或身份隐私。在此,内容隐私是基于内容的,使得期望某些敏感内容不以书面或人类可读格式记住(例如,机密内容)。例如,会议的一部分可能包括关于会议中不存在的另一雇员的音频内容(例如,经理讨论出现的人力资源问题)。在该示例中,会议中的参与者将更喜欢不转录或以其他方式记住关于该另一雇员的会议的该部分。这还可以包括不记住包括关于该另一雇员的内容的音频内容。在此,由
于传统的转录设备不加区别地转录内容,所以会议至少在会议的该部分期间将不能利用传统的转录设备。
28.身份隐私是指寻求保持内容源的匿名性的隐私。例如,转录本通常在转录本内包括识别转录内容的来源的标记。例如,标记转录内容的说话者可以被称为说话者日志化,以回答“谁说了什么”和“谁什么时候说话”。当内容源的身份是敏感的或者生成内容的源(例如,参与者)出于任何原因(例如,个人原因)而更喜欢掩蔽他/她的身份时,源不希望标签与转录的内容相关联。注意,在此,与内容隐私不同,源不介意内容在转录本中透露,而是不希望标识符(例如,标签)将内容与源相关联。由于传统的转录设备缺乏适应这些隐私问题的能力,因此即使放弃了上述益处,参与者也可以选择不使用转录设备。为了维持这些益处和/或保护参与者的隐私,环境可以包括被称为转录器的隐私感知转录设备。在另外的示例中,当摄像头正在捕获想要保持匿名的说话者的视频时,说话者可以选择不使他们录制的图像(例如,面部)被记住。这可以包括使说话者的面部的视频/图像帧失真和/或覆盖掩蔽说话者的身份的图形,使得会议中的其他个人不能在视觉上识别该说话者。附加地或替代地,(例如,通过声码器传递音频)说话者的语音的音频可能失真,从而以匿名化说话者的方式掩蔽说话者的语音。
29.在一些实施方式中,通过在转录期间处理设备上的隐私,进一步增强隐私问题,使得转录本不会离开为其参与者提供共享空间的集会环境(例如,会议室或教室)的范围。换句话说,通过使用转录器在设备上生成转录本,可以在设备上移除识别想要保持匿名的说话者的说话者标签,以减轻如果在远程系统(例如,云环境)上发生转录本的处理则这些说话者的身份将被暴露/受损的任何担忧。换句话说,不存在由转录器生成的可能被共享或存储而危及参与者隐私的未经编辑的转录本。
30.在设备上执行音频-视频转录(例如,音频-视频自动话音辨识(avasr))的另一技术效果是降低的带宽要求,因为音频和图像数据(也被称为视频数据)可以本地保留在设备上,而不需要将其传输到远程云服务器。例如,如果要将视频数据传送到云,则可能首先需要对其进行压缩以进行传输。因此,在用户设备本身上执行视频匹配的另一技术效果是可以使用未压缩(最高质量)视频数据来执行视频数据匹配。未压缩视频数据的使用使得更容易辨识音频数据与说话者的面部之间的匹配,使得可以匿名化分配给由不想被识别的说话者说出的音频数据的转录部分的说话者标签。与此同时,捕获不想被识别的个人面部的视频数据可以被增强/失真/模糊以掩蔽这些个人,使得如果视频记录被共享,则他们不能在视觉上被识别。类似地,表示由这些个体说出的话语的音频数据可能被失真以匿名化不想要可识别的这些个人的说话语音。参考图1a-1e,环境100包括多个参与者10、10a-j。在此,环境100是主办会议室,其中,六个参与者10a-f参加主办会议室中的会议(例如,视频会议)。环境100包括显示设备110,其经由网络120从远程系统130接收内容馈送112(也称为多媒体馈送、内容流或馈送)。内容馈送112可以是音频馈送218(即,诸如音频内容、音频信号或音频流的音频数据218)、视觉馈送217(即,图像数据217,诸如视频内容、视频信号或视频流)或两者的某种组合(例如,也称为视听馈送、视听信号或视听流)。显示设备110包括能够显示视频内容217的显示器111和用于音频内容218的可听输出的扬声器,或者与之通信。显示设备110的一些示例包括计算机、膝上型计算机、移动计算设备、电视、监视器、智能设备(例如,智能扬声器、智能显示器、智能电器)、可穿戴设备等。在一些示例中,显示设备110包
括参与会议的其他会议室的视听馈送112。例如,图1a-1e描绘了两个馈送112、112a-b,其中,每个馈送112对应于不同的远程会议室。在此,第一馈送112a包括三个参与者10、10g-i,而第二馈送112b包括单个参与者10、10j(例如,远离家庭办事处工作的雇员)。为了继续先前的示例,第一馈送112a可以对应于来自纽约办事处的馈送112,第二馈送112b对应于来自旧金山办事处的馈送112,并且主办会议室100对应于芝加哥办事处。
31.远程系统130可以是具有可扩展/弹性资源132的分布式系统(例如,云计算环境或存储抽象)。资源132包括计算资源134(例如,数据处理硬件)和/或存储资源136(例如,存储器硬件)。在一些实施方式中,远程系统130(例如,在计算资源132上)托管协调环境100的软件。例如,远程系统130的计算资源132执行软件,诸如实时通信应用或专业会议平台。
32.继续参考图1a-1e,环境100还包括转录器200。转录器200被配置为生成在环境100内发生的内容的转录本202。该内容可以来自转录器200所在的位置(例如,具有转录器200的会议室100中的参与者10)和/或来自将内容传送到转录器200的位置的内容馈送112。在一些示例中,显示设备110将一个或多个内容馈送112传送到转录器200。例如,显示设备110包括将内容馈送112的音频内容218输出到转录器200的扬声器。在一些实施方式中,转录器200被配置为接收与显示设备110相同的内容馈送112。换言之,显示设备110可以通过接收内容馈送112的音频和视频馈送来用作转录器200的扩展。例如,显示设备110可以包括硬件210,诸如数据处理硬件212和与数据处理硬件212通信的存储器硬件214,其使得数据处理硬件212执行转录器200。在这种关系中,转录器200可以通过网络连接接收内容馈送112(例如,音频和视觉内容/信号218、217),而不是仅可听地捕获通过显示设备110的外围设备(诸如扬声器)中继的音频内容/信号218。在一些示例中,转录器200和显示设备110之间的这种连接使得转录器200能够在环境100(例如,主办会议室)本地内的显示设备110的显示器/屏幕111上无缝地显示转录本202。在其他配置中,转录器200位于与显示设备110相同的本地环境110中,但是对应于与显示设备110分离的计算设备。在这些配置中,转录器200经由有线或无线连接与显示设备110通信。例如,转录器200具有允许有线/无线连接的一个或多个端口,使得显示设备110用作转录器200的外围设备。附加地或替代地,形成环境100的应用可以与转录器200兼容。例如,转录器200被配置作为应用内的输入/输出(i/o)设备,使得由应用协调的音频和/或视觉信号被调拨到转录器200(例如,除了显示设备110之外)。
33.在一些示例中,转录器200(以及可选地显示设备110)是便携式的,使得转录器200可以在会议室之间转移。在一些实施方式中,转录器200被配置有处理能力(例如,处理硬件/软件)以处理音频和视频内容112并且当内容112被呈现在环境100中时生成转录本202。换句话说,转录器200被配置为在转录器200处本地处理内容112(例如,音频和/或视觉内容218、217)以生成转录本202,而无需(例如,在远程系统130处的)任何附加的远程处理。在此,这种类型的处理被称为设备上处理。与由于带宽约束而经常在基于服务器的应用上使用低保真度压缩视频的远程处理不同,设备上处理可以不受带宽约束,从而允许转录器200在处理视觉内容时利用具有高保真度的更准确的高清晰度视频。此外,该设备上处理可以允许实时跟踪说话者的身份而不会由于如果音频和/或视觉信号218、217在某种程度上(例如,在连接到转录器200的远程计算系统130中)被远程处理发生的等待时间而引起的延迟。为了在转录器200处处理内容,转录器200包括硬件210,诸如数据处理硬件212和与数据处理硬件212通信的存储器硬件214。数据处理硬件212的一些示例包括中央处理单元(cpu)、
图形处理单元(gpu)或张量处理单元(tpu)。
34.在一些实施方式中,转录器200通过从第一和第二馈送112a-b中的每一个接收内容112(音频和视频数据217、218)以及从会议室环境100接收馈送112来在远程系统130上执行。例如,远程系统130的数据处理硬件134可以执行存储在远程系统130的存储器硬件136上的用于执行转录器200的指令。在此,转录器200可以处理音频数据218和图像数据217以生成转录本202。例如,转录器200可以生成转录本202并通过网络120将转录本202传输到显示设备110以在其上显示。转录器200可以类似地将转录本202传输到与对应于第一馈送的参与者10g-i和/或对应于第二馈送10j的参与者10j相关联的计算设备/显示设备。
35.除了处理硬件210之外,转录器200还包括外围设备216。例如,为了处理音频内容,转录器200包括音频捕获设备216、216a(例如,麦克风),其捕获关于转录器200的声音(例如,话音话语)并将声音转换为音频信号218(图2a和2b)(或音频数据218)。然后,转录器200可以使用音频信号218来生成转录本202。
36.在一些示例中,转录器200还包括图像捕获设备216、216b作为外围设备216。在此,图像捕获设备216b(例如,一个或多个摄像头)可以捕获图像数据217(图2a和图2b)作为附加输入源(例如,视觉输入),其与音频信号218组合,帮助识别多参与者环境100中的哪个参与者10正在说话(即,说话者)。换句话说,通过包括音频捕捉设备216a和图像捕捉设备216b两者,转录器200可以增加其说话者识别的准确性,因为转录器200可以处理由图像捕捉设备216b捕捉的图像数据217以识别指示多个参与者10a-10j中的哪个参与者10在特定实例中正在说话(即,生成话语12)的视觉特征(例如,面部特征)。在一些配置中,图像捕捉设备216b被配置为捕获绕转录器200的360度以捕捉环境100的全景。举例来说,图像捕获设备216b包括被配置为捕获360度视图的摄像头阵列。
37.附加地或替代地,当参与者10具有话音障碍时,使用图像数据217可以改善转录本202。例如,转录器200可能难以为具有导致说话者具有清楚表达话音问题的话音障碍的说话者生成转录本。为了克服由这种清楚表达问题引起的转录本202的不准确性,可以使(例如,图2a和图2b的自动话音辨识(asr)模块230处的)转录器200在生成转录本202期间意识到清楚表达问题。通过意识到该问题,转录器200可以通过在说话时利用表示参与者10的面部的图像数据217来适应该问题,以生成改进的或以其他方式更准确的转录本202,而不是转录本202仅基于参与者10的音频数据218。在此,某些话音障碍在来自图像捕获设备216b的图像数据217中可能是明显的。例如,在话音构音障碍的情况下,可以在图像217中辨识出引起影响清楚表达的唇部运动的神经肌肉紊乱。此外,可以采用技术,在所述技术中可以分析图像数据217以将具有特定话音紊乱的参与者10的唇部运动与这些参与者10意图的话音相互关联,从而以单独使用音频数据218不可能的方式改善自动话音辨识。在一些实施方式中,通过使用图像217作为转录器200的输入,转录器200识别潜在的清楚表达问题并考虑该问题以改善asr期间转录本202的生成。
38.在一些实施方式中,诸如图1b-1e,转录器200是隐私感知的,使得参与者10可以选择(例如,在转录本202或视觉馈送112、217中)不共享他或她的任何话音和/或图像信息。在此,一个或多个参与者10传送隐私请求14,该隐私请求14指示参与者10在参与视频会议环境100期间的隐私条件。在一些示例中,隐私请求14对应于转录器200的配置设置。隐私请求14可以在会议或与转录器200的通信会话之前、期间或开始时发生。在一些配置中,转录器
200包括指示参与者10的一个或多个隐私请求14(例如,图5的个人简档510、510a-n)的简档(例如,图5所示的简档500)。在此,简档500可以存储在设备上(例如,在存储器硬件214中)或存储在设备外(例如,在远程存储资源136中)并由转录器200访问。简档500可以在通信会话之前被配置,并且可以包括相应参与者10的面部的图像(例如,图像数据217),因此参与者10可以与所接收的视频内容217的相应部分相互关联。也就是说,当内容馈送112中的参与者10的视频内容217匹配与个人简档510相关联的面部图像时,可以访问相应参与者10的个人简档510。利用个人简档510,可以在参与者10参与的每个通信会话期间应用参与者的隐私设置。在这些示例中,转录器200可以(例如,基于在转录器200处接收的图像数据217)辨识参与者10并为参与者10应用适当的设置。例如,简档500可以包括用于特定参与者10、10b的个人简档510、510b,其指示特定参与者10b不介意被看到(即,被包括在视觉馈送217中),但是不想被听到(即,不包括在音频馈送218中)也不想转录他/她的话语12(即,不包括在转录本202中的话音中),而另一参与者10、10c的另一个体简档510、510c可能不想被看到(即,不包括在视觉馈送217中),但是可以记录和/或转录他/她的话语(即,包括在音频馈送218中并包括在转录本202中)。
39.参考图1b,第三参与者10c已经提交了具有隐私条件的隐私请求14(即,用于身份隐私的隐私请求14),该隐私条件指示第三参与者10c不介意被看到或听到,但是不希望转录本202在第三参与者10c说话时包括用于第三参与者10c的标识符204(例如,说话者的身份的标签)。换句话说,第三参与者10c不希望共享或存储他或她的身份;因此,第三参与者10c选择转录本202不包括与第三参与者10c相关联的透露他或她的身份的标识符204。在此,尽管图1b图示了具有其中存在说话者3的标识符204的编辑灰色框的转录本202,但是转录器200还可以完全移除标识符204或以防止与隐私请求14相关联的说话者的身份被转录器200透露的其他方式遮掩标识符204。换句话说,图1b图示了转录器200修改转录本202的一部分以不包括说话者的身份(例如,通过移除或模糊标识符204)。
40.图1c类似于图1b,除了传送隐私请求14的第三参与者10c请求在环境100的任何视觉馈送112、217中不被看到(例如,另一种形式的身份隐私)。在此,请求参与者10c可能不介意被听到,但是优选在视觉上隐藏他或她的视觉身份(即,不在视觉馈送112、217中共享或存储他或她的视觉身份)。在这种情况下,转录器200被配置为在参与者10、10a-10j之间的整个通信会话中模糊、失真或以其他方式遮掩请求参与者10c的视觉存在。例如,在任何实例中,转录器200根据从一个或多个内容馈送112接收的图像数据217确定请求者10c的位置,并且将抽象119应用于通过转录器200传送的请求者的任何物理特征(例如,模糊)。也就是说,当图像数据217显示在显示设备110的屏幕111上以及显示在与参与者10g-10j相关联的远程环境中的屏幕上时,抽象119至少覆盖在请求者10c的面部上,使得不能在视觉上识别请求者10c。在一些示例中,参与者10的个人简档510识别参与者10是否想要被模糊或遮掩(即,失真)或完全移除(例如,如图5所示)。因此,转录器200被配置为增强、修改或移除视频数据217的部分以隐藏参与者的视觉身份。
41.相反,图1d图示了来自第三参与者10c的隐私请求14请求转录器200不跟踪第三参与者10c的视觉表示或第三参与者10c的话音信息的示例。如本文所使用的,“话音信息”是指与参与者10c说出的话语12相对应的音频数据218以及从与参与者10c说出的话语12相对应的音频数据218辨识的转录本202。在该示例中,可以在会议期间听到参与者10c,但是转
录器200不在听觉上或视觉上(例如,通过视频馈送217或在转录本202中)记住参与者10c。该方法可以通过在转录本202中没有参与者10c的任何语音信息的记录或者在转录本202中没有识别参与者10c的任何标识符204来保护参与者10c的隐私。例如,转录器200可以完全省略转录本202中转录参与者10c说出的话语12的文本部分,或者转录器202可以留下文本的这些部分,但是不应用识别参与者10c的标识符204。然而,转录器200可以应用一些其他任意标识符,其不个人地识别参与者10c,而是仅将转录202中的文本的这些部分从对应于由其他参与者10a、10b、10d-10j说出的话语12的其他部分划界。换言之,参与者10可以(例如,经由隐私请求14)请求转录本202和由转录器200生成的任何其他记录不具有参与者参与通信会话的记录。
42.与身份隐私请求14相比,图1e描绘了内容隐私请求14。在该示例中,第三参与者10c传送转录器200不在转录本202中包括来自第三参与者10c的任何内容的隐私请求14。在此,第三参与者10c做出这样的隐私请求14,因为第三参与者10c将在会议期间讨论敏感内容(例如,机密信息)。由于内容的敏感性质,第三参与者10c采取以下预防措施:转录器200不在转录本202中记住与第三参与者10c相关联的音频内容218。在一些实施方式中,转录器200被配置为接收隐私请求14,该隐私请求14(例如,通过关键字)识别一个或多个参与者10不想包括在转录本202中的内容的类型,并且确定在通信会话期间何时出现该类型的内容,以便将其从转录本202中排除。在这些实施方式中,并非来自特定参与者10的所有音频内容218都被从转录本202中排除,仅排除内容特定的音频,使得特定参与者仍然可以讨论其他类型的内容并且被包括在转录本202中。例如,第三参与者10c传送隐私请求14,其请求转录器200不转录关于mike的音频内容。在这种情况下,当第三参与者10c讨论mike时,转录器200不转录该音频内容218,但是当第三参与者谈论其他主题(例如,天气)时,转录器200确实转录该音频内容218。参与者10c可以类似地设置时间边界,使得转录器200在一段时间(例如,接下来的2分钟)内不记住任何音频内容218。
43.图2a和2b是转录器200的示例。转录器200通常包括日志化模块220和asr模块230(例如,avasr模块)。日志化模块220被配置为接收(例如,由音频捕获设备216a捕获的)与来自通信会话的参与者10的话语12相对应的音频数据218和表示通信会话的参与者10的面部的图像数据217,将音频数据218分割成多个片段222、222a-n(例如,固定长度片段或可变长度片段),并且生成日志化结果224,其包括使用概率模型(概率生成模型),基于音频数据218和图像数据217,分配给每个片段222的对应说话者标签226。换言之,日志化模块220包括具有短话语(例如,片段222)的一系列说话者辨识任务,并且确定给定对话的两个片段222是否由同一参与者10说出。同时,日志化模块220可以执行面部跟踪例程以识别哪个参与者10在哪个片段222期间正在讲话,以进一步优化说话者辨识。然后,日志化模块220被配置为针对对话的所有片段222重复该过程。在此,日志化结果224为所接收的音频数据218提供带时间戳的说话者标签226、226a-e,其不仅识别在给定片段222期间谁正在说话,而且还识别在相邻片段222之间何时发生说话者改变。在此,说话者标签226可以用作转录本202内的标识符204。
44.在一些示例中,转录器200在日志化模块220处接收隐私请求14。由于日志化模块220识别说话者标签226或标识符204,因此日志化模块220可以有利地消解与基于身份的隐私请求14相对应的隐私请求14。换句话说,当参与者10是说话者时,当隐私请求14请求不通
过诸如标签226的标识符204来识别参与者10时,日志化模块220接收隐私请求14。当日志化模块220接收隐私请求14时,日志化模块220被配置为确定与请求14相对应的参与者10是否与为给定片段222生成的标签226匹配。在一些示例中,参与者10的面部的图像可以被用于将参与者10与用于该参与者10的标签226相关联。当用于片段222的标签226与对应于请求14的参与者10的身份匹配时,日志化模块220可以防止转录器200将标签226或标识符204应用于将特定片段222转录成文本的所得转录202的对应部分。当用于片段222的标签226未能匹配与请求14相对应的参与者10的身份时,日志化模块220可以允许转录器将标签226和标识符204应用于将特定片段转录成文本的所得转录本202的部分。在一些实施方式中,当日志化模块220接收到请求14时,asr模块230被配置为等待转录来自话语12的音频数据218。在其他实施方式中,asr模块230实时转录,并且所得到的转录202对提供选择不转录他们的话音信息的隐私请求14的任何参与者10实时移除标签226和标识符204。可选地,日志化模块220可以进一步使与寻求隐私的这些参与者10相关联的音频数据218失真,使得他们的说话语音以不能用于识别参与者10的方式被改变。
45.asr模块230被配置为接收与话语12相对应的音频数据218和表示正在说出话语12时的参与者10的面部的图像数据217。使用图像数据217,asr模块230将音频数据218转录成对应的asr结果232。在此,asr结果232是指音频数据218的文本转录(例如,转录本202)。在一些示例中,asr模块230与日志化模块220通信以利用与音频数据218相关联的日志化结果224来基于话语12改进话音辨识。例如,asr模块230可以针对从日志化结果224识别的不同说话者应用不同的话音辨识模型(例如,语言模型、韵律模型)。附加地或替代地,asr模块230和/或日志化模块220(或转录器200的一些其他组件)可以使用从日志化结果224获得的针对每个片段222预测的带时间戳的说话者标签226来索引音频数据218的转录232。换句话说,asr模块230使用来自日志化模块220的说话者标签226来生成转录本202内的说话者的标识符204。如图1a-1e所示,环境100内的通信会话的转录本202可以由说话者/参与者10索引,以将转录本202的部分与相应的说话者/参与者10相关联,以便识别每个说话者/参与者10所说的内容。
46.在一些配置中,asr模块230接收对转录器200的隐私请求14。例如,每当隐私请求14对应于不转录特定参与者10的话音的请求14时,asr模块230接收对转录器200的隐私请求14。换句话说,每当请求14不是基于标签/标识符的隐私请求14时,asr模块230可以接收隐私请求14。在一些示例中,当asr模块230接收到隐私请求14时,asr模块230首先基于由日志化模块220确定的说话者标签226来识别与隐私请求14相对应的参与者10。然后,当asr模块230遇到要为该参与者10转录的话音时,ars模块230应用隐私请求14。例如,当隐私请求14请求不转录该特定参与者10的话音时,asr模块230不转录该参与者的任何话音并等待出现不同参与者10的话音。
47.参考图2b,在一些实施方式中,转录器200包括用于执行面部跟踪例程的检测器240。在这些实施方式中,转录器200首先处理音频数据218以生成用于该说话者的一个或多个候选身份。例如,对于每个片段222,日志化模块220可以包括多个标签226、226a
1-3
作为说话者的候选身份。换句话说,模型可以是针对每个片段222输出多个标签226、226a
1-3
的概率模型,其中,多个标签226、226a
1-3
中的每个标签226是识别说话者的潜在候选。在此,转录器200的检测器240使用由图像捕获设备216b捕获的图像217、217a-n来确定哪个候选身份具
有指示他或她是特定片段22的说话者的最佳视觉特征。在一些配置中,检测器240为每个候选身份生成分数242,其中,分数242基于音频信号(例如,音频数据218)和视觉信号(例如,所捕获的图像217a-n)之间的关联来指示候选身份是说话者的置信度水平。在此,最高分数242可以指示候选身份是说话者的最大可能性。在图2b中,日志化模块220在特定片段222处生成三个标签226a
1-3
。检测器240基于来自音频数据218中出现片段222的时间的图像217为这些标签226中的每一个生成分数242(例如,示出为三个分数242
1-3
)。在此,图2b通过与第三分数2423相关联的第三标签226a3周围的粗体正方形指示最高分数242。当转录器200包括检测器240时,可以将最佳候选身份传送到asr模块230以形成转录本202的标识符204。
48.附加地或替代地,可以颠倒该过程,使得转录器200首先处理图像数据217以基于图像数据217生成说话者的一个或多个候选身份。然后,对于每个候选身份,检测器240生成置信度分数242,其指示对应候选身份的面部包括用于音频数据218的对应片段222的说话面部的可能性。例如,每个候选身份的置信度分数242指示对应候选身份的面部在对应于音频数据218的片段222的时间实例的图像数据217期间包括讲话面部的可能性。换句话说,对于每个片段222,检测器240可以对与参与者10相对应的图像数据217是否具有与讲话面部的面部表情类似或匹配的面部表情进行评分242。在此,检测器240选择具有最高置信度分数242的音频数据218的对应片段的说话者的身份作为候选身份。
49.在一些示例中,检测器240是asr模块230的一部分。在此,asr模块230通过实现具有被配置为接收图像数据217的多个视频轨217a-n的注意力层的编码器前端来执行面部跟踪例程,由此每个视频轨与相应参与者的面部相关联。在这些示例中,asr模块230处的注意力层被配置为确定指示与视频面部轨相关联的相应人的面部包括音频轨的说话面部的可能性的置信度分数。与包括具有用于多说话者asr辨识的注意力层的编码器前端的视听asr模块相关的附加概念和特征可以在2019年10月18日提交的美国临时专利申请62/923,096中找到,其全部内容通过引用并入本文。
50.在一些配置中,(例如,在asr模块230处的)转录器200被配置为支持多语言环境100。例如,当转录器200生成转录本202时,转录器200能够以不同的语言生成转录本202。该特征可以使得环境100能够包括远程位置,该远程位置具有说与主办位置不同的语言的一个或多个参与者10。此外,在一些情况下,会议中的说话者可以是非母语说话者或会议的语言不是说话者的第一语言的说话者。在此,来自说话者的内容的转录本202可以帮助会议中的其他参与者10理解所呈现的内容。附加地或替代地,转录器200可以用于向说话者提供关于他或她的发音的反馈。在此,通过组合视频和/或音频数据,转录器200可以指示不正确的发音(例如,允许说话者在转录器200的帮助下学习和/或适应)。这样,转录器200可以向说话者提供通知,该通知提供关于他/她的发音的反馈。
51.图3是(例如,在转录器200的数据处理硬件212处)转录内容的方法300的操作的示例性布置。在操作302,方法300包括接收包括音频数据218和图像数据217的视听信号217、218。音频数据218对应于来自话音环境100中的多个参与者10、10a-n的话音话语12,并且图像数据217表示话音环境100中的多个参与者10的面部。在操作304处,方法300包括从多个参与者10a-n中的参与者10接收隐私请求14。隐私请求14指示与话音环境100中的参与者10相关联的隐私条件。在操作306处,方法300将音频数据218分割成多个片段222、222a-n。在操作308处,方法300包括对音频数据218的每个片段222执行操作308、308a-c。在操作308a,
对于音频数据218的每个片段222,方法300包括基于图像数据217,从多个参与者10a-n中确定音频数据218的对应片段222的说话者的身份。在操作308b,对于音频数据218的每个片段222,方法300包括确定对应片段222的说话者的身份是否包括与由接收到的隐私请求14指示的隐私条件相关联的参与者10。在操作308c,对于音频数据218的每个片段222,当对应片段222的说话者的身份包括参与者10时,方法300包括将隐私条件应用于对应片段222。在操作310处,方法300包括处理音频数据218的多个片段222a-n以确定音频数据218的转录本202。
52.在本文讨论的某些实施方式可以收集或使用关于用户的个人信息(例如,从其他电子通信提取的用户数据、关于用户的社交网络的信息、用户的位置、用户的时间、用户的生物特征信息,以及用户的活动和人口统计信息、用户之间的关系等)的情况下,向用户提供一个或多个机会来控制是否收集信息、是否存储个人信息、是否使用个人信息、以及如何收集、存储和使用关于用户的信息。也就是说,本文讨论的系统和方法仅在从相关用户接收到这样做的明确授权时才收集、存储和/或使用用户个人信息。
53.例如,向用户提供对程序或特征是否收集关于该特定用户或与该程序或特征相关的其他用户的用户信息的控制。向要为其收集个人信息的每个用户呈现一个或多个选项,以允许控制与该用户相关的信息收集,以提供关于是否收集信息以及关于要收集信息的哪些部分的许可或授权。例如,可以通过通信网络向用户提供一个或多个这样的控制选项。另外,某些数据可以在其被存储或使用之前以一种或多种方式被处理,使得个人可识别信息被移除。作为一个示例,可以处理用户的身份,使得不能确定个人可识别信息。
54.图4是可以用于实现本文档所描述的系统和方法的示例性计算设备400的示意图。计算设备400旨在代表各种形式的数字计算机,诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机以及其它适当的计算机。本文所示的组件、它们的连接和关系以及它们的功能仅是例证性的,并不意味着限制本文档中描述和/或要求保护的发明的实施方式。
55.计算设备400包括处理器410(例如数据处理硬件)、存储器420(例如存储器硬件)、存储设备430、连接到存储器420和高速扩展端口450的高速接口/控制器440,以及连接到低速总线470和存储设备430的低速接口/控制器460。组件410、420、430、440、450和460中的每个组件使用各种总线互连,并且可以安装在公共主板上或以其它适当的方式安装。处理器410能够处理用于在计算设备400内执行的指令,包括存储在存储器420中或存储在存储设备430上的指令,以在诸如耦合到高速接口440的显示器480之类的外部输入/输出设备上显示用于图形用户界面(gui)的图形信息。在其它实施方式中,可以适当地使用多个处理器和/或多个总线,以及多个存储器和存储器类型。而且,可以连接多个计算设备400,其中每个设备提供必要操作的部分(例如,作为服务器组、刀片服务器组或多处理器系统)。
56.存储器420在计算设备400内非暂时性地存储信息。存储器420可以是计算机可读介质、易失性存储器单元或非易失性存储器单元。非暂时性存储器420可以是用于临时或永久地存储程序(例如,指令序列)或数据(例如,程序状态信息)以供计算设备400使用的物理设备。非易失性存储器的示例包括但不限于闪存和只读存储器(rom)/可编程只读存储器(prom)/可擦可编程只读存储器(eprom)/电子可擦可编程只读存储器(eeprom)(例如,通常用于固件,诸如启动程序)。易失性存储器的示例包括但不限于随机存取存储器(ram)、动态
随机存取存储器(dram)、静态随机存取存储器(sram)、相变存储器(pcm)以及磁盘或磁带。
57.存储设备430能够为计算设备400提供大容量存储。在一些实施方式中,存储设备430是计算机可读介质。在各种不同的实施方式中,存储设备430可以是软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其它类似的固态存储设备,或设备阵列,包括在存储区域网络或其它配置中的设备。在另外的实施方式中,计算机程序产品有形地体现为信息载体。该计算机程序产品包含在被执行时执行一种或多种方法,诸如上述那些方法的指令。信息载体是计算机或机器可读介质,诸如存储器420、存储设备430或处理器410上的存储器。
58.高速控制器440管理计算设备400的带宽密集型操作,而低速控制器460管理较低带宽密集型操作。这种职责分配仅是例证性的。在一些实施方式中,高速控制器440耦合到存储器420、显示器480(例如,通过图形处理器或加速器)和可以接受各种扩展卡(未示出)的高速扩展端口450。在一些实施方式中,低速控制器460耦合到存储设备430和低速扩展端口470。可能包括各种通信端口(例如,usb、蓝牙、以太网、无线以太网)的低速扩展端口470可以例如通过网络适配器耦合到一个或多个输入/输出设备,例如键盘、定点设备、扫描仪或网络设备,例如交换机或路由器。
59.如图所示,可以以多种不同形式来实现计算设备400。例如,计算设备400可以被实现为标准服务器400a或在一组这样的服务器400a中多次实现,被实现为膝上型计算机400b或被实现为机架服务器系统400c的一部分。
60.本文所述的系统和技术的各种实施方式能够以数字电子和/或光学电路、集成电路、专门设计的asic(应用专用集成电路)、计算机硬件、固件、软件和/或其组合实现。这些各种实施方式能够包括在一个或多个计算机程序中的实现,该计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用的或通用的,耦合以从存储系统、至少一个输入设备以及至少一个输出设备接收数据和指令,并将数据和指令发送到这些设备。
61.这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令,并且能够以高级过程和/或面向对象的编程语言和/或以汇编/机器语言实现。本文中使用的术语"机器可读介质"和"计算机可读介质"是指任何计算机程序产品、非暂时性计算机可读介质、用于向可编程处理器提供机器指令和/或数据的装置和/或设备(例如,磁盘、光盘、存储器、可编程逻辑设备(pld),包括接收机器指令作为机器可读信号的机器可读介质。术语"机器可读信号"是指用于向可编程处理器提供机器指令和/或数据的任何信号。
62.本说明书中所述的过程和逻辑流程可以由执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能的一个或多个可编程处理器来执行。过程和逻辑流程也能够由专用逻辑电路执行,例如fpga(现场可编程门阵列)或asic(应用专用集成电路)。例如,适于执行计算机程序的处理器包括通用和专用微处理器,以及任何种类的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储设备。通常,计算机还将包括一个或多个用于存储数据的大容量存储设备例如磁盘、磁光盘或光盘,或可操作地耦合至大容量存储设备以从中接收数据或对其传输数据,或者两者。然而,计算机不必具有此类设备。适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,例如包括半导体存储器设
备,例如eprom、eeprom和闪存设备;磁盘,例如内部硬盘或可移动磁盘;磁光盘;以及cd rom和dvd-rom盘。处理器和存储器能够由专用逻辑电路补充或被并入专用逻辑电路中。
63.为了提供与用户的交互,本公开的一个或多个方面能够在具有显示设备和可选的键盘与定点设备的计算机上实现,显示设备例如是crt(阴极射线管)、lcd(液晶显示器)监视器或触摸屏,以向用户显示信息,定点设备例如为鼠标和轨迹球,用户能够通过其向计算机提供输入。其它类型的设备也能够用于提供与用户的交互;例如,提供给用户的反馈能够为任何形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;并且能够以任何形式接收来自用户的输入,包括声音、话音或触觉输入。另外,计算机能够通过向用户使用的设备发送文档以及从用户使用的设备接收文档来与用户进行交互;例如,通过响应于从web浏览器收到的请求,将网页发送到用户客户端设备上的web浏览器。
64.已经描述了许多实施方式。然而,应理解,在不脱离本公开的精神和范围的情况下,可以做出各种修改。因而,其它实施方式也在所附权利要求的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1