使用规范话语用于文本或话音通信的制作方法

文档序号：33081861发布日期：2023-01-31 19:51阅读：25来源：国知局

使用规范话语用于文本或话音通信

背景技术：

1.文本或话音聊天允许应用(诸如视频游戏)的用户并发使用该应用来通信。例如，多个玩家能够在他们正在玩相同视频游戏时使用话音聊天来通信。尽管应用中的文本/话音聊天功能性旨在使通信、合作和友谊便利，但是存在不利方面：文本/话音聊天还允许用户互相做出粗鲁、贬低或辱骂评论。例如，视频游戏中的众所周知的问题是存在利用文本或话音聊天通道来对抗其他玩家的毒性玩家。因此，许多应用不实现文本或话音聊天，而当提供话音聊天时，许多用户禁用它。在实现了文本或话音聊天的情况下，需要应用提供商提供调节工具，这些调节工具使得用户能够阻挡其他用户或者使他们静音，以及允许用户报告其他用户对通信通道的滥用。例如，如果玩家的词汇或玩家话音的语调与玩家的人物不匹配，则通信系统还可能扰乱游戏的沉浸式体验。文本/话音聊天还限于讲相同语言的玩家之间的通信。

技术实现要素：

2.过滤器有时被应用于“聊天”通信系统以在一些类型的评论被其他玩家听到(或读取)之前移除它们。例如，能够监测用户所生成的文本流以检测亵渎或辱骂评论，这些亵渎或辱骂评论然后在向其他用户提供文本流之前被滤出。此方法通常限于监测文本聊天，而不能被容易地实现用于话音聊天系统，因为大多数自动语音识别模型无法足够迅速地将语音转换为文本，并且在足够高质量的情况下支持有效的过滤。此外，毒性过滤技术产生漏报，这些漏报使得一些毒性评论通过过滤器并到达其他用户。经由诸如流行在线多玩家视频游戏的流行应用的文本或话音聊天系统传达的毒性评论的总量是如此高，以致视频游戏的几乎所有玩家都将最终由于毒性过滤器中的漏报而被暴露于毒性语言。这对于面向家庭的游戏开发者是不可接受的，这抑制文本或话音聊天的实现。过滤在改善游戏的沉浸式体验上也很大程度无效，因为过滤集中于移除评论而不改变评论的人物。
3.所提出的解决方案特别涉及一种计算机实现的方法，该方法包括：由至少一个处理器基于对来自应用的第一用户的话语的表示和规范话语集合的规范话语的语义比较，从规范话语集合中选择规范话语；以及向应用的第二用户呈现所选择的规范话语，代替呈现来自应用的第一用户的话语。
4.通常，话语可以包括文本字符串和/或来自应用的第一用户的发声话语。在发声话语情况下，该方法可以附加地包括由所述至少一个处理器并且使用语音至文本应用将发声话语转换为来自第一用户的话语的文本表示，该文本表示将与规范话语集合的规范话语进行比较。
5.在示例性实施例中，从规范话语集合中选择规范话语基于自然语言处理(nlp)。这可以暗示从规范话语集合中选择规范话语包括通过以下来从规范话语集合中选择规范话语：(a)基于话语来使用从规范话语集合中对规范话语的语义检索或者(b)使用规范话语和从第一用户接收到的话语的语义相似性集合。
6.在示例性实施例中，从规范话语集合中选择规范话语包括基于与规范话语集合相
关联的元数据来选择规范话语。元数据可以例如指示规范话语集合的子集。元数据能够例如用于使不同的发声特性或发音与由不同人物进行的规范话语相关联。从规范话语集合中选择规范话语因此可以包括通过将元数据与从第一用户接收到的话语的至少一个特性进行比较来标识子集中的一个并且从子集中的所标识的一个中选择规范话语。例如，话语的特性可以涉及由第一和第二用户所玩的视频游戏应用的至少一个视频游戏应用参数，诸如视频游戏应用的状态和/或第一用户在视频游戏应用中控制的人物的类型。
7.在示例性实施例中，该方法可以进一步包括将规范话语集合嵌入为矩阵，该矩阵具有包括表示该集合中的规范话语的向量的列。通常，将话语表示为具有预定维数的空间中的向量在本文中被称为“嵌入”话语。使用表示规范话语集合的矩阵可以通过针对规范话语生成语义相似性分数来允许从规范话语集合中选择规范话语。然后，从规范话语集合中选择规范话语还可以包括选择与高于预定最小阈值的语义相似性分数相关联的规范话语。在一个实施例中，可以响应于没有语义相似性分数高于预定最小阈值来选择默认话语。
8.为了将用户话语用替换为从规范话语集合中选择的规范话语，一些实施例将规范话语集合嵌入为矩阵，该矩阵具有包括表示该集合中的规范话语的向量的列。换句话说，可以以矩阵格式存储规范话语集合，对于所述矩阵格式该集合的每个规范话语已经在仅仅包含数字元素的向量中被转换。例如，用户话语的向量表示能够作为诸如1,m-矩阵的一维矩阵被嵌入，并且因此作为如uu＝(a1，a2，a3，...m)的向量被嵌入。这样的嵌入用户话语的数字元素可以被用于与所存储的规范话语进行比较，并且因此被用于相似性评估。
9.在示例性实施例中，表示规范话语集合的嵌入矩阵能够以具有m行和n列的m,n-矩阵来表示。因此，用于规范话语的示例性嵌入矩阵me可以由下式给出
[0010][0011]
为了比较并且因此为了相似性评估，可以通过数学上组合嵌入用户话语(诸如uu)和嵌入矩阵(诸如me)的数字来针对规范话语生成语义相似性分数。使用向量和矩阵表示的数字元素允许基于非复杂计算并因此具有适度计算负载的快速比较。
[0012]
例如，可以通过将表示从用户接收到的话语的向量的元素与嵌入矩阵(其中每个列包括表示规范话语中的一个的向量的元素)中的每个列的元素(逐元素)相乘，来生成规范话语的语义相似性分数。因此，可以计算出相似性向量以用于将嵌入用户话语与嵌入规范话语进行比较。例如，可以通过下式计算出以上嵌入向量uu和嵌入矩阵me的前两列的相似性向量。
[0013]
s1＝(a1b11，a2b21，a3b31，...ambm1)
[0014]
s2＝(a1b21，a2b22，a3b32，...ambm2)
[0015]
然后可以使用这些相似性向量来针对规范话语产生语义相似性分数。在一个示例中，集合中的规范话语的语义相似性分数等于诸如相似性向量s1和s2的相似性向量的量值。然后可以选择具有高于最小阈值的语义相似性分数的规范话语中的一个或多个作为用于替换用户话语的候选。例如，能够选择与最高语义相似性分数相关联的规范话语来替换分
析的用户话语。在一个实施例中，如果没有规范话语的语义相似性分数高于最小阈值，则可以选择默认话语来替换所述话语。在一些实施例中，使用用于基于嵌入规范话语和用户话语来执行语义匹配或者确定语义相似性分数的其他技术。
[0016]
所提出的解决方案还涉及一种体现可执行指令集合的非暂时性计算机可读介质，其中，该可执行指令集合操纵至少一个处理器执行所提出的方法的实施例。
[0017]
所提出的解决方案还涉及一种系统，该系统包括：存储器，该存储器被配置成存储规范话语集合；以及至少一个处理器，该至少一个处理器被配置成基于对来自应用的第一用户的话语和规范话语集合的规范话语的语义比较，从规范话语集合中选择规范话语，并且向应用的第二用户呈现所选择的规范话语，代替呈现来自第一用户的话语。所提出的系统的实施例还可以被配置成执行所提出的方法的实施例。
[0018]
本公开涉及用于将文本或话音聊天中的评论翻译成规范术语并且在一些情况下将文本或话音聊天中的评论翻译成人物特定的词汇或话音特性以移除毒性并改善视频游戏中的沉浸感的技术。在一些实施例中，来自用户的话语(文本或话音)被转换成使用例如由自然语言处理(nlp)机器学习(ml)模型执行的语义检索或语义相似性从规范话语集合中选择的规范话语/通过该规范话语重放。规范话语替换被提供给其他用户的文本或聊天流中的用户话语，从而确保用户之间的通信没有毒性语言。在一些情况下，还使用人物特定的规范话语以确保由人物进行的通信与该人物的本性或个性一致。如果正在使用话音聊天，则用户话语被麦克风捕获并且低延时语音识别算法将用户话语从音频转换为被提供给nlp ml模型的文本。规范话语集合被生成并被审查以核实规范话语不包括诸如亵渎或辱骂语言的毒性词或短语。元数据能够与规范话语相关联以指示子集，诸如对于不同类型的人物可用的规范话语的子集。元数据还能够用于使不同的发声特性或发音与由不同人物进行的规范话语相关联。在一些实施例中，规范话语集合与使规范话语成为一个或多个其他语言的翻译相关联以使讲不同语言的用户之间的通信便利。
[0019]
nlp ml模型生成指示用户话语与规范话语(或由元数据指示的其子集)的语义相似性的分数。如以上概述的，在一些实施例中，规范话语被表示为具有预定维数的空间中的向量，这在本文中被称为“嵌入”规范话语。在一些实施例中，嵌入规范话语集合产生矩阵，该矩阵包括该集合中的每个规范话语的向量表示。嵌入矩阵被存储以用于由nlp ml模型随后使用。用户话语被嵌入以生成用户话语的向量表示。nlp ml模型然后通过将表示用户话语的向量与嵌入矩阵中包括表示规范话语的向量的对应列相乘，来针对每个规范话语生成语义相似性分数。分数用于选择替换文本或聊天流中的用户话语的规范话语。在一些实施例中，具有高于阈值的分数的规范话语的子集被提供给用户，并且用户选择最准确地表示用户话语的子集中的一个。如果没有分数高于指示与用户话语足够相似的规范话语的最小阈值，则默认话语替换用户话语。
附图说明
[0020]
通过参考附图，可以更好地理解本公开，并且其许多特征和优点变得对于本领域技术人员显而易见。在不同附图中使用相同的附图标记指示相似或相同的项目。
[0021]
图1是根据一些实施例的实现用于在玩家之间通信的规范词汇的视频游戏处理系统的框图。
[0022]
图2是根据一些实施例的实现用于在玩家之间通信的规范词汇的基于云的系统的框图。
[0023]
图3是根据一些实施例的实现用于在通过网络连接的用户之间通信的规范词汇的网络处理系统的框图。
[0024]
图4是根据一些实施例的在使用语音至文本转换的话音聊天中生成规范话语的网络处理系统的框图。
[0025]
图5是根据一些实施例的包括规范话语集合的框图。
[0026]
图6是根据一些实施例的用规范话语取代在文本或话音聊天期间从用户接收到的话语的方法的流程图。
具体实施方式
[0027]
图1是根据一些实施例的实现用于在玩家之间通信的规范词汇的视频游戏处理系统100的框图。处理系统100包括或者具有对系统存储器105或使用诸如动态随机存取存储器(dram)的非暂时性计算机可读介质来实现的其他存储元件的访问。然而，存储器105的一些实施例是使用包括静态ram(sram)、非易失性ram等的其他类型的存储器来实现的。处理系统100还包括总线110以支持诸如存储器105的在处理系统100中实现的实体之间的通信。处理系统100的一些实施例包括为了清楚起见在图1中未示出的其他总线、桥接器、交换机、路由器等。
[0028]
处理系统100包括中央处理单元(cpu)115。cpu 115的一些实施例包括并发或并行地执行指令的多个处理元件(为了清楚起见在图1中未示出)。处理元件被称为处理器核、计算单元或者使用其他术语。cpu 115连接到总线110并且cpu 115经由总线110与存储器105通信。cpu 115执行诸如存储在存储器105中的程序代码120的指令并且cpu 115在存储器105中存储信息，诸如所执行的指令的结果。cpu 115还能够通过发出绘图调用来发起图形处理。
[0029]
输入/输出(i/o)引擎125处理与在屏幕135上呈现图像或视频的显示器130相关联的输入或输出操作。在所图示的实施例中，i/o引擎125连接到游戏控制器140，该游戏控制器140响应于用户按压游戏控制器140上的一个或多个按钮或者以其他方式——例如使用由加速度计检测到的运动——与游戏控制器140交互来向i/o引擎125提供控制信号。i/o引擎125还向游戏控制器140提供用于在游戏控制器140中触发诸如振动、照亮灯等的响应的信号。i/o引擎125还连接到包括麦克风的头戴式耳机143，该麦克风将玩家的话音转换成被传达给i/o引擎125的信号并且将从i/o引擎125接收到的音频信号转换成被传达给佩戴头戴式耳机143的玩家的声音(诸如另一玩家的声音)。在所图示的实施例中，i/o引擎125读取存储在外部存储元件145上的信息，该外部存储元件145是使用诸如紧致盘(cd)、数字视频盘(dvd)等的非暂时性计算机可读介质来实现的。i/o引擎125还向外部存储元件145写入诸如由cpu 115处理的结果的信息。i/o引擎125的一些实施例被耦合到处理系统100的其他元件，诸如键盘、鼠标、打印机、外部盘等。i/o引擎125被耦合到总线110，使得i/o引擎125与存储器105、cpu 115或连接到总线110的其他实体通信。
[0030]
处理系统100包括图形处理单元(gpu)150，该gpu 150例如通过控制组成屏幕135的像素来渲染用于在显示器130的屏幕135上呈现的图像。例如，gpu 150渲染对象以产生被
提供给显示器130的像素的值，显示器130使用像素值来显示表示所渲染的对象的图像。gpu 150包括一个或多个处理元件，诸如并发或并行地执行指令的计算单元的阵列155。gpu 150的一些实施例被用于通用计算。在所图示的实施例中，gpu 150通过总线110与存储器105(以及连接到总线110的其他实体)通信。然而，gpu 150的一些实施例通过直接连接或经由其他总线、桥接器、交换机、路由器等与存储器105通信。gpu 150执行在存储器105中存储的指令并且gpu 150在存储器105中存储信息，诸如所执行的指令的结果。例如，存储器105存储表示将由gpu 150执行的程序代码160的指令。
[0031]
在所图示的实施例中，cpu 115和gpu 150执行对应的程序代码120、160以实现视频游戏应用。例如，经由游戏控制器140或头戴式耳机143接收到的用户输入由cpu 115处理以修改视频游戏应用的状态。cpu 115然后发送绘图调用以指导gpu 150渲染表示视频游戏应用的状态的图像以用于在显示器130的屏幕135上显示。如本文所讨论的，gpu 150还能够执行与视频游戏相关的通用计算，诸如执行物理引擎或机器学习算法。cpu 115和gpu 150还支持与其他玩家(潜在地使用其他计算系统)的通信，诸如经由显示器130(以文本形式)或头戴式耳机143(作为音频)向玩家呈现的文本或话音聊天。
[0032]
存储器105存储表示规范话语集合165的信息，所述规范话语用于替换由玩家生成的文本或话音聊天通信。文本或话音聊天通信在本文被称为玩家的“话语”。规范话语集合165包括已被审查以确保规范话语是“家庭友好的”并且预期对于在游戏或其他应用的上下文中读取或者听到规范话语的基本上所有人们不冒犯的规范话语。规范话语集合165能够包括任何数目的规范话语，这些规范话语仅需要被审查一次并且然后能够无期限地用于替换由游戏或应用支持的文本或话音流中的玩家的话语。在一些实施例中，规范话语集合165包括：例如基于至少一个视频游戏应用参数，诸如视频游戏应用的状态和/或第一用户在视频游戏应用中控制的人物的类型，来定义规范话语的各种子集的元数据。规范话语集合165还能够包括不同语言的话语以使讲不同语言的玩家之间的翻译便利。
[0033]
cpu 115、gpu 150、计算元件或其他处理器元件的阵列155从应用的用户(或游戏的玩家)接收表示话语的信息。话语是经由头戴式耳机143的麦克风(在话音聊天的情况下)、键盘(在文本聊天的情况下)或其他输入设备接收的。如本文所讨论的，经由头戴式耳机143接收到的话音话语使用语音至文本应用被转换成文本。处理器基于对来自第一用户的话语和规范话语集合165的语义比较从规范话语集合165中选择规范话语。语义比较包括能够由语义自然语言处理机器学习模型执行的语义检索和语义相似性操作。所选择的规范话语然后被呈现给应用的第二用户，代替呈现来自第一用户的话语。在一些情况下，在文本流或话音聊天中来自用户的话语被利用所选择的规范话语替换。
[0034]
cpu 115、gpu 150、计算元件的阵列155或其组合的一些实施例执行程序代码170，该程序代码170用于执行诸如语义检索和语义相似性的nlp分析。语义nlp ml算法使用自然语言数据的语料库来被训练。包括与媒体/产品评论、新闻文章、电子邮件/垃圾邮件/新闻组消息、推文、对话等相关的语料库的许多文本语料库可用于训练机器学习算法。在所图示的实施例中，nlp分析的结果被存储在存储器105的一部分175中，尽管在一些实施例中，此信息或其副本被存储在其他位置中。
[0035]
图2是根据一些实施例的实现用于在玩家之间通信的规范词汇的基于云的系统200的框图。基于云的系统200包括与网络210互连的服务器205。尽管在图2中示出了单个服
务器205，但是基于云的系统200的一些实施例包括连接到网络210的多于一个服务器。在所图示的实施例中，服务器205包括收发器215，该收发器215朝向网络210发送信号并且从网络210接收信号。能够使用一个或多个单独的发送器和接收器来实现收发器215。服务器205还包括一个或多个处理器220和一个或多个存储器225。处理器220执行诸如在存储器225中存储的程序代码的指令，并且处理器220在存储器225中存储信息，诸如所执行的指令的结果。
[0036]
基于云的系统200包括一个或多个处理设备230，诸如经由网络210连接到服务器205的计算机、机顶盒、游戏控制器等。在所图示的实施例中，处理设备230包括收发器235，该收发器235朝向网络210发送信号并且从网络210接收信号。能够使用一个或多个单独的发送器和接收器来实现收发器235。处理设备230还包括一个或多个处理器240和一个或多个存储器245。处理器240执行诸如在存储器245中存储的程序代码的指令，并且处理器240在存储器245中存储信息，诸如所执行的指令的结果。收发器235连接到在屏幕255上显示图像或视频的显示器250、游戏控制器260、头戴式耳机265以及其他文本或话音输入设备。基于云的系统200的一些实施例因此被基于云的游戏流应用使用。
[0037]
处理器220、处理器240或其组合执行程序代码以利用来自规范话语集合的一个或多个规范话语替换从应用的用户或游戏的玩家接收到的话语。服务器205中的处理器220与处理设备230中的处理器240之间的分工在不同实施例中不同。例如，表示经由头戴式耳机265接收到的话语的信号能够经由收发器215、235被传达给服务器205，并且处理器220能够标识要取代在经由连接到网络210的头戴式耳机270被传达给第二用户或玩家的文本或话音聊天流中接收到的话语的规范话语。又例如，处理器240标识与经由头戴式耳机265接收到的话语相对应的规范话语，并且用该规范话语取代在被提供给服务器205用于分发给诸如佩戴头戴式耳机270的用户/玩家的其他用户或玩家的流中接收到的话语。
[0038]
图3是根据一些实施例的实现用于在通过网络305连接的用户之间通信的规范词汇的网络处理系统300的框图。应用的用户310、315(诸如视频游戏的玩家)正在经由网络通信，同时使用在连接到网络305的对应的处理系统320、325上执行的应用的实例。处理系统320、325是使用图1所示的处理系统100或图2所示的基于云的系统200的一些实施例来实现的。
[0039]
处理系统320接收包括表示来自用户310的话语330的信息的流。在一些实施例中，话语330是从用户310接收到的毒性文本或话音聊天评论。话语330由规范化器335处理，该规范化器335利用表示从规范话语集合中选择的规范话语的信息替换流中表示话语330的信息。规范化器335的一些实施例将规范话语集合嵌入作为矩阵，该矩阵具有包括表示该集合中的规范话语的向量的列。换句话说，规范化器335包括其中规范话语集合以矩阵格式被存储的存储器，对于所述矩阵格式所述集合中的每个规范话语已经被转换在仅仅具有数字元素的向量中。对应转换能够由nlp实现。
[0040]
规范化器335还生成(实际)话语330的向量(例如以1,n矩阵的形式)表示以创建嵌入用户话语以用于与该集合的规范话语进行比较。例如，用户话语的向量表示可以是：
[0041]uu
＝(0.0，0.1，0.9，...，0.0)
[0042]
这样的嵌入用户话语的数字元素可以被用于与所存储的规范话语进行比较并且生成相似性评估。在一些实施例中，表示规范话语集合的嵌入矩阵被表示为：
[0043][0044]
为了比较并且因此为了相似性评估，规范化器335通过数学上组合嵌入用户话语(诸如uu)和嵌入矩阵me的数值来针对规范话语生成语义相似性分数。使用向量和矩阵表示的数字元素允许基于非复杂计算并因此具有适度计算负载的快速比较。
[0045]
例如，规范化器335通过将表示从用户310接收到的话语330的向量的元素与矩阵(其中每个列包括表示规范话语中的一个的向量的元素)中的每个列的元素(逐元素)相乘，来针对规范话语生成语义相似性分数。由此，计算出相似性向量以用于将嵌入用户话语与嵌入规范话语进行比较。例如，以上嵌入向量和嵌入矩阵的前两个列的相似性向量是：
[0046]
s1＝(0.0，0.02，0.72，...，0，0)
[0047]
s2＝(0.0，0.01，0.09，...，0.0)
[0048]
这些相似性向量然后可以用于针对规范话语产生语义相似性分数。在一个示例中，集合中的规范话语的语义相似性分数等于诸如相似性向量s1和s2的相似性向量的量值。
[0049]
具有高于最小阈值的语义相似性分数的一个或多个规范话语被选择作为用于替换话语330的候选。例如，与最高语义相似性分数相关联的规范话语能够被选择来替换话语330。如果没有规范话语的语义相似性分数高于最小阈值，则默认话语被选择来替换话语330。尽管在所图示的实施例中对本文公开的向量和矩阵表示执行的操作用于生成语义相似性分数，但是其他实施例使用其他相似性度量来将用户话语与规范话语进行比较并且选择规范话语来表示用户话语。
[0050]
规范话语340被选择来替换流中被呈现给用户315的话语330。在一些实施例中，分数用于判定系统是否应该提示原始玩家确认规范话语340的含义与他们的原始意图匹配。玩家还能够被提示从可能的选项的列表中选择规范话语340。例如，如果玩家说“bad guy over your shoulder(坏家伙在你身后)”，规范化器335可以找到以下匹配以及它们的相似性分数。
[0051]
选项：“enemy behind you！(敌人在你后面！)”分数＝0.7
[0052]
选项2：“watch out！enemy over there！(小心！敌人在那边！)”分数＝0.6
[0053]
选项3：“friendly behind you！(友军在你后面！)”分数＝0.1
[0054]
玩家被呈现有高于预定阈值的两个分数(在此示例中，阈值是0.5并且玩家被呈现有选项1和选项2)并且被提示选择哪一个是正确的。如果分数足够高，则系统在没有附加玩家输入的情况下发送规范话语340。分数能够可选地被归一化以表示概率。
[0055]
图4是根据一些实施例的在使用语音至文本转换的话音聊天中生成规范话语的网络处理系统400的框图。处理系统400是使用图1所示的处理系统100或图2所示的基于云的系统200的一些实施例来实现的。在所图示的实施例中，用户405正在使用话音聊天应用，该话音聊天应用可以是独立应用或诸如与一个或多个其他用户一起玩的游戏的另一应用的部分。用户405对着麦克风410讲话并且所讲出的词被捕获为话语415。
[0056]
包括话语415的被麦克风410捕获的所有话语被提供给使用软件、固件、硬件或其组合来实现的语音至文本模块420。语音至文本模块420生成话语415的文本表示并且将该文本表示提供给自然语言处理(nlp)分析器425。语音至文本模块420的一些实施例实现本地语音识别模块或者利用远程转录服务，例如，语音至文本模块420向远程转录服务发送表示话语415的音频片段，所述远程转录服务返回话语415的文本表示。
[0057]
包括先前审查的规范话语集合的规范集合430对于nlp分析器425是可访问的。nlp分析器425将话语415的文本表示与规范集合430中的规范话语进行比较。一个或多个规范话语被选择来表示话语415。nlp分析器425的一些实施例实现用于选择规范话语来表示话语415的ml技术。例如，nlp分析器425能够实现用于基于话语415的文本表示从规范集合430中选择规范话语的语义检索。又例如，nlp分析器425能够基于规范话语和话语415的语义相似性从规范集合430中选择规范话语。
[0058]
从规范集合430中选择的规范话语435被提供给扬声器440，诸如在图1所示的头戴式耳机143或图2所示的头戴式耳机265中实现的扬声器。提供给扬声器440的信号包括表示由扬声器440转换为音频的文本的信号或表示由扬声器440生成的音频的信号。在一些实施例中，规范话语435被给予标识号，该标识号被提供给扬声器或其他实体以用于生成规范话语435的文本或音频表示。规范话语435的音频版本445是由扬声器440基于表示规范话语435的信号而生成的。
[0059]
图5是根据一些实施例的包括规范话语集合500的框图。规范集合500表示图1所示的规范话语集合165和图2所示的规范集合430的一些实施例。规范集合500包括本文中被统称为“规范话语501-504”的规范话语501、502、503、504。规范话语501-504包括存储的用于使在应用的用户——诸如视频游戏的玩家——之间的通信便利的词或短语。规范话语501-504被审查以确定它们对于其意图的受众的适合性，例如，规范话语501-504被审查以确保它们是“家庭友好的”。如本文所讨论的，规范话语501-504替换文本流或话音聊天流中从用户或玩家接收到的话语。在一些实施例中，从用户或玩家接收到的每个话语被对应的规范话语501-504替换以确保用户或玩家之间的所有通信都被表示为先前审查的规范话语501-504中的一个。
[0060]
在所图示的实施例中，元数据511、512、513、514(在此统称为“元数据511-514”)与规范话语501-504相关联。元数据511-514指示规范话语501-504的性质、特性或子集。例如，元数据511、512能够指示所对应的规范话语501、502与第一人物类型(诸如老巫师)相关联，并且元数据513、514能够指示所对应的规范话语503、504与第二人物类型(诸如年轻的霍比特人)相关联。基于元数据511-514选择规范话语501-504来替换从用户接收到的话语。例如，规范话语501、502用于替换从正在角色扮演为老巫师的玩家接收到的话语，并且规范话语503、504用于替换从正在角色扮演为年轻的霍比特人的玩家接收到的话语。
[0061]
在所图示的实施例中，规范集合500与话语在原始语言与一个或多个其他语言之间的翻译相关联(或者包括话语在原始语言与一个或多个其他语言之间的翻译)，这些翻译被表示为翻译后的话语520。规范话语501-504被提前翻译以生成包括翻译后的话语520的查找表。因此能够响应于选择规范话语501-504中的一个作为用于用户或玩家话语的替换来几乎瞬时执行被选择来替换用户话语的规范话语501-504的翻译。家庭友好话语的规范集合500是通过机器翻译或人工翻译来翻译的。翻译后的话语520能够被存储在原始用户的
位置处(用于在传输到另一用户之前翻译规范话语501-504)或在接收者的位置处(用于在由接收者用户接收之后翻译规范话语501-504)。在一些实施例中，选择的规范话语501-504的标识符被发送到接收者用户并且接收者使用该标识符来在翻译后的话语集合520中查找适当的翻译。
[0062]
图6是根据一些实施例的用规范话语取代在文本或话音聊天期间从用户接收到的话语的方法600的流程图。方法600被实现在图1所示的处理系统100、图2所示的基于云的系统200、图3所示的网络处理系统300、以及图4所示的网络处理系统400的一些实施例中。
[0063]
在框605，处理系统(或规范化器)接收用户话语的文本表示。在一些实施例中，用户的话语被麦克风捕获并且然后被提供给语音至文本模块，该语音至文本模块生成用户话语的文本表示，例如，如图4所示。
[0064]
在框610，处理系统基于用户的话语的文本表示来针对规范话语生成分数。在一些实施例中，语义nlp ml算法使用用户的话语和一个或多个规范话语的语义检索或语义相似性来生成分数。
[0065]
在判定框615，处理系统确定一个或多个分数是否高于表示用于用规范话语取代用户的话语的最小阈值的阈值。如果是，则方法600流向框620。如果没有规范话语的分数高于最小阈值，指示用户的话语与规范集合中的规范话语之间不匹配，则方法600流向框625。
[0066]
在框620，具有高于阈值的分数的一个或多个规范话语能够被选择来替换用户的话语。例如，具有最高分数的规范话语能够被选择来替换用户的话语。又例如，能够向用户呈现具有高于阈值的分数的多个规范话语以选择与用户正在旨在传达的含义最接近匹配的规范话语。尽管向用户呈现可能的规范话语降低通信的速度，但是通信的含义的准确性的提高能够使折衷变得值得。在一些实施例中，规范话语是从规范集合的子集诸如通过与规范话语相关联的元数据指示的子集中选择的。例如，具有高于阈值的分数并且(通过元数据)与由用户正在角色扮演的人物相同的人物类型相关联的规范话语被选择来替换用户的话语。方法600然后流向框630。
[0067]
在框625，处理系统已经确定没有集合中的规范话语与用户的话语足够相似。因此，处理系统选取默认话语来取代用户的话语。方法600然后流向框630。
[0068]
在框630，规范话语被传达给一个或多个其他用户。如本文所讨论的，规范话语被作为表示规范话语的文本、话音或其他音频传达给其他用户。
[0069]
在一些实施例中，上述技术的某些方面可以由执行软件的处理系统的一个或多个处理器实现。软件包括被存储或以其他方式有形地体现在非暂时性计算机可读存储介质上的一个或多个可执行指令集合。软件能够包括指令和某些数据，这些指令和某些数据当被所述一个或多个处理器执行时，操纵所述一个或多个处理器执行上述技术的一个或多个方面。非暂时性计算机可读存储介质能够包括例如磁或光盘存储设备、诸如闪存的固态存储设备、高速缓存、随机存取存储器(ram)或一个或多个其他非易失性存储器设备等。在非暂时性计算机可读存储介质上存储的可执行指令可以是由一个或多个处理器解释或以其他方式可执行的源代码、汇编语言代码、目标代码或其他指令格式。
[0070]
计算机可读存储介质可以包括可由计算机系统在使用期间访问以向计算机系统提供指令和/或数据的任何存储介质或存储介质的组合。这样的存储介质能够包括但不限于光学介质(例如，紧致盘(cd)、数字通用盘(dvd)、蓝光盘)、磁介质(例如，软盘、磁带或磁
硬驱动器)、易失性存储器(例如，随机存取存储器(ram)或高速缓存)、非易失性存储器(例如，只读存储器(rom)或闪存)、或基于微机电系统(mems)的存储介质。计算机可读存储介质可以被嵌入在计算系统(例如，系统ram或rom)中，固定地附接到计算系统(例如，磁硬驱动器)，可移动地附接到计算系统(例如，光盘或基于通用串行总线(usb)的闪存)，或者经由有线或无线网络被耦合到计算机系统(例如，网络可访问存储(nas))。
[0071]
注意，并非上面在一般描述中描述的所有活动或要素都是必需的，特定活动或设备的一部分不是必需的，并且除了在一些实施例中描述的那些活动外，还执行一个或多个进一步的活动，或者包括一个或多个进一步的元素。更进一步，活动被列举的次序不一定是它们被执行的次序。另外，已经参照特定实施例描述了概念。然而，本领域普通技术人员领会的是，在不脱离如下面在权利要求中阐述的本公开的范围的情况下，能够做出各种修改和改变。因此，说明书和图将在说明性而非限制性意义上被考虑，并且所有这样的修改都旨在被包括在本公开的范围内。
[0072]
已经在上面关于特定实施例描述了益处、其他优点和问题的解决方案。然而，益处、优点、问题的解决方案以及可以使任何益处、优点或解决方案发生或者变得更明显的任何特征不应被解释为任何或所有权利要求的关键、必需或必要的特征。此外，以上公开的特定实施例仅是说明性的，因为能够以对于受益于本文教导的本领域技术人员显而易见的不同但等效方式修改并实践所公开的主题。除了如下面在权利要求中描述的那样以外，没有旨在对本文示出的构造或设计的细节的限制。因此显然的是，能够更改或者修改以上公开的实施例，并且所有这样的变化都被认为在所公开的主题的范围内。因此，本文寻求的保护如下面在权利要求中所阐述。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：丹尼尔
技术所有人：谷歌有限责任公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。