针对由语音到文本转录服务生成的文本的分布式用户输入的制作方法

文档序号:6379904阅读:264来源:国知局
专利名称:针对由语音到文本转录服务生成的文本的分布式用户输入的制作方法
技术领域
本发明涉及语音到文本的转录,尤其涉及用于增加语音到文本转录的质量的技术。
背景技术
计算系统(诸如,个人计算机、膝上型设备、平板设备、游戏设备和电话)所使用的软件的接口正在增加对语音识别的使用,并且对高质量的自动化的音频到文本内容的需求也正在增加。机器算法已被用于语音到文本转录,但这样的算法通常生成具有错误的文本。发明内容
公开了利用众包(crowd sourcing)来增加语音到文本转录的质量的机制。在一特定实施例中,一种方法包括在代表性状态传输(REST)端点设备处接收与由语音到文本转录服务执行的第一语音到文本转换有关的第一用户输入;在REST端点设备接收与由语音到文本转录服务执行的第二语音到文本转换有关的第二用户输入;以及在所述REST端点设备处处理所述第一用户输入和第二用户输入以生成语音到文本调整信息。在所述REST 端点设备处进行处理允许使用众包(例如,使用来自第一用户、第二用户和可能一个或多个附加用户的输入)来改进语音到文本转录服务。
在另一方面,一种计算机可读存储设备包括计算机可执行的用于以下的指令接收来自多个客户机设备的捕捉到的语音数据;对于所述多个客户机设备中的每一个客户机设备,将捕捉到的语音数据转换成文本;以及,将包括所述文本的有效载荷数据发送至所述多个客户机设备中的每一个客户机设备。有效载荷数据包括至少一个指示以下设备的位置的属性该设备被配置成处理与捕捉到的语音数据到文本的转换的感知准确性有关的用户输入。
在另一方面,一种计算机实现的方法包括将捕捉到的语音数据发送到语音到文本转录服务;接收包括来自所述语音到文本转录服务的文本的有效载荷;将所述文本显示在电子设备的显示设备处;将用户界面显示在所述显示设备处,其中所述用户界面使得用户能够提供关于所述文本的准确性的用户输入;接收所述用户输入以及所述文本的至少一个音素替换;以及,将所述用户输入传送至远程设备。该远程设备可以是REST端点设备。 因此,众包的方法和系统可以改进语音到文本转录的结果。


图I是分布式计算系统的特定实施例的框图2是图I的系统的一部分的特定实施例的框图3是语音到文本转录处理的方法的特定实施例的流程图4是在客户机设备处处理用户输入的方法的特定实施例的流程图5是示出客户机设备可显示的用户界面的一部分的图示;并且
图6是计算设备的特定实施例的框图。
具体实施方式
对跨各种设备、设备制造商和运营商的语音到文本转录的质量的众包提供了一种改进语音到文本转录的机器算法的方法。例如,在特定实现中,当语音到文本转录是由算法过程来执行的时,可将若干属性与转录文本一起附加到有效载荷中。这些属性可包括指示所提供的转录文本是机器转换的属性、指定用于对转录文本的质量进行投票的可接受的用户反馈刻度范围的属性、以及标识用来对要提供的文本的质量进行投票的代表性状态传输 (REST)端点设备的属性。任选地,有效载荷可基于发起设备(例如,从其接收转录语音的客户机设备)的用户所选设置而包括附加属性。这些属性可包括说话者的语言,该语言可由发起设备的发起应用来显式地收集,或者可以从发起设备的操作系统的基础语言、说话者的当前位置和发起应用的统一资源定位符(URL)中导出。
当有效载荷被传递至客户机设备(例如,移动电话、电视机、计算机、平板设备、游戏设备等)时,客户机设备可任选地展示用户界面以使接收者能够对转换的质量进行投票。 该界面对于应用体验而言可能是合适的(例如,该界面可能是基于正在客户机设备处执行的特定应用而生成的),并且该界面在有效载中的范围所标识的约束之内。
例如,用户界面可以被实现为三个按钮“非常好”、“接近”或“很糟”。另外地或另选地,用户界面可以被实现为拇指向上按钮和拇指向下按钮的集合、表示范围的滑块控件或星级评级系统。可将用户提供的评级发送至REST端点设备的URL处,该URL被标识为有效载荷中的一个属性。REST端点设备可以是集中式服务,并且不需要与发起应用的始发者或客户机设备绑定。例如,不同的听筒制造商可以创建利用用于移动设备的语音到文本转换的应用和将用户数据提供给REST端点设备的应用。REST端点设备可以以特定方(例如, 第三方服务)为中心,或可以是某一听筒制造商或移动运营商所专用的。每一用户所提供的评级,任选地与源语言和/或用户位置信息结合,用作通过上下文和地理数据来提升语音到文本转换引擎的投票,该上下文和地理数据可以帮助尤其对区域方言和口音、新兴语言和俚语等的更准确转换。因此,REST端点设备与客户机设备和语音到文本转录服务结合在一起操作允许进行众包以改进针对不同的、可能无关的设备和用户的语音到文本转录。
参考图1,示出了分布式计算机系统100的特定说明性实施例。分布式计算机系统100包括提供语音到文本转录服务170的服务器106。服务器106可以是执行用于提供自动的语音到文本转录的指令的计算设备。分布式计算机系统100还包括耦合到多个客户机设备(诸如,代表性的第一客户机设备102和代表性的第二客户机设备104)的计算机网络108。分布式计算机系统100还包括代表性状态传输(REST)端点设备处的服务器110。 REST端点设备处的服务器110包括评级和音素替换分析逻辑160。第一客户机设备102和第二客户机设备104可各自位于REST端点设备110的远程。
分布式计算机系统100的各个组件交互以提供语音到文本转录并持续地、规律地或偶尔地使用众包来改进或调节语音到文本转录过程,以提供更准确的语音转录。为了说明,作为一般概览,语音到文本转录服务170可以由用于接收来自多个客户机设备的捕捉到的语音数据的计算机可执行的指令来实现。这些指令可以针对多个客户机设备中的每一个客户机设备将捕捉到的语音数据转换成文本。语音到文本转录服务170可以将包括文本5的有效载荷数据发送至多个客户机设备中的每一个客户机设备。有效载荷数据可包括可用于调节或训练由语音到文本转录服务170用来转录语音的算法的信息。例如,有效载荷数据可包括指示诸如REST端点设备110处的服务器之类的计算机设备的位置的一个或多个属性,该计算机设备被配置成处理与转录的准确性有关的用户输入。有效载荷数据还可包括便于收集诸如评级刻度范围之类的用户输入的一个或多个属性。可将该用户输入发送至 REST端点设备110。来自客户机设备的用户输入可以包括指示语音到文本转录的质量或准确性的信息、替代转录信息(例如,音素替换)、关于用户的信息(例如,用户位置、客户机设备类型等)和/或其他信息。
REST端点设备110可使用该用户输入来确定用于调整或训练语音到文本转录服务170的调整(例如,语音到文本调整信息162)。REST端点设备110还可向语音到文本转录服务170提供便于语音到文本转录的其他信息。例如,REST端点设备110可以为分布式计算系统100的用户生成说话者简档。说话者简档可用于通过使得语音到文本转录服务能够考虑诸如特定用户的地理位置或其他特性等因素,来进一步调整或改进语音到文本转录。分布式计算系统100还可将信息发送给用于音素评估第三方众包系统164,以收集可用于调整或改进语音到文本转录的附加信息。因此,即使在分布式计算系统100的各组件不相关(例如,由不相关或不同的业务实体提供)时,分布式计算系统100仍可允许对语音到文本转录的持续或偶尔的调整和调节。
客户机设备102、104中的每一个可包括处理器可执行的、用于执行计算机实现的方法的计算机指令。例如,计算机实现的方法可包括捕捉用户提供的语音并将捕捉到的相应语音数据112、114发送给语音到文本转录服务170。例如,可以由第一客户机设备102来捕捉第一语音134,并且可以经由网络108将捕捉到的相应语音数据112传送给语音到文本转录服务170。在一特定实施例中,第一客户机设备102包括可显示文本或可接收来自第一用户130的语音输入的应用136,诸如搜索引擎或移动应用。
该计算机实现的方法还可包括接收包括来自语音到文本转录服务170的文本的有效载荷,诸如第一有效载荷120。该方法还包括将文本显示在电子设备的显示设备处。例如,可将第一有效载荷120中的文本显不在第一客户机设备102的显不设备处。第一客户机设备102还可显示提示第一用户130提供与所显示的文本有关的输入的用户界面。例如, 用户界面124可提示第一用户130提供第一用户输入132。第一用户输入132可包括关于与捕捉到的对应于第一语音134的语音数据112有关的显示文本的准确性的信息。该计算机实现的方法还可包括接收可包括文本的至少一个音素替换的用户输入。可以将用户输入数据(诸如第一用户输入150)传送至远程设备,诸如至REST端点设备110。
第一客户机设备102和第二客户机设备104可以是相同类型的设备,或者可以是不同类型的设备。例如,第一客户机设备102和第二客户机设备104可以是包括用于显示图像和文本的显示器的移动电话、电视机、计算机、游戏设备、平板设备或其他电子设备。在一特定实施例中,第一客户机设备102选择性地显示用户界面124。例如,第一客户机设备 102可以在接收第一有效载荷120后选择性地启动用户界面124。或者,应用136可以接收多个数据有效载荷,并在经由多个有效载荷120生成并接收了一定量的文本时或在应用 136所确定的不同时间处选择性地启动用户界面124。为了说明,应用136可以在启动用户界面124之前收集与完整句子相对应的多个转录文本,以呈现对该完整句子的显示。
用户界面124可以收集与从语音到文本转录服务170处接收到的文本有关的用户评级或反馈。例如,用户界面124可以显示用于收集用户评级的视觉表达。这种视觉表达的示例包括拇指向上/拇指向下图标、滑块、1-10的刻度或可以可视地呈现给第一用户130 以接收用户输入的另一评级显示。可以经由用户界面124将用户评级提供为二进制评级、 评级的范围或可选评级(例如,两个以上可选评级)的集合。二进制评级的示例是拇指向上或拇指向下指示符。评级的范围可以是1-10的范围或其他类似的范围。可选评级的集合可以是定义的集合,使得用户可以选择诸如1、2、3、4或5等特定值或选择星数或选择其他指示符。用户界面124还可任选地包括替换转录选择或供用户输入文本的输入区。第一客户机设备102对来自第一用户130的语音134作出响应,并且也对到可能由第一用户130 提供给用户界面124的第一用户输入132作出响应。
类似地,第二客户机设备104可包括第二应用126和第二用户界面128。第二客户机设备104可以与提供第二语音142和第二输入144的第二用户140进行交互。第二输入 144可指示第二用户对通过来自语音到文本转录服务170的第二有效载荷122接收到的文本的评级。
在操作期间,第一客户机设备102接收来自第一用户130的第一语音134并捕捉该第一语音134。经由网络108将对应于第一语音134的数据作为捕捉到的第一语音数据 112传送给语音到文本转录服务170。类似地,第二客户机设备104可以捕捉第二语音142, 并经由网络108将对应于该第二语音142的数据作为捕捉到的第二语音数据114传送给语音到文本转录服务170。响应于接收到捕捉到的语音数据112、114,服务器106处的语音到文本转录服务170转录所捕捉到的第一用户130和第二用户140的语音,并生成文本。服务器106可以经由网络108将包括转录文本和其他属性的第一有效载荷120传送给第一客户机设备102。类似地,服务器106可以经由网络108将包括转录文本和属性的第二有效载荷122传送给第二客户机设备104。每一有效载荷120、122的属性可包括用户输入的刻度范围、REST端点标识、其他属性(例如,在客户机设备处执行的应用的语言、位置、或统一资源定位符(URL))或其结合。
响应于接收到第一有效载荷120,第一客户机设备102可以显示第一有效载荷120 所承载的转录文本。第一用户130可以响应于第一客户机设备102处显示的文本而将第一用户输入132提供给用户界面124。第一用户输入132可以指示与对应于捕捉到的第一语音数据112的转录文本的质量或准确性有关的用户反馈。
第一用户130可以与第一客户机设备102进行交互以响应于所显示的文本来提供第一用户输入132。例如,第一用户130可以响应于来自第一有效载荷120的转录文本的显示而经由用户界面124输入第一用户输入132。更特殊地,第一用户130可以通过提供转录文本的评级,诸如通过使用拇指向上或拇指向下指示符、滑块指示符、1-10的刻度(例如,其中I是低劣的转录而10是极好的转录)或指示转录的准确性或质量的其他替换指示符来指示反馈。用户界面124还可使第一用户130能够指示对应于捕捉到的第一语音数据112或捕捉到的第一语音数据112的一部分的替换转录。为了说明,用户输入132可以包括输入在用户界面124的文本区中的选择或文本。例如,第一用户130可以键入一正确的单词或键入准确地对应于捕捉到的第一语音数据112的短语的多个单词。
第一客户机设备102可以将第一输入132作为第一用户输入数据150传送给REST端点设备110处的服务器。例如,第一用户输入数据150可以包括评级和音素替换转录信息。可以通过第一有效载荷120中的属性之一来标识REST端点设备110处的服务器。因此,对于语音到文本转录服务170所执行的每一语音到文本转录,客户机设备的用户可以提供诸如评级信息和/或音素替换等输入,并且该输入可以被捕捉并被传送至REST端点设备110处的服务器。通过类似的方式,第二用户140可以经由第二用户界面128来提供第二输入144,并且该第二输入144可以被捕捉并作为第二用户输入数据152被传送至REST 端点设备110处的服务器。
尽管仅第一客户机设备102和第二客户机设备104已被示出,但应理解可以使用各种不同类型的客户机设备和多个设备(例如,两个以上的设备)。这样的设备可以被耦合到网络108、可以具有到语音到文本转录服务170的入口、并可将所捕捉的和所分发的用户输入提供给REST断电设备110处的服务器。因此,分布式计算机系统100可以允许进行众包来改进语音到文本转录。
REST端点设备110可以基于从多个客户机设备处接收到的用户输入数据来对多个用户评级执行评级分析。该评级分析可以接收输入信息,该输入信息包括多个REST符合 (compliant)的用户投票(例如,与转录文本相关联的评级)、源语言信息和用户位置信息。 例如,REST端点设备110可以接收与语音到文本转录服务170所执行的第一语音到文本转录有关的第一用户输入数据150以及与语音到文本转录服务170所执行的第二语音到文本转录有关的第二用户输入数据152,并可基于用户输入数据150、152来执行评级分析。
在特定实施例中,评级分析由REST端点设备110处的服务器的评级和音素替换分析逻辑160来执行,该评级和音素替换分析逻辑处理第一用户输入数据150和第二用户输入数据152以便生成语音到文本调节信息162。例如,评级分析可包括基于经由用户输入数据150、152接收到的信息(诸如与特定语音到文本转录相关联的评级、用户位置信息、用户标识信息和其他信息)的加权计算。在特定实施例中,REST端点设备110收集特定用户(诸如,第一用户130)的用户标识信息并生成说话者简档。说话者简档还可包括与用户或客户机设备的上下文和/或地理位置有关的信息(例如,第一客户机设备102的地理位置)。说话者简档可被评级和音素替换分析逻辑160用来生成语音到文本调整信息162。另外地或另选地,可以将说话者简档作为语音到文本调整信息162的一部分传送到语音到文本转录服务170,以进一步改善或调节语音到文本转录服务170针对特定用户执行的语音到文本转录。语音到文本调整信息162可以依赖于特定说话者简档。
可以将语音到文本调整信息162传送到服务器106的语音到文本转录服务170。 语音到文本调整信息162可包括被语音到文本转录服务170用来调整或调节语音到文本转录算法的信息。
REST端点设备110可以由耦合到网络108的计算设备来实现。REST端点设备110 可位于服务器106的远程,或者REST端点设备110和服务器106可以位于一处。因此,可以经由网络108或经由REST端点设备110和服务器106之间的替换连接将语音到文本调整信息162从REST端点设备110传送到服务器106。
网络108可任选地提供到第三方众包音素评估系统164的接口。可以将来自第三方众包音素评估系统164的信息传送至语音到文本转录服务170,以便改进语音到文本转录的质量。另外地或另选地,来自第三方众包音素评估系统164的信息可以被传送至REST端点设备110,并可被用来确定语音到文本调整信息162。
在一特定说明性实施例中,语音到文本转录服务170是代表多个实体提供不同的语音到文本转录应用的多租户服务。另外地,语音到文本转录服务170可以是来自单个实体的单个机器转录软件程序。由语音到文本转录服务170发送给客户机设备(例如,第一客户机设备102和第二客户机设备104)的有效载荷(例如,第一有效载荷120和第二有效载荷122)的属性可包括REST端点设备110的标识符。客户机设备102、104可以使用该标识符来确定REST端点设备110的位置或地址,使得用户输入数据(例如,第一和第二用户输入数据150、152)可被发送至REST端点设备110。因此,可以将可被语音到文本转录服务170 用来调节语音到文本转录算法的用户输入数据甚至通过与REST端点设备110相关联的客户机设备而提供给REST端点设备110。
在一特定实施例中,第一语音134和第二语音142可以指所说的相同的一个或多个单词,并且语音到文本转录服务170可以将这样的语音转换成共同的文本。在另一实施例中,由于语音134和142间的差异,语音到文本转录服务170可以将该所说的相同的一个或多个单词转换成不同的文本。语音到文本转录服务170可以接收各种语音输入,并可响应于语音到文本调整信息162而被调整,以便根据这样的语音输入来改进机器文本转录。
在特定实施例中,第一有效载荷120包括与对第一语音134的语音到文本转录相关的第一标识符,且第二有效载荷 122包括与对第二语音142的语音到文本转录相关的第二标识符。第一有效载荷120的第一标识符可以与第二有效载荷122的第二标识符相同。例如,标识符可以指示从语音数据112、114中转录的特定单词或短语。因此,当第一语音134 和第二语音142包括相同的单词或短语时,第一标识符和第二标识符可以是相同的。或者, 第一标识符可以不同于第二标识符。第一应用136可以将第一标识符与第一用户数据150 一起发送给REST端点设备110。REST端点设备110可以基于第一用户输入150确定语音到文本调整信息162,并可将与第一用户输入150相关联的语音到文本转录信息162与第一标识符一起发送给语音到文本转录服务170。因此,语音到文本转录服务170可以使用第一标识符来使得用户反馈及与捕捉到的第一语音数据112相关联的语音到文本调整信息162 和文本转录相关。同样,第二应用126可以将第二标识符与第二用户输入数据152 —起发送给REST端点设备110。REST端点设备110可以基于第二用户输入152确定语音到文本调整信息162,并可将与第二用户输入152相关联的语音到文本转录信息162与第二标识符一起发送给语音到文本转录服务170。因此,语音到文本转录服务170可以使用第二标识符来使用户反馈及与捕捉到的第一语音数据114相关联的语音到文本调整信息162和文本转录相关。通过使用这些标识符,即使在客户机设备或系统100的其他方面(诸如,评级和音素替换分析逻辑160)不与语音到文本转录服务170相关联或并非由语音到文本转录服务170提供(即,与第三方、无关的实体或其他服务提供商相关联)时,语音到文本转录服务 170仍可从客户机设备102、104接收到关于语音到文本转录服务170执行的特定语音到文本转录的反馈。
服务提供方、设备制造商、软件提供商和其他业务实体可以参加分布式计算机系统100以接收直接受顾客影响的较高质量的产品。应用制造商(接收者)可以参加分布式计算机系统100以例如提供改进的语音到文本转录能力以改进用户体验。可鼓励终端用户参加以从更准确的语音到文本转录中接收好处。
参考图2,示出了计算机系统200的特定说明性实施例。计算机系统200包括REST 端点设备110的评级和音素替换分析逻辑160。评级和音素替换分析逻辑160包括用于对语音到文本转录执行加权分析210的处理逻辑。加权分析210可以接收转录服务输入202、 用户输入204、源语言输入206、用户位置信息输入208或其结合。在特定实施例中,加权分析210接收这些输入202-208中的每一个输入;然而,在其他实施例中,加权分析210接收比这些输入202-208的全部少的输入。例如,加权分析210可以仅接收用户输入204而不接收其他信息。转录服务输入202可以包括由语音到文本转录服务(诸如,图I的与语音到文本转录服务170)生成的一个或多个单词。用户输入204可以包括图I中的用户输入数据150、152和/或其他设备(未示出)的其他用户输入中的一个或多个。在特定实施例中, 用户输入204包括与特定语音到文本转录有关的用户评级信息。用户输入204任选地包括替换转录建议,诸如替换音素或某用户的特定文本输入。源语言输入206可以指示语音的语言。用户位置信息输入208可以包括与每一用户输入204的源相关联的地理信息(例如, 特定用户的位置)。加权分析210可以对应于与由语音到文本转录服务170执行的特定转录相关联的特定相关标识符。相关标识符可以由语音到文本转录服务170在将特定转录文本提供给客户机设备时提供,以使得客户机设备能够提供与特定转录文本相关联的语音到文本转录服务170反馈。
在特定实施例中,评级和音素替换分析逻辑160包括说话者简档生成模块220。说话者简档生成模块220可以包括计算设备可执行的用于生成一个或多个用户的说话者简档的指令。例如,当特定用户输入被接收时,特定用户输入可以包括说话者简档标识符或者与说话者简档标识符相关联。说话者简档标识符可用于指示从特定用户接收到的用户输入。可以收集并分析在某时间段期间从特定用户接收到的用户输入,以便生成特定用户的说话者简档。
由评级和音素替换分析逻辑160执行的加权分析210可用于调整或调节语音到文本转录服务170。例如,评级和音素替换分析逻辑160可以生成语音到文本调整信息162。 语音到文本调整信息162可以包括与由说话者简档生成模块220生成的说话者简档有关的信息。语音到文本调整信息162的示例可包括,基于提供关于语音到文本转录服务170的转录的准确性的反馈的多个用户的用户输入的对语音的建议替换转录。评级和音素替换分析逻辑160还可经由数据库230来检索包括替换和置信度评分的转录服务数据。数据库230 可提供与语音到文本转录服务170所执行的语音到文本转录相关联的信息。例如,可以将转录的每一个单词或多个单词及替换与相应的置信度评分一起存储在数据库230中。响应于用户输入204以及响应于其他输入,加权分析210可以考虑数据库230中的替换和置信度评分以便提供可用于提升或改进语音到文本转录服务170的准确性的语音到文本调整信息162。
加权分析210使用多个输入来确定任何给定短语的建议匹配的次序(置信度)。这些输入包括但不限于由语音到文本转录服务170输出的置信度、来自个别用户的响应/ 调整、从说话者简档传递的或与说话者简档相关联的调节参数或来自“超级用户”的手动覆至 JHL ο
默认地,置信度基于由语音到文本转录服务170输出的置信度。对于各个单词和短语(如果可能的话),加权分析210还使用以置信度次序来评级的替换转录的评级列表。当从系统100的用户处供应了校正数据时,可基于该校正(拇指向上/向下、1-5颗星、替换单词/短语等)的性质以及用户的历史可信度来加权数据对于用户提供的每一调整/响应,可以改变特定单词或短语的系统置信度,这可能导致下一个替换变成最高的置信度/偏好的选择。可使用历史输入来确定系统给予各个用户的响应多少权重,历史输入包括他们的响应与其他用户的响应一致的频率、用户使用了该系统的多长时间等。
权重可被表示成分配给特定用户的投票的倍数。系统操作者还可向已知的和/或批准的用户(例如,被赋予审阅和校正结果的专业职员)分配较高的权重,使得他们对另一用户的建议校正的响应或批准被较高的加权,并在用于与其他用户比较响应以便向这些用户分配置信度时具有较高的影响。系统100还可支持防止特定用户的调整(S卩,说话者他/ 她本人)被自动覆盖和/或在根据其选择来提升替换之前要求手动批准的能力。因此,加权分析210可以考虑各种因素,以便选择或调整特定单词或短语。
参考图3,示出了计算机实现的方法300的特定说明性实施例。计算机实现的方法300可以由计算设备(诸如,图I的服务器106)来执行。计算机实现的方法300包括 在302,接收来自多个客户机设备的捕捉到的语音数据。例如,图I的语音到文本转录服务 170可以接收分别来自客户机设备102、104的捕捉到的语音数据112、114。计算机实现的方法300还可包括在304,为每一个客户机设备,将捕捉到的语音数据转换成文本。例如, 图I的语音到文本转录服务170可以使用一个或多个语音到文本机器转录方法或算法来将捕捉到的语音数据112、114转换成文本。计算机实现的方法300还包括在306,将包括该文本的有效载荷数据发送到每一个客户机设备。有效载荷数据还可包括与关于捕捉到的语音数据到文本的转换的准确性的用户输入的分析有关的至少一个属性。有效载荷数据还可包括计算设备(诸如,图I的REST端点设备110)的位置(例如,通信地址或网络地址)。例如,图I的语音到文本转录服务170可以生成第一有效载荷120和第二有效载荷122,并且每一有效载荷120、122可包括文本和属性。属性可包括例如指定REST端点设备110的位置的地址或其他数据。语音到文本转录服务170可接收来自多个不同客户机设备的捕捉到的语音,并可生成相应的文本。可将文本和属性分发给这些客户机设备。属性可包括要对与语音到文本转录服务170所生成的文本的准确性有关的用户反馈执行后续处理的特定远程设备的标识符。因此,计算机实现的方法300允许进行众包来改进语音到文本转录。
参考图4,示出了计算机实现的方法400的特定说明性实施例。计算机实现的方法 400可以由客户机设备(诸如,图I的客户机设备102、104中的任一个)来执行。计算机实现的方法400包括在402,将捕捉到的语音数据发送至语音到文本转录服务,以及在404, 接收包括来自语音到文本转录服务的文本的有效载荷。有效载荷还可包括远程设备的定位符(例如,收集关于语音到文本转录的用户反馈的设备的地址)。计算机实现的方法400还包括在406,将文本显示在电子设备的显示设备(例如,客户机设备的显示设备)上,以及在 408,将用户界面显示在显示设备上。该用户界面可使得用户能够提供关于对捕捉到的语音的文本转录的准确性的用户输入。例如,用户加密可以提示用户对文本的准确性进行评级。 用户界面还可使得用户能够提供文本或文本的一部分的替换转录(例如,以建议一个或多个音素替换转录)。计算机实现的方法400还包括在410,经由用户界面来接收用户输入, 以及在412,将该用户输入传送至远程设备。例如,图I的第一客户机设备102可将捕捉到的语音数据112发送至语音到文本转录服务170。第一客户机设备102可以接收来自语音11到文本转录服务170的第一有效载荷120。第一有效载荷120可包括转录文本和REST端点设备110的定位符(例如,地址)。第一客户机设备102可以显不来自第一有效载荷120的文本,并可显示用户界面124。第一客户机设备102可以经由用户界面124来接收第一用户输入132,并可将从第一用户输入132中导出的第一用户输入数据150传送至REST端点设备110处的服务器。
因此,计算机实现的方法400可以使得客户机设备能够接收来自语音到文本转录服务的文本,并响应于该文本而经由交互式用户界面来提供用户输入。交互式用户界面可用于提示并接收来自用户的关于语音到文本转录服务170所生成的文本的准确性的反馈。 因此,计算机实现的方法400允许使用众包来改进语音到文本转录。
参考图5,示出了客户机设备处可显示的用户界面的一部分500的特定说明性实施例。例如,用户界面的部分500可以是可被呈现在第一客户机设备102的显示设备处的图I的用户界面124的一部分。用户界面的部分500可包括第一视图502,该第一视图502 包括从语音到文本转录服务接收到的响应于语音数据的转录文本。在图5所示的示例中, 转录文本是“As I was saying, this cumquat is terrible”。第一视图 502 还可包括用户可选部分,该用户可选部分用于提供关于涉及语音数据的转录文本的质量或准确性的反馈。例如,用户可选部分可包括拇指向上和拇指向下指示符。在图5所示的示例中,语音数据包括句子“As I was saying, this caption is terrible”。因此,界面的用户可以通过选择如第二视图504所示的拇指向下指示符来指示与输入语音相对应的文本的较低评级。 当用户提供否定的反馈(例如,通过选择拇指向下指示符)时,用户界面使得用户能够指示转录文本的单个单词或多个单词是否被认为是不正确的。
对于单个不正确单词的情况,可呈现修订视图506。修订视图506可用于突出显示已被不正确地转录的特定单词。在选择了如修订视图506所示的特定单词后,可显示更新视图508。更新视图508可包括提供用于替换突出显示的单词的替换单词的用户选项。 例如,更新视图508可包括列出突出显示的单词的替换转录的下拉式菜单。在另一示例中, 更新视图508可包括用于接收校正突出显示的单词的输入的另一用户界面区,诸如文本输入区。为了说明,对于所选的单词“cumquat”,可示出多个选择,诸如选择“caption”和 “captain”,和/或其中用户可输入他或她自己的替换单词的空白文本文区。在选择了所呈现的替换之一后或在用户输入了文本后,可显示第二修订视图514。第二修订视图514显示经修订的转录文本,诸如“As I was saying, this caption is terrible”。用户可以通过选择拇指向上指示符来指示接受经修订的转录文本。可以向用户提供反馈以指示已接收了经修订的转录文本。例如,响应于用户选择了拇指向上指示符,可示出肯定的图标,诸如,如第二修订视图514中示出的“笑脸”。或者,当用户提供的输入指示经修订的转录文本不正确(例如,通过选择拇指向下图标)时,用户界面可以例如通过返回到显示了经修订的转录文本的修订视图506来再次提示用户突出显示要改变的单词。
在多个单词被指示或选择来进行修订或显示的情况下,可呈现视图510。视图510 可显示多个替换单词,诸如替换短语或句子。如视图512处所示出的,用户可以选择(或输入文本)以指示要用替换短语或句子来替换整个短语或句子。响应于指示替换短语或句子的用户输入,呈现第二修订视图514。因此,用户可以与用户界面进行交互,以便查看与之前的语音输入相对应的转录文本,并提供关于转录文本与语音输入相比的质量或准确性的反馈或其他用户输入。
图6描绘了包括计算机设备610的计算环境600的框图,该计算设备610可用于支持根据本发明的系统、方法和计算机程序产品的各实施例。
计算设备610包括至少一个处理器620和系统存储器630。取决于计算设备610 的配置和类型,系统存储器630可以是易失性的(诸如随机存取存储器,即“RAM”)、非易失性的(诸如只读存储器(即“ROM”)、闪存以及即使在未提供电源时也保持已存储数据的类似存储器设备)或两者的某种组合。”系统存储器630通常包括操作系统632、一个或多个应用程序平台634、一个或多个应用程序636和程序数据638。系统存储器630还可包括语音到文本转录应用612和有效载荷生成应用614。在一说明性实施例中,语音到文本转录应用 612、有效载荷生成应用614或其任何组合可包括处理器620可执行的用于执行在此公开的功能和方法的指令。例如,图I的服务器106的功能可以由应用612和614来执行或者由操作系统632来执行。另外地或另选地,计算设备610可用于实现REST端点设备110的功能以及图I和2的评级和音素替换分析逻辑160的功能。计算设备610还可用于实现在此公开的诸如图3和4中示出的方法之类的计算机实现的方法或计算设备中的任何一个。在这种情况下,可以用客户机设备应用来替换应用612、614。计算设备610还可用于实现或显示在此公开的用户界面中的一个或多个,诸如图I和5中示出的用户界面。
计算设备610还可具有附加特征或功能。例如,计算设备610可包括可移动和/ 或不可移动附加数据存储设备,诸如磁盘、光盘、磁带和标准大小的存储卡或闪存卡。在图 6中通过可移动存储640和不可移动存储650示出这样的附加存储。计算机存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序组件或其它数据等信息的任何技术实现的易失性和/或非易失性存储以及可移动和/或不可移动介质。系统存储器630、可移动存储640和不可移动存储650都是计算机存储介质的示例。计算机存储介质包括,但不限于,RAM、ROM、电可擦除可编程只读存储器(EEPR0M)、闪存或其它存储器技术、紧致盘(CD)、 数字多功能盘(DVD)或其它光存储、磁带盒、磁带、磁盘存储或其它磁性存储设备、或可用于存储信息且可以由计算设备610访问的信息的任何其它介质。任何这样的计算机存储介质都可以是计算设备610的一部分。
计算设备610还可具有经由一个或多个有线或无线输入接口连接的输入设备 660,诸如键盘、鼠标、语音输入设备、触摸输入设备、运动或姿势输入设备等。在说明性实施例中,输入设备660可接收用户输入,诸如图I的用户输入132、144。诸如显不器、扬声器、 打印机等输出设备670也可经由一个或多个有线或无线输出接口连接。输出设备670可包括一个或多个显示设备。例如,显示设备可以与图I的客户机设备102、104中的任何一个相关联。
计算设备610还包含允许该计算设备610通过有线或无线网络(诸如,图I的网络 108)与其它计算设备690进行通信的一个或多个通信连接680。
这里所描述的实施例的说明旨在提供对各实施例的结构的一般理解。说明不旨在作为利用这里所描述的结构或方法的装置和系统的所有元素和特征的完整描述。许多其他实施例对本领域的技术人员在审阅本发明后是显而易见的。也可以利用其他实施例,并从本发明派生出其他实施例,以便可以在不偏离本发明的范围的情况下作出结构和逻辑上的替换和改变。相应地,本发明和附图应被视为说明性的,而不是限制性的。
本领域技术人员还可理解,结合本文所公开的各种说明性逻辑框、配置、模块、和过程步骤或指令可被实现为电子硬件或计算机软件。各种说明性组件、框、配置、模块或步骤已经大致按照其功能来描述。此类功能性是被实现为硬件还是软件取决于具体应用和加诸于整体系统的设计约束。技术人员可针对每种特定应用以不同方式来实现所描述的功能集,但此类实现决策不应被解释为致使脱离本公开的范围。
结合此处所公开的各实施例所描述的方法的各个步骤可直接用硬件、由处理器执行的软件模块、或两者的组合来实现。软件模块可驻留在诸如随机存取存储器(RAM)、闪存、 只读存储器(ROM)、寄存器、硬盘、可移动盘、⑶-ROM、或本领域内已知的任何其他形式的存储介质等计算机可读介质中。示例性存储介质耦合到处理器以使得该处理器能从该存储介质读取信息并向该存储介质写入信息。在替换方案中,存储介质可集成到处理器或处理器并且存储介质可作为分立组件驻留在计算设备或计算机系统中。
虽然这里显示和描述了具体的实施例,但是,应该了解,被设计为实现相同或类似的目的的任何随后的安排都可以代替所示出的具体实施例。本说明书计划涵盖各种实施例的任何随后的修改或变化。
提交本发明的摘要的同时要明白,将不用它来解释或限制权利要求的范围或含义。此外,在前面的具体实施例中,出于将本公开连成一个整体的目的,各种特征可以组合到一起,或在一个实施例中进行描述。本发明不应被解释为反映带权利要求的实施例需要比每一个权利要求中明确地记载的特征更多的特点的意图。相反,如下面的权利要求所反映的,本发明的主题可以涉及少于所公开的实施例中的任一个的所有特征。
尽管用结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述具体特征或动作。更确切而言,上述具体特征和动作是作为实现权利要求的示例形式公开的。
权利要求
1.一种方法,包括 在代表性状态传输端点设备处,接收与由语音到文本转录服务执行的第一语音到文本转换有关的第一用户输入; 在所述代表性状态传输端点设备处,接收与由所述语音到文本转录服务执行的第二语音到文本转换有关的第二用户输入;以及 在所述代表性状态传输端点设备处,处理所述第一用户输入和所述第二用户输入以生成语音到文本调整信息。
2.如权利要求I所述的方法,其特征在于,所述第一用户输入接收自第一客户机设备,且所述第二用户输入接收自所述第二客户机设备,其中所述第一用户输入包括由所述第一客户机设备供应的第一用户评级和音素替换,并且其中所述第一客户机设备和所述第二客户机设备位于所述代表性传输端点设备的远程,并且其中所述代表性状态传输端点设备包括耦合到网络的计算机服务器。
3.如权利要求2所述的方法,其特征在于,所述第一客户机设备是与所述第二客户机设备不同类型的设备。
4.如权利要求I所述的方法,其特征在于,所述语音到文本调整信息至少部分地基于说话者简档。
5.如权利要求2所述的方法,其特征在于,所述语音到文本转录服务接收来自所述第一客户机设备的第一语音数据、对所述第一语音数据执行语音到文本转录以生成第一文本、以及生成包括所述第一文本和第一属性的第一有效载荷。
6.如权利要求5所述的方法,其特征在于,所述第一属性包括用户反馈刻度范围和所述代表性状态传输端点设备的标识符,其中所述第一属性还包括语言信息、位置信息和用于执行界面以在所述第一客户机设备处收集第一用户评级的应用的统一资源定位符,并且其中第一客户机设备执行第一应用并在接收所述第一有效载荷后选择性地启动第一用户界面。
7.如权利要求5所述的方法,其特征在于,所述语音到文本转录服务接收来自所述第二客户机设备的第二语音数据、对所述第二语音数据执行语音到文本转录以生成第二文本、以及生成包括所述第二文本并包括第二属性的第二有效载荷,其中所述第一有效载荷还包括与所述第一文本相关的第一标识符,并且其中所述第二有效载荷包括与所述第二文本相关的第二标识符。
8.如权利要求I所述的方法,其特征在于,所述代表性状态传输端点设备对来自接收到的用户输入的多个用户评级执行评级分析,其中所述接收到的用户输入包括多个REST符合的投票、源语言信息和用户位置信息,并且其中所述评级分析包括使用基于所述接收到的用户输入的加权计算来生成所述语音到文本调整信息。
9.一种计算机实现的方法,包括 将捕捉到的语音数据发送到语音到文本转录服务; 接收包括来自所述语音到文本转录服务的文本的有效载荷; 将所述文本显示在电子设备的显示器处; 将用户界面显示在所述显示器处,其中所述用户界面使得用户能够提供有关所述文本的准确性的用户输入;接收所述用户输入以及所述文本的至少一个音素替换;以及 将所述用户输入以及所述至少一个音素替换传送至远程设备。
10.如权利要求9所述的方法,其特征在于,所述远程设备是REST端点设备处的服务器。
全文摘要
本发明涉及针对由语音到文本转录服务生成的文本的分布式用户输入。特定方法包括在代表性状态传输端点设备处接收与由语音到文本转录服务执行的第一语音到文本转换有关的第一用户输入。该方法还包括在代表性状态传输端点设备处接收与由语音到文本转录服务执行的第二语音到文本转换有关的第二用户输入。该方法包括在代表性状态传输端点设备处处理第一用户输入和第二用户输入以生成语音到文本调整信息。
文档编号G06F17/28GK102929866SQ20121041925
公开日2013年2月13日 申请日期2012年10月26日 优先权日2011年10月28日
发明者J·E·卡思, T·E·哈里斯, M·墨丘里, J·O·蒂斯代尔三世 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1