用于将电话通话转录为文本的方法和系统的制作方法

文档序号:7734451阅读:390来源:国知局
专利名称:用于将电话通话转录为文本的方法和系统的制作方法
用于将电话通话转录为文本的方法和系统技术领域
本发明一般涉及电信技术,尤其涉及用于在电话网络上将音频数据转录为文本数 据的方法和系统。背景现如今典型无线移动通信设备(例如,手机)的存储器和处理能力为用户提供了 存储相对大量数据的能力。典型地,移动设备的存储器容量被用于存储诸如电话号码、电子 邮件地址和邮寄地址之类的联系信息。典型的移动设备用户可能存储有数十或者甚至数百 个电话号码和地址。联系信息的录入可能是令人受挫和缓慢的,特别是在联系信息与电话通话期间用 户口述的单词有关的情况下尤其如此。录入和存储以这种方式收到的信息对于用户而言可 能是有困难的,因为这些信息必须首先被转移为某种人工存储方法(例如,写在纸片上)并 随后手动地录入到移动设备中。如果用户正在开车或者用户没有书写工具可用,那么这将 尤其麻烦。概述各种实施例包括用于为用户的移动设备提供代表通话的一部分的文本数据的方 法和系统。实施例可扫描并标识文本数据中的电话号码和地址,所以此信息能从文本数据 中提取并存储在移动设备内,诸如存储在地址簿或其他存储器位置中。实施例使得能先缓 冲部分或全部通话,然后再将经缓冲的通话转录成文本数据。各种实施例使移动设备能请求服务器将通话转录成文本数据,从而促使服务器进 行转录并将文本数据传送给用户的电话以便存储。服务器还可扫描、标识和提取文本数据 中的电话号码和地址,并将该数据传送给用户的移动设备。附图简述纳入本文并构成本说明书的一部分的附图解说本发明的示例性实施例。这些附图 与以上给出的一般描述以及下文给出的详细描述一道用于解释本发明的特征。

图1是能够将语音音频数据转录成文本数据的示例性通信设备的组件框图。图2是用于在通信设备内将语音音频数据转录成文本数据的实施方法的过程流 程图。图3是用于响应于转录请求按钮激活来发起和终止转录过程的实施方法的过程 流程图。图4是其中由服务器实现转录的实施例的系统框图。图5是在一实施例中适合使用的示例性服务器的组件框图。图6是用于在服务器处将语音音频数据转录成文本数据的示例性方法的过程流 程图。图7是用于在服务器处将语音音频数据转录成文本数据的实施方法的替换性过 程流程图。图8是用于在服务器处将语音音频数据转录成文本数据的实施方法的另一替换性过程流程图。详细描述将参照附图详细描述各种实施例。在任何可能的地方,相同附图标记用于在附图 中通篇指代相同或类似部分。对特定示例和实现的引用作解说性之用,而无意限制本发明 或权利要求的范围。术语“电话”包括任何电话通信设备或系统,包括有线陆线电话、无线蜂窝电话、网 际协议上语音(VOIP)电话、具有语音通信能力的膝上型计算机、以及能够支持因特网电话 服务(例如,Skype)的设备。如本文使用的,术语“移动手持机”、“手持机”、“移动设备”和“手持设备”是指以 下设备中的任意一个或全部蜂窝电话、个人数据助理(PDA)、掌上计算机、无线电子邮件 接收器和蜂窝电话接收器(例如,Blackberry 和Treo 设备)、多媒体有因特网能力的蜂 窝电话(例如,iPhone )、和包括可编程处理器和存储器以及用于连接蜂窝或其他无线网 络的能力的类似个人电子设备。术语“语音至文本转换器”或“话音至文本转换器”或“转换器”或“语音至文本转 录器”或“转录器”包括能够识别人类语音通话并将其转换(即,转录)为文本数据的任何 类型的软件或硬件系统。转换器能提供单个文本转译,或者能提供多个最有可能的文本转 译。各实施例并不限于任何特定类型的语音至文本转换器。术语“服务器”包括为用户的电话设备提供电话连通性的任何计算机、因特网服务 器或蜂窝基站。服务器可通过有线或无线连接直接或间接地连接到用户的电话设备。各种实施例提供了用于使移动设备或电话用户能将通话的全部或部分自动转录 成文本数据以存储在移动设备上的方法和系统。在一实施例中,通过按下按钮或输入命令, 用户可选择电话通话中要被转录的部分。在一实施例中,通话的该所选部分在耦合至蜂窝 或常规电话网络的服务器上被转录,之后由该服务器将文本数据传送给移动设备。或者,该 服务器可经由因特网被移动设备、蜂窝网络、或常规电话网络中的任意一者所访问。在一实 施例中,可扫描该文本以寻找电话号码和/或地址数据(即,联系信息)。这样的扫描可以 在服务器处(诸如在文本传送之前)或者在移动设备内(诸如在已接收到文本之后)执行。 文本数据或者提取出的联系信息可以诸如短消息服务(SMS)消息之类的文本消息的形式、 电子邮件的形式、或者经由蜂窝数据传输被传送至移动设备。文本数据可以是通过特殊格 式化的方式来传送的,以使其能被移动设备自动识别并存储在地址簿存储器中。诸实施方法可以在各种移动设备中的任意移动设备上、和在各种计算设备中的任 意计算设备上一包括但不限于台式和膝上型计算机——执行。图1描绘能够支持各种实 施例的移动设备20的各种组件。尽管解说了移动设备20的各组件,但本领域技术人员将 领会,相同或类似的组件也可在适用于各种实施例的计算机(便携式或其他计算机)中实 现。将移动设备20描绘为蜂窝电话仅作解说之用。并且,上述实施例可以在包括图1中解 说的组件的、能够支持语音通话的任何设备上实现。典型移动设备20包括耦合至内部存储器22和用户界面显示器23的处理器21。 另外,移动设备20可具有用于发送和接收电磁辐射的天线24,该天线M与无线数据链路和 /或耦合至处理器21的蜂窝电话收发机25相连接。在一些实现中,收发机25、以及处理器 21和存储器22中用于蜂窝电话通信的部分被称之为空中接口,因为它们合在一起提供经由无线数据链路的数据接口。此外,移动设备20包括用于为用户产生可听音频信号的扬声 器观和用于接收用户的音频话音的话筒四。话筒四和扬声器观两者可经由将电信号变 换成声波以及反之的声码器30被连接至处理器21。在一些实现中,声码器30可被包括作 为处理器21的电路系统和编程的一部分。处理器21可以是能通过软件指令(应用)配置以执行包括本文描述的各种实施 例的功能在内的各种功能的任何可编程微处理器、微型计算机或一个或多个多处理器芯 片。在一些移动设备中,可提供多个处理器191,诸如一个处理器专用于无线通信功能而一 个处理器专用于运行其他应用。典型地,软件应用可在被访问和加载到处理器21之前存储在内部存储器22中。在 一些移动设备中,处理器21可包括足以存储应用软件指令的内部存储器。出于本描述的目 的,术语存储器是指能被处理器21访问的所有存储器,包括内部存储器22和处理器21自 身内部的存储器。存储器22可以是易失性或诸如闪存之类的非易失性存储器,或这两者的 混合。在各种实施例中,存储器22可配置有缓冲器39,并且存储器22内存储有语音至文本 转换器软件44、联系信息提取软件46和/或地址簿52。移动设备20典型地包括键区36或微型键盘和菜单选择按钮或摇杆开关37以用 于接收用户输入。另外,移动设备20可包括转录请求按钮32。在一实施例中,转录请求按 钮32的激活发起语音至文本转录过程。注意,按钮32是任选的;语音至文本转换的激活可 经由任何其他种类的计算机接口输入来发起。本领域技术人员将领会,语音至文本软件44 可通过各种其他手段来激活,诸如经由显示在显示器23上的用户界面菜单、键区36并结合 菜单选择按钮或摇杆开关37来激活。在其他示例中,可通过按下键区36上的一系列按键、 通过语音激活(即,说出特定的预先记录的词或短语)、通过激活移动设备20上的加速计 (诸如以特定方式放置或摇动移动设备)、通过触摸一触摸屏显示器等等来向移动设备20 提供语音至文本转换请求。为了简单起见,将在本文描述例如通过用户按压转录请求按钮 32来激活的各种实施例,但这样的描述无意被限于使用转录请求按钮32。在包括转录请求按钮32的实施例中,转录请求按钮32可被安设于移动设备20上 的符合人体工程学的方便位置上,以使用户能在进行电话通话时无需看着移动设备20就 能激活转录过程。例如,转录请求按钮32可被安设在移动设备20的侧面上靠近在持握移动 设备20对着耳朵时用户手指通常所放的地方。一些移动设备在侧面包括用于发起语音激 活拨号的按钮。此类按钮常常位于在人体工程学上也非常适合于转录激活的位置处。尽管 转录请求按钮32可位于移动设备20上的任何地方,但在一实施例中,转录请求按钮32如 图1中所示地位于移动设备20的侧面。例如,转录请求按钮32在图1中被示为符合人体 工程学地定位,以使得用户在活跃地进行通话的同时能用该用户的小指操作转录请求按钮 32。在替换实施例中,第二转录请求按钮(未示出)可位于移动设备20的另一侧上(即, 在设备的两侧上皆有转录请求按钮32)。通过在移动设备20的相对侧壁上安放两个分开的 转录请求按钮,可以通过任何一只手的手指激活转录请求,所以用户不必在特定耳朵上听 该通话。在一实施例中,转录请求按钮32发起转录过程,并且当在同一语音呼叫期间第二 次按下转录请求按钮32时终止该转录过程。在一替换性实施例中,可在移动设备上包括第 二按钮(未示出)以用于终止活跃的转录请求。图2是用于使用户能将音频语音呼叫的部分或全部转录成文本数据的示例实施方法的过程流程图。当用户希望将音频数据转录为文本数据时,用户诸如通过按下转录请 求按钮32来激活存储在存储器22中的语音至文本转换软件44 ;步骤301。典型地,用户将 在电话通话期间按压转录请求按钮32,诸如以捕捉重要细节(例如,联系信息)。然而,如果 用户希望从开头转录语音通话则也可在通话开始之前激活语音至文本转换软件44。一旦语 音至文本软件44被激活,则该软件就可开始转录正在发生的通话;步骤308。或者,语音至 文本转换软件44可转录存储在存储器缓冲器39中的通话。在电话通话的合需部分已被转 换成文本之后,联系信息提取软件46可扫描该文本以标识电话号码、地址等,步骤310。随 后可将提取出的联系信息存储在移动设备20的存储器22内的地址簿52中,步骤312。将 联系信息存储在地址簿52中的步骤可以手动或自动地执行。在用户希望在语音呼叫期间将音频数据转换成文本数据的实施例中,缓冲器39 可被用于存储电话通话的部分或全部以使得通话的所选部分可被转换成文本。使用此实施 例,用户可在已经讲完之后重新捕捉并转换音频数据成文本数据。例如,缓冲器39可以被 设定大小和配置成记录长达用户可选的历时,诸如5、10、30、60或300秒。在只在正进行的通话期间激活转录过程的实施例中,转录请求按钮32可以是当 移动设备20处于待机模式(即,不在活跃语音通话中)时还具有不同功能的按钮。图3是 解说适于各种实施例的用于根据呼叫状态来控制转录请求按钮32的功能性的示例方法的 过程流程图。在图3中,转录请求按钮32具有由另一软件应用或例程控制的待机功能,诸 如发起语音激活拨号。取决于实现在移动设备20上的相关联待机软件应用或例程,按钮32 可与在语音通话期间不活跃的任何功能性相关联。操作离开主循环201,处理器21将诸如 通过检测与按钮按压相关联的中断标志来检测按钮按压事件(步骤202)。作为响应,处理 器21可测试标志以确定呼叫是否活跃(测试203)。若呼叫不活跃(即,测试203 = “否”), 则在返回至主循环201之前,激活提供按钮32的待机功能性的软件例程(步骤204)。例 如,处理器21可发起语音激活拨号例程或应用。然而,根据本文描述的一个或多个实施例, 若呼叫活跃(即,测试203 = “是”),则处理器21可测试转录请求标志以确定转录请求消 息是否已被发送(步骤205),并且若否(即,测试205 = “否”)则向服务器50传送音频至 文本转换请求消息(步骤206)。在发送转换请求消息(步骤206)之际,处理器21还可将 转录请求标志置位以指示转录过程已被发起(步骤207)。将此标志置位使得处理器21能 确定服务器50是否正在转录,因为该软件将在另一计算机上运行,因此不能被处理器21直 接访问。在发送转换请求消息(步骤206)之际,处理器21返回至主循环201直至检测到 又一次转录请求按钮32按压中断。当在活跃呼叫期间第二次按压转录请求按钮32时,测 试转录请求标志的处理器21将确定已经作出转录请求(即,测试205 = “是”),并且处理 器21因此将向服务器50传送转录终止请求消息(步骤208),并且清除转录请求标志(步 骤209),随后返回主循环201。在替换性实施例中,将音频转换成文本数据的过程是在耦合至网络的服务器50 中随着该电话通话执行的。将转录过程卸载至服务器50节省了移动设备20的电池和处理 器功率。图4解说能够在服务器50上转录发生于移动设备20上的语音通话的部分或全部 的示例实施系统。该系统包括移动设备20,该移动设备20经由连接至蜂窝网络52的蜂窝 基站天线51与另一移动设备55或电话57通信。与其他移动设备55的通信可经由另一基 站56进行,而与传统电话57的通信可在传统的电话通信网络M上进行。服务器50被连接至蜂窝通信网络52、传统电话网络M、或诸如因特网M之类的另一通信网络。在各种实 施例中,服务器50可位于蜂窝基站51处、蜂窝通信网络52的交换中心内、传统电话网络M 的交换中心内、或者能接入到可用来提供电话通话音频数据的网络的任何其他位置中。在 服务器50耦合至因特网的实现中,可在蜂窝通信网络52或电话通信网络M内包括另一因 特网互连服务器(未示出)以将音频数据路由至服务器50进行转录。一旦建立了语音呼 叫,移动设备20 (或对应的55)的用户可在任何时候激活语音至文本转换过程。当激活了 时,来自电话通话的音频数据也被发送至服务器50,在服务器50处,音频数据可被存储并 如本文描述地被转录。图5是用在图4所示的实施系统中的解说性服务器50的组件框图。服务器50包 括用于传达数据进出服务器的输入/输出端口 52,诸如用于连接至网络(例如,因特网53 或通信网络52、54)的调制解调器或类似网络接口。服务器50包括与输入/输出端口 52 通信、并与计算机可读存储器56通信的处理器55(例如,微控制器)。存储器56内可存储 有电话信号解密软件42和语音至文本转换软件44。在一实施例中,存储器56还可包括联 系信息提取软件46。存储器56还可包括配置用于临时存储部分或全部电话通话的缓冲器 49区段或区划。电话通话可以加密或未加密形式被缓冲。可能需要解密软件42以将电话数据转换成能被语音至文本转换软件44处理的音 频数据形式。典型地,电话信号是作为被组织成数据分组的数字数据在蜂窝和电话网络52、 M上传送的。(尽管简易普通电话(P0TQ信号是作为模拟信号向/从住宅传送的,但此类 信号迅速被转换为经由复用的光纤和铜中继线来传送的数字数据)。该数字数据可被压缩 和分组化在码分多址(CDMA)数据分组中。此类数字数据可能对于许多语音至文本转换软 件44应用都是无法读懂的,因此必须先被转换为可识别音频数据格式然后才能开始转录。语音至文本转换器软件44可以是任何类型或牌子的用于将人类话音转换成文本 的软件或系统。许多不同类型和牌子的此类软件是可商业购得的。注意,解密软件42和语 音至文本转换器44可被组合成单个软件包或应用。除了转换数据格式外,服务器50可能需要确认转录是被授权的。在一些情况和政 治区域中,隐私法律制止对电话通话进行未授权的解密。在这些情形中,在能够为特定用户 激活语音至文本转换软件44之前,可能要求来自用户的在先授权。在一些情况中,用户通 过按压用户移动设备20上的转换请求按钮39作出的文本转换请求可被解释为对解密该用 户的电话通话的具体授权。在其他情况中,服务器50还可能需要获得来自电话通话的另一 成员的授权(例如,通过按压该另一用户的移动设备阳上的转换请求按钮32)。在一实施例中,解密软件42和/或语音至文本转换器44可被实现为硬件或硬件/ 软件组合而不是存储在服务器存储器56中的软件。解密软件42和转换器44的硬件和软 件实现两者都落在权利要求的范围内。可在服务器50上实现联系信息提取软件46以扫描转换出的文本来寻找电话号 码、地址、电子邮件地址等等。例如,可通过扫描文本以寻找已知的区号、或者7或10位数 的序列来识别和提取电话号码。可通过扫描文本以寻找通常与诸如“街道”、“大街”、“路”、 “邮政信箱”、已知城市或州等等与地址信息相关联的单词来识别地址信息。可通过扫描文 本以寻找已知的电子邮件服务提供商(例如,Gmail. com、yahoo, com、hotmail. com)、单词 “电子邮件”、或者单词——当然在文本中将以单词“at”出现——来识别电子邮件地址。一旦识别出数字地址、电子邮件地址、或其他联系信息,该软件就可使用简单的规则来勾划 该信息(即,确定识别出的数据在文本内的何处开始和结束),并随后将所勾划出的信息复 制到存储器中。若成功提取出联系信息,可将其标识或传送给移动设备20的用户,并且任 选地,自动录入用户的移动设备20上的地址簿中的正确字段中。将提取出的数据录入恰适 存储器字段可以由移动设备20使用收到的所提取联系数据来执行。在用户的地址簿被保 持在服务器50上的实现中——在具有服务器备份系统的大型组织中可能就是这种情形,所 提取文本可被存储于保持在服务器50上的地址簿的恰适字段中。用户的移动设备20随后 可在下一次移动设备20与服务器50 “同步”时用包含所提取联系信息的地址簿的最新版 本来更新。随后可丢弃与联系信息无关的文本数据。在一实施例中,服务器缓冲器49可被用于临时存储(S卩,缓冲)电话通话以使得 当通话结束(或当暂停通话时)。此实施例使用户能在通话结束后选择电话通话的部分以 转换为文本。以此方式,该实施方法允许用户在已经讲完之后重新捕捉并转换音频数据成 文本数据。缓冲器历时可由用户选择或者可由服务器运营商选择,并且可以是任何长度。图6是解说用于在服务器50上将电话通话的音频数据的部分或全部转换为文本 的实施方法的过程流程图。如以上参照图2讨论的,当用户希望将音频数据转换为文本数 据时,该用户可按压转录请求按钮32 (或上述激活该过程的其他方法)(步骤301)。一旦用 户作出了文本转换请求,移动设备20将该请求传送至服务器50 (步骤30 。该文本转换请 求可在电话通话期间作为数据分组发送,或者可作为能被识别为构成该请求命令的特殊音 调或音调系列来发送。服务器50经由输入/输出端口 52接收来自移动设备20的文本转 换请求(步骤30;3)。在一些实施例中,文本转换请求可被蜂窝电话通信网络52或传统电话 通信网络M内的处理器或服务器所识别,从而促使该处理器或服务器诸如经由因特网53 将该请求和电话通话数据转发给服务器50。在移动设备20是无线通信设备的实例中,文本 转换请求的传输首先被基站天线51接收并传达给服务器50。响应于收到的文本转换请求, 服务器50可激活解密软件42以开始将收到的通信数据转换成能被转录的数据格式(步骤 304)。可将原始格式或者经解密数据格式的语音通话的部分临时存储在缓冲器49中(步 骤307)。一旦音频数据已被解密,服务器处理器55可激活语音至文本转换软件44并开始 转录该通话(步骤308)。语音至文本转换可在转换请求在服务器处被收到时开始。若诸如 响应于来自用户的命令,全部或部分的通话被存储在服务器缓冲器49中,则转换可在所存 储通话中的任意点开始,诸如通过使用指定起始点的时间,或者用户收听所记录的通话并 指定何时应开始转录。在一实施例中,电话通话在用户未请求转录的情况下也可在通话进行时被存储在 服务器缓冲器49中,由此允许当用户意识到有需要时能发起转录。在此实施例中,服务器 50可将电话通话的部分存储在缓冲器49中,以使得用户能对刚发生的电话通话部分发起 文本转换服务。例如,服务器50和缓冲器49可被配置成将音频数据存储在跨度为诸如30 到60秒的有限时间段的先进先出(FIFO)缓冲器中。随后,若用户听到该用户想要转录的一 些内容,诸如另一方读出中奖彩票号码或者说到地址或电话号码,则该用户可立即(例如, 通过按压移动设备20上的按钮3 请求转录存储在缓冲器49中的通话数据。在此实施例 中,用户无需事先决定将转录部分电话通话,并且没有必要让另一方重复。为了保护隐私并 且遵守电信法,通话的两方成员可能需要被告知该部分记录,并且缓冲器49可能需要在用户不请求转录的情况下立即被清空。一旦激活,语音至文本转换软件44可继续将音频数据转换成文本数据,直至电话 呼叫终止或服务器50接收到转换终止信号。用户可出于各种原因在语音通话结束之前终 止语音至文本转换过程。例如,用户可能希望只是转换通话期间说出的电话号码或地址而 不是通话的扩展部分。在一实施例中,用户可通过在语音通话期间第二次按下按钮39来传 送语音至文本转换终止信号。或者,语音至文本软件44可通过各种其他手段终止,诸如经 由显示在显示器23上的用户界面菜单、键区36并结合菜单选择按钮或摇杆开关37、多次按 钮推按、语音激活命令(例如,通过说出“停止转录”)等等。一旦语音至文本转换软件44被终止,新转换出的文本数据可被存储在服务器存 储器阳中与发起该语音至文本转换的用户相关联的位置(步骤309)。一旦存储在存储器 阳中,可使得转换出的文本数据能由用户在任意时刻使用公知的数据访问技术经由诸如因 特网53之类的网络获取。转换出的文本还可经由有线或无线数据通信链路被传送给用户的移动设备20或 其他通信设备(步骤313)。该文本数据可作为文本消息(例如,SMS或电子邮件消息)或 包含该文本的任何其他类型的数据传输文件来传送。或者,转换出的文本数据可被实时地 传送回移动设备20,由此避免了在服务器50上存储该文本数据(步骤309)的需要。在这 样的替换实施例中,语音至文本转换软件44可在语音音频数据被转换为文本时生成要传 送回移动设备20的数据分组。一旦该语音至文本转换方法终止,用户可手动地提取选定部分,诸如文本中包含 联系信息的那些部分,并手动地将选定信息录入地址簿52中或者以其他方式将该文本存 储在移动设备的存储器22中。例如,用户可使用移动设备20上提供的复制粘贴应用工具 来复制选定的单词或数字并将它们粘贴到地址簿记录中的恰适字段中。在用户诸如经由因 特网53访问存储在服务器50上的文本数据的实施例中,用户可使用浏览器工具来复制文 本的选定部分,并随后使用公知应用工具“粘贴”或以其他方式将该选择加载至移动设备的 存储器22中。在替换实施例中,服务器50可被配置有提取联系信息并自动将该选取传达给用 户的移动设备20的软件,其示例在图7中解说。图7中解说的实施例包括上文参照图6描 述的步骤301-304和307-309。另外,服务器50配置有从转换出的文本数据识别并提取联 系信息(步骤310)、并自动将所提取联系信息传送给移动设备20(步骤311)以便将所提 取信息存储在存储器22中的软件。如上讨论的,服务器50可能在其存储器55中存储有联 系信息提取软件46,该软件被设计成扫描转换出的文本以寻找电话号码、地址、电子邮件地 址等等。如上所述,电话号码可通过扫描以寻找已知的区号、或者7或10位数的序列来识 别,地址信息可通过扫描文本以寻找通常与地址信息(例如,“街道”、“大街”、“路”、“邮政信 箱”、已知城市或州等等)相关联的单词来识别,以及电子邮件地址可通过扫描文本以寻找 已知电子邮件服务提供商(例如,Gmail. com、yahoo. com、hotmail. com)、单词“电子邮件”、 标准地址扩展名(例如,“· com,,、"· org”、"· net”、"· gov,,、"· uk”、“. ca”、“. jp”等)或者在 句号或“点”之前的来识别。与联系信息不相关的文本数据可被丢弃,或者保留在存储 器中,这可以随用户指定或决定。因此,在转换出的文本数据被存储在存储器56中(步骤 309)之后,服务器50处理器55可激活联系信息提取软件46以从转换出的文本数据提取所有联系信息(步骤310)。所提取联系信息可被传送给用户的移动设备20 (步骤311)。移 动设备20还可配置有接收所传送联系信息并随后自动将该信息录入存储在存储器22中的 地址簿中(步骤312)的应用软件。在替换实施例中,服务器50仅将音频中定向至激活该转录服务的移动设备20用 户(即,传送该文本转换请求的移动设备20)的部分转换成文本数据。换言之,对移动设备 20所讲并由话筒四拾取的语音音频数据不被转换为文本。在许多情形中,移动设备20用 户没有转录该用户自己的话的需要或愿望。此实施例可被用于减少转录处理和移动设备20 所接收的文本的量。此实施例可通过作为路由至服务器的每个数据分组的部分向服务器50 通知起源设备来实现。或者,诸如通过蜂窝通信网络52只传送接收自另一方(例如,图4 中解说的移动设备阳或电话57)的音频数据,仅向服务器50路由一侧的通话以进行转录。在图8中解说的又一实施例中,服务器50可配置有识别用户的语音和话音模式并 由此仅转录另一方的话音的软件。在替换实施例中,仅另一方(即,不是请求转录的移动设 备20的所有者)所讲的话被转换为文本。此实施例可实现上文参照图6和7描述的方法步 骤301-304。另外,服务器50处理器55配置有监视语音通话以确定该语音音频数据的起源 的软件。服务器50可通过将音频数据分组中的起源地址信息与作出该转换请求的设备的 地址作比较(步骤301)(例如通过使用数据分组报头内的起源地址)来确定音频数据分组 的起源。或者,用户可训练服务器50以识别用户的语音,以使得服务器50能在通话中标识 出该用户的语音(步骤30 。用户可以用类似于可如何训练语音至文本转换软件程序的方 式,诸如通过向服务器50发出语音呼叫并向用户的移动设备20读文本的特定部分来训练 服务器50。如此训练后,服务器50能通过将音频数据与存储在服务器的存储器22中的用 户的语音模式作比较来监视在语音通话期间所讲的话(步骤30 。若语音音频数据分组起 源于用户的移动设备20(即,测试305 = “是”),则服务器50等待下一语音音频数据分组。 然而,若语音数据分组不是起源于该用户的移动设备20 (即,测试305 = “否”),则服务器 50解密并转录该语音数据分组从而完成语音音频数据(步骤306),并执行如上文参照图6 和7描述的步骤306-312。以此方式,仅另一方的话将被转录并递送至用户的移动设备20。在一些实施例中,用户可能必须使其移动设备向执行转录过程的服务器50注册。 此类服务器50可以是由蜂窝电话承运商、传统电话系统提供商或独立的服务提供商所运 营和销售的转录服务的部分。通过将其移动设备向服务器50注册,用户能向服务器通知 将被用于向其移动设备传送文本数据的消息接发技术的类型、以及用于此类消息接发的地 址。另外,用户可向服务器50确认随后他们想要转录其通话,并指定对该服务的要求或限 制。例如,用户可要求该用户口述或以其他方式输入口令以发起转录服务。要求在转录开 始之前输入其自己的独特口令将允许用户避免未经授权或不经意的转录。并且,用户可指 定转录应该是双向(即,转录双方)还是单向(即,仅转录一方),如上所述。用户还可作为 注册过程的一部分来训练服务器50以识别其语音,诸如通过使用移动设备20向服务器50 读一部分文本。用户还可为服务器50提供信息以使其能向一个以上的移动设备传送文本 数据、或者将文本数据存储在服务器存储器中用户经由诸如因特网53之类的网络所能访 问的位置。在一些实例中,用户可能拥有一个以上的移动设备或者可能借用移动设备并随后 想要转录其电话通话的部分。为了适应此类情况,可在一个移动设备上发起通话向文本数据的转换,转录出的文本被传送给第二移动设备以存储在存储器中。在一实施例中,转录出 的文本可经由诸如SMS和电子邮件消息接发之类的任何已知的消息接发应用从一个移动 设备传送至另一移动设备。在另一实施例中,若该第二移动设备已经向服务器50注册(即, 服务器50知道该移动设备的地址),则服务器50可直接将文本传送给该第二移动设备。在 一实施例中,文本数据可被发送给已经向服务器50注册的用户所拥有的所有移动设备。例如,若用户拥有移动设备20和集成在用户汽车中的蜂窝电话,则用户可在开车 的同时实现转录过程,诸如以获得电话通话的另一头的人的电子邮件地址。转录软件可在 汽车的集成蜂窝电话上或另一处理器上运行,或者该软件可如上所述地在服务器50中执 行。若转录软件是在服务器50上执行的,则服务器50可将转换出的文本数据传送至汽车 的集成蜂窝电话,在该蜂窝电话处该文本数据可被添加以存储在汽车内置蜂窝电话的存储 器中以由用户递送。替换或补充地,服务器50可使用在注册期间提供给服务器50的地址 将文本数据传送至用户的移动设备20。汽车内置蜂窝电话还可被配置成自动将收到的文本 数据转发给用户的移动设备20。作为第二示例,用户可能借用另一用户的移动设备55并希望转录通话的部分,诸 如以捕捉联系信息。在此示例中,服务器50可被配置成使用消息接发技术和在注册期间提 供给服务器50的地址自动将转换出的文本数据传送至该用户的移动设备20。如这些示例 所解说的,将转录软件定位在服务器50上为可能具有一部以上移动设备M或者需要从一 不同电话设备实现转录服务的用户提供更大的灵活性。各种实施例对于需要从电话通话捕捉信息的移动设备用户尤其有用。各种实施例 避免了在使用移动设备时用笔和纸来记录电话号码和地址的需要。各种实施例可被用于口头地编程存储在移动设备20上的地址簿。例如,若用户想 要将电话号码或地址存储在地址簿中,用户可按下语音至文本转换器请求按钮(这将激活 文本转换器),并随后对移动设备讲话。如上所述,语音信号将被传送至服务器并被转换为 文本数据,且文本数据可被传送回用户的移动设备20。此方法在用户想在不作手动文本录 入的情况下输入电话号码及类似物时可能是有用的。用于实现前述实施例的硬件可以是配置成执行指令集的处理元件和存储器元件, 其中该指令集用于执行对应于上述方法的方法步骤。或者,一些步骤或方法可由专用于给 定功能的电路来执行。本领域技术人员将领会,结合诸实施例描述的各种解说性逻辑板块、模块、电路、 和算法步骤可被实现为电子硬件、计算机软件、或两者的组合。为清楚地解说硬件与软件的 这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般 化描述的。这样的功能性是实现成硬件、固件还是软件取决于具体应用和加诸整体系统上 的设计约束。本领域技术人员可针对每种特定应用以不同方式来实现所描述的功能性,但 此类设计决策不应被解读为致使脱离本发明的范围。结合本文所公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器 执行的软件模块中、或在这两者的组合中实施。软件模块可驻留在处理器可读存储介质和/ 或处理器可读存储器中,这两者可以是RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM 存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域已知的任何其他实体形式的数据存储介 质中的任意一者。此外,处理器可读存储器可包括一个以上的存储器芯片、在各存储器芯片中的内置于处理器芯片的 存储器、以及诸如闪存和RAM存储器等不同类型存储器的组合。 本文对移动设备的存储器的引用旨在涵盖移动设备内的任何一个或所有存储器模块而不 限于特定的配置、类型、或封装。示例性存储介质耦合到移动设备中的处理器以使得该处理 器能从/向该存储介质读写信息。在替换方案中,存储介质可以被整合到处理器。处理器 和存储介质可驻留在ASIC中。 提供了以上对各种实施例的描述是为了使得本领域任何技术人员皆能够制作或 使用本发明。对这些实施例的各种改动对于本领域技术人员将是显而易见的,并且本文中 定义的普适原理可被应用于其他实施例而不会脱离本发明的精神或范围。由此,本发明并 非旨在被限定于本文中示出的实施例,相反,权利要求应被授予与本文中公开的原理和新 颖性特征一致的最广义的范围。
权利要求
1.一种用于转录电话通话的方法,包括在连接至移动设备的服务器处接收来自所述移动设备的转录请求; 在所述服务器处接收来自所述电话通话的音频数据; 在所述服务器中解密所述音频数据的至少一部分; 在所述服务器中将所述经解密音频数据转录成文本数据;以及 从所述服务器向所述移动设备传送所述文本数据的至少一部分。
2.如权利要求1所述的方法,其特征在于,进一步包括 在所述服务器处缓冲所述音频数据的部分;以及 在所述服务器处将所述经缓冲音频数据转录成文本数据。
3.如权利要求1所述的方法,其特征在于,进一步包括在所述移动设备处接收所述文本数据的所传送的至少一部分;以及 将收到的文本数据存储在所述移动设备的存储器中。
4.如权利要求3所述的方法,其特征在于,所述文本数据被存储在所述移动设备中的 地址簿中。
5.如权利要求1所述的方法,其特征在于,还包括从所述转录出的文本数据提取联系 信息,其中只是所述所提取的联系信息从所述服务器传送至所述移动设备。
6.如权利要求1所述的方法,其特征在于,进一步包括 监视音频数据的分组以确定其起源;以及标识所述音频数据的起源,其中所述被解密的音频数据部分限于起源于除所述移动设备之外的另一方的音频数据。
7.如权利要求1所述的方法,其特征在于,进一步包括将音频数据与存储在所述服务器的存储器中的用户语音简档作比较;以及标识与所述 用户语音简档匹配的音频数据,其中所述被解密的音频数据部分限于与所述用户语音简档不匹配的音频数据。
8.一种移动设备,包括 处理器;耦合至所述处理器的收发机;以及 耦合至所述处理器的存储器,其中所述处理器配置有执行以下步骤的软件指令,所述步骤包括 向服务器传送开始将音频数据转录成文本数据的请求; 接收来自所述服务器的文本数据;以及 自动地将所述文本数据存储在所述存储器中。
9.如权利要求8所述的移动设备,其特征在于,所述处理器配置有自动地将所述文本 数据存储在所述存储器中所存储的地址簿中的软件指令。
10.如权利要求8所述的移动设备,其特征在于,还包括耦合至所述处理器的转录请求 按钮,其中所述处理器进一步配置有响应于所述转录请求按钮的第一次按压向所述服务器 传送所述开始转录的请求的软件指令。
11.如权利要求10所述的移动设备,其特征在于,所述处理器进一步配置有当在语音呼叫不活跃时按压所述转录请求按钮时执行不同功能的软件指令。
12.如权利要求10所述的移动设备,其特征在于,所述处理器进一步配置有响应于所 述转录请求按钮的第二次按压向所述服务器传送终止将音频数据转录成文本数据的请求 的软件指令。
13.—种移动设备,包括用于向服务器传送开始将音频数据转录成文本数据的请求的装置;用于接收来自所述服务器的文本数据的装置;以及用于自动地将所述文本数据存储在存储器中的装置。
14.如权利要求13所述的移动设备,其特征在于,所述用于自动地将所述文本数据存 储在存储器中的装置包括用于自动地将所述文本数据存储在所述存储器中所存储的地址 簿中的装置。
15.如权利要求13所述的移动设备,其特征在于,还包括用于接收指示应向服务器传 送请求以请求开始将音频数据转录成文本数据的用户输入的装置。
16.如权利要求15所述的移动设备,其特征在于,所述用于接收用户输入的装置指示 在语音呼叫不活跃时应执行不同功能。
17.如权利要求15所述的移动设备,其特征在于,还包括用于响应于对所述用于接收 用户输入的装置的第二次激活向所述服务器传送终止将音频数据转录成文本数据的请求 的装置。
18.一种其上存储有处理器可执行软件指令的有形处理器可读存储器,所述软件指令 被配置成使移动设备处理器执行以下步骤,包括向服务器传送开始将音频数据转录成文本数据的请求;接收来自所述服务器的文本数据;以及自动地将所述文本数据存储在存储器中。
19.如权利要求18所述的有形处理器可读存储器,其特征在于,所述处理器可执行软 件指令被进一步配置成使所述移动设备处理器自动地将所述文本数据存储在所述移动设 备的存储器中所存储的地址簿中。
20.如权利要求18所述的有形处理器可读存储器,其特征在于,所述处理器可执行软 件指令被进一步配置成使所述移动设备处理器响应于对转录请求按钮的第一次按压向所 述服务器传送所述开始转录的请求。
21.如权利要求20所述的有形处理器可读存储器,其特征在于,所述处理器可执行软 件指令被进一步配置成使所述移动设备处理器当在语音呼叫不活跃时按压所述转录请求 按钮时执行不同功能。
22.如权利要求20所述的有形处理器可读存储器,其特征在于,所述处理器可执行软 件指令被进一步配置成使所述移动设备处理器响应于对所述转录请求按钮的第二次按压 向所述服务器传送终止将音频数据转录成文本数据的请求。
23.一种服务器,包括服务器处理器;耦合至所述处理器的网络接口 ;以及耦合至所述处理器的存储器,其中所述服务器处理器配置有执行以下步骤的软件指令,所述步骤包括 在经由网络连接至移动设备的服务器处经由所述网络接口接收来自所述移动设备的 转录请求;经由所述网络接口接收来自所述电话通话的音频数据;解密所述音频数据的至少一部分;将所述经解密音频数据转录成文本数据;以及经由所述网络接口向所述移动设备传送所述文本数据的至少一部分。
24.如权利要求23所述的服务器,其特征在于,所述服务器处理器进一步配置有执行 以下步骤的软件指令,所述步骤包括缓冲所述音频数据的部分;以及 将所述经缓冲音频数据转换成文本数据。
25.如权利要求23所述的服务器,其特征在于,所述服务器处理器进一步配置有执行 包括从所述转换出的文本数据提取联系信息的步骤的软件指令,其中只是所述所提取的联 系信息被传送至所述移动设备。
26.如权利要求23所述的服务器,其特征在于,所述服务器处理器进一步配置有执行 以下步骤的软件指令,所述步骤包括监视音频数据的分组以确定其起源;以及 标识所述音频数据的起源,其中所述被解密的音频数据部分限于起源于除所述移动设备之外的另一方的音频数据。
27.如权利要求23所述的服务器,其特征在于,所述服务器处理器进一步配置有执行 以下步骤的软件指令,所述步骤包括将音频数据与存储在所述服务器的存储器中的用户语音简档作比较;以及 标识与所述用户语音简档匹配的音频数据,其中所述被解密的音频数据部分限于与所述用户语音简档不匹配的音频数据。
28.一种服务器,包括用于在经由网络连接至移动设备的服务器处接收来自所述移动设备的转录请求的装置;用于在所述服务器处接收来自所述电话通话的音频数据的装置; 用于在所述服务器中解密所述音频数据的至少一部分的装置; 用于在所述服务器中将所述经解密音频数据转录成文本数据的装置;以及 用于从所述服务器向所述移动设备传送所述文本数据的至少一部分的装置。
29.如权利要求观所述的服务器,其特征在于,还包括 用于在所述服务器处缓冲所述音频数据的部分的装置;以及用于在所述服务器处将所述经缓冲音频数据转录成文本数据的装置。
30.如权利要求四所述的服务器,其特征在于,还包括用于从所述转录出的文本数据 提取联系信息的装置,其中只是所述所提取的联系信息从所述服务器传送至所述移动设 备。
31.如权利要求28所述的服务器,其特征在于,还包括用于监视音频数据的分组以确定其起源的装置;以及 用于标识所述音频数据的起源的装置,其中所述被解密的音频数据部分限于起源于除所述移动设备之外的另一方的音频数据。
32.如权利要求观所述的服务器,其特征在于,还包括用于将音频数据与存储在所述服务器的存储器中的用户语音简档作比较的装置;以及 用于标识与所述用户语音简档匹配的音频数据的装置, 其中所述被解密的音频数据部分限于与所述用户语音简档不匹配的音频数据。
33.一种其中存储有服务器可执行软件指令的有形存储介质,所述软件指令配置成使 服务器处理器执行以下步骤,所述步骤包括接收来自移动设备的转录请求; 接收来自电话通话的音频数据; 解密所述音频数据的至少一部分; 将所述经解密音频数据转录成文本数据;以及 向所述移动设备传送所述文本数据的至少一部分。
34.如权利要求33所述的有形存储介质,其特征在于,所存储的服务器可执行软件指 令被配置成使所述服务器进一步执行包括以下动作的步骤缓冲所述音频数据的部分;以及 将所述经缓冲音频数据转换成文本数据。
35.如权利要求33所述的有形存储介质,其特征在于,所存储的服务器可执行软件指 令被配置成使所述服务器进一步执行包括从所述转换出的文本数据提取联系信息的步骤, 其中只是所述所提取的联系信息被传送至所述移动设备。
36.如权利要求33所述的有形存储介质,其特征在于,所存储的服务器可执行软件指 令被配置成使所述服务器进一步执行包括以下动作的步骤监视音频数据的分组以确定其起源;以及 标识所述音频数据的起源,其中所述被解密的音频数据部分限于起源于除所述移动设备之外的另一方的音频数据。
37.如权利要求33所述的有形存储介质,其特征在于,所存储的服务器可执行软件指 令被配置成使所述服务器进一步执行包括以下动作的步骤将音频数据与存储在所述服务器的存储器中的用户语音简档作比较;以及 标识与所述用户语音简档匹配的音频数据,其中所述被解密的音频数据部分限于与所述用户语音简档不匹配的音频数据。
全文摘要
用于将电话通话的部分转录为文本的方法和系统使用户能诸如通过按压移动设备上的按钮来请求转录,该请求被传送给包括转录软件的服务器。该服务器将部分或全部电话通话转录为文本,并将该文本传送给移动设备。可扫描文本数据以寻找选定信息,并且只是该选定信息被传送给移动设备。选定信息可被自动地存储在移动设备的存储器中,诸如存储在地址簿中。
文档编号H04M1/2745GK102047647SQ200980120242
公开日2011年5月4日 申请日期2009年5月12日 优先权日2008年5月27日
发明者S·S·罗杰斯 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1