便携式电子设备和操作用户界面的方法与流程

文档序号:12287596阅读:444来源:国知局
便携式电子设备和操作用户界面的方法与流程

本发明的实施方式涉及便携式电子设备和操作便携式电子设备的用户界面的方法。本发明的实施方式特别涉及被配置为执行语音到文本转换以生成文本的便携式电子设备。



背景技术:

很多便携式电子装置具有允许输入并编辑文本的用户界面。输入文本的技术包括基于键盘的技术、基于速记法的技术或者语音到文本转换。基于键盘的输入在常规的键盘上是较慢的。诸如德沃夏克简化键盘(DSK)的键盘布局可以在一定程度上缓解这些问题。

语音到本文转换依赖于输入信号的处理以将口头或说出的语音转换成文本。语音到文本转换的一个优势在于,其对于用户来说是方便的并且使得通过直观的方式输入文本。虽然语音识别的精确性已经得到提高,但是话语仍可能通过语音到文本转换机而被曲解。因为很多用户没有进行训练在口述时包括特殊字符,添加诸如标点符号的特殊字符可能会是麻烦的。当语音到文本转换机使用语境以增加精确性时,被曲解的词语也可能在整个文本传播。

虽然这种缺点可以在一旦语音到文本转换已经完成时通过使用键盘对文本进行编辑而得到缓解,但是这种矫正处理较慢并且可能降低使用用户界面的便利性。为了例示,在执行文本编辑之前,必须经由键盘手动地对光标进行定位。



技术实现要素:

现有技术中需要一种使这些缺点中的至少一部分缓解的便携式电子设备和操作便携式电子设备的用户界面的方法。现有技术中特别需要一种能够更加容易地且以更加直观的方式对通过语音到文本转换生成的文本进行编辑的便携式电子设备和操作便携式电子设备的用户界面的方法。

根据本发明的实施方式,电子设备将用于从说出的话语生成文本的语音到文本转换与文本编辑功能的眼睛视线控制相结合。根据实施方式的所述电子设备可以被配置为使得可以通过眼睛视线控制针对所生成文本的一部分来选择性地激活文本编辑功能。根据实施方式的所述电子设备可以被配置为使得语音到文本转换模块可以自动地确定文本的哪些部分很有可能被编辑。基于眼睛视线的控制可以使得针对所述语音到文本转换模块识别为用于文本编辑的候选的所述文本的一部分来选择性地激活文本编辑功能。

所述便携式电子设备的视线跟踪装置被配置为跟踪眼睛视线方向,所述视线跟踪装置可以包括摄像机,该摄像机被布置为当使用所述便携式电子设备时面向用户。这种摄像机的示例为便携式电话的低分辨率摄像机。通过将所述摄像机用于视线跟踪,不必设置单独的、专用的视线跟踪传感器。

根据实施方式的便携式电子设备包括被配置为通过执行语音到文本转换来生成文本的语音到文本转换模块。所述便携式电子设备包括被配置为跟踪用户在显示所述文本的显示器上的眼睛视线方向的视线跟踪装置。所述便携式电子设备被配置为基于所跟踪的眼睛视线方向选择性地激活文本编辑功能。

所述便携式电子设备可以被配置为基于所述语音到文本转换将数值分配给所述文本的多个部分中的每一个部分。所述便携式电子设备可以被配置为选择性地激活所述文本编辑功能,以对所述文本的从所述多个部分中选择的部分进行编辑。可以基于所分配的数值并且基于所跟踪的眼睛视线方向来确定所述文本编辑功能针对其被激活的所述部分。

所述数值可以表示被分配到字和/或字间间隔的概率。

所述数值可以表示基于文本到语音转换而确定的、在各自位置处所需的所述文本的编辑的概率。所述数值可以被用来限定激活区域的尺寸,用于视线跟踪的基于眼睛视线的激活。

所述便携式电子设备可以被配置为使所跟踪的眼睛视线方向取决于被分配到字和/或字间间隔的所述数值而影响所述文本编辑功能的方式适用。

所述数值可以指示字已经被曲解和/或要在字间间隔处插入特殊字符的概率。

所述便携式电子设备可以被配置为使用所述数值来限定在所述显示器上的与字或字间间隔中的至少一个相关联的至少一个激活区域。可以基于所述眼睛视线方向来选择性地激活所述文本编辑功能,以用于校正字或者用于在字间间隔处插入特殊字符。所述眼睛视线方向在激活区域上的停留时间可以触发所述文本编辑功能的执行,以用于校正各自的字或者在各自的字间间隔处增加特殊字符。

所述便携式电子设备可以被配置为基于所分配的数值并且基于所述眼睛视线方向的热图来确定针对其激活所述文本编辑功能的所述部分。眼睛视线方向的快速变化可以通过生成所述热图并且将所述热图与所述显示器上的针对其的所述数值指示字可能已经被所述语音到文本转换模块曲解和/或很有可能插入特殊字符的区域关联来进行处理。

所述便携式电子设备可以被配置为基于语音到文本转换精确度将所述数值分别分配给所述文本的多个字中的每一个字。所述语音到文本转换精确度可以表示说出的话语已经被所述语音到文本转换曲解的可能性。所述语音到文本转换模块可以被配置为基于所述说出的话语是否能够被唯一地分配给包括在所述便携式电子设备的词典中的字来确定所述可能性。所述语音到文本转换模块可以被配置为基于所述词典中是否存在能够分配所述说出的话语的多个候选字来确定所述可能性。

所述便携式电子设备可以被配置为使得监测到的眼睛视线方向在与字相关联的激活区域上的停留时间触发用于对所述字进行编辑的所述文本编辑功能。所述便携式电子设备可以被配置为取决于所述语音到文本转换精确度来设置所述激活区域的尺寸。所述语音到文本转换模块确定其曲解是更有可能的字可以被分配更大的激活区域。所述语音到文本转换模块确定其识别质量良好的字可以根本不被分配激活区域或者仅分配较小的激活区域,以用于通过眼睛视线来激活所述文本编辑功能。

激活区域可以是一系列字符的字不与包括在所述便携式电子设备的词典中的字相对应。所述字可以是作为所述便携式电子设备的词典字的片段的一系列字符。

所述便携式电子设备可以被配置为使得所述文本编辑功能允许所述用户能够通过眼睛视线控制来执行所述文本编辑。所述文本编辑功能可以提供所述用户可以通过使用其眼睛视线方向来从中选择一个字的多个可选字。可以通过简单地对其进行注视以直观的方式来选择正确的字。

所述便携式电子设备可以被配置为使得用于激活针对字的所述文本编辑功能的所述激活区域覆盖在所述显示器上显示所述字的像素以及围绕在所述显示器上显示所述字的所述像素的区域。所述激活区域可以根据眼睛视线跟踪装置的分辨率来规定尺寸。因为所述激活区域的尺寸可以进行调整以适应相机的分辨率,所以即使利用使用低分辨率相机(例如,移动通信终端的摄像机)的眼睛视线跟踪装置,也可以可靠地将所述文本编辑功能激活。

除了基于曲解的可能性将数值分配给字以外或者另选地,所述便携式电子设备还可以被配置为将所述数值分别分配给多个字间间隔中的每一个。

所述数值可以指示期望标点符号被定位在所述多个字间间隔中的哪些处。所述语音到文本转换模块期望应当插入标点符号的字间间隔可以被分配与所述语音到文本转转换机期望不应当插入标点符号的另一字间间隔不同的数值。

所述便携式电子设备可以被配置为使得监测到的眼睛视线方向在与字间间隔相关联的激活区域上的停留时间触发用于对所述字间间隔进行编辑的所述文本编辑功能。

所述便携式电子设备被配置为根据要在所述字间间隔处插入特殊字符的可能性来设置所述激活区域的尺寸。

所述便携式电子设备可以被配置为对所述激活区域的所述尺寸进行设置以使得所述激活区域的所述尺寸比所述字间间隔大。

所述视线跟踪装置可以包括相机。所述相机可以是蜂窝通信网络的终端的摄像机。

所述语音到文本转换模块可以被耦接到所述相机并且可以被配置为基于由所述相机捕获的图像通过语音到文本转换来生成所述文本。因此所述相机可以被用于使用嘴唇动作作为输入的所述语音到文本转换和所述文本编辑功能的基于眼睛视线的激活。

另选地或另外地,所述便携式电子设备可以包括被配置为获取语音信号的麦克风和/或肌电图(EMG)传感器。所述语音到文本转换模块可以被耦接到所述麦克风和/或所述EMG传感器,并且可以被配置为通过所获取的语音信号的语音到文本转换来生成所述文本。

所述便携式电子设备可以被配置为响应于由所述语音到文本转换模块执行的错误检测来选择性地激活所述视线跟踪装置。所述视线跟踪装置可以被触发,以当所述语音到文本转换模块检测到预定数量的曲解或不与词典字相对应的字时跟踪所述眼睛视线方向。

所述便携式电子设备可以被配置为独立于由所述语音到文本转换模块执行的错误检测来激活所述视线跟踪装置。

所述便携式电子设备可以被配置为基于所跟踪的眼睛视线方向来确定所述文本编辑功能是否被激活用于插入仅一个字或者所述文本编辑功能是否被激活用于插入多个字。

所述便携式电子设备可以包括被配置用于与蜂窝通信网络进行通信的无线接口。

所述便携式电子设备可以是蜂窝通信网络的终端。

所述便携式电子设备可以是手持式装置。所述语音到文本转换模块和所述眼睛视线跟踪装置都可以被集成在所述手持式装置的外壳中。

所述便携式电子设备可以包括手持式装置,该手持式装置包括所述语音到文本转换模块和穿戴式装置,特别地包括头戴式装置,该头戴式装置包括所述视线跟踪装置。

一种操作便携式电子设备的用户界面的方法包括以下步骤:通过语音到文本转换模块执行语音到文本转换以生成文本。所述方法包括:通过视线跟踪装置跟踪用户在显示所述文本的显示器上的眼睛视线方向。所述方法包括:基于所跟踪的眼睛视线方向来选择性地激活文本编辑功能以允许所述用户能够对所述文本进行编辑。

所述方法还可以包括:基于所述语音到文本转换将数值分配给所述文本的多个部分中的每一个部分。可以选择性地激活所述文本编辑功能,以用于对基于所分配的数值并且基于所跟踪的眼睛视线方向确定的部分进行编辑。

可以基于语音到文本转换精确度将所述数值分别分配给所述文本的多个字中的每一个字。

所述方法还可以包括:根据语音到文本转换精确度来设置与字相关联的激活区域的尺寸。可以基于所跟踪的眼睛视线方向在所述激活区域上的停留时间来选择性地激活所述文本编辑功能以用于对所述字进行编辑。

另选地或另外地,所述数值可以被分别分配给所述文本的多个字间间隔中的每一个字间间隔。

所述方法还可以包括:根据在所述字间间隔处插入特殊字符的可能性来设置与所述字间间隔相关联的激活区域的尺寸。可以基于所跟踪的眼睛视线方向在所述激活区域上的停留时间来选择性地激活所述文本编辑功能以用于对所述字进行编辑。

所述方法可以包括:响应于由所述语音到文本转换模块执行的错误检测来选择性地激活所述视线跟踪装置。当所述语音到文本转换模块检测到预定数量的曲解或不与词典字相对应的字时,所述视线跟踪装置可以被触发以跟踪所述眼睛视线方向。

所述方法可以包括:独立于由所述语音到文本转换模块执行的错误检测来激活所述视线跟踪装置。

所述方法可以包括:基于所跟踪的眼睛视线方向来确定所述文本编辑功能是否被激活用于插入仅一个字或者所述文本编辑功能是否被激活用于插入多个字。

可以通过根据实施方式的便携式电子设备来自动地执行所述方法。

根据示例性实施方式的便携式电子设备和操作便携式电子设备的用户界面的方法可以被用于激活文本编辑功能,并且可选地通过眼睛视线方向来对激活之后的所述文本编辑功能进行控制,以校正通过语音到文本转换生成的文本。

需要理解的是,在不偏离本发明范围的前提下,以上提到的特征和在以下将要解释的特征不仅能够用于所指示的各个组合中,还能够用于其它组合或单独使用。在其它实施方式中以上提到的方面和实施方式的特征可以彼此结合。

附图说明

当结合附图阅读以下的详细描述时,本发明的前述和附加的特征和优点将从以下的详细描述中变得明显,在附图中相同的附图标记指代相同的元件。

图1是根据实施方式的便携式电子设备的正视图。

图2是图1的便携式电子设备的示意性框图。

图3是根据实施方式的方法的流程图。

图4是例示了根据实施方式的便携式电子设备的操作的视图。

图5是例示了根据实施方式的便携式电子设备的操作的视图。

图6是根据实施方式的方法的流程图。

图7例示了根据实施方式的通过便携式电子设备限定的激活区域。

图8例示了通过便携式电子设备确定的、计算热图的眼睛视线方向。

图9是根据另一实施方式的便携式电子设备的示意性框图。

图10是根据另一实施方式的便携式电子设备的示意性框图。

图11是根据另一实施方式的便携式电子设备的视图。

图12是表示根据实施方式的便携式电子设备的功能框图。

图13是根据实施方式的通过便携式电子设备执行的方法的流程图。

图14是根据实施方式的通过便携式电子设备执行的方法的流程图。

图15是例示了根据实施方式的便携式电子设备的操作的视图。

图16是例示了根据实施方式的便携式电子设备的操作的视图。

具体实施方式

下面,将参照附图来详细地描述本发明的实施方式。应理解的是下面的实施方式的描述不被理解成具有限制性的意义。本发明的范围并不旨在由以下描述的实施方式或者由仅用于解释的附图来限制。

附图被认为是示意性的表示,并且附图中例示的元件不一定按比例示出。相反,表示各种元件使得它们的功能和通常的目的对于本领域技术人员变得明显。附图示出的或者在这里描述的在功能模块、装置、部件或其它物理的或功能单元之间的连接或耦接还可以通过间接的连接或耦接来实施。

各个实施方式的特征可以彼此组合,除非特别地相反说明。

将描述一种便携式电子设备和操作便携式电子设备的用户界面的方法。便携式电子设备包括语音到文本转换模块。语音到文本转换模块可以确定说出的话语的文本表示。语音到文本转换模块可以生成包括多个字的文本,这些字不必是便携式电子设备的词典字。

为了使得用户以直观的方式对通过语音到文本转换生成的文本进行编辑,便携式电子设备包括视线跟踪装置。可以通过眼睛视线使文本编辑功能激活。为了例示,视线跟踪装置可以被配置为确定用户的眼睛视线在激活区域上的停留时间。当该停留时间超过阈值时,这触发文本编辑功能的执行。文本编辑功能可以使得,如果用户的眼睛视线方向停留在通过语音到文本转换而提供的字上,则用户选择针对该相应的字的可选拼写。文本编辑功能可以另选地或另外地使得,如果用户的眼睛视线方向停留在字间间隔上,则用户在该相应的字间间隔处键入特殊字符。

视线跟踪装置可以是包括图像传感器的摄像机。视线跟踪装置可以另选地或另外地包括在红外光谱范围中敏感的以使用红外探测光束检测眼睛视线方向的传感器。便携式电子设备可以被配置为例如通过确定便携式电子设备的显示器上的注视点来确定眼睛视线方向。

便携式电子设备被配置为将提供直观的文本输入方法的语音到文本转换与文本编辑功能的眼睛视线激活相结合。便携式电子设备可以使用语音到文本转换模块的输出来确定文本编辑功能的基于眼睛视线的激活是否应当可用于对字和/或字间间隔进行编辑。为了例示,当语音到文本转换模块确定说出的话语已经被转换成字的文本表示而具有被曲解的低风险时,便携式电子设备可以不使得用户基于眼睛视线来激活针对该特定字的文本编辑功能。另选地,如果确定文本识别精确度良好的话,则触发用于对字进行编辑的文本编辑功能的激活的停留时间较长。

如将要详细进行解释的,实施方式的便携式电子设备和方法使得能够在眼睛视线控制下执行文本编辑。文本编辑功能可以在语音到文本转换仍在进行中时和/或在语音到文本转换已经完成之后通过眼睛视线进行激活。

图1是便携式电子设备1的正视图,而图2是便携式电子设备1的示意性框图表示。

便携式电子设备1包括视线跟踪装置2。视线跟踪装置2可以包括相机11。相机11可以被配置作为面向用户的摄像机。由相机11捕获的图像中的眼睛位置可以通过图像处理模块12进行处理以确定视线方向。便携式电子设备1包括语音到文本转换模块3。语音到文本转换模块3可以包括麦克风21和语音信号处理电路22。例如,麦克风21可以是便携式电子设备1的用于通过蜂窝通信网络的语音通信的麦克风。其它传感器可以被用来获取作为用于语音到文本转换的输入信号的语音信号。为了例示,语音到文本转换模块3可以包括用于获取被转换成字的文本表示的语音信号的相机和/或肌电图(EMG)传感器。便携式电子设备1包括显示器5,在该显示器5上显示有通过语音到文本转换模块3从语音信号生成的文本。

便携式电子装置1包括耦接至视线跟踪装置2的处理装置4。处理装置4可以是一个处理器,或者可以包括多个处理器,诸如主处理器15和图形处理单元16。处理装置4可以具有其它配置并且可以由诸如微处理器、微控制器、处理器、控制器或专用集成电路的一个或多个集成电路构成。

处理装置4可以执行处理和控制操作。处理装置4可以被配置为执行使得用户对通过说出的话语的语音到文本转换而生成的文本进行编辑的文本编辑功能。处理装置4可以基于所跟踪的眼睛视线移动来确定用户所注视的字和/或字间间隔。处理装置4可以针对用户的眼睛视线停留的字或字间间隔来使用于对该字和/或字间间隔进行编辑的文本编辑功能激活。文本编辑功能可以使得用户从多个候选字和/或候选字符当中进行选择,多个候选字和/或候选字符可以根据用户正在注视的字或字间间隔进行选择。

便携式电子设备1可以包括可以存储词典和/或语法规则的非易失性存储器6或其它存储装置。处理装置4可以被配置为当通过用户的眼睛视线使文本编辑功能激活时从词典和/或特殊字符中选择字。

便携式电子设备1可以操作为便携式电子装置,例如,蜂窝电话、个人数字助理等。便携式电子设备1可以包括用于语音通信的部件,这些部件可以包括:麦克风21、扬声器23,以及用于与无线通信网络通信的无线通信接口7。便携式电子设备1可以被配置作为手持式装置。便携式电子设备1的各种部件可以被集成在外壳10中。

下面将参照图3至图12更详细地描述便携式电子设备1的操作。

图3是根据实施方式的方法30的流程图。方法30可以通过便携式电子设备1来执行。

在步骤31,执行语音到文本转换以从语音生成文本。语音到文本转换可以使用通过麦克风和/或EMG传感器获取的语音信号作为输入信号。语音到文本转换可以使用通过相机获取的图像作为输入信号,并且可以对嘴唇动作进行分析用于确定说出的话语的文本表示。语音到文本转换可以进行操作以例如通过使用EMG传感器的、喉式话筒的或者相机的输出信号作为输入信号来生成甚至针对低音量或不可听见的语音的文本。

在步骤32,在便携式电子设备的显示器上显示通过语音到文本转换生成的文本。当新字被识别时,文本可以进行更新。

在步骤33,执行视线跟踪以跟踪用户的一只眼睛或两只眼睛的眼睛视线方向。当语音到文本转换开始时或者当便携式电子设备被启动时可以使视线跟踪装置启动。当在语音到文本转换中检测到潜在错误时,可以使视线跟踪装置启动。可以确定两只眼睛的眼睛视线方向的汇聚点。眼睛视线方向可以按照时间间隔进行跟踪,以获得对与其它视线方向相比用户已经更加频繁地注视的优选视线方向的统计。可以按照时间间隔多次记录眼睛视线方向。可以通过能够在便携式电子设备中完成其它功能的视线跟踪装置来记录眼睛视线方向。为了例示,视线跟踪装置可以是被布置在外壳10的与显示器5相同的一侧的摄像机,以便在便携式电子设备1的操作中指向用户,如视频电话所要求的。

在步骤34,从通过视线跟踪装置收集的信息计算热图数据。热图数据可以针对多个点或多个区域按照在相应的点或区域用户已经注视的时间间隔来限定时间片段。可以计算眼睛视线轨迹上的点与非恒定扩散函数f(x,y)之间的卷积来确定热图数据,其中,f(x,y)可以是高斯曲线、洛伦兹函数或者将视线跟踪装置具有极限分辨率考虑在内的另一非恒定函数。例如当将由于视线跟踪装置的分辨率而造成的概率传播考虑在内时,可以另选地通过针对显示器5上的多个像素中的每一个像素来计算在该相应的像素用户已经注视的时间片段来计算热图数据。可以使用来自视线跟踪领域的各种其它技术来计算热图数据。

可以与如图3中所例示的语音到文本转换并行地执行步骤33中的视线跟踪和步骤34中的热图数据的生成。在其它实施方式中,可以在语音到文本转换完成之后执行步骤33中的视线跟踪,以使得文本编辑功能能够针对文本的各个字或字间间隔选择性地进行激活。

在步骤35,可以使用热图数据来确定是否要激活文本编辑功能。可以使用热图数据来确定要针对哪些字和/或哪些字间间隔使文本编辑功能激活。可以通过用户的眼睛视线来执行文本中的要激活文本编辑功能的段落的选择。可以使用通过语音到文本转换模块提供的信息来限定用于通过眼睛视线使文本编辑功能激活的不同标准。为了例示,可以根据对具体字的曲解的可能性进行量化的分值和/或对在具体字间间隔处插入标点符号或其它特殊字符的可能性进行量化的分值来设定用户的眼睛视线必须指向的用于使针对该字或该字间间隔的文本编辑功能激活的激活区域的尺寸。另选地或另外地,可以根据对具体字的曲解的可能性进行量化的分值和/或对在具体字间间隔处插入标点符号或其它特殊字符的可能性进行量化的分值来设定触发文本编辑功能的停留时间的阈值。

在步骤36,可以执行文本编辑。文本编辑功能可以使用用户的眼睛视线作为输入。为了例示,可以通过文本编辑功能来显示多个字,用户可以通过其眼睛视线来从这些多个字中选择一个字用于编辑文本。可以通过文本编辑功能来显示多个特殊字符,用户可以通过其眼睛视线来从这些多个特殊字符中选择一个特殊字符用于编辑文本。

尽管如参照图3所描述的,可以在步骤34中生成热图数据,但是根据实施方式的便携式电子设备不需要生成热图数据。为了例示,可以确定激活区域上的停留时间,而无需计算热图数据。可能地通过结合针对不同注视点的停留时间,而无需计算热图数据,可以基于眼睛视线方向来触发文本编辑功能。

根据实施方式的便携式电子设备和方法使得基于眼睛视线方向以简单且直观的方式将文本编辑功能激活。可以使用关于通过语音到文本转换模块提供的文本的信息来确定用户需要注视显示器5上的哪些区域和/或必须满足哪些停留时间,以便触发文本编辑功能的执行。

如果在词典中尚未找到与说出的话语相匹配的字和/或如果语音到文本转换模块确定很有可能已经曲解了该字,则用户必须注视以触发文本编辑功能的激活区域可以被设置为具有更大的尺寸。如果在词典中已经找到与说出的话语相匹配的字和/或如果语音到文本转换模块确定很有可能已经正确解释了该字,则用户必须注视以触发文本编辑功能的激活区域可以被设置为具有更小的尺寸。

另选地或另外地,如果在词典中尚未找到与说出的话语相匹配的字和/或如果语音到文本转换模块确定很有可能已经曲解了该字,则用户必须注视激活区域以触发文本编辑功能的停留时间可以被设置为更短。如果在词典中已经找到与说出的话语相匹配的字和/或如果语音到文本转换模块确定很有可能已经正确解释了该字的话,则用户必须注视激活区域以触发文本编辑功能的停留时间可以被设置为具有更小的尺寸。

可以使用分值来对语音到文本转换模块是否确定很有可能已经曲解了字进行量化。如本文中使用的,术语“分值”是指作为针对可能性的量化指示的数值,例如,说出的话语被正确转换成字的可能性或者必须在字间间隔处插入特殊字符的可能性。激活区域的尺寸和/或触发文本编辑功能的执行的停留时间可以分别根据分值进行设置。

分值可以被分配给文本的多个部分中的每一个部分,诸如字和/或字间间隔,便携式电子设备可以使用所述分值来调整其是如何对所跟踪的眼睛视线方向做出响应的。为了例示,如基于语音到文本转换模块的输出而确定的,可以生成指示用于文本编辑功能的显示器上的潜在关联区域需要被激活的显著图。因此可以对便携式电子设备的响应进行调整。为了例示,语音到文本转换模块检测出可能的错误的区域可以被制造得对文本编辑功能的基于眼睛视线的激活更加积极地响应。

图4是例示便携式电子设备1的显示器5的视图。文本通过语音到文本转换生成并且在显示器5上进行显示。当便携式电子设备1确定字42可能需要进行编辑时,例如因为在将正确的字分配给所接收的语音信号时存在歧义,便携式电子设备1可以使得用户通过指向该字的眼睛视线来使得用于对该字进行编辑的文本编辑功能激活。

便携式电子设备1可以限定包括显示有字42的像素的激活区域41。激活区域41可以大于显示有字42的区域。这有利于即使当利用高分辨率也无法确定眼睛视线方向时激活区域41通过眼睛视线的选择。

可以根据被分配给字42的分值来设置用户必须注视的激活区域41的尺寸。该分值可以指示语音到文本转换的可靠程度。为了例示,在将语音信号转换成“word”或“world”中的任一个时可能存在歧义。也可以根据被分配给字42的分值来设置用户的视线必须指向激活区域41以触发文本编辑功能的激活的停留时间。

文本编辑功能还可以对眼睛视线方向做出响应。为了例示,为了对字42进行编辑,可以通过文本编辑功能显示各种文本串44,用户可以通过使用其眼睛注视从所述各种文本串44中选择一个文本串。所选择的字可以代替字42。

文本编辑功能的通过眼睛注视的激活可以仅限制于文本的某些部分,例如,限制于语音到文本转换模块已经曲解了语音信号的字。对于其它字,例如对于字43,例如,用户仍可以通过手动输入动作使文本编辑功能激活。

尽管在图4中通过虚线示意性地示出了激活区域41,可以显示、但通常不会在显示器5上显示激活区域的边界。

如图5中所例示的,除了对字进行编辑以外或者另选地,文本编辑功能的基于眼睛视线的激活还可以用于使得用户插入特殊字符。

图5是例示便携式电子设备1的显示器5的视图。文本通过语音到文本转换生成并且在显示器5上进行显示。当便携式电子设备1确定字间间隔52、54需要进行编辑时,例如因为语法规则或语音信号的调制指示需要在其中添加标点符号或其它特殊字符,便携式电子设备1可以使得用户通过指向字间间隔52、54的眼睛视线来使文本编辑功能激活用于对字间间隔52、54进行编辑。

便携式电子设备1可以限定包括显示有字间间隔52、54的像素的激活区域51、53。激活区域51、53可以比实际的字间间隔大,并且可以延伸以至少部分地覆盖与相应的字间间隔相邻的字。这有利于即使当利用高分辨率也无法确定眼睛视线方向时激活区域51、53通过眼睛视线的选择。

可以根据被分配给关联字间间隔52、54的分值来设置用户必须注视的激活区域51、53的尺寸。分值可以指示根据语法规则和/或语音信号的调制,需要向字间间隔添加特殊字符的可能性程度。为了例示,可以基于语法规则来自动确定字间间隔54处的句子的终结。也可以根据被分配给相应字间间隔52、53的分值来设置用户的视线必须指向激活区域51、3以触发文本编辑功能的激活的停留时间。

文本编辑功能还可以对眼睛视线方向做出响应。为了例示,为了对字间间隔52、54进行编辑,可以通过文本编辑功能显示各种特殊字符,用户可以通过使用其眼睛注视从所述各种特殊字符中选择一个特殊字符。可以将所选择的特殊字符插入到字间间隔中。

文本编辑功能的通过眼睛注视的激活可以仅限制于文本的某些部分,例如,限制于确定标点符号或其它特殊字符将很可能已经被添加到其中的字间间隔。对于其它字间间隔,例如对于字间间隔55,例如,用户仍可以通过手动输入动作使文本编辑功能激活。

尽管在图5中通过虚线示意性地示出了激活区域51、53,可以显示、但通常不会在显示器5上显示激活区域的边界。

图6是根据实施方式的方法60的流程图。可以通过根据实施方式的便携式电子设备来执行方法60。

在方法60中,可以在步骤61限定显示器上的激活区域。可以根据语音到文本转换来限定激活区域。激活区域可以被限定为位于很有可能需要文本编辑的字和/或字间间隔处。可以向字分配分值,该分值指示语音到文本转换没有识别出正确的字并且因此需要文本编辑的可能性。分值可以被分配给字间间隔以指示必须在相应的字间间隔处添加特殊字符的可能性。可以根据分值来分别设置激活区域的尺寸。另选地或另外地,可以根据分值来设置用户的眼睛视线必须指向与字或字间间隔相关联的激活区域用于使文本编辑功能激活的停留时间。

在步骤62,确定用于使文本编辑功能激活的触发事件是否发生。当用户的眼睛视线指向与字或字间间隔相关联的激活区域达至少停留时间时,可以激活文本编辑功能。可以根据与字或字间间隔相关联的分值来设置触发文本编辑功能的执行的停留时间。可以使用热图数据来确定眼睛视线停留时间是否足够长以触发文本编辑功能的执行。如果未检测到触发事件,则方法可以返回到步骤31、33。

在步骤63,响应于在步骤62中检测触发事件,可以执行文本编辑功能。文本编辑功能可以使得用户通过眼睛注视控制来编辑文本。

图7示出可以是便携式电子设备的显示器的用户界面70。便携式电子设备使用语音到文本转换模块的输出来限定激活区域71-73,用户可以将其眼睛视线指向该激活区域71-73以激活针对字或字间间隔的文本编辑功能。可以通过眼睛视线激活文本编辑功能的字或字间间隔可以被定位在相关联的激活区域71-73下面。可以根据字或字间间隔的分值来设置激活区域71-73中的一个或多个的尺寸。可以根据字或字间间隔的分值来设置在其之后文本编辑功能被触发的视线停留时间。

文本编辑功能可以针对不同的激活区域71-73执行不同的功能。对于与字相关联的激活区域,例如激活区域71,可以使得用户通过从其它候选字中进行选择和/或通过使用文本字符输入来对该字进行编辑。对于与字间间隔相关联的激活区域,例如激活区域72、73,文本编辑功能可以使得用户插入标点符号或其它特殊字符。

图8示出用户的眼睛视线方向在显示器上的路径80。用户的眼睛视线方向可以在用户希望执行文本编辑操作的字之间和/或在用户希望执行文本编辑操作的字间间隔之间快速移动。在所例示的示例中,注视停留时间在激活区域71中最大。文本编辑功能可以被激活以使得用户能够对与激活区域71相关联的字或字间间隔进行编辑。

如将要参照图9至图11更加详细地进行解释的,可以在进一步的实施方式中实现便携式电子设备的各种变型。

图9是根据实施方式的便携式电子设备91的框图表示。语音到文本转换模块3可以进行操作以将语音转换成文本。语音到文本转换模块3与相机11连接并且被配置为对通过相机11捕获的图像中的嘴唇动作进行分析。由此,可以执行语音到文本转换。语音到文本转换模块3和视线跟踪装置2都可以对由相机11捕获的图像进行处理。语音到文本转换模块3可以识别嘴唇动作并且对嘴唇动作进行分析以执行自动唇读。视线跟踪装置2可以对在由相机捕获的图像中所示的用户的至少一只眼睛进行分析以跟踪眼睛视线方向。

能够基于用户的眼睛视线方向来选择性地激活文本编辑功能92。文本编辑功能92的配置,例如可以通过眼睛视线激活文本编辑功能92的文本的部分,可以根据语音到文本转换模块3的输出来进行设置。可以基于用于字或字间间隔的值来调整用户可以注视的区域的尺寸,以激活文本编辑功能用于对相应的字或字间间隔进行编辑。分值可以对语音到文本转换的质量和/或插入特殊字符的可能性进行量化。另选地或另外地,文本编辑功能的激活所需的视线停留时间可以根据分值来进行调整。

除了相机11以外,便携式电子设备91可以包括麦克风或其它传感器作为对语音到文本转换模块的输入。在其它实施方式中,语音到文本转换模块91不与麦克风耦接。

如上面参照图1至图8所描述的,可以实现便携式电子设备91的附加特征和操作。

图10是根据实施方式的便携式电子设备101的框图表示。便携式电子设备101包括EMG传感器103。语音到文本转换模块3对通过EMG传感器103提供的语音信号进行处理。EMG传感器103可以经由数据连接104与语音到文本转换模块连接,该数据连接104可以被实现为无线通信链接或有线通信链接。EMG传感器103可以与安装有语音到文本转换模块和视线跟踪装置的外壳102分开地设置。

如上面参照图1至图9所描述的,可以实现便携式电子设备91的附加特征和操作。

图11是根据实施方式的便携式电子设备111的视图。便携式电子设备111包括手持式装置112和与手持式装置112分离的穿戴式装置113。语音到文本转换模块和视线跟踪装置可以在便携式电子设备111中被设置在单独的装置中。语音到文本转换模块可以被安装在手持式装置112中并且可以如上文参照图1至图9所解释地进行操作。

通过语音到文本转换模块生成的文本可以在穿戴式装置113处进行显示。穿戴式装置113可以特别是头戴式装置。头戴式装置113可以包括通过语音到文本转换生成的文本可以被输出给用户的显示表面。穿戴式装置113可以通过接口114从语音到文本转换模块接收文本,该接口114可以是无线接口。穿戴式装置113的处理装置115可以选择性地激活使得用户对在穿戴式装置113处显示的文本进行编辑的文本编辑功能。

图12是根据实施方式的便携式电子设备的框图表示120。尽管为了更加清楚在图12中示出了单独的功能框图,多个功能框图可以被组合成一个物理单元。

便携式电子设备具有用于跟踪显示器上的眼睛视线方向的跟踪模块121。便携式电子设备可以具有用于例如通过计算热图来对所跟踪的眼睛视线方向进行处理的评估模块122。

便携式电子设备具有语音到文本转换模块123。语音到文本转换模块123可以进行操作以将表示说出的话语的语音信号转换成文本表示。语音信号可以表示通过麦克风获取的声音信号、通过EMG传感器获取的电信号、和/或通过图像传感器获取的视觉数据。语音到文本转换模块123可以访问词典124和/或语法规则125用于将语音信号转换成文本。语音到文本转换模块123还可以进行操作以确定针对文本的字和/或字间间隔的分值。分值可以对发生文本编辑功能的可能性进行量化。分值可以指示语音信号是否不能够唯一地被分配给词典124中的一个词典字。针对字的分值可以指示语音到文本转换是否识别出也能够与语音信号相关联的另选词典字。针对字间间隔的分值可以指示插入标点符号或其它特殊字符的概率。

便携式电子设备可以包括显示器控制126。显示器控制126可以控制显示器输出通过语音到文本转换模块123生成的文本。

便携式电子设备可以包括设置模块127,该设置模块127用于设置用户必须注视的以激活文本编辑功能的激活区域的尺寸和位置。设置模块127可以根据与字或字间间隔相关联的分值来分别可选地设置激活区域的尺寸。

便携式电子设备可以包括对文本编辑功能的激活进行控制的激活模块128。激活模块128可以基于所跟踪的眼睛视线方向被触发以激活文本编辑功能。如果热图数据指示用户的视线的停留时间超过阈值,则激活模块128可以激活文本编辑功能用于对字或字间间隔进行编辑。阈值可以可选地取决于被分配给相应字或字间间隔的分值。

便携式电子设备包括使得用户对通过语音到文本转换模块123生成的文本进行编辑的文本编辑功能129。文本编辑功能129可以通过激活模块128选择性地进行激活。可以使用用户的眼睛视线方向来控制文本编辑功能129的针对文本的至少部分的激活。文本编辑功能129可以对眼睛视线方向做出响应并且可以使得用户通过基于眼睛视线方向的控制来从多个可能的编辑动作当中进行选择。

在任何一种的便携式电子设备和方法中,视线跟踪装置可以通过常规方式(例如,通过专用用户输入)来进行启动或者自动启动。

在任何一种的便携式电子设备和方法中,视线跟踪装置可以选择性地仅响应于语音到文本转换模块的输出被启动,以跟踪眼睛视线方向。为了例示,当在语音到文本转换中识别出预定数量的错误时,视线跟踪装置可以被触发进行操作。这些错误可以是无法被分配给词典字的字和/或存在需要消除歧义的歧义的字。预定数量的错误可以是一个错误。预定数量的错误可以大于一个,所以文本编辑功能的基于眼睛视线的控制仅当需要校正多个错误时才选择性地被启动。

图13是根据实施方式的方法130的流程图。可以通过根据实施方式的便携式电子设备来执行方法130。

在方法130中,在步骤131执行语音到文本转换。在步骤132显示所生成的文本。可以根据参照上文图1至图12所描述的技术中的任何一种技术来实现这些步骤。

在步骤133,确定是否发生用于激活视线跟踪装置的触发事件。该触发事件可以取决于语音到文本转换的输出。该触发事件可以取决于多个潜在错误和/或通过语音到文本转换模块识别的曲解。如果未检测到触发事件,则在步骤131继续语音到文本转换。

在步骤134,如果在步骤133检测到触发事件,则激活视线跟踪装置以跟踪眼睛视线方向。在步骤135,可以基于所跟踪的眼睛视线方向来选择性地激活并控制文本编辑功能。可以根据参照上文图1至图12中所描述的技术中的任何一种技术来实现眼睛视线方向的跟踪和文本编辑功能的基于所跟踪的眼睛视线方向的控制。可以在步骤131继续语音到文本转换。

对文本编辑功能的激活的控制可以包括确定是否要将仅一个或超过一个的字插入到文本中。如将参照图14至图16进行描述的,是否要将一个或超过一个的字插入到文本中的该决定在各种实施方式的任何一种实施方式中可以基于眼睛视线方向进行控制。

图14是根据实施方式的方法140的流程图。可以通过根据实施方式的便携式电子设备来执行方法140。在方法140中,可以使用眼睛视线方向来确定仅一个字或超过一个的字是否被插入到文本中,该确定是通过眼睛视线方向进行控制的。

在步骤141,视线跟踪装置跟踪眼睛视线方向。

在步骤142,使用文本编辑功能将一个字插入到通过语音到文本转换模块生成的文本中。文本编辑功能可以基于眼睛视线方向进行激活或者可以甚至通过触摸进行激活用于插入该字。

在步骤143,使用眼睛视线方向来确定是否要插入至少一个其它字。为了例示,用户可以通过将眼睛视线指向在显示器的特定区域上来继续在文本中的所选择的位置处插入字。当用户的眼睛视线保持为大致指向要插入字的位置时,用户可以通过继续其口述来继续在所选择的位置处插入字。由于注视点可能在显示器上方高速徘徊,注视点离开通过所继续的口述插入字的区域的事实不一定是指在所选择的位置处插入超过一个的字被终止。

通过将眼睛视线方向用于对是否激活文本编辑功能以用于插入仅一个字或者用于插入超过一个的字进行控制,可以使迈达斯问题得到缓解。

图15和图16是例示了根据实施方式的便携式电子设备的操作的视图,其中,眼睛视线方向可以用于对是否激活文本编辑功能以用于插入仅一个字或者用于插入超过一个的字进行控制。可以针对显示器上的区域151来激活文本编辑功能。如上所述的,该激活可以通过眼睛视线来完成,或者甚至通过触摸来完成。用户可以口述一个字。如果用户的眼睛视线在区域151上的停留时间满足预定的标准,则用户可以继续口述字用于插入在文本中的所选择位置处。用户的眼睛视线不需要被永久地固定在区域151上。用于确定用户是否可以继续插入其它字的标准可以使得用户的眼睛视线方向离开区域151。区域151的尺寸和/或位置还可以在用户继续在原文本的同一位置处插入更多字时进行调整。

尽管便携式电子设备以及控制便携式电子设备的方法已经参照附图进行了描述,在进一步的实施方式中可以实现修改和变换。为了进行例示而不是限制,尽管已经描述了视线跟踪装置的示例性实施,还可以使用其它或附加传感器元件。为了例示,可以提供专用传感器用于跟踪眼睛视线方向。专用传感器可以是检测红外光的反射以建立眼睛视线方向的红外传感器。视线跟踪装置可以是,但不是必须是,在可见光谱范围内敏感的传感器。

为了进一步例示,尽管便携式电子设备可以是手持式装置或头戴式装置,便携式电子设备还可以具有其它配置。

便携式电子设备的示例可以被配置为如文本中描述的包括但不限于移动电话、无绳电话、个人数字助理(PDA)、头戴式显示器等。

尽管本发明已经参照特定优选实施方式进行了示出和描述,但本领域技术人员通过阅读并理解本说明书,将想到等同物和修改。本发明包括全部的这些等同物和修改,并且只由随附权利要求的范围限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1