信息处理设备、信息处理方法和程序与流程

文档序号:15308029发布日期:2018-08-31 21:19阅读:176来源:国知局

本公开内容涉及信息处理设备、信息处理方法和程序。



背景技术:

近来,已经存在对由麦克风收集的声音信息执行语音识别处理以从声音信息中获得语音识别处理结果的技术(例如,参见专利文献1)。在一个示例中,通过语音识别处理获得的语音识别处理结果由语音输出设备以预定语音输出模式输出。

引用列表

专利文献

专利文献1:jp2000-285063a



技术实现要素:

技术问题

然而,用户难以仅通过收听语音识别处理结果来了解语音识别处理的准确度。因此,理想的是提供一种能够使收听语音识别处理结果的用户了解语音识别处理的准确度的技术。

问题的解决方案

根据本公开内容,提供了一种信息处理设备,包括:信息获取单元,其被配置成获取与对基于声音收集的声音信息的语音识别处理的准确度有关的信息;以及输出控制单元,其被配置成基于与语音识别处理的准确度有关的信息来控制语音识别处理结果的语音输出模式。

根据本公开内容,提供了一种信息处理方法,包括:获取与对基于声音收集的声音信息的语音识别处理的准确度有关的信息;以及由处理器基于与语音识别处理的准确度有关的信息来控制语音识别处理结果的语音输出模式。

根据本公开内容,提供了一种用于使计算机用作信息处理设备的程序,该信息处理设备包括:信息获取单元,其被配置成获取与对基于声音收集的声音信息的语音识别处理的准确度有关的信息;以及输出控制单元,其被配置成基于与语音识别处理的准确度有关的信息来控制语音识别处理结果的语音输出模式。

发明的有益效果

根据如上所述的本公开内容,提供了能够使收听语音识别处理结果的用户能够了解语音识别处理的准确度的技术。注意,上述效果不一定是限制性的。利用或代替上述效果,可以实现本说明书中描述的效果中的任何一种效果或者可以从本说明书掌握的其他效果。

附图说明

图1是示出根据本公开内容的实施方式的信息处理系统的功能配置示例的框图。

图2是示出根据本实施方式的通信系统的配置示例的图。

图3是为了描述信息处理系统的概要而示出的图。

图4是示出与噪声音量和话语音量对应的语音输出速度的示例的图。

图5是示出与话语长度和话语音量对应的语音输出速度的示例的图。

图6是示出与置信度水平和话语音量对应的语音输出速度的示例的图。

图7是示出与存在或不存在噪声音量和话语音量对应的前缀的示例的图。

图8是示出与存在或不存在话语长度和话语音量对应的前缀的示例的图。

图9是示出与置信度水平和话语音量对应的语音输出速度的示例的图。

图10是示出文本量与语音输出速度之间的关系的示例的图。

图11是示出与存在或不存在文本的字体大小和观看距离对应的语音输出的示例的图。

图12是示出与存在或不存在视线保持对应的存在或不存在语音输出的示例的图。

图13是为了描述在检测到输入开始触发的情况下开始输入模式的示例的概要而示出的图。

图14是为了描述在获得语音识别处理结果之后开始输入模式的示例的第一概要而示出的图。

图15是为了描述在获得语音识别处理结果之后切换输入模式的示例的第二概要而示出的图。

图16是为了描述在文本输入模式之后激活符号输入模式的示例而示出的图。

图17是为了描述在文本输入模式之后激活符号输入模式和命令输入模式的示例而示出的图。

图18是为了描述其中最初激活文本输入模式或符号输入模式的示例而示出的图。

图19是为了描述其中最初激活文本输入模式或符号输入模式的示例而示出的图。

图20是为了描述其中基于先前发送或接收的消息的内容来自动激活符号输入模式的示例而示出的图。

图21是为了描述其中不基于先前发送或接收的消息的内容来自动激活符号输入模式的示例而示出的图。

图22是为了描述基于控制器的操作频率来控制是否自动激活命令输入模式的示例而示出的图。

图23是为了描述基于用户的情绪信息来控制是否自动激活符号输入模式的示例而示出的图。

图24是示出话语画面的修改例的图。

图25是示出在基于用户的话语来执行文本输入的情况下话语画面的示例的图。

图26是示出在基于用户的话语来执行符号输入的情况下话语画面的示例的图。

图27是示出信息处理系统的硬件配置示例的框图。

具体实施方式

在下文中,将参照附图详细描述本公开内容的一个或更多个优选实施方式。在本说明书和附图中,具有基本相同的功能和结构的结构元件用相同的附图标记表示,并且省略对这些结构元件的重复说明。

注意,在本说明书和附图中,具有基本相同的功能和结构的结构元件有时在相同的附图标记之后使用不同的编号来彼此区分。但是,当不需要特别区分具有基本相同的功能和结构的结构元件时,仅附上相同的附图标记。

另外,以下面的顺序给出描述。

1.本公开内容的实施方式

1.1.系统配置示例

1.2.功能配置示例

1.3.信息处理系统的功能细节

1.4.硬件配置示例

2.结论

<1.本公开内容的实施方式>

[1.1.系统配置示例]

参照附图描述根据本公开内容的实施方式的通信系统的配置示例。图2是示出根据本公开内容的实施方式的通信系统的配置示例的图。如图2中所示,根据本实施方式的通信系统被配置成包括信息处理系统10-1和信息处理系统10-2。信息处理系统10-1和信息处理系统10-2中的每一个被配置成包括图像输入单元110、操作输入单元115、生物信息输入单元118、声音收集单元120、显示单元130、声音输出单元150以及信息处理设备(在下文中也称为“控制单元”)140。

信息处理系统10-1中的信息处理设备140可以经由通信网络931与信息处理系统10-2中的信息处理设备140进行通信。另外,在信息处理系统10中,图像输入单元110、声音收集单元120和声音输出单元150被设置在显示单元130的边框上。然而,不限制设置图像输入单元110、声音收集单元120和声音输出单元150的位置。图像输入单元110、声音收集单元120和声音输出单元150可以被设置在除显示单元130中的边框之外的位置处,或者可以被设置在除显示单元130之外的位置(例如,操作输入单元115)处,并且由声音收集单元120收集的声音信息可以被发送到信息处理设备140。在一个示例中,声音收集单元120和声音输出单元150可以被设置在与显示单元130等分离的设备(例如,头戴式耳机等)上。

而且,在图2中所示的示例中,信息处理设备140是游戏控制台,但是信息处理设备140的形式不限于游戏控制台。在一个示例中,信息处理设备140可以是智能手机、移动电话、平板终端或个人计算机(pc)。另外,在图2中所示的示例中,显示单元130以电视机的形式给出,但是显示单元130的形式不限于电视机。在以下描述中,本文中使用术语语音(或话音)和声音来区分彼此。

以上描述了根据本实施方式的通信系统的配置示例。

[1.2.功能配置示例]

然后,描述根据本实施方式的信息处理系统10的功能配置示例。图1是示出根据本实施方式的信息处理系统10的功能配置示例的框图。如图1中所示,信息处理系统10被配置成包括图像输入单元110、操作输入单元115、生物信息输入单元118、声音收集单元120、通信单元125、显示单元130、声音输出单元150和控制单元140。

图像输入单元110具有输入图像的功能。在一个示例中,图像输入单元110包括摄像机相机,并且接受由摄像机捕获的图像作为输入。图像输入单元110中包括的摄像机的数目不限于特定数目,只要是一个或更多个即可。图像输入单元110中包括的一个或更多个摄像机中的每一个被设置的位置也不限于特定位置。另外,一个或更多个摄像机的示例可以包括单目摄像机或立体摄像机。

操作输入单元115具有输入用户的操作的功能。在一个示例中,操作输入单元115可以包括游戏控制台的控制器。另外,操作输入单元115可以具有输入用户的操作的功能,因此操作输入单元115可以包括触摸面板。触摸面板采用的类型的示例可以包括但不限于静电电容式、电阻膜式、红外式或超声波式。另外,操作输入单元115可以被配置成包括摄像机。

生物信息输入单元118具有输入用户的生物信息的功能。在一个示例中,在生物信息输入单元118设置有压力传感器的情况下,能够使用压力传感器将由用户抓握的控制器的抓握压力作为生物信息进行输入。另外,在生物信息输入单元118设置有心跳传感器的情况下,能够使用心跳传感器将用户的心跳作为生物信息进行输入。另外,在生物信息输入单元118设置有排汗传感器的情况下,能够使用排汗传感器将用户的排汗速率作为生物信息进行输入。而且,在本实施方式中,主要描述了生物信息输入单元118被设置在游戏控制台的控制器中的情况,但是生物信息输入单元118可以被设置在可穿戴式设备中。

声音收集单元120具有通过声音收集获得声音信息的功能。如参照图2所描述的,声音收集单元120可以被设置在显示单元130的边框上,但是可以被设置在除显示单元130中的边框之外的位置处,或者可以被设置在除显示单元130之外的位置(例如,操作输入单元115)处。声音收集单元120中包括的麦克风的数目不限于特定数目,只要是一个或更多个即可。另外,声音收集单元120中包括的一个或更多个麦克风中的每一个被设置的位置也不限于特定位置。

然而,在声音收集单元120设置有多个麦克风的情况下,可以基于通过多个麦克风中的每一个的声音收集而获得的声音信息来估计声音的到达方向。替选地,在声音收集单元120设置有定向麦克风的情况下,可以基于通过定向麦克风的声音收集而获得的声音信息来估计声音的到达方向。

控制单元140执行信息处理系统10中的每个部件的控制。如图1中所示,控制单元140被配置成包括信息获取单元141、语音识别单元142、输出控制单元143和输出单元144。稍后将描述这些功能块中的每一个的细节。另外,控制单元140可以由例如中央处理单元(cpu)构成。在信息处理设备140由诸如cpu的处理设备构成的情况下,处理设备可以由电子电路构成。

通信单元125具有与另一信息处理系统10通信的功能。在一个示例中,通信单元125由通信接口构成。在一个示例中,通信单元125可以经由通信网络931与另一个信息处理系统10通信(图2)。

显示单元130具有显示画面的功能。在一个示例中,显示单元130可以是液晶显示器、有机电致发光(el)显示器或头戴式显示器(hmd)。然而,显示单元130可以是其他形式的显示器,只要其具有显示画面的功能即可。

声音输出单元150具有输出声音信息的功能。在一个示例中,声音输出单元150可以是扬声器、头戴式耳机或耳机。然而,声音输出单元150可以是其他形式的声音输出设备,只要其具有输出声音信息的功能即可。

以上描述了根据本实施方式的信息处理系统10的功能配置示例。

[1.3.信息处理系统的功能细节]

然后,详细描述信息处理系统10的功能。图3是为了描述信息处理系统10的概要而示出的图。参照图3,其上显示由控制单元140再现的视频图像的视频图像显示画面131位于显示单元130中。此处,控制单元140被设想为游戏控制台,并且因此在视频图像显示画面131上显示的视频图像是游戏应用中包括的视频图像。

另外,如图3中所示,由控制单元140执行用于使信息处理系统10-1的用户u1能够与信息处理系统10-2的用户聊天的聊天应用,并且由显示单元130显示其执行画面作为聊天画面134。具体地,对包括用户u1的话语的声音信息的语音识别处理结果和对包括信息处理系统10-2的用户的话语的声音信息的语音识别处理结果被显示在聊天画面134上。

在这点上,语音识别处理结果可以是通过对声音信息执行语音识别处理而获得的单字符数据或者其中排列有多个字符的字符串数据。替选地,语音识别处理结果可以是由系统读出以这种方式获得的单字符数据或字符串数据的结果。给出通过使用“文本”和“文本读出结果”的以下描述作为语音识别处理结果的示例。

另一方面,显示单元130还具有识别结果画面133,在该识别结果画面133上显示作为对由信息处理系统10-1的声音收集单元120收集的声音信息的语音识别处理结果的示例的文本。识别结果画面133被包括在话语画面135中,并且话语画面135具有用于开始语音识别处理的语音识别处理开始按钮132。在本实施方式中,主要描述语音识别处理开始按钮132是图形用户界面(gui)按钮的示例,但是语音识别处理开始按钮132可以是硬件按钮(例如,包括在按钮操作输入单元115中的硬件按钮)。当用户u1执行用于选择语音识别处理开始按钮132的操作(在下文中也称为“识别开始操作”)时,使用操作输入单元115输入识别开始操作,信息获取单元141获取由声音收集单元120收集的声音信息,并且语音识别单元142开始对声音信息进行声音识别处理。在这种情况下,用户u1开始说话。

另外,在本实施方式中,声音收集单元120收集的信号被称为声音信息,但声音信息可以是通过对由声音收集单元120收集的信号执行一些信号处理任务而获得的信号。然后,如果通过由语音识别单元142执行语音识别处理来获得文本tx-10,则输出单元144将文本tx-10输出到显示单元130。显示单元130将由输出单元144输出的显示文本tx-10显示在识别结果画面133上。

在图3中所示的示例中,作为关于由信息处理系统10-1的声音收集单元120收集的声音信息的语音识别处理结果的示例,用户u1说出了“let’splaygame.”,而文本tx-10“et’splaygame.”被显示在识别结果画面133上。另外,由输出控制单元143读出文本tx-10“et’splaygame.”,并且由声音输出单元150输出文本tx-10的读出结果。

另外,用于结束语音识别处理的语音识别处理结束按钮136被显示在识别结果画面133上。当用户u1执行用于选择语音识别处理结束按钮136的操作(在下文中也称为“识别结束操作”)时,使用操作输入单元115输入识别结束操作,语音识别单元142结束语音识别处理,并且输出控制单元143使文本tx-10被添加到聊天画面134。另外,文本tx-10被发送到信息处理系统10-2中的控制单元140,并且被显示在信息处理系统10-2中的聊天画面上。

[1.3.1.了解语音识别处理的准确度]

此处,用户u1难以仅通过收听文本tx-10“et’splaygame.”的读出结果来了解语音识别处理的准确度。具体地,文本tx-10“et’splaygame.”与用户u1的话语内容“let’splaygame.”不同,但是用户u1难以了解降低的语音识别处理的准确度。具体地,当用户u1专注于视频图像显示画面131时,用户不方便检查语音识别处理是否被正常执行。因此,理想的是提供使收听语音识别处理结果的用户u1能够了解语音识别处理的准确度的技术。

具体地,在本公开内容的实施方式中,信息获取单元141获取与关于对声音信息的语音识别处理的准确度有关的信息。另外,输出控制单元143基于与语音识别处理的准确度有关的信息来读出文本tx-10并且控制文本tx-10的读出结果的语音输出模式。然后,输出单元144将在受控的语音输出模式下获得的读出结果输出到声音输出单元150。声音输出单元150输出从输出单元144输出的读出结果。

以这种方式,在本公开内容的实施方式中,基于与语音识别处理的准确度有关的信息来控制文本tx-10的读出结果的语音输出模式。这样的配置使得用户u1可以凭借文本tx-10的读出结果的语音输出模式来了解语音识别处理的准确度。

另外,给出针对每个句子执行语音输出模式的控制的情况的以下描述作为示例,但是对语音输出模式进行控制的单位不被具体限制。在一个示例中,可以针对每个词语或短语来执行对语音输出模式的控制。

此处,与语音识别处理的准确度有关的信息不被具体限制。在一个示例中,与语音识别处理的准确度有关的信息可以包括与由声音收集单元120收集的声音信息中包括的用户u1的话语有关的信息。与用户u1的话语有关的信息可以包括以下中的至少一个:由声音收集单元120收集的声音信息中包括的用户u1的话语音量、用户u1的话语清晰度和用户u1的话语长度。

替选地,与语音识别处理的准确度有关的信息可以包括与和由声音收集单元120收集的声音信息中包括的用户u1的话语对应的噪声有关的信息。与噪声有关的信息可以包括在由声音收集单元120收集的声音信息中包括的噪声音量。

另外,文本tx-10的读出结果的语音输出模式也不被具体限制。在一个示例中,文本tx-10的读出结果的语音输出模式可以包括由声音输出单元150对文本tx-10的读出结果的语音输出速度。下面将描述其具体示例。

图4是示出与噪声音量和话语音量对应的语音输出速度的示例的图。此处,与噪声音量小于用于噪声音量确定的阈值的情况相比,在噪声音量小于用于噪声音量确定的阈值的情况下,认为语音识别处理的准确度较低。因此,在这种情况下,输出控制单元143优选地降低语音输出速度,使得用户u1可以容易地了解文本tx-10的读出结果。另一方面,在噪声音量大于用于噪声音量确定的阈值的情况下,输出控制单元143优选地提高语音输出速度,以更早地完成文本tx-10的读出。

另外,与话语音量大于用于话语音量确定的阈值的情况相比,在话语音量小于用于话语音量确定的阈值的情况下,认为语音识别处理的准确度较低。因此,在这种情况下,输出控制单元143优选地降低语音输出速度,使得用户u1可以容易地了解文本tx-10的读出结果。另一方面,在话语音量大于用于话语音量确定的阈值的情况下,输出控制单元143优选地提高语音输出速度,以更早地完成文本tx-10的读出。

如图4中所示,在话语音量的预定部分(在图4中所示示例中话语音量大于用于话语音量确定的阈值的部分)中,与噪声音量小于用于噪声音量确定的阈值的情况相比,在噪声音量大于用于噪声音量确定的阈值的情况下,认为语音识别处理的准确度较低。因此,在这种情况下,输出控制单元143优选地降低语音输出速度,使得用户u1可以容易地了解文本tx-10的读出结果。

图5是示出与话语长度和话语音量对应的语音输出速度的示例的图。此处,与话语长度长于用于话语长度确定的阈值的情况相比,在话语长度短于用于话语长度确定的阈值的情况下,认为语音识别处理的准确度较低。因此,在这种情况下,输出控制单元143优选地降低语音输出速度,使得用户u1可以容易地了解文本tx-10的读出结果。另一方面,在话语音量大于用于话语音量确定的阈值的情况下,输出控制单元143优选地提高语音输出速度,以更早地完成文本tx-10的读出。

如图5中所示,在话语音量的预定部分(在图5中所示示例中话语音量大于用于话语音量确定的阈值的部分)中,与话语长度长于用于话语长度确定的阈值的情况相比,在话语长度短于用于话语长度确定的阈值的情况下,认为语音识别处理的准确度较低。因此,在这种情况下,输出控制单元143优选地降低语音输出速度,使得用户u1可以容易地了解文本tx-10的读出结果。

另外,尽管未示出,但可以以与话语音量和话语长度类似的方式来处理话语清晰度。换言之,与话语清晰度大于用于话语清晰度确定的阈值的情况相比,在话语清晰度小于用于话语清晰度确定的阈值的情况下,认为语音识别处理的准确度较低。因此,在这种情况下,输出控制单元143优选地降低语音输出速度,使得用户u1可以容易地了解文本tx-10的读出结果。另一方面,在话语清晰度大于用于话语清晰度确定的阈值的情况下,输出控制单元143优选地提高语音输出速度,以更早地完成文本tx-10的读出。

另外,与语音识别处理的准确度有关的信息可以包括语音识别处理结果的置信度水平。在一个示例中,从语音识别单元142获取该置信度水平。图6是示出与置信度水平和话语音量对应的语音输出速度的示例的图。如图6中所示,与置信度水平高于用于置信度水平确定的阈值的情况相比,在置信度水平低于用于置信度水平确定的阈值的情况下,认为语音识别处理的准确度较低。因此,在这种情况下,输出控制单元143优选地降低语音输出速度,使得用户u1可以容易地了解文本tx-10的读出结果。另一方面,在置信度水平高于用于置信度水平确定的阈值的情况下,输出控制单元143优选地提高语音输出速度,以更早地完成文本tx-10的读出。

另外,在图4至6中所示的示例中,通过由输出控制单元143设置文本tx-10的正常读出速度作为基准,根据语音输出速度是读出速度的多少倍来指示语音输出速度。然而,作为基准的读出速度不限于这种情况。在一个示例中,作为基准的读出速度可以是考虑到用户u1的话语速度的读出速度。替选地,作为基准的读出速度可以是考虑到用户u1通过聊天与其他用户交互的频率的读出速度。另外,语音输出速度不限于语音输出速度是作为基准的读出速度的多少倍。

在以上描述中,语音输出速度被用作语音输出模式的示例,但是语音输出模式不限于该示例。在一个示例中,语音输出模式可以包括在文本tx-10的读出结果的语音输出之前输出的输出语音的类型(在下文中也称为“前缀”)。换言之,输出控制单元143可以基于与话语处理结果的准确度有关的信息来控制前缀的类型。对前缀类型没有具体限制,具体地,可以使用词语(例如,检查,待确认,警告等)或声音(例如,声音效果的类型,发出音效的次数等)来吸引用户u1的注意力。

另外,以下描述假定存在两种情况作为前缀类型的示例,即前缀被附加到文本tx-10的读出结果的情况(附加了有内容的前缀的情况)以及前缀未被附加到文本tx-10的读出结果的情况(附加了没有内容的前缀的情况)。

图7是示出存在或不存在与噪声音量和话语音量对应的前缀的示例的图。此处,如上所述,与噪声音量小于用于噪声音量确定的阈值的情况相比,在噪声音量大于用于噪声音量确定的阈值的情况下,认为语音识别处理的准确度较低。因此,在这种情况下,输出控制单元143优选地将前缀附加到文本tx-10的读出结果,使得用户u1可以容易地了解文本tx-10的读出结果。另一方面,在噪声音量小于用于噪声音量确定的阈值的情况下,输出控制单元143优选地不将前缀附加到文本tx-10的读出结果,以更早地完成文本tx-10的读出。

另一方面,与话语音量大于用于话语音量确定的阈值的情况相比,在话语音量小于用于话语音量确定的阈值的情况下,认为语音识别处理的准确度较低。因此,在这种情况下,输出控制单元143优选地将前缀附加到文本tx-10的读出结果,使得用户u1可以容易地了解文本tx-10的读出结果。另一方面,在话语音量大于用于话语音量确定的阈值的情况下,输出控制单元143优选地不将前缀附加到文本tx-10的读出结果,以更早地完成文本tx-10的读出。

如图7中所示,在话语音量的预定部分(在图7中所示的示例中话语音量大于用于话语音量确定的阈值的部分)中,与噪声音量小于用于噪声音量确定的阈值的情况相比,在噪声音量大于用于噪声音量确定的阈值的情况下,认为语音识别处理的准确度较低。因此,在这种情况下,输出控制单元143优选地降低语音输出速度,使得用户u1可以容易地了解文本tx-10的读出结果。

图8是示出与存在或不存在与话语长度和话语音量对应的前缀的示例的图。此处,如上所述,与话语长度长于用于话语长度确定的阈值的情况相比,在话语长度短于用于话语长度确定的阈值的情况下,认为语音识别处理的准确度较低。因此,在这种情况下,输出控制单元143优选地将前缀附加到文本tx-10的读出结果,使得用户u1可以容易地了解文本tx-10的读出结果。另一方面,在话语长度长于用于话语长度确定的阈值的情况下,输出控制单元143优选地不将前缀附加到文本tx-10的读出结果,以更早地完成文本tx-10的读出。

如图8中所示,在话语音量的预定部分(在图8中所示的示例中话语音量大于用于话语音量确定的阈值的部分)中,与话语长度长于用于话语长度确定的阈值的情况相比,在话语长度短于用于话语长度确定的阈值的情况下,认为语音识别处理的准确度较低。因此,在这种情况下,输出控制单元143优选地将前缀附加到文本tx-10的读出结果,使得用户u1可以容易地了解文本tx-10的读出结果。

另外,尽管未示出,但可以以与话语音量和话语长度类似的方式来处理话语清晰度。换言之,如上所述,与话语清晰度大于用于话语清晰度确定的阈值的情况相比,在话语清晰度小于话语清晰度确定的阈值的情况下,认为语音识别处理的准确度较低。因此,在这种情况下,输出控制单元143优选地将前缀附加到文本tx-10的读出结果,使得用户u1可以容易地了解文本tx-10的读出结果。另一方面,在话语清晰度大于用于话语清晰度确定的阈值的情况下,输出控制单元143优选地不将前缀附加到文本tx-10的读出结果,以更早地完成文本tx-10的读出。

另外,与语音识别处理的准确度有关的信息可以包括语音识别处理结果的置信度水平。图9是示出与置信度水平和话语音量对应的语音输出速度的示例的图。如图9中所示,与置信度水平高于用于置信度水平确定的阈值的情况相比,在置信度水平低于用于置信度水平确定的阈值的情况下,认为语音识别处理的准确度较低。因此,在这种情况下,输出控制单元143优选地将前缀附加到文本tx-10的读出结果,使得用户u1可以容易地了解文本tx-10的读出结果。另一方面,在置信度水平高于用于置信度水平确定的阈值的情况下,输出控制单元143优选地不将前缀附加到文本tx-10的读出结果,以更早地完成文本tx-10的读出。

另外,与语音识别处理的准确度有关的信息可以包括文本tx-10的量。图10是示出文本tx-10的量与语音输出速度之间的关系的示例的图。在一个示例中,与文本tx-10的量小于文本量的预定阈值的情况相比,在文本tx-10的量大于文本量的预定阈值的情况下,认为读出花费很多时间,所以用户u1难以确定文本tx-10是否正常。因此,在这种情况下,如图10中所示,输出控制单元143优选地通过随着文本tx-10的量的增加而提高语音输出速度来减少读出所花费的时间。

在图10中所示的示例中,通过由输出控制单元143设置文本tx-10的正常读出速度作为基准,根据语音输出速度是读出速度的多少倍来指示语音输出速度。然而,作为基准的读出速度不限于这种情况。在一个示例中,作为基准的读出速度可以是考虑到用户u1的话语速度的读出速度。替选地,作为基准的读出速度可以是考虑到用户u1通过聊天彼此交互的频率的读出速度。另外,语音输出速度不限于语音输出速度是作为基准的读出速度的多少倍。

另外,认为用户u1说话的技能水平根据用户u1通过聊天与其他用户交互的频率而改变,并且语音识别处理的准确度也根据说话的技能水平的改变而改变。因此,输出控制单元143可以基于用户u1通过聊天与其他用户交互的频率(语音识别处理的执行频率)来控制语音输出模式。

在一个示例中,输出控制单元143可以基于用户u1通过聊天与其他用户交互的频率(语音识别处理的执行频率)来控制文本tx-10的读出结果的语音输出速度。在一个示例中,输出控制单元143可以在用户u1通过聊天与其他用户交互的频率(语音识别处理的执行频率)较大时降低文本tx-10的读出结果的语音输出速度。

替选地,输出控制单元143可以根据用户u1通过聊天与其他用户交互的频率(语音识别处理的执行频率)来控制前缀的类型。在一个示例中,在用户u1通过聊天与其他用户交互的频率(语音识别处理的执行频率)小于用于执行频率确定的阈值的情况下,输出控制单元143优选地将前缀附加到文本tx-10的读出结果。另一方面,在用户u1通过聊天与其他用户交互的频率(语音识别处理的执行频率)大于用于执行频率确定的阈值的情况下,输出控制单元143优选地不将前缀附加到文本tx-10的读出结果。

以上给出了对基于与语音识别处理的准确度有关的信息来控制文本tx-10的读出结果的语音输出模式的示例的描述。然而,输出控制单元143可以基于使用文本tx-10的内容的类型来控制语音输出模式。在一个示例中,与使用文本tx-10的内容是聊天应用的情况相比,在使用文本tx-10的内容是网络内容的情况下,存在需要文本tx-10的读出结果的更大的可能性(例如,在网络内容中执行与文本tx-10对应的搜索的情况下,语音识别处理的准确度需要更高),所以输出控制单元143优选地降低tx-10的读出结果的语音输出速度。

另外,输出控制单元143可以基于与用户u1有关的信息来控制语音输出模式。此处,与用户u1有关的信息不被具体限制,但是可以包括以下中的至少一个:用户u1的行为信息、用户u1的姿势信息、用户u1的设置信息、用户u1周围的环境信息、用户u1的生物信息以及用户u1的情绪信息。另外,在下文中,直接使用用户u1的生物信息和用户u1的情绪信息,但是用户u1的生物信息和情绪信息可以被一次转换成用户u1的专注度,以用作用户u1的专注度。

此处,用户u1的行为信息不被具体限制。在一个示例中,在可以获取用户u1的位置信息的情况下,用户u1的行为信息是通过分析用户u1的位置信息而获得的用户u1的行为识别结果(例如,静止状态、步行状态、跑步状态、爬楼梯状态和汽车驾驶状态),或者可以是通过分析用户u1的位置信息而获得的用户u1的移动速度。

在一个示例中,认为在用户u1静止的状态下以及在用户u1正在步行的状态下,说话正常进行并且语音识别处理的准确度被提高,所以输出控制单元143优选地使文本tx-10的读出结果不被输出。另一方面,在用户u1正在跑步的状态下,认为说话不会正常进行,并且语音识别处理的准确度被降低,所以输出控制单元143优选地使文本tx-10的读出结果被输出。

如果将加速度计附着到用户u1的身体,则基于由加速度计检测到的加速度来获取用户u1的姿势信息。在示例中,当用户u1的姿势越来越倾斜时,认为说话未正常进行,并且语音识别处理的准确度降低。因此,在用户u1的姿势的倾斜度大于用于姿势确定的倾斜度的情况下,输出控制单元143可以使文本tx-10的读出结果被输出。另一方面,在用户u1的姿势的倾斜度不大于用于姿势确定的倾斜度的情况下,输出控制单元143优选地使文本tx-10的读出结果不被输出。

当由用户u1选择该语音输出模式改变操作并且用操作输入单元115输入时,基于预定的语音输出模式来设置用户u1的设置信息。语音输出模式改变操作不被具体限制,但是在一个示例中,语音输出模式改变操作可以是选择语音输出模式改变按钮(未示出)的操作。

用户u1周围的环境信息可以通过分析由图像输入单元110输入的图像来获得,或者可以通过分析由声音收集单元120收集的声音信息来获得。在一个示例中,用户u1周围的环境信息可以是指示用户u1周围是否有人的信息。在这种情况下,与用户u1周围没有人的情况相比,在用户u1周围有人的情况下,存在用户u1希望较早完成文本tx-10的读出的可能性,所以输出控制单元143优选地提高语音输出速度。

另外,在一个示例中,用户u1周围的环境信息可以是用户u1周围的照度。在这种情况下,在用户u1周围的照度低于用于照度确定的阈值的情况下,可能难以进行文本tx-10的视觉识别,因此输出控制单元143优选地使文本tx-10的读出结果被输出。另一方面,在用户u1周围的照度高于用于照度确定的阈值的情况下,可能容易在视觉上识别文本tx-10,所以输出控制单元143优选地使读出结果文本tx-10不被输出。

用户u1的生物信息可以以任何方式获得。在一个示例中,用户u1的生物信息可以通过生物信息输入单元118输入。通过生物信息输入单元118输入的用户u1的生物信息不被具体限制,并且可以包括以下中的至少一个:用户u1施加到控制器的抓握力、用户u1的排汗以及用户u1的心跳。另外,用户u1的生物信息包括用户u1的以下生物信息中的至少一个:体温、呼吸频率、眨眼频率、眼球运动、注视持续时间、瞳孔直径尺寸、血压、脑波、身体运动、身体姿势、皮肤温度、皮肤电阻、微振动(mv)、肌电位和spo2(血氧饱和度)。

在示例中,在抓握力小于用于抓握力确定的阈值的情况下,认为说话正常进行并且语音识别处理的准确度被提高,所以输出控制单元143优选地使文本tx-10的读出结果不被输出。另一方面,在抓握力大于用于抓握力确定的阈值的情况下,认为说话未正常进行并且语音识别处理的准确度被降低,因此输出控制单元143优选地使文本tx-10的读出结果被输出。

在另一示例中,在排汗小于用于排汗确定的阈值的情况下,认为说话正常进行并且语音识别处理的准确度被提高,所以输出控制单元143优选地使文本tx-10的读出结果不被输出。另一方面,在排汗大于用于排汗确定的阈值的情况下,认为说话未正常进行并且语音识别处理的准确度被降低,所以输出控制单元143优选使文本tx-10的读出结果被输出。

在另一示例中,在心率小于用于心跳确定的阈值的情况下,认为说话正常进行并且语音识别处理的准确度被提高,所以输出控制单元143优选地使文本tx-10的读出结果不被输出。另一方面,在心率大于用于心跳确定的阈值的情况下,认为说话未正常进行,并且语音识别处理的准确度被降低,所以输出控制单元143优选地使文本tx-10的读出结果被输出。

用户u1的情绪信息可以以任何方式获得。在一个示例中,可以通过由输出控制单元143分析声音信息或输入图像来获得用户u1的情绪信息。另外,用户u1的情绪信息不限于特定的一个,并且可以包括用户u1的喜悦、惊讶和愤怒中的至少一个。替选地,用户u1的情绪信息可以包括其他情绪。

在一个示例中,在用户u1的情绪信息指示人类情绪中的任何一种的情况下,认为说话未正常进行并且语音识别处理的准确度被降低,因此输出控制单元143优选地使文本tx-10的读出结果被输出。另一方面,在用户u1的情绪信息不指示人类情绪中的任何一种的情况下,认为说话正常进行并且语音识别处理的准确度被提高,因此输出控制单元143优选地使文本tx-10的读出结果不被输出。

同时,在输出控制单元143不必使输出单元144输出文本tx-10的读出结果并且满足预定条件的情况下,输出控制单元143可以以下述方式控制输出单元144:防止输出单元144以语音形式输出文本tx-10的读出结果。另一方面,在不满足预定条件的情况下,输出控制单元143可以以下述方式控制输出单元144:输出单元144以语音形式输出文本tx-10的读出结果。

此处,预定条件不被具体限制。在一个示例中,预定条件可以包括以下条件中的至少一个:与用户u1的视线有关的条件、与用户u1的位置有关的条件、文本tx-10的字体大小(显示尺寸)以及与文本tx-10的置信度水平有关的条件。用户u1的位置可以是用户u1的眼睛位置,并且从用户u1的眼睛位置到识别结果画面133上的预定位置的距离(在下文中也称为“观看距离”)通过分析由输入单元110输入的图像来获得。用户u1的视线也是通过分析由图像输入单元110输入的图像来获得。

图11是示出存在或不存在与文本tx-10的字体尺寸和观看距离对应的语音输出的示例的图。在一个示例中,与文本tx-10的字体尺寸大于用于字体大小确定的阈值的情况相比,在文本tx-10的字体尺寸小于用于字体大小确定的阈值的情况下,认为语音识别处理的准确度较低。因此,在这种情况下,输出控制单元143优选地使文本tx-10的读出结果被输出。另一方面,在文本tx-10的字体尺寸大于用于字体大小确定的阈值的情况下,输出控制单元143优选地使文本tx-10的读出结果不被输出。

另外,在一个示例中,与到识别结果画面133上的预定位置的观看距离小于预定距离的情况相比,在到识别结果画面133上的预定位置的观看距离大于预定距离的情况下,认为用户u1收听文本tx-10的读出结果的必要性较低。另一方面,在到识别结果画面133上的预定位置的观看距离大于预定距离的情况下,认为用户u1收听文本tx-10的读出结果的必要性较高。

因此,在到识别结果画面133上的预定位置的观看距离大于预定距离的情况下,输出控制单元143优选地使文本tx-10的读出结果不被输出。另一方面,在到识别结果画面133上的预定位置的观看距离小于预定距离的情况下,输出控制单元143优选地使文本tx-10的读出结果被输出。另外,识别结果画面133上的预定位置不被具体限制,而是可以是识别结果画面133的中心位置。

如图11中所示,在字体尺寸的预定部分(在图11中所示示例中字体尺寸大于用于字体尺寸确定的阈值的部分)中,与观看距离小于用于观看距离确定的阈值的情况相比,在观看距离大于用于观看距离确定的阈值的情况下,认为语音识别处理的准确度被降低。因此,在这种情况下,输出控制单元143优选地使文本tx-10的读出结果被输出,使得用户u1能够了解文本tx-10的读出结果。另一方面,在观看距离小于用于观看距离确定的阈值的情况下,输出控制单元143优选地使文本tx-10的读出结果不被输出。

图12是示出与存在或不存在视线保持对应的存在或不存在语音输出的示例的图。在一个示例中,在用户u1的视线保持在识别结果画面133中超过预定时间的情况下,认为用户u1收听文本tx-10的读出结果的必要性较低。另一方面,在用户u1的视线未保持在识别结果画面133中超过预定时间的情况下,认为用户u1收听文本tx-10的读出结果的必要性较高。

因此,如图12中所示,在用户u1的视线保持在识别结果画面133中的情况下,输出控制单元143优选地使文本tx-10的读出结果不被输出。另一方面,在用户u1的视线未保持在识别结果画面133中的情况下,输出控制单元143优选地使文本tx-10的读出结果被输出。另外,此处,执行视线是否保持在识别结果画面133中的确定,但是可以通过将识别结果画面133设置为基准来执行视线是否保持在预定区域中的确定。

另外,预定条件可以包括以下条件中的至少一个:输入了用于指示语音识别处理被用户u1重新激活的操作的条件;以及输入了用于指示语音识别处理结果被发送的操作的条件。用于指示语音识别处理被重新激活的操作不被具体限制,但是可以是对语音识别处理开始按钮132的按下并保持操作。另外,用于指示文本tx-10被发送的操作可以是上述识别结束操作。

在上文中,给出了对语音输出模式包括文本tx-10的读出结果的语音输出速度的情况以及语音输出模式包括在以语音形式输出文本tx-10的读出结果之前输出的输出语音的类型的情况的描述。但是,语音输出模式不限于这些情况。在一个示例中,语音输出模式可以包括文本tx-10的读出结果的语音输出的大小。

在一个示例中,与噪声音量小于用于噪声音量确定的阈值的情况相比,在噪声音量大于用于噪声音量确定的阈值的情况下,输出控制单元143优选地提高文本tx-10的读出结果的语音输出,使得用户u1可以容易地了解文本tx-10的读出结果。另一方面,与噪声音量大于用于噪声音量确定的阈值的情况相比,在噪声音量小于用于噪声音量确定的阈值的情况下,输出控制单元143优选地降低文本tx-10的读出结果的语音输出。

另外,与话语音量大于用于话语音量确定的阈值的情况相比,在话语音量小于用于话语音量确定的阈值的情况下,输出控制单元143优选地提高语音输出速度,使得用户u1可以容易地了解文本tx-10的读出结果。另一方面,与话语音量小于用于话语音量确定的阈值的情况相比,在话语音量大于用于话语音量确定的阈值的情况下,输出控制单元143优选地降低文本tx-10的读出结果的语音输出。

另外,与话语长度长于用于话语长度确定的阈值的情况相比,在话语长度短于用于话语长度确定的阈值的情况下,输出控制单元143优选地提高语音输出速度,使得用户u1可以容易地了解文本tx-10的读出结果。另一方面,与话语长度短于用于话语长度确定的阈值的情况相比,在话语长度长于用于话语长度确定的阈值的情况下,输出控制单元143优选地降低文本tx-10的读出结果的语音输出。

另外,与话语清晰度高于用于话语清晰度确定的阈值的情况相比,在话语清晰度低于用于话语清晰度确定的阈值的情况下,输出控制单元143优选地提高语音输出速度,使得用户u1可以容易地了解文本tx-10的读出结果。另一方面,与话语清晰度低于用于话语清晰度确定的阈值的情况相比,在话语清晰度高于用于话语清晰度确定的阈值的情况下,输出控制单元143优选地降低文本tx-10的读出结果的语音输出。

另外,与置信度水平高于用于置信度水平确定的阈值的情况相比,在置信度水平低于用于置信度水平确定的阈值的情况下,输出控制单元143优选地通过使文本tx-10的读出结果的语音输出更大来使用户u1容易地了解文本tx-10的读出结果。另一方面,与置信度水平低于用于置信度水平确定的阈值的情况相比,在置信度水平高于用于置信度水平确定的阈值的情况下,输出控制单元143优选地使文本tx-10的读出结果的语音输出更小。

另外,语音输出模式可以包括文本tx-10的读出结果的音质。此处,可以以任何方式控制文本tx-10的读出结果的音质。在示例中,输出控制单元143可以根据从由控制单元140执行的应用(例如,游戏应用)输出的声音来控制文本tx-10的读出结果的音质。

给出了对使用户u1收听文本tx-10的读出结果来了解语音识别处理的准确度的功能的以上描述。

[1.3.2.各种输入模式]

同时,给出了对以没有任何修改的格式输入作为语音识别处理结果而获得的文本的情况的以上描述。然而,在一些情况下,用户可能希望将作为语音识别处理结果而获得的文本转换成另一格式,然后将其输入。在一个示例中,在一些情况下,用户可能希望输入从作为语音识别处理结果而获得的文本转换成的符号。另外,在一些情况下,用户可能希望输入从作为语音识别处理结果而获得的文本转换成的命令。

在下文中,将以没有任何修改的格式输入作为语音识别处理结果而获得的文本的模式称为“文本输入模式”。另外,将输入从作为语音识别处理结果而获得的文本转换成的符号的模式称为“符号输入模式”。另外,将输入从作为语音识别处理结果而获得的文本转换成的命令的模式称为“命令输入模式”。另外,在文本输入模式中,可以基于如上所述的与语音识别处理的准确度有关的信息对语音识别处理结果的语音输出模式执行控制。在符号和命令输入模式中,可以执行或者可以不必执行语音识别处理结果的语音输出。

在这些情况下,在通过选择由显示单元130显示的对象来开始输入模式(文本输入模式、符号输入模式和命令输入模式)中的每一种的情况下,需要移动用户的视点到显示对象可能会给用户带来麻烦。在下文中,给出了对一种使得更易于开始输入模式中的每一种的技术的描述。

在一个示例中,在检测到预定输入开始触发时执行输入模式的开始。输入开始触发可以是对声音信息的语音识别处理的结束,或者在操作输入单元115设置有后退按钮的情况下,输入开始触发可以是按下后退按钮的操作。替选地,在操作输入单元115设置有触摸板的情况下,可以通过触摸触摸板上的预定位置的操作、使操作输入单元115倾斜超过预定角度的操作或者按下并保持操作输入单元115的按钮的操作来开始输入模式。

另外,输入模式可以在检测到输入开始触发时开始,或者可以在获得了语音识别处理结果之后执行。图13是为了描述在检测到输入开始触发时开始输入模式的示例的概要而示出的图。首先认为存在下述情况:检测到用于开始文本输入模式的文本输入开始触发并且用户说出了期望的话语。在这种情况下,输出控制单元143使识别结果画面133以没有任何修改的格式(文本输入模式m1)显示作为语音识别处理结果而获得的文本。

随后,认为存在下述情况:检测到用于开始符号输入模式的符号输入开始触发并且说出了“表情及疑问符号”。在这种情况下,输出控制单元143将作为语音识别处理结果而获得的文本“表情及疑问号”转换成符号“:)?”,并且使识别结果画面133显示符号“:)?”(符号输入模式m2)。

另一方面,认为存在下述情况:检测到用于开始命令输入模式的命令输入开始触发并且说出了“斜体字体”。在这种情况下,输出控制单元143输入用于将作为语音识别处理结果而获得的期望的文本转换成“斜体字体”的命令,并且使识别结果画面133显示被转换成“斜体字体”的期望的文本(命令输入模式m3)。

另外,图13示出了执行从文本输入模式到符号输入模式的切换以及从文本输入模式到命令输入模式的切换的示例。然而,可执行的输入模式之间的切换不限于图13中所示的示例。在一个示例中,输入模式之间的切换可以在文本输入模式、符号输入模式和命令输入模式中的任何两个输入模式之间双向地执行。

图14是为了描述在获得语音识别处理结果之后开始输入模式的示例的第一概述而示出的图。首先认为存在下述情况:检测到文本输入开始触发,并且用户在文本输入模式下说出了期望的话语。在这种情况下,语音识别单元142对期望的话语执行语音识别处理,并且输出控制单元143使作为语音识别处理结果而获得的文本以没有任何修改的格式显示在识别结果画面133上(语音识别处理结果m0)。

在这种情况下,认为存在下述情况:用户确定不必执行将作为语音识别处理结果而获得的文本转换成符号和命令。在这种情况下,当检测到文本输入开始触发时,输出控制单元143没有任何修改地确定作为语音识别处理结果而获得的文本(输入完成m4)。

图15是为了描述在获得语音识别处理结果之后在输入模式之间进行切换的示例的第二概要而示出的图。认为存在下述情况:检测到文本输入开始触发,并且用户在文本输入模式下说出期望的话语,这与图14中所示的示例类似。在这种情况下,语音识别单元142对期望的发音执行语音识别处理,并且输出控制单元143使作为语音识别处理结果而获得的文本以没有任何修改的格式显示在识别结果画面133上(语音识别处理结果m0)。

在这种情况下,认为存在下述情况:用户希望将作为语音识别处理结果而获得的文本转换成符号。在这种情况下,当检测到符号输入开始触发时,输出控制单元143将作为语音识别处理结果而获得的文本转换成与文本对应的符号(符号输入模式m2)。然后,输出控制单元143确定从文本转换的符号(输入完成m4)。另外,还可以将输入模式切换成命令输入模式而不是符号输入模式。

图16是为了描述在文本输入模式之后激活符号输入模式的示例而示出的图。首先认为存在下述情况:检测到文本输入开始触发,并且用户在文本输入模式下说出期望的话语。在这样的情况下,输出控制单元143使作为语音识别处理结果而获得的文本以没有任何修改的格式显示在识别结果画面133上(文本输入模式m1)。

随后,在语音识别处理完成的情况下,输出控制单元143自动激活符号输入模式。替选地,在检测到预定符号输入开始触发的情况下,输出控制单元143激活符号输入模式。此处,认为符号输入开始触发与文本输入开始触发相同,但是符号输入开始触发可以与文本输入开始触发不同。

随后,认为用户说出了话语“表情及疑问号”。在这种情况下,输出控制单元143将作为语音识别处理结果而获得的文本“表情及疑问号”转换成符号“:)?”,并且使符号“:)?”显示在识别结果画面133上(符号输入模式m2)。在该符号中,:)是笑脸表情。然后,当检测到预定语音识别结束触发时,输出控制单元143确定作为语音识别处理结果而获得的文本和符号“:)?”(输入完成m4)。此处,认为语音识别结束触发与文本输入开始触发相同,但是语音识别结束触发可以与文本输入开始触发不同。

图17是为了描述在文本输入模式之后激活符号和命令输入模式的示例而示出的图。如在图16中所示的示例中,作为语音识别处理结果而获得的文本以没有任何修改的格式显示在识别结果画面133上(文本输入模式m1),并且从作为语音识别处理结果而获得的文本“表情及疑问号”转换成的符号“:)?”被显示在识别结果画面133上(符号输入模式m2)。

随后,在语音识别处理完成的情况下,输出控制单元143自动激活命令输入模式。替选地,在检测到预定命令输入开始触发的情况下,输出控制单元143开始命令输入模式。此处,认为命令输入开始触发与文本输入开始触发相同,但是命令输入开始触发可以与文本输入开始触发不同。

随后,认为用户说出了“斜体字体”。在这种情况下,输出控制单元143输入用于将作为语音识别处理结果而获得的期望文本和符号“:)?”转换成“斜体字体”的命令,并且使转换成“斜体字体”的文本显示在识别结果画面133上(命令输入模式m3)。然后,当检测到预定语音识别结束触发时,输出控制单元143确定作为语音识别处理结果而获得的期望文本的“斜体字体”和符号“:)?”(输入完成m4)。

图18和图19是为了描述其中文本输入模式或符号输入模式最初被激活的示例而示出的图。如图18中所示,认为检测到文本输入开始触发并且用户在文本输入模式下说出了期望的话语。在这种情况下,语音识别单元142对期望的话语执行语音识别处理,并且输出控制单元143使作为语音识别处理结果而获得的文本以没有任何修改的格式显示在识别结果画面133上(文本输入模式m1)。

在这种情况下,认为存在下述情况:用户希望将作为语音识别处理结果而获得的文本转换成符号。在这种情况下,当检测到符号输入开始触发时,输出控制单元143将作为语音识别处理结果而获得的文本转换成与文本对应的符号(符号输入模式m2)。另一方面,认为存在下述情况:用户希望将作为语音识别处理结果而获得的文本转换成命令。在这种情况下,检测到命令输入开始触发,输出控制单元143输入与作为语音识别处理结果而获得的文本对应的命令(命令输入模式m3)。

另外,如图19中所示,认为检测到符号输入开始触发,并且用户在符号输入模式下说出期望的话语。在这种情况下,语音识别单元142对期望的话语执行语音识别处理,并且输出控制单元143将作为语音识别处理结果而获得的文本转换成符号,并且使该符号显示在识别结果画面133上(符号输入模式m2)。

在这种情况下,认为用户希望输入文本。在这种情况下,当检测到文本输入开始触发并且用户在文本输入模式中说出期望的话语时,语音识别单元142对期望的话语执行语音识别处理,并且输出控制单元143使作为语音识别处理结果而获得的文本显示在识别结果画面133上(文本输入模式m1)。另一方面,认为用户希望输入命令并且用户说出了“斜体字体”。在这种情况下,检测到命令输入开始触发,输出控制单元143使转换成“斜体字体”的符号显示在识别结果画面133上(命令输入模式m3)。

另外,输出控制单元143可以基于先前发送或接收的消息的内容(语音识别处理结果)来控制是否自动激活符号输入模式。图20是为了描述基于先前发送或接收的消息的内容来自动激活符号输入模式的示例的图。如图20中所示,认为先前发送或接收的消息包括四个符号(两个表情符号和两个感叹号),并且估计更可能执行随后的符号输入。

此处,认为检测到文本输入开始触发并且用户在文本输入模式下说出期望的话语。在这种情况下,语音识别单元142对期望的话语执行语音识别处理,并且输出控制单元143使作为语音识别处理结果而获得的文本以没有任何修改的格式显示在识别结果画面133上(文本输入模式m1)。随后,输出控制单元143基于先前发送或接收的消息来估计更可能执行随后的符号输入,并且自动激活符号输入模式。

随后,认为用户说出了“表情及疑问号”。在这种情况下,输出控制单元143将作为语音识别处理结果而获得的文本“表表情及疑问号”转换成符号“:)?”,并且使符号“:)?”显示在识别结果画面133上(符号输入模式m2)。然后,当检测到预定语音识别结束触发时,输出控制单元143确定作为语音识别处理结果而获得的文本和符号“:)?”(输入完成m4)。此处,认为语音识别结束触发与文本输入开始触发相同,但是语音识别结束触发可以与文本输入开始触发不同。

图21是为了描述不基于先前发送或接收的消息的内容来自动激活符号输入模式的示例而示出的图。如图21中所示,认为先前发送或接收的消息仅包括一个符号(只包括作为符号的一个感叹号),并且估计不太可能执行随后的符号输入。

此处,认为检测到文本输入开始触发并且用户在文本输入模式下说出了期望的话语。在这种情况下,语音识别单元142对期望的话语执行语音识别处理,并且输出控制单元143使作为语音识别处理结果而获得的文本以没有任何修改的格式显示在识别结果画面133上(文本输入模式m1)。随后,输出控制单元143基于先前发送或接收的消息来估计不太可能执行随后的符号输入,并且不自动激活符号输入模式。

随后,当检测到预定语音识别结束触发时,输出控制单元143确定作为语音识别处理结果而获得的文本(输入完成m5)。此处,认为语音识别结束触发与文本输入开始触发相同,但是语音识别结束触发可以与文本输入开始触发不同。

另一方面,认为检测到符号输入开始触发并且用户说出了“表情及疑问号”。在这种情况下,输出控制单元143将作为语音识别处理结果而获得的文本“符号”转换成符号“:)?”,并且使符号“:)?”显示在识别结果画面133上(符号输入模式m2)。然后,当检测到预定语音识别结束触发时,输出控制单元143确认作为语音识别处理结果而获得的文本和符号“:)?”(输入完成m4)。此处,认为语音识别结束触发与文本输入开始触发相同,但是语音识别结束触发可以与文本输入开始触发不同。

而且,对于基于先前发送或接收的消息的内容来确定是否自动激活符号输入模式的方法没有具体限制。在一个示例中,输出控制单元143可以根据在预定时段期间发送或接收的消息中包括的符号的数目是否超过阈值来确定是否自动激活激活输入模式。替选地,输出控制单元143可以通过对在预定时段期间发送或接收的消息应用统计处理如机器学习来确定是否自动激活符号输入模式。

另外,此处,输出控制单元143基于发送或接收的消息的内容来确定是否自动激活符号输入模式。然而,输出控制单元143可以不必基于发送的消息和接收的消息二者的内容来确定是否自动激活符号输入模式。具体地,输出控制单元143可以仅基于发送的消息的内容来确定是否自动激活符号输入模式,或者可以仅基于接收到的消息的内容来确定是否自动激活符号输入模式。

另外,输出控制单元143还可以基于操作输入单元115(例如,游戏控制台的控制器)的操作频率来控制是否自动激活命令输入模式。图22是为了描述基于控制器的操作频率来控制是否自动激活指令输入模式的示例而示出的图。如图22中所示,认为存在在最近t秒期间的控制器操作频率超过了阈值的情况以及在最近t秒期间的控制器操作频率未超过阈值的情况。

此处,认为检测到文本输入开始触发并且用户在文本输入模式下说出了期望的话语。在这种情况下,语音识别单元142对期望的话语执行语音识别处理,并且输出控制单元143使作为语音识别处理结果而获得的文本以没有任何修改的格式显示在识别结果画面133上(文本输入模式m1)。随后,输出控制单元143在检测到符号输入开始触发的情况下激活符号输入模式或者自动激活符号输入模式。

随后,认为用户说出了“表情及疑问号”。在这种情况下,输出控制单元143将作为语音识别处理结果而获得的文本“表情及疑问号”转换成符号“:)?”,并且使符号“:)?”显示在识别结果画面133上(符号输入模式m2)。

然后,在最近t秒期间的控制器操作频率超过阈值的情况下,输出控制单元143确定用户难以操作控制器,并且因此自动激活指令输入模式。此处,认为用户说出了“斜体字体”。在这种情况下,输出控制单元143输入用于将作为语音识别处理结果而获得的期望文本和符号“:)?”转换成“斜体字体”的命令,并且使转换成斜体字体的期望的文本和符号“:)?”被显示在识别结果画面133上(命令输入模式m3)。

另一方面,在最近t秒期间的控制器操作频率未超过阈值的情况下,输出控制单元143确定用户容易操作控制器,并且不自动激活命令输入模式。此处,当检测到预定语音识别结束触发时,确定作为语音识别处理结果而获得的文本和符号“:)?”(输入完成m4)。另外,即使当不是自动开始指令输入模式时,在检测到命令输入开始触发的情况下,输出控制单元143也优选地激活命令输入模式。

而且,对控制是否自动激活命令输入模式的方法没有具体限制。在一个示例中,输出控制单元143可以基于游戏的场景信息来确定是否自动激活命令输入模式。在一个示例中,在游戏的场景信息指示正在执行载入的情况下,用户不一定那么专注于游戏,所以输出控制单元143不必自动开始命令输入模式。另一方面,在游戏的场景信息指示游戏处于战斗中的情况下,预测到用户正专注于游戏,所以输出控制单元143优选地自动开始命令输入模式。

替选地,输出控制单元143可以基于用户的专注度来确定是否自动激活命令输入模式。在一个示例中,输出控制单元143优选地在专注度超过阈值的情况下自动激活命令输入模式。另一方面,在专注度未超过阈值的情况下,输出控制单元143不必自动激活命令输入模式。专注度可以基于用户的视线来估计,或者可以基于用户的生物信息(例如排汗、心跳等)来估计。

另外,输出控制单元143可以基于用户的情绪信息来控制是否自动激活符号输入模式。图23是为了描述基于用户的情绪信息来控制是否自动激活符号输入模式的示例而示出的图。如图23中所示,认为存在用户的情绪强的情况以及用户的情绪弱的情况。

此处,认为检测到文本输入开始触发并且用户在文本输入模式下说出了期望的话语。在这种情况下,语音识别单元142对期望的话语执行语音识别处理,并且输出控制单元143使作为语音识别处理结果而获得的文本以没有任何修改的格式显示在结果画面133上(文本输入模式m1)。

在这种情况下,在确定用户的情绪强于阈值的情况下,输出控制单元143估计更可能执行随后的符号输入并且自动激活符号输入模式。随后,认为用户说出了“表情及疑问号”。在这种情况下,输出控制单元143将作为语音识别处理结果而获得的文本“表情及疑问号”转换成符号“:)?”,并且使符号“:)?”显示在识别结果画面133上(符号输入模式m2)。

然后,当检测到预定语音识别结束触发时,输出控制单元143确定作为语音识别处理结果而获得的文本和符号“:)?”(输入完成m4)。此处,认为语音识别结束触发与文本输入开始触发相同,但是语音识别结束触发可以与文本输入开始触发不同。

另一方面,在确定用户的情绪弱于阈值的情况下,输出控制单元143估计不太可能执行随后的符号输入,并且不自动激活符号输入模式。随后,当检测到预定语音识别结束触发时,输出控制单元143确定作为语音识别处理结果而获得的文本(输入完成m5)。此处,认为语音识别结束触发与文本输入开始触发相同,但是语音识别结束触发可以与文本输入开始触发不同。

另外,确定用户的情绪信息的方法不被具体限制。在一个示例中,输出控制单元143可以基于由声音收集单元120收集的声音信息的分析结果来确定用户的情绪信息。在一个示例中,在由声音收集单元120收集的声音信息的语调转换大于阈值的情况下,输出控制单元143可以确定用户的情绪强于阈值。另一方面,在由声音收集单元120收集的声音信息的语调转换小于阈值的情况下,输出控制单元143可以确定用户的情绪弱于阈值。

替选地,在由声音收集单元120收集的声音信息的音量变化大于阈值的情况下,输出控制单元143可以确定用户的情绪强于阈值。另一方面,在声音收集单元120收集的声音信息的音量变化小于阈值的情况下,输出控制单元143可以确定用户的情绪比阈值弱。

另外,输出控制单元143可以基于由图像输入单元110输入的图像的分析结果来确定用户的情绪信息。在一个示例中,在从由图像输入单元110输入的图像分析的面部表情指示强烈的情绪的情况下,输出控制单元143可以确定用户的情绪强于阈值。另一方面,在从由图像输入单元110输入的图像分析的脸部表情指示弱的情绪的情况下,输出控制单元143可以确定用户的情绪弱于阈值。

下面描述话语画面135的修改例。图24是示出话语画面135的修改例的图。如图24中所示,根据修改例的话语画面135x包括指示输入符号的状态的“图标”以及指示输入文本的状态的“文本”。

图25是示出在基于用户的话语来执行文本输入的情况下的话语画面135x的示例的图。如图25中所示,在输入文本的状态下,输出控制单元143将作为语音识别处理结果而获得的文本“早上好”显示在识别结果画面133上。另外,在输入文本的状态下,输出控制单元143可以根据话语音量使附有字符串“文本”的指示符137扩大或缩小。

图25是示出在基于用户的话语进行文本输入的情况下的话语画面135x的示例的图。如图25中所示,在输入文本的状态下,输出控制单元143将作为语音识别处理结果而获得的文本显示在识别结果画面133上。另外,在输入文本的状态下,输出控制单元143可以根据话语音量使与字符串“文本”的位置对应的位置处的指示符137扩大或缩小。

图26是示出在基于用户的话语来输入符号的情况下的话语画面135y的示例的图。如图26中所示,在文本“早上好”的输入完成并且检测到符号输入开始触发的情况下,或者在符号输入模式被自动激活并且符号被输入的状态下,输出控制单元143将作为语音识别处理结果而新获得的文本“表情及疑问号”转换成符号,并且将该符号显示在识别结果画面133上。另外,在输入符号的状态下,输出控制单元143可以根据话语音量使位于与字符串“图标”的位置对应的位置处的指示符138扩大和缩小。

如上所述,可以通过使在输入文本的状态下的指示符137与在输入符号的状态下的指示符138之间的扩大方向不同来使用户直观地了解当前的输入模式。另外,可以通过使指示符137的颜色不同于指示符138的颜色来使用户直观地了解当前的输入模式。

[1.4.硬件配置示例]

现在参照图27描述根据本公开内容的实施方式的信息处理系统10的硬件配置。图27是示出根据本公开内容的实施方式的信息处理系统10的硬件配置示例的框图。

如图27中所示,信息处理系统10包括中央处理单元(cpu)901、只读存储器(rom)903和随机存取存储器(ram)905。另外,信息处理系统10可以包括主机总线907、桥接器909、外部总线911、接口913、输入设备915、输出设备917、存储设备919、驱动器921、连接端口923以及通信设备925。处理系统10可以还可以根据需要包括图像捕获设备933和传感器935。结合cpu901或者代替cpu901,信息处理系统10可以具有称为数字信号处理器(dsp)或专用集成电路(asic)的处理电路。

cpu901用作算术处理单元和控制设备,并且根据记录在rom903、ram905、存储设备919或者可移除记录介质927中的各种程序来控制信息处理系统10中的整体操作或其一部分。rom903存储例如由cpu901使用的程序和操作参数。ram905临时存储例如在由cpu901执行时要使用的程序以及在执行程序时根据需要改变的参数。cpu901、rom903和ram905经由主机总线907相互连接,主机总线907由内部总线如cpu总线构成。另外,主机总线907经由桥909连接至外部总线911如外设部件互连(pci)/接口总线。

输入设备915是例如由用户操作的设备诸如鼠标、键盘、触摸面板、按钮、开关和手柄。输入设备915可以包括用于检测用户的语音的麦克风。输入设备915可以是例如使用红外线或其他无线电波的遥控设备,或者可以是诸如符合信息处理系统10的操作的蜂窝电话的外部连接设备929。输入设备915包括输入控制电路,该输入控制电路基于由用户输入的信息来生成输入信号并且将其输出到cpu901。用户向信息处理系统10输入各种数据并且通过操作输入设备915指示信息处理系统10执行处理操作。另外,稍后将描述的图像捕获设备933还可以通过捕获用户的手或手指等的移动而用作输入设备。在这种情况下,可以根据手的运动或手指的取向来确定指向位置。

输出设备917由能够将所获取的信息通过视觉或听觉通知给用户的设备构成。输出设备917可以是诸如液晶显示器(lcd)、等离子显示面板(pdp)、有机电致发光(el)显示器和投影仪、全息图显示设备的显示设备、如扬声器和耳机的音频输出设备以及打印机设备等之类。输出设备917将通过信息处理系统10的处理而获得的结果输出为诸如文本或图像的视频,或者将其输出为诸如语音或声音的音频。另外,输出设备917可以包括例如用于照亮周围环境的灯。

存储设备919是被配置成信息处理系统10的存储部的示例的数据存储设备。存储设备919例如由诸如硬盘驱动器(hdd)的磁存储设备、半导体存储设备、光存储设备和磁光存储设备构成。存储设备919存储由cpu901执行的程序、各种数据、从外部获得的各种类型的数据等。

驱动器921是用于诸如磁盘、光盘、磁光盘和半导体存储器的可移动记录介质927的读写器,并且被结合在信息处理系统10中或者从外部附接到信息处理系统10。驱动器921读出记录在附接的可移动记录介质927中的信息并且将其输出到ram905。另外,驱动器921在附接的可移除记录介质927中进行写入。

连接端口923是用于将设备直接连接至信息处理系统10的端口。连接端口923可以是例如通用串行总线(usb)端口、ieee1394端口或小型计算机系统接口(scsi)端口。另外,连接端口923可以是例如rs-232c端口、光学音频端口或高分辨率多媒体接口(hdmi,注册商标)端口。外部连接设备929连接至连接端口923,因此可以在信息处理系统10与外部连接设备929之间交换各种数据。

通信设备925是例如由用于连接至通信网络931的通信设备等构成的通信接口。通信设备925可以是例如用于有线或无线局域网(lan)、bluetooth(注册商标)或无线usb(wusb)的通信卡。另外,通信设备925可以是例如用于光通信的路由器、用于不对称数字用户线路(adsl)的路由器或者用于各种通信的调制解调器。通信设备925使用例如tcp/ip的预定协议,利用因特网或其他通信设备来发送和接收信号等。另外,连接至通信设备925的通信网络931是通过有线或无线连接的网络,并且是例如因特网、家用lan、红外通信、无线电波通信、卫星通信等。

图像捕获设备933通过使用诸如电荷耦合器件(ccd)或互补金属氧化物半导体(cmos)的图像传感器以及诸如用于控制对象图像在图像传感器上的成像的各种构件来捕获真实空间并且生成捕获图像。图像捕获设备933可以捕获静止图像或运动图像。

例如,传感器935是诸如加速度计、陀螺仪传感器、地磁传感器、光电传感器和声音传感器的各种传感器。传感器935获取与信息处理系统10自身的状态有关的信息,诸如信息处理系统10的外壳的姿态以及与信息处理系统10的周围环境有关的信息,诸如信息处理系统10周围的亮度或噪声。传感器935还可以包括gps传感器,该gps传感器接收全球定位系统(gps)信号并且测量设备的纬度、经度和高度。

<2.结束语>

如上所述,根据本公开内容的实施方式,提供了信息处理设备(控制单元)140,该信息处理设备(控制单元)140包括:信息获取单元141,其被配置成获取与对基于声音收集的声音信息的语音识别处理的准确度有关的信息;以及输出控制单元,其被配置成控制语音识别处理结果的语音输出模式。这样的配置使用户可以凭借文本读出结果的语音输出模式来了解语音识别处理的准确度。

以上参照附图描述了本公开内容的一个或更多个优选实施方式,而本公开内容不限于上述示例。本领域技术人员可以在所附权利要求的范围内发现各种变化和修改,并且应该理解,这些变化和修改本质上会落入本公开内容的技术范围内。

在一个示例中,在上述内容中,可以在一个句子中(或在一个短语中)使语音输出模式的控制不同。在一个示例中,对于语音识别处理可能是错误的句子,与其他部分的语音输出速度相比,输出控制单元143优选地提高句子开始的语音输出速度。

另外,在语音识别处理结果变得太长的情况下,可能用户难以收听语音识别处理结果的读出结果。因此,在语音识别处理结果变得超出一定程度的情况下,输出控制单元143可以省略语音识别处理的全部或部分结果的读出。

另外,在一个示例中,给出了对文本tx-10的读出结果被输出并且文本tx-10被显示的示例的以上描述。然而,文本tx-10可以不必显示。换言之,信息处理系统10可以是未设置显示单元130的系统(例如项链式设备等)。

另外,以上描述示出了信息处理系统10具有游戏控制台和电视机,并且用户u1在玩游戏期间使用聊天应用执行在线聊天的示例。然而,信息处理系统10的硬件配置不限于该示例。在一个示例中,信息处理系统10可以是可穿戴式设备(例如,手表、hmd和项链式设备等),家庭中使用的固定型设备或车载设备。

另外,可以创建用于使诸如包括在计算机中的cpu、rom和ram的硬件执行与上述控制单元140等同的功能的程序。另外,还可以提供记录有程序的计算机可读记录介质。

另外,当实现上述信息处理系统10的操作时,每个部件的位置不限于特定的位置。作为具体示例,控制单元140可以被设置在与设置有图像输入单元110、操作输入单元115、生物信息输入单元118、声音收集单元120、通信单元125、显示单元130和声音输出单元150的设备不同的设备中。这些设备可以经由网络连接。在这种情况下,例如,控制单元140可以对应于例如诸如网络服务器或云服务器的服务器。图像输入单元110、操作输入单元115、生物信息输入单元118、声音收集单元120、通信单元125、显示单元130和声音输出单元150可对应于经由网络连接至服务器的客户端。

另外,包括在控制单元140中的所有部件不必被设置在相同的设备中。在一个示例中,信息获取单元141、语音识别单元142、输出控制单元143和输出单元144中的一些可以被包括在与设置有控制单元140的设备不同的设备中。在一个示例中,语音识别单元142和输出控制单元143可以被包括在与设置有包括信息获取单元141和输出单元144的控制单元140的服务器不同的服务器中。

另外,在本说明书中描述的效果仅仅是说明性或示例性的效果,而不是限制性的。也就是说,利用或代替上述效果,根据本公开内容的技术可以实现本领域技术人员从本说明书的描述中清楚的其他效果。

另外,本技术也可以配置如下。

(1)

一种信息处理设备,包括:

信息获取单元,其被配置成获取与对基于声音收集的声音信息的语音识别处理的准确度有关的信息;以及

输出控制单元,其被配置成基于与所述语音识别处理的准确度有关的信息来控制所述语音识别处理结果的语音输出模式。

(2)

根据(1)所述的信息处理设备,

其中,与所述语音识别处理的准确度有关的信息包括与所述声音信息中包括的用户的话语有关的信息。

(3)

根据(2)所述的信息处理设备,

其中,与所述用户的话语有关的信息包括所述声音信息中包括的以下中的至少一个:所述用户的话语音量、所述用户的话语清晰度和所述用户的话语长度。

(4)

根据(1)至(3)中任一项所述的信息处理设备,

其中,与所述语音识别处理的准确度有关的信息包括与所述声音信息中包括的与用户的话语对应的噪声有关的信息。

(5)

根据(4)所述的信息处理设备,

其中,与所述噪声有关的信息包括所述声音信息中包括的噪声音量。

(6)

根据(1)至(5)中任一项所述的信息处理设备,

其中,与所述语音识别处理的准确度有关的信息包括所述语音识别处理结果的置信度水平。

(7)

根据(6)所述的信息处理设备,

其中,所述输出控制单元基于与用户有关的信息来控制所述语音输出模式。

(8)

根据(7)所述的信息处理设备,

其中,与所述用户有关的信息包括以下中的至少一个:所述用户的行为信息、所述用户的姿势信息、所述用户的设置信息、所述用户周围的环境信息、所述用户的生物信息以及所述用户的情绪信息。

(9)

根据(1)至(8)中任一项所述的信息处理设备,

其中,与所述语音识别处理的准确度有关的信息包括所述语音识别处理结果的量。

(10)

根据(1)至(9)中任一项所述的信息处理设备,

其中,所述输出控制单元基于使用所述语音识别处理结果的内容的类型来控制所述语音输出模式。

(11)

根据(1)至(10)中任一项所述的信息处理设备,

其中,所述输出控制单元基于所述语音识别处理的执行频率来控制所述语音输出模式。

(12)

根据(1)至(11)中任一项所述的信息处理设备,

其中,所述语音输出模式包括所述语音识别处理结果的语音输出速度。

(13)

根据(1)至(12)中任一项所述的信息处理设备,

其中,所述语音输出模式包括所述语音识别处理结果的语音输出的大小。

(14)

根据(1)至(13)中任一项所述的信息处理设备,

其中,所述语音输出模式包括在所述语音识别处理结果的语音输出之前输出的输出语音的类型。

(15)

根据(1)至(14)中任一项所述的信息处理设备,

其中,所述语音输出模式包括所述语音识别处理结果的音质。

(16)

根据(1)至(15)中任一项所述的信息处理设备,

其中,所述输出控制单元以下述方式来控制输出单元:在满足预定条件的情况下,防止所述输出单元以语音形式输出所述语音识别处理结果。

(17)

根据(16)所述的信息处理设备,

其中,所述预定条件包括下述条件中的至少一个:与用户的视线有关的条件、与所述用户的位置有关的条件、所述语音识别处理结果的显示尺寸以及与所述语音识别处理结果的置信度水平有关的条件。

(18)

根据(16)或(17)所述的信息处理设备,

其中,所述预定条件包括下述条件中的至少一个:输入了用于指示所述语音识别处理被用户重新激活的操作的条件;以及输入了用于指示发送所述语音识别处理结果的操作的条件。

(19)

一种信息处理方法,包括:

获取与对基于声音收集的声音信息的语音识别处理的准确度有关的信息;以及

由处理器基于与所述语音识别处理的准确度有关的信息来控制所述语音识别处理结果的语音输出模式。

(20)

一种用于使计算机用作信息处理设备的程序,所述信息处理设备包括:

信息获取单元,其被配置成获取与对基于声音收集的声音信息的语音识别处理的准确度有关的信息;以及

输出控制单元,其被配置成基于与所述语音识别处理的准确度有关的信息来控制语音识别处理结果的语音输出模式。

附图标记列表

10信息处理系统

110图像输入单元

1150操作输入单元

118生物信息输入单元

120声音收集单元

125通信单元

130显示单元

131视频图像显示画面

132语音识别处理开始按钮

133识别结果画面

134聊天画面

135话语画面

136语音识别处理结束按钮

140信息处理设备(控制单元)

141信息获取单元

142语音识别单元

143输出控制单元

144输出单元

150声音输出单元

u1用户

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1