通信终端装置、程序和信息处理方法与流程

文档序号:17732736发布日期:2019-05-22 02:57阅读:129来源:国知局
通信终端装置、程序和信息处理方法与流程

本发明涉及在通信终端装置中终止通话。



背景技术:

在专利文献1中描述了一种终止通话而无需用户操作的技术,由此移动终端在识别出说出诸如“再见”或“拜拜”的关键字时终止通话。在专利文献2中描述了一种在通话期间利用语音命令来控制终端并且仅在必要时间段中启用识别语音命令的语音识别功能的技术。

现有技术文献

专利文献

专利文献1:jp2002-325279a1

专利文献2:jp5481058b



技术实现要素:

本发明要解决的问题

专利文献1中描述的移动终端在通话开始时启用语音识别功能,并在通话期间继续执行语音识别,结果移动终端消耗大量电力。根据专利文献2中描述的技术,用户需要利用按钮或触摸屏来启用语音识别功能以使得语音命令能够被识别。因此,启用语音命令对用户而言有些不方便。

鉴于上述问题,本发明的目的在于使得能够响应于用户为终止通话而做出的自然动作来终止通话,同时抑制语音识别所消耗的电力。

解决问题的手段

为了解决上述问题,本发明提供了一种为了通话执行通信的通信终端装置,该通信终端装置包括:接近检测部,其被配置为检测用户的头部接近通信终端装置;语音输入接受部,其被配置为接受用户的语音的输入;记录部,其被配置为将表示用户在通话期间输入的语音的语音数据记录在存储器中;语音识别部,其被配置为在不再检测到头部接近通信终端装置时,基于存储在存储器中的语音数据来识别用户在通话期间的预定时刻之后的发话;以及通话终止控制部,其被配置为在识别出预定关键字并且未检测到头部接近通信终端装置时,终止通话。

在该通信终端装置中,所述预定时刻可以是在不再检测到头部接近通信终端装置的时刻之前预定时间段的时刻。

该通信终端装置还可包括被配置为测量通信终端装置的姿态的测量部,并且通话终止控制部可被配置为在未检测到头部接近通信终端装置之后检测到通信终端装置的姿态变化时,终止通话。

该通信终端装置还可包括被配置为提取用户在终止通话时所说出的词语的提取部,并且通话终止控制部可被配置为使用在终止一个或更多个通话中提取的词语作为关键字。

本发明提供了一种程序,该程序使得通信终端装置的计算机为了通话执行通信,所述程序执行以下操作:检测用户的头部接近通信终端装置;接受用户的语音的输入;将表示用户在通话期间输入的语音的语音数据记录在存储器中;在不再检测到头部接近通信终端装置时,基于存储在存储器中的语音数据来识别用户在通话期间的预定时刻之后的发话;以及在识别出预定关键字并且未检测到头部接近通信终端装置时,终止通话。

本发明提供了一种信息处理方法,该信息处理方法包括:检测用户的头部接近通信终端装置;接受用户的语音的输入;将表示用户在通话期间输入的语音的语音数据记录在存储器中;在不再检测到头部接近通信终端装置时,基于存储在存储器中的语音数据来识别用户在通话期间的预定时刻之后的发话;以及在识别出预定关键字并且未检测到头部接近通信终端装置时,终止通话。

本发明的效果

本发明使得可响应于用户结束通话所做出的自然动作而终止通话,同时抑制语音识别功能的电力消耗。

附图说明

图1是根据本发明的第一实施方式的通信终端装置的正视图。

图2是示出根据第一实施方式的通信终端装置的硬件配置的示例的图。

图3是示出根据第一实施方式的通信终端装置的处理器的功能配置的示例的图。

图4是示出根据第一实施方式的通信终端装置在通话期间执行的处理的流程图。

图5是示出根据第一实施方式的通信终端装置在通话期间执行的处理的具体示例的图。

图6是示出根据第一实施方式的通信终端装置在通话期间执行的处理的具体示例的图。

图7是示出根据本发明的第二实施方式的通信终端装置的处理器的功能配置的示例的图。

图8是示出根据第二实施方式的通信终端装置在通话期间执行的处理的流程图。

图9是示出根据第二实施方式的通信终端装置在通话期间执行的处理的具体示例的图。

图10是示出根据本发明的变型1的通信终端装置的处理器的功能配置的示例的图。

图11是示出根据变型1的通信终端装置在通话期间执行的处理的流程图。

标号的描述

10、10a、10b···通信终端装置,11···处理器,111···接近检测部,112···语音输入接受部,113···记录部,114、114a···语音识别部,115、115a···通话终止控制部,116···测量部,117···提取部,12···存储器,13···存储装置,14···通信装置,15···输入装置,151···接近传感器,152···麦克风,16···输出装置,161···扬声器,162···显示区域,17···总线

具体实施方式

下面将参照附图描述本发明的实施方式。

[第一实施方式]

图1是根据本发明的第一实施方式的通信终端装置10的正视图。通信终端装置10是由用户持握在他/她的手中的便携式通信终端装置。在本实施方式中,通信终端装置10是智能电话。

通信终端装置10为了通话而进行通信。为了使得用户能够进行通话,通信终端装置10包括位于装置的正面的麦克风152和扬声器161。麦克风152是用于输入用户的语音的语音输入装置。麦克风152被布置为使得它可被定位在进行通话的用户的嘴旁边。扬声器161是用于输出语音的语音输出装置。扬声器161被布置为使得它可被定位在进行通话的用户的头部(具体地,耳朵)旁边。

通信终端装置10还包括在装置的正面的显示区域162和接近传感器151。显示区域162是显示图像(画面)的显示器的显示区域。接近传感器151与扬声器161相邻设置,并且是用于检测物体的接近的传感器。如本文所用,术语“接近”是指接触状态和非接触状态二者。例如,接近传感器151是红外光传感器、使用电磁感应的高频振荡传感器或者使用磁体的磁传感器。可使用任何类型的检测方法。

图2是示出通信终端装置10的硬件配置的示例的图。通信终端装置10物理上被配置为包括处理器11、存储器12、存储装置13、通信装置14、输入装置15、输出装置16和总线17的计算机装置。

在以下描述中,术语“装置”可指电路或单元。通信终端装置10可包括附图中所示的一个或更多个装置,或者可不包括附图中所示的一些装置。

处理器11例如通过运行操作系统来控制计算机。处理器11可包括中央处理单元(cpu),其包括到外围装置的接口、控制装置、算术装置和寄存器。

处理器11将程序(程序代码)、软件模块和数据从存储装置13和/或通信装置14读取到存储器12,以使得其基于读取的数据执行各种处理。使用使得计算机执行本实施方式的至少部分操作的程序作为程序。各种处理可由单个处理器11来执行,或者可由两个或更多个处理器11同时或顺序地执行。处理器11可包括一个或更多个芯片。程序可经由电子通信介质接收。

存储器12是计算机可读记录介质,并且例如包括只读存储器(rom)、可擦除可编程rom(eeprom)和随机存取存储器(ram)中的至少一种。存储器12可被称为寄存器、高速缓存或主存储器。

存储装置13是计算机可读记录介质,并且例如包括光盘(例如,紧凑盘rom(cd-rom))、硬盘驱动器、软磁盘、磁光盘(例如,紧凑盘、数字多功能盘、blu-ray(注册商标)盘)、智能卡、闪存(例如,卡、棒、保密磁盘(keydrive))、软(注册商标)盘和磁条中的至少一个。存储装置13可被称为辅助存储装置。

通信装置14是允许计算机之间经由无线网络的通信的硬件(发送和接收装置)。通信装置14可被称为网络装置、网络控制器、网卡或通信模块。通信装置14为了通话执行通信。

输入装置15是接受来自诸如键盘、鼠标、麦克风152、开关、按钮和传感器(包括接近传感器151)的外部源的输入的装置。输出装置16是向诸如显示器、扬声器161和led灯的外部装置执行输出的装置。

诸如处理器11和存储器12的装置通过总线17连接以进行数据通信。总线17可包括单个总线,或者可包括多个总线以连接装置。

通信终端装置10可包括诸如微处理器、数字信号处理器(dsp)、专用集成电路(asic)、可编程逻辑装置(pld)和现场可编程门阵列(fpga)的硬件。硬件可用作部分或全部功能块。例如,处理器11可包括多项硬件中的至少一个。

通过使得诸如处理器11和存储器12的硬件读取软件(程序)以使得处理器11能够控制由通信装置14执行的通信以及在存储器12和存储装置13中执行的读取和/或写入来提供通信终端装置10的功能。

图3是示出通信终端装置10的处理器11的功能配置的示例的框图。处理器11包括接近检测部111、语音输入接受部112、记录部113、语音识别部114和通话终止控制部115。

基于接近传感器151输出的值,接近检测部111检测到用户的头部接近通信终端装置10。当接近检测部111在通话期间检测到物体的接近时,该物体被视为用户的头部。术语“在通话期间”是指建立起的通信路径可用于通话的时间段。接近检测部111向语音识别部114和通话终止控制部115通知用户的头部是否靠近通信终端装置10。

语音输入接受部112接受经由麦克风152输入的用户语音。语音输入接受部112将麦克风152提供的模拟语音信号转换为例如是表示语音波形的波形数据的数字语音数据。语音输入接受部112将语音数据提供给记录部113。

记录部113将表示在通话期间输入的用户语音的语音数据记录在存储器12中。换言之,记录部113记录用户语音。存储在存储器12中的语音数据将被称为“语音数据sd”。

当在通话期间不再检测到用户的头部接近通信终端装置10时,语音识别部114基于存储在存储器12中的语音数据sd识别通话期间的预定时刻之后输入的用户语音。术语“预定时刻”是指在不再检测到用户头部的接近时的时刻的预定时间段之前的时刻。作为语音识别的结果,用户语音被转换为字符串(文本代码)。

通话终止控制部115执行通话终止控制,这是终止通话的功能,或更具体地,断开用于通话的通信路径的功能。在未检测到用户的头部接近通信终端装置10的时间段语音识别部114识别出存储在存储器12中的关键字kw时,通话终止控制部115执行通话终止控制。例如,关键字kw是预定字符串。关键字kw可在通信终端装置10的设计阶段决定,或者可由用户指定。关键字kw是终止通话时说出的词语,例如“再见”或“回见”。

图4是示出通信终端装置10在通话期间执行的处理的流程图。图5和图6是示出通信终端装置10在通话期间执行的处理的具体示例的图。

记录部113确定通信终端装置10中是否正在进行通话(步骤s1)。当由通信装置14建立的通信路径可用于通话时,记录部113在步骤s1确定“是”。随后,记录部113将由语音输入接受部112基于来自麦克风152的输入而生成的语音数据记录在存储器12中(步骤s2)。如图5所示,在时间t1用户u开始使用通信终端装置10进行通话的情况下,记录部113从通话开始的时间开始记录语音数据。

随后,接近检测部111基于接近传感器151输出的值来检测用户的头部是否靠近通信终端装置10(步骤s3)。在图5中,自通话开始的时间t1起,通信终端装置10已被持握到用户u的右耳。在这种情况下,接近检测部111检测到用户u的头部靠近通信终端装置10。

随后,接近检测部111确定是否不再检测到用户头部的接近(步骤s4)。在步骤s4,确定之前靠近用户头部的通信终端装置10是否已从头部移开。当在步骤s4确定“否”时,通信终端装置10在维持通话的同时返回到步骤s1,因为认为通信终端装置10靠近用户的头部并且用户仍在说话。

记录部113在通话期间继续记录语音数据的步骤s2(例如,在图5所示的时间t2)。然而,没有必要将在通话期间记录的所有语音数据都保存在存储器12中。仅需要在存储器12中至少保存表示在当前时刻的预定时间段之前的时刻之后输入的语音的语音数据。换言之,可以删除在该较早时刻之前生成的语音数据。“预定时间段”例如在3至10秒的范围内。

随后,在时间t3,用户u说出词语“再见”。这种话语被包括在终止通话时自然地执行的动作中。表示该话语的语音数据被记录在存储器12中。随后,在时间t4,用户u将通信终端装置10从耳朵移开。此动作也被包括在终止通话时自然地执行的动作中。在此动作之后,接近检测部111检测到用户的头部没有接近通信终端装置10,由此接近检测部111确定不再检测到用户头部的接近(步骤s4;是)。

随后,语音识别部114基于存储在存储器12中的语音数据sd识别用户的语音(步骤s5)。在步骤s5,识别在不再检测到用户头部的接近的时刻的预定时间段之前的时刻之后输入的用户语音。在图5的示例中,识别在时间段t期间输入的用户语音,该时间段t从时间t4的预定时间之前的时间t23开始并在时间t4结束。当不再检测到用户的头部接近通信终端装置10时,语音识别部114识别用户的语音。

在图5的示例中,可以删除在时间t23之前记录的语音数据。通过删除对于语音识别而言不需要的语音数据,释放了存储器12的存储区域。

随后,通话终止控制部115确定语音识别部114是否识别出关键字kw(步骤s6)。具体地,通话终止控制部115确定用户u是否在从时间t23开始并在时间t4结束的时间段t期间说出关键字kw。

当在步骤s6确定“否”时,通信终端装置10在维持通话的同时返回到步骤s1。

在如图5所示,用户u在时间t3说出词语“再见”的情况下,通话终止控制部115在步骤s6确定“是”。在这种情况下,接近检测部111基于接近传感器151输出的值来检测用户的头部是否靠近通信终端装置10(步骤s7)。随后,接近检测部111检测用户的头部是否仍靠近通信终端装置10(步骤s8)。执行步骤s7和s8以确定在用户说出终止通话的关键字kw之后通信终端装置10是否保持远离用户的头部。

当在步骤s8确定“是”时,通话终止控制部115执行通话终止控制(步骤s9)。在图5的示例中,从时间t4到时间t5没有检测到用户头部的接近,由此通话终止控制部115执行通话终止控制。在执行通话终止控制之后,记录部113停止记录语音数据。

另一方面,当在步骤s8确定“否”时,即,当再次检测到用户头部的接近时,通信终端装置10在维持通话的同时返回到步骤s1。在如图6所示,在用户u在时间t3说出关键字kw“再见”并将通信终端装置10从耳朵移开的情况下,用户可能想起有事要说并重新开始交谈。在图6所示的示例中,用户u在时间t6再次将通信终端装置10放到耳边。为了在这种情况下不执行通话终止控制,当在步骤s8确定“否”时,通信终端装置10维持通话。

在以上所描述的通信终端装置10中,在通话期间没有连续地执行语音识别。相反,关于在通话期间输入的用户语音的语音数据被记录在存储器12中,并且当不再检测到用户头部的接近时,基于存储在存储器12中的语音数据sd来识别语音。因此,与在通话期间连续地执行语音识别的情况相比,在通信终端装置10中消耗较少量的电力。通信终端装置10还仅在识别出用户所说出的关键字kw并且没有检测到用户头部的接近时才执行通话终止控制。因此,与用户意图相反地终止通话的可能性低。

[第二实施方式]

现在,将描述本发明的第二实施方式。

根据本实施方式的通信终端装置10a基于当用户准备终止通话时所测量的装置的姿态变化来确定是否执行通话终止控制。在本实施方式中,与第一实施方式共享的组件由相同的标号表示。

图7是示出通信终端装置10a的处理器11的功能配置的示例的框图。处理器11包括接近检测部111、语音输入接受部112、记录部113、语音识别部114a、通话终止控制部115a和测量部116。输入装置15包括姿态传感器153(测量通信终端装置10a的姿态的传感器)。例如,姿态传感器153是三轴加速度传感器、角速度传感器或者能够测量根据通信终端装置10a的姿态变化(例如,旋转)而改变的物理量的任何其它传感器。

测量部116基于姿态传感器153所测量的值来测量通信终端装置10a的姿态。在本实施方式中,接近检测部111向语音识别部114a、通话终止控制部115a和测量部116通知用户的头部是否靠近通信终端装置10a。响应于该通知,测量部116确定通信终端装置10的姿态是否改变。

当满足与第一实施方式相同的条件,并且在接近检测部111未检测到用户头部的接近之后通信终端装置10a的姿态改变时,通话终止控制部115a执行通话终止控制。

图8是示出通信终端装置10a在通话期间执行的处理的流程图。图9是示出通信终端装置10a在通话期间执行的处理的具体示例的图。

在通话期间,在通信终端装置10a中,记录部113将由语音输入接受部112基于来自麦克风152的输入而生成的语音数据记录在存储器12中(步骤s1和s2)。随后,测量部116基于姿态传感器153测量的值来测量通信终端装置10a的姿态(步骤s11)。随后,接近检测部111基于接近传感器151输出的值来检测用户的头部是否靠近通信终端装置10a(步骤s3)。随后,接近检测部111确定是否不再检测到用户头部的接近(步骤s4)。

当在步骤s4确定“否”时,如第一实施方式的情况中一样,通信终端装置10a在维持通话的同时返回到步骤s1。

另一方面,当在步骤s4确定“是”时,执行不同于第一实施方式的步骤。具体地,当接近检测部111确定不再检测到用户头部的接近时,测量部116确定通信终端装置10a的姿态是否改变(步骤s12)。当在步骤s12确定“否”时,通信终端装置10a在维持通话的同时返回到步骤s1。

当在步骤s12确定“是”时,语音识别部114a基于存储在存储器12中的语音数据sd来识别用户的语音(步骤s5)。随后,当通话终止控制部115确定语音识别部114识别出了关键字kw(步骤s6;是),并且接近检测部111继续未检测到用户头部的接近(步骤s7和步骤s8;是)时,通话终止控制部115执行通话终止控制(步骤s9)。

当用户将通信终端装置10a从头部移开时,装置的姿态改变。通过比较图9所示的时间t3和t4处的通信终端装置10a的姿态可理解,当用户说出关键字kw时所测量的姿态与在用户已将通信终端装置10a从耳朵移开之后测量的姿态不同。根据通过姿态变化来触发通话终止控制的通信终端装置10a,在错误的时刻终止通话的可能性降低。另外,当在不再检测到用户头部的接近之后没有检测到通信终端装置10a的姿态变化时,不开始识别用户的语音。由于避免了不必要地识别用户语音,所以节省了电力。

[变型例]

本发明可按照不同于上述实施方式的实施方式实现。以下变型例中的两个或更多个可组合。

(变型例1)

根据本发明的通信终端装置可包括学习关键字的功能。根据本变型例的通信终端装置10b将用户在终止通话时说出的词语登记在存储器12中作为关键字。在本实施方式中,第一实施方式中所描述的“关键字kw”将被称为“关键字kw1”,而通过学习而登记的关键字将被称为“关键字kw2”。

图10是示出根据本变型例的通信终端装置10b的处理器11的功能配置的示例的框图。处理器11包括接近检测部111、语音输入接受部112、记录部113、语音识别部114、通话终止控制部115b和提取部117。

提取部117提取用户在终止通话时所说出的词语。例如,提取部117提取用户在终止通话之前刚刚说出的词语。提取部117将在终止一个或更多个通话中提取的词语登记为关键字kw2。当识别出关键字kw1或kw2时,通话终止控制部115b执行通话终止控制。

图11是示出通信终端装置10b在通话期间执行的处理的流程图。

提取部117提取用户在终止通话时说出的词语(步骤s21)。例如,提取部117提取每次通话由语音识别部114最后识别的词语。提取部117将所提取的词语记录在存储器12中。随后,提取部117将在终止一定次数的通话(该次数等于或大于阈值)时提取的词语登记在存储器12中作为关键字kw2(步骤s22)。这是因为用户在终止通话时所说出的词语很可能被反复使用。

在本变型例中,所登记的关键字kw2是在终止多次通话时提取的词语;然而,在终止单次通话时提取的词语也可被登记为关键字kw2。

通话终止控制部115b基于关键字kw2执行通话终止控制。通话终止控制部115b可在学习关键字kw2完成之前基于关键字kw1执行通话终止控制,并且在登记关键字kw2之后,可基于关键字kw1和kw2或仅基于关键字kw2来执行通话终止控制。

值得注意的是,本变型例可被应用于根据第二实施方式的通信终端装置10a。

根据本实施方式,如果用户在终止通话时所说出的词语是用户特定词语,可使得能够响应于用户终止通话所作出的自然动作而终止通话。

(变型例2)

通信终端装置10、10a或10b不限于智能电话,可以是能够为了通话而执行通信的通信终端装置,例如功能电话。另选地,根据本发明的通信终端装置可以是能够在用户的身体中生成表示所接收的语音的骨传导音的通信终端装置,即,包括能够输出骨传导音的扬声器的通信终端装置。通信终端装置使得用户能够在装置与用户头部的耳朵以外的部位接触时讲话。

根据本发明的通信终端装置可以不是在通话期间持握在用户的手中的通信终端装置。根据本发明的通信终端装置可以是可安装在用户头上的可穿戴终端的类型,例如头戴式耳机类型或耳机类型。

(变型例3)

本说明书中所描述的实施方式的处理次序、序列和流程图可改变,只要没有导致不一致即可。本说明书中所描述的方法包括按照示例性次序布置的步骤,这些步骤可按照另一次序布置。

(变型例4)

输入或输出信息可被存储在诸如存储器的地方,或者可在管理表中管理。输入或输出信息可被覆写、更新或另外写入。输出信息可被删除。输入信息可被发送到另一装置。

(变型例5)

可基于表示“0”或“1”的1比特值或者表示“真”或“假”的真伪(boolean)值或者通过将值与预定值进行比较来进行确定。

(变型例6)

本说明书中所描述的实施方式可单独地使用或以具有较小改变的组合使用。可明确地或隐含地进行信息的通知(例如,“为x”的通知)。

以上详细描述了本发明;然而,对于本领域技术人员而言显而易见的是,本发明不限于本说明书中所描述的实施方式。在不脱离由权利要求的描述限定的本发明的精神和范围的情况下,可在修改或改变的实施方式中实现本发明。本说明书中的描述是出于例示性目的,而非旨在以任何方式限制本发明。

软件应该广义地解释为包括指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、可执行文件、执行线程、过程和函数,无论其被称为软件、固件、中间件、微码、硬件描述语言还是任何其它名称。软件和指令可经由传输介质来发送和接收。例如,可使用诸如同轴线缆、光纤线缆、双绞线或数字订户线(dsl)的有线介质和/或诸如红外线、无线或微波的无线介质从网站、服务器或另一远程源发送软件。有线介质和无线介质包括在传输介质的定义内。

本说明书中所描述的信息和信号可使用各种技术中的任何技术来表示。例如,以上所描述的数据、指令、命令、信息、信号、比特、符号和芯片可由电压、电流、电磁波、磁场或粒子、光场或光子、或者其任何组合来表示。

值得注意的是,本说明书中所描述的术语和/或理解本说明书所需的术语可由具有相同或相似含义的术语代替。

本说明书中所使用的术语“系统”和“网络”可互换使用。

本说明书中所描述的信息和参数可由绝对值、相对于预定值的值或其它对应信息表示。

本说明书中所使用的术语“确定”可指各种动作。例如,术语“确定”可指判断、计算、算出、处理、导出、调查、查找(例如,在表、数据库或数据结构中查找)和确认。术语“确定”还可指接收(例如,接收信息)、发送(例如,发送信息)、输入、输出和访问(例如,访问存储器中的数据)。术语“确定”还可指解决、选择、选定、确立和比较。

除非另外明确地说明,否则本说明书中所使用的描述“基于”并非意指“仅基于”。换言之,描述“基于”意指“仅基于”和“至少基于”二者。

如术语“包含”的情况一样,本说明书或权利要求中所使用的术语“包括”及其变体旨在为包含性的。本说明书或权利要求中所使用的术语“或”并非旨在为排他析取。

(变型例7)

用于描述上述实施方式的框图示出了功能单元的块。可使用硬件和/或软件项的任何组合来提供功能块。用于提供功能块的手段不受限制。可使用包括物理和/或逻辑组合的组件的单个装置、或者有线和/或无线地直接和/或间接连接的两个或更多个物理和/或逻辑分离的装置来提供功能块。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1