关键词提取装置的制作方法

文档序号:2831692阅读:301来源:国知局
专利名称:关键词提取装置的制作方法
技术领域
本发明涉及关键词提取装置,并且更具体地,涉及提取会话(conversation ) 关键词的关键词提取装置。
背景技术
相关技术的关键词提取装置预先保留(retain)相应数据,该相应数据示 出例如微波炉的关键词和例如访问URL的动作信息之间的相关性 (correlation )。关键词提取装置根据相应数据从特定的会话中检测关键词, 并基于相应于关键词的动作信息执行处理。从而,通过讲话识别的手段提交 了信息(例如,专利文件1 )。
专利文件1: JP-A-2005-215726 (见段落0021到0036以及图2和图3 )

发明内容
发明要解决的问题
但是,在关于专利文件1描述的提取器中,必须为各个希望的场景准备 相应数据;因此,存在利用提取器时遭遇困难的问题。
本发明已经考虑到处理该情形,并且目的在于提供能够提取会话关键词 而不需要提前预测和准备会话关键词的关键词提取装置。
用于解决问题的方法
为了解决相关领域的问题,本发明包括音频输入部分,通过该音频输 入部分输入由说话者进行的讲话声音;讲话片段确定部分,关于输入讲话声 音对于每个说话者确定讲话片段;讲话识别部分,识别为每个说话者所确定 的讲话片段的讲话声音;讲话响应特征提取部分,基于另一个说话者对说话 者的讲话声音的响应,提取暗示关键词存在的响应特征;以及关键词提取部 分,从基于所提取的讲话响应的特征所指定的讲话片段的讲话声音,提取关 键词。
本发明的优点根据本发明,可提取会话的关键词,而不需要为会话提前、预期地准备 关键词。


示出了包括本发明的第 一 实施例的关键词提取装置的整体系统的 示例配置的框图。示出了本发明的第一实施例的讲话片段的示例的视图。 [图3]示出了图1中所示的关键词提取装置的操作的流程图。 [图4]示出了本发明的第二实施例的关键词提取装置的示例配置的框图。 [图5]示出了本发明的第二实施例的示例斜度图样(pattern)的视图。 [图6]示出了图4中所示的关键词提取装置的操作的流程图。 [图7]示出了本发明的第三实施例的关键词提取装置的示例配置的框图。 [图8]示出了图7中所示的关键词提取装置的操作的流程图。 [图9]示出了本发明的第四实施例的关键词提取装置的示例配置的框图。 [图IO]示出了本发明的第四实施例的示例讲话片段、示例讲话内容和面 部表情识别的示例结果的视图。示出了图9中所示的关键词提取装置的操作的流程图。示出了图12中所示的关键词提取装置的操作的流程图。 附图标记描述
100、 100A、 100B、 100C、 100D关4定词提取装置
101音频输入部分
102讲话片段确定部分
103讲话识别部分
104中断4企测部分
105、 105A、 105B、 105C、 105D关键词提取部分
106关键词搜索部分
107显示部分
201斜/复确定部分
202斜度图样确定部分301功能短语提取部分
302功能短语存储部分 401视频输入部分 402面部表情识别部分 501激动反应纟企测部分
具体实施例方式
以下将参考附图描述本发明的第一到第五实施例。将基于假定的场景来 描述第一到第五实施例;例如,两个说话者A和B,通过使用例如便携式蜂 窝电话的信息终端进行会话。 (第一实施例)
图1是示出了包括本发明的第 一 实施例的关键词提取装置的整体系统的 示例配置的框图。
在图1中,关键词提取装置IOO是特定说话者A的信息终端,并配置以 便使得能够与例如因特网的网络400建立连接。网络400以如下方式配置 另 一说话者B的信息终端200和搜索服务器300连接到该网络。关键词提取 装置100和信息终端200是例如便携式蜂窝电话、笔记本电脑和便携式信息 终端的信息终端。搜索服务器300是配备有已知搜索引擎的服务器。
关键词提取装置IOO具有音频输入部分101、讲话片段确定部分102,讲 话识别部分103、中断检测部分104、关键词提取部分105、关键词搜索部分 106和显示部分107。
音频输入部分101用于输入说话者的语音(以下称为"讲话声音")。音 频输入部分101相应于与例如麦克风、网络400等的通信4妾口 。
讲话片段确定部分102关于输入讲话声音来确定每个说话者的讲话片 段。讲话片段指从说话者开始讲话时直到说话者结束讲话时的片段。
例如,在说话者A和说话者B之间进行的会话如图2A或图2B中所示, 讲话片段确定部分102确定从说话者A的讲话的开始时间tsl到结束时间tel 的片段;即,tsl-tel,作为说话者A的讲话片段1。此外,讲话片段确定部分 102确定从说话者B的讲话的开始时间ts2到结束时间te2的片段;即,ts2-te2, 作为说话者B的讲话片段2。
回到图1,讲话识别部分103对于每个说话者识别在这样确定的讲话片
6段中的讲话声音。具体地,讲话识別部分103通过已知的讲话识别技术将所
有说话者的会话讲话转换为文本。此外,讲话识别部分103使得开始时间(开 始点)和结束时间(结束点)与单个说话者的讲话相对应。
中断斥全测部分104 (讲话响应特征提取部分)基于关于所确定的讲话片 段的各个说话者的讲话声音检测讲话的特征;即,在前的讲话和后续讲话相 互重叠的中断。例如,当在说话者A和说话者B之间进行的会话是图2B所 示的会话时,中断检测部分104检测由于说话者B的后续讲话于说话者A的 在前讲话的中间(即,在tsl)开始的中断,^f企测方法如下。
具体地,中断检测部分104首先测量从后续讲话的开始时间到紧挨在后 续讲话之前的讲话的结束时间的片段(以下称为"讲话间隔,,)。例如,在图 2A、 2B的情况下,中断4全测部分104通过使用图2A、 2B中的ts2-teb讲话 间隔的计算等式来计算讲话间隔。然后,中断4全测部分104确定讲话间隔是 否呈现负值(见图2B)作为计算结果。当讲话间隔呈现负值(见图2B)时, 中断检测部分104通过考虑存在中断来执行检测。
关键词提取部分105基于所提取的讲话特征,即,在前讲话和后续讲话 相互重叠处的中断,从讲话识别部分102所识别的讲话声音中提取作为讲话 声音的会话主题的词(以下称为"关键词")。具体地,关键词提取部分105 从讲话识别部分102获得由讲话识别部分102识别的讲话。使得讲话与每个 说话者的开始时间和结束时间对应。此外,关键词提取部分105从中断检测 部分104获得其中中断检测部分104已经检测到中断的讲话片段(例如,图 2B中所示的说话者B的讲话片段2)和被中断的讲话片段(例如,图2B中 所示的说话者A的讲话片段1)。依靠开始时间和结束时间,使得讲话片段彼 jt匕只亍应。
当提取关键词时,关键词提取部分105提取;例如,在被中断的在前讲 话的结尾(最后)的组成元素(例如,名词)作为关键词。在前讲话的结束 意味着在中断前(例如,图2B中的时间ts2)的讲话片段的内部(例如,图 2B中tsl-ts2 )。
具体地,关键词提取部分105首先从所获取的各个说话者的讲话片段(例 如,图2B中所示的讲话片段1、 2)选择开始较早的讲话片段(例如,图2B 中的讲话片段1 )。接下来,关键词提取部分105检测位于紧挨在所获取的另 一讲话片段的开始时间(即,中断时间;例如,图2B中的ts2)之前所选择
7的讲话片段(例如,图2B中的讲话片段1)的组成元素(例如,名词)。关 键词提取部分105提取这样所检测的组成元素(例如,名词)作为关键词。
关键词搜索部分106通过使用所提取的关键词来进行关键词的搜索。具 体地,关键词搜索部分106首先通过网络400连接到搜索服务器300。当从 关键词搜索部分106接收到搜索关键词的请求时,搜索服务器300通过网络 400将关键词的搜索结果返回到关键词提取装置100的关键词搜索部分106。: 通过返回,关键词搜索部分106从搜索服务器300接收关键词的搜索结果。
显示部分107显示由关键词搜索部分106执行的搜索的结果;即,由搜 索服务器300执行的搜索的结果。显示部分107是显示装置,例如显示器和 显示面板。
在本实施例中,讲话片段确定部分102 、讲话识别部分103 、中断检测部 分104 、关键词提取部分105和关键词搜索部分106相应于例如CPU的处理 器。在其他方面,关键词提取装置100假设具有包括例如存储器的存储装置 (未示出)的已知结构。
现在将参考图3来描述关键词提取装置100的操作。在图3中,基于以 下假设来提供解释,即,通过使用关键词提取装置100和信息终端200, 2个 说话者A 、 B正在进行会话。
首先,关键词提取装置100 (讲话片段确定部分102)通过从音频输入部 分100和信息终端200输入的讲话声音,来确定每个说话者的讲话片段(步 骤S101 )。在确定时,讲话片段确定部分102确定每个说话者的讲话声音的 音量等级是否大于阈值,并评估其中声音等级大于阈值的片段为讲话片段。
例如,当在说话者A和说话者B之间的会话例如是图2A或图2B中所 示的会话时,讲话片段确定部分102确定说话者A的讲话的从开始时间tsl 到结束时间tel的片段;即,tsl-te2作为说话者A的讲话片段l。此外,讲话 片段确定部分103确定从开始时间ts2到结束时间te2的说话者B的讲话的片 段;即,ts2-te2作为说话者B的讲话片段2。
接下来,关^t词提取装置100 (讲话识别部分103 )识别为每个说话者确 定的讲话片段的讲话声音(步骤S102)。假设通过分析例如基于频带的特征 来实现识别。此外,当执行识别时,讲话识别部分103通过已知的讲话识别 技术将所有说话者的讲话声音转换为文本。
关键词提取装置100 (中断检测部分104)从所确定的讲话片段中检测中断(步骤S103)。具体地,中断检测部分104计算通过从后续讲话的开始时 间减去紧挨着的在前讲话的结束时间所确定的间隔;即,讲话间隔(例如图 2A和2B中的tel-ts2)。当计算的结果示出讲话间隔的值(例如,在图2B中 讲话间隔4el-ts2)为负时,中断检测部分104确定在后续会话中发生了中断。
接下来,关键词提取装置100 (关键词提取部分105 )提取并确定在所检 测的、其中发生了中断的会话讲话(在步骤S102中识别的会话讲话)中的关 键词(步骤S104)。具体地,关键词提取部分105在后续讲话之前紧挨着的 讲话中提取名词,并确定该名词为讲话中的关键词。
例如,当说话者A在图2B中的时间tsl开始讲话"东京天空树将……" 时和当说话者B在图2B中的时间ts2开始响应的讲话"将在哪里建它?"时, 关键词提取部分105确定说话者A在紧挨在ts2之前发出的名词"东京天空 树"是作为会话的主题的词。关键词提取部分105可确定词"东京天空树" 为会话的主题,而不从事先预期的关键词注册的数据库提取关键词"东京天 空树"。
当讲话间隔显示正值时(见图2A),关键词提取部分105确定讲话中不 包含关键词并且不提取任何关键词。
关键词提取装置100 (关键词搜索部分106 )执行对于这样确定的关键词 的搜索(步骤S105 )。具体地,关键词搜索部分106请求搜索服务器300通 过网络400搜索关键词。搜索服务器300执行所请求的对于关键词的搜索, 并将搜索结果发送到关键词搜索部分106。关键词搜索部分106接收从搜索 服务器300所发送的搜索结果。
关键词搜索部分106将所接收搜索结果显示在显示部分107上(步骤 S106)。结果,对于说话者,掌握关于讲话中的关键词(例如,东京天空树) 的信息(搜索结果)成为可能。
替代中断检测部分104,激活沉默检测部分,该沉默检测部分检测由讲 话间隔预先设定的阈值(例如,3秒)或更大值的沉默,并且其对于提取暗 示关键词的存在的讲话响应的特征也是有用的。
如上所述,根据本发明的实施例,关键词提取装置IOO检测中断,该中 断为暗示关键词的存在的讲话响应的特征,并提取会话的关键词。因此,关 键词提取装置100可基于发生或未发生说话者的中断提取会话的关键词,而 不是事先预期会话的关键词并在数据库中注册预期的关键词等。第一实施例已经描述了其中关键词提取装置100顺序执行关于图3中的 步骤S101到S106的处理的情况,但是处理不限于该顺序。例如,关键词提 取装置100可通过改变图3中所示的顺序执行关于图3中所示的步骤的处理, 或并行执行关于相应步骤的处理。 (第二实施例)
第二实施例的关键词提取装置基于作为讲话响应的特征的斜度的图样 (音调的高度)来提取会话的关键词。
图4是示出了本发明的第二实施例的关键词提取装置的示例结构的框 图。在第二实施例中,与第一实施例的元件相同的元件被分配了相同的附图 标记和与在第 一 实施例中所使用的术语相同的术语,并且省略了它们重复的 解释。
在图4中,关键词提取装置100A具有替代图1中所示的第一实施例的 中断检测部分104的斜度确定部分201和斜度图样确定部分202。此外,关 键词提取装置1004A与第一实施例的其对应部分的不同在于使用关键词提取 部分105A替代图1中所示的第一实施例的关键词提取部分105。斜度确定部 分201、斜度图样确定部分202以及关键词提取部分105A相应于例如CPU 的处理器。在其他方面,包括信息终端200的整体系统的结构与图1中所示 的系统的结构相似。
关于由讲话片段确定部分102确定的讲话片段,斜度确定部分201和斜 度图样确定部分202 (二者也称为"讲话响应特征提取部分")基于相应说话 者的讲话声音,提取作为讲话特征的斜度图样。具体地,斜度确定部分201 确定讲话声音的斜度。本实施例的斜度确定部分201例如每1 Oms划分讲话声 音,从而确定斜度。
基于这样确定的斜度,斜度图样确定部分202确定斜度图样(讲话响应 的特征),该斜度图样包括在前讲话的结束处的下降斜度(见图5中的片段 tcl-tel )和紧跟随在前讲话的讲话的上升斜度(见图5中的片段tc2-te2)。图 5示出了示例确定。在图5中,水平轴代表时间,而垂直轴代表频率。
在前讲话"东京天空树将"呈现在图5的讲话片段tsl-tel中,并且后续 讲话"它将是......?"呈现在讲话片段ts2-te2中。确定在在前讲话"东京天
空树将"的结尾呈现下降斜度,并且确定在后续讲话"它将是……?"中呈 现上升斜度。进行这样确定的原因在于斜度图样确定部分202已经进行了如
10下确定。
具体地,因为在图5中的"东京天空树将"的讲话片段tsl-tel中,讲话 片段最后(结束时间)的频率"f'高于中点tcl的频率"f,,所以斜度图样 确定部分202确定上升斜度。因为在图5的"它将是......?"的讲话片段ts2-te2
中,讲话片段最后(结束时间)的频率"f,低于中点tc2的频率"f,,所以 斜度图样确定部分202确定下降斜度。
对于以下情况给出解释,即,本实施例的斜度图样确定部分202参考讲 话片段中点的频率来确定上升斜度或下降斜度,但是斜度图样确定部分不限 于该情况。例如,斜度确定部分201还可参考从讲话片段的结束时间(例如, 图5中的tel或te2)返回预定片段(例如,时间T)的时间点来进行确定。
关键词提取部分105A从所确定的斜度图样指示的在前讲话提取关键词。 在提取操作时,关键词提取部分105A提取在由斜度图样所指示的在前讲话 的结尾的组成元素(例如名词)作为关键词。
现在将参考图6来描述关键词提取装置100A的操作。在图6中,例如 假设在说话者A通过使用关键词提取装置100A说了 "将来东京天空树 将......,,之后说话者B将通过使用信息终端200说"它将…...吗?" 而提供
解释。关于图7中的步骤S101到S102和S105到S106的处理与关于图3中 的步骤S101到S102和S105到S106的处理类似,因此直接省略了它们的描 述。
首先,关键词提取装置100A (讲话片段确定部分102)通过从讲话输入 部分100和信息终端200输入的讲话声音,来确定每个说话者的讲话片段(见 图2A中的讲话片段1和图2B中的讲话片段2)(步骤SIOI )。接下来,关键 词提取装置100A (讲话识别部分103)识别为每个说话者确定的讲话片段的 讲话声音(步骤S102)。
关键词提取装置100A (斜度确定部分201 )基于例如说话者A的在前讲 话的讲话片段1的讲话声音(见图2A)和说话者B的后续讲话的讲话片段2 的讲话声音(见图2B)来确定讲话声音的斜度(步骤S103A)。
当从在前讲话到后续讲话发生移动时,关键词提取装置IOOA(斜度图样 确定部分202 )基于这样确定的斜度图样来确定是否存在从下降斜度改变到 上升斜度的斜度图样(步骤S103B)。具体地,斜度图样确定部分202确定斜 度图样,其包括在在前讲话的结尾的下降斜度(见图5中的片段tcl-tel)和在在前讲话之后紧挨着的讲话中的上升斜度(见图5中的片段tc2-te2)。
关键词提取装置100A (关键词提取部分105A)从这样确定的斜度图样 所指示的讲话声音(步骤S102中所识别的)的在前讲话(例如,图5中的"东 京天空树将")提取关键词(步骤S104A)。在提取操作时,关键词提取部分 105A提取例如由斜度图样所指示的在前讲话结尾的名词"东京天空树"作为 关键词。
关键词提取装置100A (关键词搜索部分106 )使得搜索服务器300通过 网络400搜索这样确定的关键词(步骤S105 )。关键词搜索部分106将所接 收的搜索结果显示在显示部分107上(步骤S106)。结果,说话者能掌握关 于作为主题的词(例如,"东京天空树")的信息(搜索结果)。
如上所述,在本实施例中,关键词提取装置100A确定斜度图样,该斜 度图样为暗示关键词的存在的讲话响应的特征,从而提取会话的关键词。因 此,关键词提取装置IOOA可基于存在或不存在斜度图样提取会话的关键词, 而不是准备,即事先预期会话中将使用的关键词并在数据库中注册预期的关 键词等。
第二实施例已经描述了关键词提取装置100A顺序执行关于图7中的步 骤S101到S102、 S103A到S103B、 S104A以及S105到S106的处理的情况; 但是,处理不限于该顺序。例如,关键词提取装置100A还可以通过改变关 于图7中所示的相应步骤的处理顺序来#1行处理,或并行4丸行关于相应步骤 的处理。
(第三实施例)
第三实施例的关键词提取装置基于作为讲话响应的特征的功能短语来提 取会话的关键词。
图7示出了本发明的第三实施例的关键词提取装置的示例结构的框图。 在第三实施例中,与第 一 实施例的元件相同的元件被分配了相同的附图标记 和与在第 一 实施例中所使用的术语相同的术语,并且省略了它们重复的解释。
在图7中,关键词提取装置100B使用功能短语提取部分301 (讲话响应 特征提取部分)替代图1中所示的第一实施例的中断检测部分104。关键词 提取装置100B还具有功能短语存储部分302。关键词提取装置100B与第一 实施例的其对应部分的不同在于使用关键词提取部分105B替代图1中所示的 第一实施例的关键词提取部分105。功能短语提取部分301为例如CPU的处理器,并且功能短语存储部分302为例如存储器的存储装置。在其他方面, 包括信息终端200的整体系统的结构与图1中所示的系统的结构相似。
功能短语存储部分302存储预先定义的功能短语。功能短语是示出响应
能短语相应于疑问(interrogative)句,例如"它是……吗?,,;同意的句子, 例如"好"、"我知道了"和"就是这样";否定句,例如"不是";请求句, 例如"请";感叹句,例如"很好,,;以及疑问(feeding)句,例如"为什么?";
功能短语提取部分301从讲话声音提取作为讲话声音的特征的功能短 语。具体地,功能短语提取部分301比较包括在讲话声音中的将成为提取的 目标的词行与功能短语存储部分302中的功能短语,从而提取包括在讲话声 音中的功能短语。
接下来,将参考图8来描述关键词提取装置100B的操作。在图8中,例 如假设在说话者A通过使用关键词提取装置IOOB说了 "将来将建造东京天 空树,,之后说话者B将通过使用信息终端200说"它将建造在哪里呢?"而 提供解释。关于图8中的步骤SIOI到S102和S105到S106的处理与关于图 3中的步骤S101到S102和S105到S106的处理类似,因此直接省略了它们 的描述。
首先,关键词提取装置100B (讲话片段确定部分102)通过从讲话输入 部分100和信息终端200输入的讲话声音,来确定每个说话者的讲话片段(见 图2A中的讲话片段1和图2B中的讲话片段2)(步骤S101 )。接下来,关键 词提取装置100B (讲话识别部分103)识别为每个说话者确定的讲话片段的 讲话声音(步骤S102)。
关键词提取装置100B (功能短语提取部分301 )从例如说话者A的在先 讲话的讲话片段l的讲话声音(见图2A)和说话者B的后续讲话的讲话片段 2的讲话声音(见图2B)中,来提取表达疑问句等的功能短语。具体地,功 能短语提取部分301比较作为提取目标的、包括在讲话声音中的词行和功能 短语存储部分302中的功能短语,从而提取包括在讲话声音中的功能短语。 在本实施例中,功能短语提取部分301从讲话声音"噢,它将建造在哪里呢?" 提取疑问句的功能短语"哪里"。声音识别的结果也可用作包括在讲话声音中 的词4亍。
。例如,功接下来,关键词提取装置100B (关键词提取部分105B)从包括所提取 的功能词的讲话之前紧挨着的讲话声音(步骤S102中所识别的)中提取关键 词(步骤S104B)。在提取关键词时,关键词提取部分105B从紧挨着的在前 讲话"我听说将来将建造东京天空树"中,提取该紧挨着的在前讲话结尾的 名词(紧挨着中断发生前获得的)"东京天空树"作为关键词。
接下来,关键词提取装置100B (关键词搜索部分106)使得搜索服务器 300通过网络400搜索这样提取的关键词(步骤S105)。随后,关键词搜索部 分106将所接收的搜索结果显示在显示部分107上(步骤S106)。结果,对 说话者来说,掌握关于会话主题的关键词(例如,东京天空树)的信息(搜 索结果)成为可能。
此外,在本实施例中,如其中说话者A提出问题"那是什么?"而说话 者B进行回答"你是说东京天空树吗?"的情况下,当从在前讲话提取疑问 句的功能短语("那是什么?,,)时,也可激活关键词提取部分105B,使得从 紧接着的后续讲话中提取关键词("东京天空树,,)。那时,在从紧挨着的在前 讲话声音中的关键词提取和从紧挨着的后续讲话声音中的关键词提取之间可 进行如下切换。具体地,可进行切换,使得当包括指示代词"它"时,从紧 挨着的在前讲话提取关键词;并且当包括指示代词"那,,时,从紧挨着的后 续讲话提取关键词;以及在其他情况下,从紧挨着的后续讲话提取关键词。 那时,也可在类似于关于第二实施例描述的方法下,通过利用(结合使用) 包括在前讲话中的上升斜度和后续讲话中的下降斜度的斜度图样,来掌握讲 话响应的特征。
如上所述,根据本实施例,关键词提取装置100B提取不考虑会话内容(类 型)而共同使用的功能短语(疑问词等),从而提取会话的关键词。因此,关 键词提取装置IOOB可从会话提取共同使用的功能短语,从而提取关键词。因 此,关键词提取装置100B可提取关键词,而不是准备,即事先预期相应于各 类会话的关键词并在数据库中注册预期的关键词等;因此,提取器是有用的。
第三实施例已经描述了其中关键词提取装置IOOB顺序执行关于图8中的 步骤S101到S102、 S103C、 S104B、和S105到S106的处理的情况;但是, 处理不限于该顺序。例如,关键词提取装置100B还可以通过改变关于图9 中所示的相应步骤的处理顺序来执行处理,或并行执行关于相应步骤的处理。 (第四实施例)
14第四实施例的关键词提取装置基于听到讲话声音的人的面部表情改变来 提取会话的关键词。
图9是示出了本发明的第四实施例的关键词提取装置的示例结构的框 图。在第四实施例中,与第一实施例的元件相同的元件被分配了相同的附图 标记和与在第 一 实施例中所使用的术语相同的术语,并且省略了它们重复的 解释。
在图9中,关4建词提取装置100C使用视频输入部分401和面部表情识别 部分402 (两者也均合并称为"讲话响应特征提取部分")替代图1中所示的 第一实施例的中断才全测部分104。此外,关4建词提取装置100C与第一实施例 的其对应部分的不同在于使用关键词提取部分105C替代图1中所示的第一实 施例的关键词提取部分105。视频输入部分401为相机,而面部表情识别部 分为例如CPU的处理器。在其他方面,包括信息终端200的整体系统的结构 与图1中所示的系统的结构相似。
视频输入部分401用于输入包括用户脸部的图像数据。为了估计用户的 面部表情,面部表情识別部分402将图像数据转化为能够执行处理的数字数 据的原始图像数据;提取包括在原始图像数据中的用户脸部的区域;并且从 所提取的脸部区域提取至少一个或更多组成用户脸部的例如眼睛和嘴的脸部 器官的轮廓的位置。面部表情识别部分402通过多个视频帧提取所获得的脸 部器官的较高或较低端的轮廓;并从脸部器官的轮廓的打开度或曲线度来识 别用户的面部表情(例如自然、惊讶、喜悦、生气等)。
那时,面部表情识别部分402将从讲话片段确定部分102获得的每个说 话者的讲话片段中的时间与说话者以外的人的面部表情识别结果相关联。此 外,面部表情识别部分402从面部表情识别的结果提取面部表情的改变点。
在图IO中,tlO是讲话片段l中说话者A的讲话开始时间;tll和tl2是 tl0之后间隔相等的时间;t20是在讲话片段2中的说话者B的讲话开始时间; 以及t21和t22是t20之后的间隔相等的时间。面部表情识别部分402以链接 方式识別在时间tlO、Ul和tl2所获得的说话者B的面部表情以及在时间t20、 t121和t22所获得的说话者A的面部表情。在本实施例中,不考虑说话者, 在时间tll获得的说话者B的面部表情是惊讶的面部表情,而在其他时间所 获得的是自然的面部表情。具体地,面部表情识别部分402将时间tll提取 为面部表情的改变点。当面部表情识别部分402识別到在讲话开始时所识别的面部表情为自然 的面部表情,而在讲话中间面部表情改变到另一面部表情时,关键词提取部
分105C提取相应于在面部表情改变点的时间处发出的词作为关键词。那时,: 关键词提取部分105C也可为在讲话识别结果中的每个词从片段信息中寻找 在相应于面部表情的时间所获得的词,或可从包括在讲话声音中的音节的数 量估计词。考虑到从词被感知到时直到面部表情反应出现时的时间延迟(例 如,0.1秒),在此所谓的相应时间是指当说出一个词的动作结束和面部表情 相互关联的时间。
现在将参考图11来描述关键词提取装置100C的操作。在图11中,基于 以下假设提供解释,即,在说话者A通过使用关键词提取装置IOOC说了 "将 来将建造东京天空树"之后,说话者B将通过使用信息终端200说"那是什 么?,,。关于图11中的步骤S101到S102和S105到S106的处理与关于图3 中的步骤S101到S102和S105到S106类似,因此直接省略了它们的描述。 虽然通过使用信息终端200输入说话者B的语音和图像,但是以对说话者A 同样从音频输入部分ioi和视频输入部分401输入语音和图像为前提来提供 解释。
关键词提取装置IOOC(讲话片段确定部分102)关于从音频输入部分101 输入的讲话音频,来确定每个说话者的讲话片段(见图10中的讲话片段1和 讲话片段2 )(步骤S101 )。关键词提取装置100C (讲话识别部分103 )识别 为每个说话者这样确定的讲话片段的讲话声音(步骤S102 )。
同时,关键词提取装置100C(视频输入部分401和面部表情识別部分402) 识别例如在相应于作为说话者A所说的在前讲话的讲话片段1的讲话声音 (见图10)的时间所获取的说话者B的面部表情以及在相应于作为说话者B 所说的后续讲话的讲话片段2的讲话声音(见图10)的时间所获取的说话者 A的面部表情。简而言之,识别在听讲话声音的人的面部表情;即,响应于 讲话人的讲话声音的另一人的面部表情,而不是讲话人的面部表情(步骤 S103D)。
接下来,当感知到所识别的面部表情是在讲话的开始所获取的自然面部 表情并且在讲话中间面部表情改变到另一面部表情时,关键词提取装置100A (关键词提取部分105C)提取在相应于面部表情的改变点时所发出的词作为 关键词(步骤S104C)。在先前描述的实施例中,将词"东京天空树"提取为
16相应于面部表情从自然面部表情改变到惊讶面部表情时的词。
关键词提取装置100C (关键词搜索部分106)使得搜索服务器300通过 网络400搜索这样确定的关键词(步骤S105)。随后,关键词搜索部分106 将所接收的搜索结果显示在显示部分107上(步骤S106)。结果,对说话者 来说,掌握关于作为会话主题的词(例如,东京天空树)的信息(搜索结果) 成为可能。
如上所述,根据本实施例,关键词提取装置100C基于在听讲话声音的另 一人的面部表情的识別结果来提取会话的关键词。因此,关键词提取装置 100C可基于作为面部表情的改变所掌握的讲话响应的特征来提取会话的关 键词,而不需要准备,即事先预期会话中采用的关键词并在数据库中注册预 期的关键词等。
即使当眼睛的打开度、嘴的打开度等转变为数字并且仅通过数字改变的 大小来检测面部表情的改变,而不是通过面部表情识别部分402执行的面部 表情识别操作时,可得到类似的优点。
第四实施例已经描述了其中关键词提取装置100C顺序执行关于图11中 的步骤S101到S102、 S103D、 S104C以及S105到S106的处理的情况;但 是,处理不限于该顺序。例如,关键词提取装置IOOC还可以通过改变关于图 11中所示的相应步骤的处理顺序来执行处理,或并行执行关于相应步骤的处 理。
(第五实施例)
第五实施例的关键词提取装置基于听到讲话声音的人的激动反应来提取 会话的关键词。
图12是示出了本发明的第五实施例的关键词提取装置的示例结构的框 图。在第五实施例中,与第一实施例的元件相同的元件被分配了相同的附图 标记和与在第 一 实施例中所使用的术语相同的术语,并且省略了它们重复的解释。
在图12中,关键词提取装置IOOD使用激动反应确定部分501 (其也称 为"讲话响应特征提取部分")替代图1中所示的第一实施例的中断检测部分
104。 此外,关键词提取装置100D与第一实施例的其对应部分的不同在于使 用关键词提取部分105D替代图1中所示的第一实施例的关键词提取部分
105。 激动反应检测部分为例如CPU的处理器。在其他方面,包括信息终端200的整体系统的结构与图1中所示的系统的结构相似。
激动反应检测部分501从语音或声音检测激动反应。具体地,通过检测
笑声、具有高度激动的声音、由鼓掌或拍膝盖等引起的声音等来检测激动反
应。激动反应检测部分501预先准备与笑声、鼓掌和拍膝盖有关的训练样本, 从而准备GMM( Gamma混合模型),并通过确定输入的可能性执行阈值处理, 从而执行检测。此外,激动反应检测部分501通过线性连接值从而将值转换 为数字并使该数字经过阈值处理来检测具有高度激动的声音;其中所述值被 确定为通过说话者的平均的音量水平、斜度水平和讲话速度的标准化的结果。 那时,激动反应#全测部分501将在由讲话片段确定部分102确定的讲话
关键词检测部分105D从相应于激动反应的讲话提取关键词。 现在将参考图13来描述关键词提取装置100D的操作。在图13中,基
于以下假设提供解释,即,在说话者A通过使用关键词提取装置IOOC说了 "将来东京天空树将......"之后,说话者B将通过使用信息终端200发出"哈
哈哈"的笑声。关于图13中的步骤S101到S102和S105到S106的处理与
关于图3中的步骤SIOI到S102和S105到S106类似,因此直接省略了它们
的解释。
关键词提取装置IOOD(讲话片段确定部分102)关于从音频输入部分101 和信息终端200输入的讲话音频,首先确定每个说话者的讲话片段(步骤 SlOl)。关键词提取装置100D (讲话识别部分103)识别为每个说话者这样 确定的讲话片段的讲话声音(步骤S102)。
关键词提取装置IOOD(激动反应确定部分501W佥测例如在说话者A发出 的讲话片段的附近出现的激动反应(步骤S103E)。结果,在前述的讲话例子 中,在紧挨在说话者A作出的讲话片段后以很高的可能性检验到笑声的 GMM,从而语音被检测为激动反应。
关键词提取装置IOOA(关键词提取部分105D)接下来提取相应于激动反 应的讲话片段中发出的词(例如,"东京天空树")作为关键词。
然后关键词提取装置100D (关键词搜索部分106)使得搜索服务器300 通过网络400搜索这样确定的关键词(步骤S105)。随后,关键词搜索部分 106将所接收的搜索结果显示在显示部分107上(步骤S106)。结果,对说话 者来说,掌握关于作为会话的主题的词(例如,东京天空树)的信息(搜索结果)成为可能。
如上所述,根据本实施例,关键词提取装置100D通过检测收听讲话声 音的人的激动反应来提取会话的关键词。关键词提取装置100D可通过例如 笑声或拍手等并获取为激动的讲话反应的特征来提取会话的关键词,而不需 准备,即事先预期会话中使用的关键词并在数据库中注册预期的关键词等。
第五实施例已经描述了其中关键词提取装置100D顺序执行关于图13中 的步骤S101到S102、 S103E、 S104D以及S105到S106的处理的情况;但是, 处理不限于该顺序。例如,关键词提取装置100D还可以通过改变关于图13 中所示的相应步骤的处理顺序来执行处理,或并行执行关于相应步骤的处理。
第一到第三实施例和第五实施例已经描述了以下情况,即,其中关键词 提取装置(关键词提取部分)提取在讲话片段结尾(在紧挨着中断之前的点) 的名词作为关键词,但是关键词不限于名词。例如关键词提取部分还可执行 搜索,同时采用在作为搜索目标的在前讲话中包括的多个名词中概念最低等 级的名词作为关键词。在此情况下,关键词提取装置附加地配备有字典信息 存储部分(未示出),例如存储器,并且字典信息存储部分存储包括在系统中 分类和结构的概念较高等级的名词(例如,意大利菜)和概念较低等级的名 词(例如,通心粉)的字典信息。关键词提取部分从包括在作为提取目标的 讲话中的名词中,提取包括在字典信息存储部分(未示出)的字典信息中的 概念最低等级的名词作为关键词。因此,概念较低等级的名词作为关键词。
在第 一到第三实施例和第五实施例中,关键词提取部分还可提取在包括 在作为提取目标的讲话中的名词中的最高斜度名词作为关键词,或提取最频 繁使用的名词作为关键词。作为选择,关键词提取部分还可从包括在作为提 取目标的讲话中的名词中,提取采用名词的斜度与显示名词使用次数的参数 (预先确定的参数模式)的最优结合所得到的名词作为关键词。
虽然已经通过参考具体的实施例详细描述了本发明,但是对于本领域的 技术人员明显的是,在不违背本发明的精神和范围的情况,本发明可受到各 种改变和^奮改。
本专利申请基于于2007年3月29日在日本提出的日本申请 (JP-A-2007-088321 ),其内容在此合并作为参考。 工业适用性
本发明的关键词提取装置对于提取包括在会话中的重要关键词是有用
19的。关键词提取装置可应用于应用领域,例如电话、车载终端、电视机、会 议系统、呼叫中心系统和个人计算机。
权利要求
1.关键词提取装置,包括音频输入部分,输入说话者的讲话声音;讲话片段确定部分,关于输入的讲话声音对于每个说话者确定讲话片段;讲话识别部分,识别为每个说话者所确定的讲话片段的讲话声音;讲话响应特征提取部分,基于来自另一个说话者对于每个说话者的讲话声音的响应,提取暗示关键词存在的讲话响应特征;以及关键词提取部分,从基于所提取的讲话响应的特征所指定的讲话片段的讲话声音提取关键词。
2. 如权利要求1所述的关键词提取装置,其中说话者的讲话声音包括在 前讲话的讲话声音和后续讲话的讲话声音;其中所述讲话响应特征提取部分包括中断检测部分,所述中断4全测部分 基于在前讲话的讲话声音和后续讲话的讲话声音检测当在在前讲话的中间发 生后续讲话时在前讲话和后续讲话相互重叠的中断;以及其中所述关键词提取部分从基于所检测的中断所指定的、以及与后续讲 话重叠的在前讲话的讲话声音中提取关键词。
3. 如权利要求1所述的关键词提取装置,其中说话者的讲话声音包括在 前讲话的讲话声音和后续讲话的讲话声音;其中所述讲话响应特征提取部分包括斜度确定部分,基于在前讲话的讲话声音和后续讲话的讲话声音来 确定讲话声音的斜度;以及图样确定部分,根据所确定的斜度,确定包括在在前讲话的结尾的 下降斜度和紧挨在在前讲话之后的讲话的上升斜度的斜度图样;以及其中所述关键词提取部分从基于所确定的斜度图样所指定的和由斜度图 样所指示的在前讲话的讲话声音,提取关键词。
4. 如权利要求1所述的关键词提取装置,其中说话者的讲话声音包括在 前讲话的讲话声音和后续讲话的讲话声音;其中所述讲话响应特征提取部分基于在前讲话的讲话声音和后续讲话的 讲话声音来从后续讲话的讲话声音提取预定类型的功能短语;以及其中所述关键词提取部分从包括所提取的功能短语的紧挨在后续讲话之前的在前讲话的讲话声音中提取关键词。
5. 如权利要求1所述的关键词提取装置,其中所述讲话响应特征提取部分检测除了位于相应说话者的讲话片段附近的说话者以外的人的激动反应; 以及其中关键词提取部分从相应于激动反应的讲话声音提取关键词。
6. 如权利要求2到5中任意一项所述的关键词提取装置,其中当提取关 键词时,所述关键词提取部分提取在前讲话的结尾的组成元素作为关键词。
7. 如权利要求1所述的关键词提取装置,其中说话者的讲话声音包括在 前讲话的讲话声音和后续讲话的讲话声音;其中所述讲话响应特征提取部分基于在前讲话的讲话声音和后续讲话的 讲话声音,从所述在前讲话的讲话声音中提取预定类型的功能短语;以及. 其中所述关键词提取部分从包括所提取的功能短语的紧挨在在前讲话之 后的后续讲话的讲话声音中提取关键词。
8. 如权利要求1所述的关键词提取装置,其中所述讲话响应特征提取部 分识别响应于相应说话者的讲话声音的另 一说话者的面部表情,并提取所识 别的面部表情的改变点;以及其中所述关键词提取部分提取相应于所提取的面部表情的改变点的讲话 片段中的组成元素作为关键词。
全文摘要
提取会话的关键词而不是提前预测并准备会话的关键词。关键词提取装置,包括音频输入部分(101),用于输入说话者的讲话;讲话片段确定部分(102),用于确定每个说话者的输入讲话的讲话片段;讲话识别部分(103),用于识别在所确定的讲话片段的讲话;中断检测部分(104),基于另一个说话者对说话者的讲话的响应检测暗示关键词存在的另一个说话者的讲话响应特征,即,在前讲话和后续讲话相互重叠的中断;关键词提取部分(105),用于从根据中断所指定的讲话部分中的讲话中提取关键词;关键词搜索部分(106),用于通过关键词执行关键词搜索;以及显示部分(107),用于显示关键词搜索的结果。
文档编号G10L15/10GK101542592SQ200880000290
公开日2009年9月23日 申请日期2008年3月14日 优先权日2007年3月29日
发明者小沼知浩, 山田麻纪, 森井景子, 远藤充, 野村和也 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1