信息处理设备及其方法

文档序号:7594577阅读:74来源:国知局
专利名称:信息处理设备及其方法
技术领域
本发明涉及一种信息处理设备,更具体地说,涉及一种基于语音识别结果的信息处理设备以输出语言信息、及其信息处理方法。
背景技术
近年来有关使用通过语音信号的语音识别结果所获得的语言信息的元数据生成的研究非常盛行。将所生成的元数据应用到语音信号中对于数据管理或搜索非常有用。
例如,日本专利申请公开第8-249343号提供了一种通过从音频数据的语音识别结果所获得的语言文本中提取特定表达和关键字、并将其编入索引以建立音频数据库来实现期望的音频数据的搜索的技术。
已经存在一种技术,将通过语音识别结果获得的语言文本用作数据管理或搜索的元数据。但是,还没有动态地显示语音识别结果的语言文本以便使用户能够容易地理解语音内容和相应于所述语音的视频内容、并执行重放控制的技术。
本发明的目的是提供一种通过语音识别能够生成语言文本并动态地显示所述语言文本的信息处理设备及其方法。

发明内容
根据本发明的一个方面,提供一种使用视频-音频信号的信息处理设备,包括语音重放单元,用于从视频-音频信号重放语音信号;语音识别单元,用于对语音信号进行语音识别;文本生成器,通过使用语音识别单元的语音识别结果,用于生成具有语言要素和用于与语音信号的重放同步的时间信息的语言文本;呈现单元,用于有选择地与语音重放单元重放的语音信号同步呈现语言要素和时间信息。
根据本发明的另一方面,提供一种信息处理方法,包括对语音信号进行语音识别以获取语音识别结果;根据语音识别结果生成包括语言要素和用于与语音信号的重放同步的时间信息的语言文本;重放语音信号;以及有选择地与重放语音信号同步显示语言要素和时间信息。


图1是说明与本发明的第一实施例相关的电视接收机的示意结构的方框图。
图2示出语言信息输出单元执行的详细处理过程的流程图。
图3示出基于语音识别结果的语言信息输出的示例。
图4示出用于设置呈现方法的处理过程示例的流程图。
图5是说明关键字封闭字幕显示示例的图。
图6是与本发明的第二实施例相关的家庭服务器的示意结构的方框图。
图7是说明家庭服务器提供的搜索屏幕的示例的图。
图8是说明基于关键字滚动显示的内容选择状态的图。
具体实施例方式
下面将参照附图描述根据本发明的实施例。
(第一实施例)图1是说明与本发明的第一实施例相关的电视接收机的示意结构的方框图。该电视接收机包括调谐器10,连接到无线天线以接收广播的视频-音频信号;以及数据分离器11,用于将调谐器10接收的视频-音频信号(AV(音频视频)信息)输出到AV信息延迟单元12。另外,该数据分离器从视频-音频信号中分离语音信号,将其输出到语音识别单元13。该电视接收机还包括语音识别单元13,用于对数据分离器11输出的语音信号进行语音识别;以及语言信息输出单元14,根据语音识别单元13的语音识别结果,生成具有包括语言要素例如单词的语言文本和用于与语音信号的重放同步的时间信息的语言信息。
AV信息延迟单元(存储器)12临时存储数据分离器11输出的AV信息。延迟该AV信息一直到该AV信息由语音识别单元13进行语音识别为止。语言信息根据语音识别结果来生成。当生成的语言信息从语言信息输出单元14输出时,该AV信息从AV信息延迟单元12输出。语音识别单元13从语音信号中获取包括所有可识别单词的部分语音信息的信息作为语言信息。
从AV信息延迟单元12输出的延迟AV信息和从语言信息输出单元14输出的语言信息供应到同步处理器15。同步处理器15重放延迟的AV信息。此外,同步处理器15将包括在语言信息中的语言文本转换成视频信号,并将其与AV信息的重放同步地输出到显示控制器16。同步处理器15重放的AV信息的语音信号通过音频电路21输入到扬声器22,并且视频重放信号提供给显示控制器16。
显示控制器16同步语言文本的视频信号和AV信息的图像信号,并将其提供给显示器17进行显示。从语言信息输出单元14输出的语言信息可以存储在诸如HDD的记录器18或诸如DVD 19的记录介质中。
图2示出语言信息输出单元14执行的详细处理过程的流程图。
首先,在步骤S1,语言信息输出单元14从语音识别单元13获取语音识别结果。语言信息的呈现方法与语音识别一起设定或者事先设定(步骤S2)。用于设定呈现方法的信息的获取将在下文中描述。
在步骤S3,分析包括在语音识别单元13所获得的语音识别结果中的语言文本。该分析可以采用公知的词素分析技术。执行各种自然语言处理,比如从语言文本的分析结果中提取关键字和重要句子。例如,可以根据包括在语音识别结果中的语言文本的词素分析结果生成概要信息,并用作将要呈现的对象的语言信息。应该注意的是,用于与语音信号的重放进行同步的时间信息对于基于该概要信息的语言信息是必要的。
在步骤S4,对呈现语言信息进行选择。具体地说,根据诸如选择基础、呈现量之类的设定信息,选择关于单词和短语的信息或者关于句子的信息。在步骤S5,确定在步骤S4中选择的呈现语言信息的输出(呈现)单元。在步骤S6,根据语音开始时间信息设置每个输出单元的呈现时间。在步骤S7,为每一个输出单元确定呈现延续的时间长度。
在步骤S8,输出代表呈现符号、呈现开始时间、以及呈现延续时间长度的语言信息。图3示出基于语音识别结果的语言信息的示例。语音识别结果30包括至少一个代表语言文本的语言元素的字符串300、以及与字符串300相对应的语音信号的语音开始时间301。该语音开始时间301对应于与语音信号的重放同步显示语言信息时参照的时间信息。语言信息输出31代表语言信息输出单元14根据设置的呈现方法执行处理所获得的结果。该语言信息输出31包括呈现符号310、呈现开始时间311、以及呈现延续时间长度(秒)312。从图3中可以看出,呈现符号310是选作关键字例如一个名词的语言要素。日语的小品词排除在呈现符号310之外。例如,在“5秒”的连续时间内,呈现符号“TOKYO”从呈现开始时间“10:03:08”开始显示。该语言信息输出31可以与图像一起输出作为所谓的封闭字幕(closed caption)或仅与语音同步的语言信息。
图4示出用于设置呈现方法的处理过程示例的流程图。例如,该用于设置呈现方法的处理过程使用例如GUI(图形用户接口)技术通过对话屏幕等来执行。
首先,在步骤S10,判断是否呈现关键字(重要单词或短语)。当呈现关键字时,处理前进到步骤S11。否则,处理前进到步骤S12。当呈现关键字时,以句子为单元选择语言信息并呈现。
在用于设置呈现单词或短语的生成以及选择基准的步骤S11,用户设置部分语音规范、重要单词或短语呈现、优先呈现单词或短语、呈现数量。在用于设置呈现句子生成以及选择基准的步骤S12,用户设置包括指定单词或短语、概要比等的句子代表。当通过步骤S11或步骤S12进行设置时,处理前进到步骤S13。在步骤S13,判断是否应该动态呈现语言信息。当用户指令动态呈现时,在步骤S14设置动态呈现的速度和方向。具体地说,设置滚动方向和代表符号的滚动速度。
在步骤S15,指定呈现单元和开始时间。呈现单元为“句子”、“从句”、或者“单词和短语”,句首语音开始时间、从句语音开始时间、单词和短语语音开始时间设置为开始时间。在步骤S16,以呈现单元指定呈现持续时间。在此,对于呈现持续时间可以指定“直到下一个单词或短语的语音开始”、“秒数”、或者“直到句子结束”。在步骤S17,设置呈现模式。呈现模式包括例如呈现单元的位置、字符框(stile)(字体)、大小等。最好为所有的单词和短语或者每一个指定的单词或短语设置呈现模式。
图5是说明关键字封闭字幕显示示例的图。图5所示的显示屏幕50显示在本实施例的电视接收机的显示器17上。在该显示屏幕50上显示基于所接收的广播信号的AV信息的图像53。圆圈51代表与图像同步的语音的内容。该语音内容51通过扬声器输出。与图像53一起显示在显示屏幕50上的关键字封闭标题52相应于从语音内容51中提取的关键字。该关键字与扬声器的语音内容同步滚动。
电视观看者能够根据该关键字封闭标题的动态显示(呈现)与图像53同步地从视觉上理解语音内容51。重放输出语音内容51帮助理解内容诸如确认漏听的内容、或者提醒理解较宽的内容。语音识别单元13、语言信息输出单元14、同步处理器、显示控制器16等等可以通过计算机软件执行。
(第二实施例)图6是与本发明的第二实施例相关的家庭服务器的示意结构的方框图。如图6所示,该实施例的家庭服务器60包括存储AV信息的AV信息存储单元61、以及对存储在AV信息存储单元61中的AV信息所包括的多个语音信号进行语音识别的语音识别单元62。家庭服务器60还包括连接到语音识别单元62的语言信息处理器63,用于根据语音识别单元62的语音识别结果生成语言文本并执行提取关键字的语言处理。语言信息处理器63的输出部分连接到存储语言信息处理器63的语言处理结果的语言信息存储器64。在语言信息处理器63的语言处理中,使用在第一实施例中描述的呈现方法设定信息部分。
家庭服务器60还包括搜索处理器600,提供搜索屏幕,用于搜索存储在AV信息存储单元61中的AV信息,通过网络67从通信I/F(接口)单元66给用户终端68和网络电子家庭器具和电子设备(AV电视)69。
图7是说明家庭服务器提供的搜索屏幕的示例的图。由搜索处理器600提供的搜索屏幕80显示在用户终端68或网络电子家庭器具和电子设备(AV电视)69上。在该搜索屏幕80中的指示81a和81b相应于存储在AV信息存储单元61中的AV信息(称作“内容”)。通过划分内容81a(在此为“新闻A”)的描述所获得的部分内容的代表图像(缩减静止图像)或者部分内容的缩减视频显示在区域82a中。假定10:00为开始时间的代表部分内容的语音内容的语言信息滚动显示在区域83a中。换句话说,语言信息从语言信息处理器63提供,并且相应于从语音识别结果获得的语言文本中提取的关键字。类似地,假定10:06为开始时间的代表部分内容的语音描述的语言信息滚动显示在区域85a中。
通过划分内容81b(在此为“新闻B”)所获得的部分内容的代表图像(缩减静止图像)或者部分内容的缩减视频显示在区域82b中。假定11:30为开始时间的代表部分内容的语音内容的语言信息滚动显示在区域83b中。假定11:35为开始时间的代表部分内容的语音内容的语言信息滚动显示在区域85b中。
部分内容的语音内容的关键字按照每部分内容如上所述列表显示在搜索处理器600所提供的搜索屏幕80上。如果在每一滚动显示中语音内容达到其末尾,则再次回到其开头并重复显示。在通过影片显示来显示区域82a、84a、82b、84b的情况下,影片显示和滚动显示可以在内容上保持同步。在这种情况下,可以考虑第一实施例。当对语言文本进行语音识别时,用于同步的时间信息可以从要被识别的内容(的语音信号)中导出。
当用户通过例如鼠标M在图8所示的搜索屏幕80上指定关键字86b时,例如相应的内容被选择。在该具体示例中,选择的是“新闻B”的内容81b中假定11:30为开始时间的部分内容。该部分内容从AV信息存储器61中读出,并且通信I/F单元66将该部分内容通过网络67发送到用户终端68(或AV电视69)。在这种情况下,在“新闻B”的部分内容中,期望从相应于用户指定的关键字“交通事故”86b的位置开始重放。家庭服务器60可以获取关键字“交通事故”86b之后的内容数据并发送。
根据第二实施例,通过动态滚动显示根据语音识别结果生成的关键字,电视观看者能够从视觉上理解内容的语音内容。此外,可以充分地从基于语音内容的视觉理解列出的内容中选出期望的内容,从而能够实现高效搜索AV信息。根据如上所述的本发明,可以提供根据语音识别生成语言文本并动态地显示该语言文本的信息处理设备及其方法。
本领域的技术人员能够容易地得出其它优点和修改。因此,本发明不仅限于在此示出和描述的具体细节和代表性实施例。相应地,在不脱离所附权利要求及其等价物限定的本发明一般概念的精神和范围的情况下,可以对其进行各种其他变更和修改。
权利要求
1.一种使用视频-音频信号的信息处理设备,包括语音重放单元,用于从视频-音频信号重放语音信号;语音识别单元,用于对语音信号进行语音识别;文本生成器,用于通过使用语音识别单元的语音识别结果,生成具有语言要素和用于与语音信号的重放同步的时间信息的语言文本;呈现单元,用于有选择地与语音重放单元重放的语音信号同步呈现语言要素和时间信息。
2.根据权利要求1所述的设备,还包括接收单元,用于接收包括语音信号的视频-音频信号;以及延迟单元,用于临时存储接收单元接收的视频-音频信号,并且延迟输出所述视频-音频信号一直到文本生成器生成语言文本。
3.根据权利要求1所述的设备,还包括视频播放器,用于与语音信号同步重放视频-音频信号的视频信号;以及呈现单元还包括显示设备,用于与视频播放器重放的视频信号一起显示语言文本。
4.根据权利要求3所述的设备,还包括接收单元,用于接收包括语音信号的视频-音频信号;以及延迟单元,用于临时存储接收单元接收的视频-音频信号,并且延迟输出所述视频-音频信号一直到文本生成器生成语言文本。
5.根据权利要求1所述并适用记录介质的设备,还包括合成单元,用于合成代表语言文本的图像信号和重放的视频信号;以及输出单元,用于将合成单元的合成结果输出到记录介质。
6.根据权利要求5所述的设备,还包括接收单元,用于接收包括语音信号的视频-音频信号;以及延迟单元,用于临时存储接收单元接收的视频-音频信号,并且延迟输出所述视频-音频信号一直到文本生成器生成语言文本。
7.根据权利要求1所述的设备,其中语言要素包括单词。
8.一种信息处理设备,包括存储器,用于存储多个语音信号;文本生成器,用于通过对语音信号进行语音识别,生成多个语言文本;关键字提取器,用于从语言文本中提取多个关键字;以及显示设备,用于动态地显示关键字。
9.根据权利要求8所述的设备,其中显示设备针对每一个语言文本动态地显示多个关键字。
10.根据权利要求8所述的设备,还包括选择器,用于从存储器的语音信号中选择与多个关键字中用户所指定的关键字相对应的语音信号;以及语音再现单元,用于再现选择器所选择的语音信号。
11.根据权利要求10所述的设备,其中显示设备针对每一个语言文本动态地显示多个关键字。
12.根据权利要求10所述并适用用户终端的设备,还包括发送器,用于通过网络将语音信号或视频-音频信号发送到用户终端。
13.根据权利要求8所述的设备,其中,存储器存储包括语音信号的视频-音频信号;并且还包括选择器,用于从存储器的视频-音频信号中选择与多个关键字中用户所指定的关键字相对应的视频-音频信号;以及视频-音频再现单元,用于再现选择器所选择的视频-音频信号。
14.根据权利要求13所述的设备,其中显示设备针对每一个语言文本动态地显示多个关键字。
15.根据权利要求13所述并适用用户终端的设备,还包括发送器,用于通过网络将语音信号或视频-音频信号发送到用户终端。
16.根据权利要求8所述的设备,其中关键字每一个都代表语音信号的部分语音内容。
17.一种信息处理方法,包括对语音信号进行语音识别以获取语音识别结果;根据语音识别结果生成包括语言要素和用于与语音信号的重放同步的时间信息的语言文本;重放语音信号;以及有选择地与重放语音信号同步显示语言要素和时间信息。
18.一种信息处理方法,包括存储多个语音信号;对语音信号进行语音识别以生成多个语言文本;从语言文本中提取多个关键字;以及动态显示关键字。
全文摘要
一种使用视频-音频信号的信息处理设备,包括语音量放单元,用于从视频-音频信号重放语音信号;语音识别单元,用于对语音信号进行语音识别;文本生成器,用于通过使用语音识别单元的语音识别结果,生成具有语言要素和用于与语音信号的重放同步的时间信息的语言文本;呈现单元,用于有选择地与语音重放单元重放的语音信号同步呈现语言要素和时间信息。
文档编号H04N5/445GK1581951SQ20041005749
公开日2005年2月16日 申请日期2004年8月13日 优先权日2003年8月15日
发明者阿部一彦, 河村聪典, 正井康之, 矢岛真人, 桃崎浩平, 笹岛宗彦, 山本幸一 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1