语音编辑装置、语音编辑方法和语音编辑程序的制作方法

文档序号:2830067阅读:386来源:国知局
专利名称:语音编辑装置、语音编辑方法和语音编辑程序的制作方法
技术领域
本发明涉及语音编辑装置、语音编辑方法和语音编辑程序。
背景技术
—般来说,当编辑者编辑已记录语音数据时,该编辑者在聆听所播放的
语音的同时指定并剪切编辑点(editing point)'
在专利文献5中,当编辑者生成语音卡(这是通过将语音记录在卡并将 图片贴在卡上来生成的)时,编辑者利用高级语音编辑程序将语音表示在计 算机屏幕上的编辑窗口中,并使用诸如鼠标之类的工具来删除、剪切或组合 语音的组成部分。
此外,语音识别装置将语音标准模式(以下称为"标准模式")用作语 音识别词典(voice recognition dictionary )以识另'J语音。然而,标准才莫式需二昏 进行扩充以增加可以以语音识另'J ( voice-recognize )的词(word)的数量。在 这种情况下,可以删除或剪切现存标准模式的组成部分。
现在描述在语音识别装置中作为语音识别词典的标准模式的编辑., 语音识别装置将目标语音分割为预定时间间隔(帧),提取指示每一帧 的语音波形的特征的多维特征参数(倒谱(cepstmm)),将特征参数的时间 序列模式与在语音识別装置中累积的标准模式(作为语音识别的基本单元的
将具有最高相似度的词输出作为识别结果。
通过将语音信号以约20到40毫秒的时间帧分开以获得倒谱(特征参数), 其使用与该时间帧对应的语音信号的快速傅立叶变换(FFT),获得幅度谱 的对数,并使用该对数的频谱的离散傅立叶逆变换(IDFT)。
由FFT获得的该语音的频语包括该语音的近似结构信息(指示音位性质 的包络信息)以及微振荡分量的信息(指示声音的音调的微结构信息)。在 语音识别的情况下,提取语音的音素(即估计语音的声音)很重要,而微结
构信息不是很重要。因此,通过使用对数的频谙的IDFT将包络信息和微结
构信息彼此:分开。
当使用IDFT时,包络信息被集中在类频率(qiiefrency)轴(水平轴) 的左边,而微结构信息被集中在类频率轴的右边。因此,包络信息和l^结构 信息可以有效地彼此分开。这就是倒谱。对于语音分析,可以用.LPC (线性 预测编码)代替FFT。
Mel暗示根据人类听觉性能将类频率轴转换为对数函数。
在该发明中,"倒语"包括"Mel倒谱",其主要被表示为"特征参数"。 "倒谱"或"特征参数"可以被表示为"语音数据"。上位概念(super ordinate concept)"语音数据"除了语音的特征参数外(倒谱)外,还包括"被转换 为文本的语音"和"语音数据(波形数据)"。
语音识别装置具有多个标准模式(即关于作为识別单元的每一个词的倒 t普指示该词的声音的特征的特征参数)作为识別词典。该语音识別装—E需 要具有许多标准模式以增加可以识別的词的数量.
专利文献2提出了将音素词典用来代替标准模式。专利文献2公开了这 样的音频识别技术为了生成用于非特定个人的识别词典,将少量人发音的
比较结果生成音素词典并用于音频识别。
专利文献3公开了用以控制配备有语音识别装置的移动终端(移动终端 等)的操作的识別语音的技术。
专利文献4公开了在配备有语音识别装置和文本转换装置的移动终端 (移动终端、PDA等)中将输入语音自动转换为文本数据的技术。
由于移动终端需要d 、巧和廉价,因此实际上移动终端配备具有简单识别 词典(标准模式)的相对廉价的语音识别装置。在这种情况下,用户根据其
情形更新移动终端的识别词典(即用户定制识别词典)。
当用户定制安装在移动终端上的识别词典时,如果其过程或操作太复杂, 则会给移动终端用户造成不便。因此,需要不给用户使用造成困难并允许用 户轻松地扩充识别词典(标准模式)的技术。此外,例如,当编辑大量语音
词的利
普通标准模式进行比较,以便根据数据的组成部分时,由于从其开头输入大量语音数据的操作会导致非常低的 效率,因此需要方便地编辑语音数据的技术。
专利文献1: JP-A-11-190997
专利文献2: JP-A-5-188988
专利文献3: .!P-A-2004-i 53306
专利文献4: JP-A-2003 -188948
专利文献5: JP-A-2000-27618
发明内容
在专利文献所描述的生成标准模式(语音数据)的方法中,被登记为 标准模式的所有词都需要以文本形式输入,这不方便。具体地说,因为移动 终端的输入4菱小,所以在移动终端中输入文本很困难。
在专利文献2所描述的生成标准模式(语音数据)的方法中,要添加的 词应该精确地发音。因此,不容易精确地发音大量词。
在专利文献5所描述的语音编辑方法中,使用高级语音编辑程序编辑语 音数据。然后,配备有高级语音编辑程序的移动终端很贵。此外.以高级语 音编辑程.序编揭语音数掘的操作需要复杂的鼠标操作,这会花很长时间,
本发明提供方便廉价地在移动终端上编辑语音数据的技术。本发明还提 供可以通过增加登记在语音识别装置中的标准模式来有效地增加可以以语音 识别的词的数量的语音识别装置、标准模式生成方法和标准模式生成程序。
根据本发明的一方面,提供使用现存语音数据生成另 一语音数据的语音 编辑装置,包括变更部分指定单元,其在现存语音数据之中的使用源 (usage-source )语音数据和用于指定该使用源语音数据的变更部分的变更部 分语音数据之间执行匹配处理,并且将该使用源语音数据的至少一部分指定 为变更部分;以及语音数据生成单元,其将该变更部分指定单元所指定的变 更部分语音数据用于生成另 一语音数据。
该语音数据生成单元可以生成通过用不同语音数据置换由变更部分指定 单元指定的使用源语音数据的变更部分语音数据而获得的语音数据,作为另
该语音数据生成单元可以生成通过将由变更部分指定单元指定的变更部 分语音数据与不同语音数据组合而获得的语音数据,作为另 一语音数据。
结果,通过编辑现存语音数据生成新语音数据,通过使用模式匹配处理 自动指定变更部分编辑语音数据简单(即语音识别装置的语音识别功能也用 于编辑语音数据)。也就是说,容易通过将一部分语音插入现存语音来剪切
或组合语音。例如,假设在移动终端中存储了现存语音数据"I entered the'A, company on April 1, 2005"。编l專该王见存i吾音凄史才居的方法^口下。首先,当i吾句 "请发音要剪切的部分"显示在移动终端的显示单元上时,用户发音"on April 1,2005"。用户的语音被输入移动终端。然后,在现存语音数据和新输入的 语音之间执行模式匹配处理,并剪切匹配的部分。结果,获得"f entered the 'A, company",,此外,本发明可以用于将现存语音数据分割成多个语句u例如, 假设在移动终端中存储了语音数据"the meeting will take place at J 0 o'clock, in the first conference room"。
当语句"请发音要分割的语音部分"显示在移动 终端的显示单元上时,用户发音"in"。然后,语音"in";汰输入移动终端, 并通过在其与现存语音数据之间执行模式匹配处理来将其与现存语音数据比 较。纟*果,将现存语晋数振"the meeting will take place at 10 o'clock in the first conference room"/泉r丙个i吾-f"凄ti居,民卩 "the meeting will take place at 10 o'clock" 和"in the first conference room"。
因此,#4居,*发明的实方包方式, 可以方便地使用移动终端编辑语音数据。结果,可以有效而且廉价地生成各
用以在语音编辑装J1中生成另 一语音数据的不同语音数据可以包括从外 部输入到语音编辑装置的语音数据、从现存语音数据中被剪切出的语音数据 或者现存语音数据。
因此,因为各种语音数据都被用于编辑语音数据,因此可以有效地生成 新语音数据。
根据本发明的另 一方面,根据本发明的另 一实施方式提供使用现存标准 模式借助语音编辑装置生成另一标准模式的语音识别装置,包括变更部分 指定单元,其在现存标准模式之中的使用源标准模式和用于指定该使用源标 准模式的变更部分的变更部分语音数据之间执行匹配处理,并且将该使用源 标准模式的至少一部分指定为变更部分;以及语音数据生成单元,其将该变 更部分指定单元所指定的变更部分语音数据用于生成另 一标准模式。
由于使用现存标准模式生成新标准模式,所以可以通过使用模式匹配处 理自动指定变更部分来有效地生成有用的标准模式(即语音识别装置的语音
识别功能也用于编辑语音数据)。当移动终端配备有语音识别装置并且移动 终端的操作通过语音识别进行控制时,可能需要具有典型语音模式的一组词。 例如,假设移动终端在诸如影剧院、医院、车站、建筑物之类的公共场合中 通过识别所广播的通知而自动关闭。首先,将移动终端配置成在影剧院识别 通告"在该影剧院请关闭你的移动终端"的通知(即,词"在该影剧院请关 闭你的移动终端"的标准模式事先登记在移动终端的语音识别词典中)。然 后,可以用"在该医院"、"在该车站"或"在该建筑物,,置换标准模式中 的"在该影剧院"部分,使得标准模式可以有效地用于在不同场合关闭移动 终端。此外,当变更使用源标准模式的"在该影剧院"部分时,该部分可以 简单地使用语音识别的匹配处理自动指定。例如,可以容易地通过经由移动 终端的麦克风输入语音"在该影剧院"、执行与使用源标准模式(语句"在 该影剧院请关闭你的移动终端"的标准模式)的匹配处理并将匹配的部分(即 "在该影剧院"部分)设置为变更部分,来指定将要变更的使用源标准模式 的部分。可以通过更新用语音数据(例如通过用语音数据"在该医院"、"在 该车站"或"在该建筑物"置换语音数据"在该影剧院")有效地生成多个 用于自动关闭控制的新标准模式。
语音识别识别还可以包括标准模式数据库更新单元,其通过将使用源标 准模式置换为语音数据生成单元所生成的其他标准模式或通过将该其他标准 模式添加为不同于使用源标准模式的标准模式,来更新标准模式。
新标准模式被置换为使用源标准模式(在这种情况下是删除使用源标准 模式)或者被作为不同于使用源标准模式的标准模式(在这种情况下,使用 源标准模式和新标准模式一起存在)添加到语音识别词典(标准模式数据库), 从而更新标准模式数据库。
在根据本发明的实施方式的语音识别装置中,变更部分指定单元可以在 用于提取使用源标准模式的语音数据和具有多个现存标准模式的语音数据之 间执行匹配处理,并且提取包含在用于提取使用源标准模式的语音数据和具 有多个现存标准模式的语音数据之间的匹配部分的现存标准模式,作为使用 源标准才莫式。
也就是说,在使用使用源标准模式的情况下也执行该匹配处理。因此, 可以通过使用语音识别装置的语音识别功能迅速提取和指定目标使用源标准 模式,来选择使用源标准模式。
根据本发明的另 一方面,提供配备有根据本发明的实施方式的语音编辑 装置或语音识别装置的电子设备。
根据本发明的实施方式的语音编辑装置或语音识别装置可以通过编辑现 存标准模式来有效地增加新语音数据(包括标准模式)量,并且可以迅速扩 充语音识别词典的语音数据或词。因此,用户可以有效地在所述电子设备中 定制语音数据(包括标准模式)。
根据本发明的另 一方面,提供配备有根据本发明的实施方式的语音编辑 装置或语音识别装置的移动终端。
由于根据本发明的实施方式的语音编辑装置或语音识别装置生成大多数 现存功能或语音数据,因此其小巧而且廉价,并且可以集成到移动终端中。 此外,由于用户可以轻松地定制语音数据,因此用户可以方便地根据其情况 使用语音编辑功能(包括编辑标准模式的功能)。因此,所述移动终端可以 具有各种各样的功能。
根据本发明的另一方面,提供使用现存语音数据生成另 一语音数据的语
音编辑方法,包括在使用源语音数据和用于指定该使用源语音数据的变更 部分的变更部分语音数据之间执行匹配处理,并且将该使用源语音数据的至 少一部分指定为变更部分;以及将该指定的变更部分语音数据用于生成另一 语音数据。
根据本发明的另 一方面,提供使用现存标准模式生成另 一标准模式的语 音识别方法,包括在使用源标准模式和用于指定该使用源标准模式的变更 部分的变更部分语音数据之间执行匹配处理,并且将该使用源标准模式的至 少一部分指定为变更部分;以及将该指定的变更部分语音数据用于生成另一 标准模式。
因此,可以轻松有效地扩充新的有用语音数据(标准模式)。 根据本发明的另 一方面,提供在计算机上执行根据本发明的实施方式的
语音编辑方法的语音编辑程序。
根据本发明的另 一方面,提供在计算机上执行根据本发明的实施方式的 语音识別方法的语音识别程序。
因此'可以在各种电子设备中方便而廉价地编辑语音数据(包括标准模 式)。
由于语音编辑装置通过编辑现存语音数据来生成新语音数据(包括标准 才莫式作为语音识别词典),所以可以通过使用4莫式匹配处理自动指定变更部 分来轻松地编辑语音数据,即通过使用语音识别装置的语音识别功能来编辑
语音数据。
也就是说,可以简单地编辑语音数据,即,因为语音数据部分地输入到 现存语音中,所以可以简单地剪切或组合语音数据。
因此,可以使用移动终端简单地编辑语音数据,以使得可以有效而且廉 价地生成各种语音数据。例如,在变更移动终端中所存储的一部分语音数据 时,可以通过指定变更部分并用另 一语音数据置换它来编辑语音数据
具体地说,可以通过将语音编辑装置、语音编辑方法和语音编辑程序用 作语音识別装置、标准模式生成方法和标准模式生成程序,来从现存标准模 式中有效地生成各种标准模式。此外,可以通过经由模式匹配处理自动指定 变更部分,来有效地生成有用的标准模式,即通过使用语音识别装置的语音 识別功能生成标准模式。因此,可以轻松迅速地扩充可以以语音识别的词的 数量。
当通过语音识别控制移动终端的操作或通过将输入的语音信号转换成文 本数据来有效地生成电子邮件时,识别不同的语音部分很重要。因此,根据 本发明的实施方式的、通过变更现存标准模式的组成部分生成新标准模式的
方法《艮有,t。
此外,可以通过模式匹配处理在现存标准模式中简单地指定变更部分。 也就是说,由于在本发明中语音识別装置的匹配处理功能也用于生成标准模 式,所以可以减少所需的硬件数量。因此,可见降低成本。
此外,用于更新使用源的现存标准模式基的更新用语音数据包括用户输 入的语音的语音数据、通过剪切现存标准模式所获得的语音数据或现存标准 模式的语音数据。由于可以使用各种语音数据,所以可以有效地生成新标准 模式。
此外,由于语音编辑装置(包括语音识别装置)可以轻松地定制语音数 据,同时还小巧和廉价,所以语音编辑装置可以轻松地被包含在电子设备中。
此外,根据按照本发明的实施方式的语音编辑方法(包括标准模式生成 方法),可以轻;险有效地扩充新的有用的语音数据(标准模式)。 而且,根据本发明的实施方式的语音编辑程序,可以方便而且廉价地编


图1是根据本发明的实施方式的语音识别装置(其使用用于语音识别的
语音编辑装置)的方框图。
图2是示出在图1所示的语音识别装置中从现存标准模式生成新标准模 式并更新标准模式数据库的操作的流程图。
图3是图解拥有配备了根据本发明的实施方式的语音识别单元的移动终
图4 f a)至图4 (d)是图解当根据图3的序列生成标准模式时的信号处
理的视图,,
图5是根据本发明的示例性实施方式的语音识別装置的方框图「
图6是示出图5的语音识別装置的每个单元的操作序列和数据(信号)
交换序列的序列图。
图7是图解通过语音识别选择标准模式"改变电子邮件接收的显示设置"
并从所选标准模式删除"电子邮件接收的"部分以生成新标准才莫式的序列的视图。
图8 (a)至图8 (d)是图解根据图7所示的序列生成标准模式时的信号 处理的:规图
图9是根据本发明的实施方式的语音识別装置(其执行图7和图8所示 的控制操作)的方框图。
图l()是示出图9所示的语音识别装置的每个单元的操作序列和数据(信 号)交换序列的序列图。
图11是配备有根据本发明的实施方式的语音识别装置的移动终端的外 部结构的透视图。
图12是图11所示的移动终端的内部结构的方框图。
附图标记和符号说明
10:声音分析单元
12:特征参数提取单元
14:变更部分指定单元
附图i兑明 16:用于执行指定变更部分的匹配处理的模式匹配单元 18:标准;模式生成单元
22:用于执行语音识別模式匹配处理的模式匹配单元 24:标准模式数据库(语音识别词典文件) 26:控制单元 28:显示4妻口 30:显示单元
32:使用源标准模式提取单元
34:用于执行提取使用源标准模式的匹配处理的模式匹配单元
550:移动终端
700:无线单元
701:语音编解码器
702:数字信号处理器
703:转换器
704:扬声器
705:麦克风
706:控制器
707:语音记录器
708:声音分析单元
709:特征参数提取单元
710:变更部分指定单元
711:用于执行识别语音并指定使用源标准模式的匹配处理的模式匹配单
712:标准模式生成单元
713:标准模式数据库更新单元
714:标准模式数据库(语音识别词典文件)
715:々某体接口
717:文本转换器
1000:移动终端
1002:上层包装
i004:下层包装 1006:显示单元 1008:操作键 1010:插入孔 1012:记录A某体 A:N:天线
具体实施例方式
将参照附图描述根据本发明的示范性实施方式
本发明涉及可以编辑和处理语音并可以用于其他应用中的语音编辑装置 和语音编辑方法。
例如,可以通过将根据本发明的语音编辑装置用作语音识別装置来有效 地扩充标准模式作为语音识别词典。
第一至第四实施方式描述被用作语音识别装置来扩充标准模式的语音编 辑装置。第五实施方式描述除了用于语音识别的语音编辑装置的用途外被用
于编辑和处理语音的语音编辑装置。
图1是根据本发明的实施方式的语音识别装置(其使用根据本发明的> 用于语音识别的语音编辑装置)的方枢图
该语音识别装置包括声音分斩单元10、特征参数提取单元12、变更部分 指定单元14 (包括用于指定变更部分的模式匹配单元16)、标准模式生成单 元18、标准模式数据库更新单元20、模式匹配单元(用于语音识别的语音识 别装置的语音识别单元)22以及标准模式数据库(语音识别词典文件)24。 在标准模式数据库24中存储的数据类型可以是"特征参数(倒谱 (c.epstmm))"、"转换为文本形式的语音(作为字符串的词典数据)"或 "语音数据(波形数据)"。在以下描述中,假设"特征参数(倒谱)"在 标准模式数据库24中被存储为标准模式。
在图1中,独立地描述变更部分指定单元14中的冲莫式匹配单元16和#1 行该语音识别装置的语音识别功能的^1式匹配单元(语音识别单元)22。然 而,本发明不限于此,而是可以在第一至第五实施方式使用公用模式匹配单 元。图1中的声音分析单元.1.0,
分开,并使用与时间
语音信号以大约20-40毫秒的时间帧
语音信号的快速傅立叶变换(FFT)。
9、
提取单元12获得声音分析结果(即频镨幅度)的绝对值的对
斜 奴,
使用对数的离散傅立叶逆变换(IDFT ),并且获得Me:l倒谱(特征参数)。 将该特征参数发送到变更部分指定单元14和标准模式生成单元18。
变更部分指定单元i4从标准模式数据库24中提取成为使用源的现存标 准模式的特征参数。模式匹配单元16在用于指定变更部分的语音数据的特征 参数(例如,用户用麦克风输入语音)与使用源的现存标准模式的特征参数 之间执行匹配处理,并将匹配部分或不匹配部分指定为变更部分。将指示变 更部分的位置的变更部分位置信号发送到标准模式生成单元18。
标准模式生成单元18通过剪切、删除、置换或组合使用源标准模式来生
成新标准模式。也就是说,将通过剪切使用源标准模式的变更部分的语音数 头'+
-妖据(即剪切语音数据之后的剩余部分的语音的特
通过剪切变更.部分的语音所获得的语音的4 通过以变更部分的语音数据置换另-
被剪切的语音数据、 由用户通过麦克风输
5勺语音数据的语音数据以及通过将另 一语音数据与被 剪切的语音数据的头或尾组合而获得的语音数据之一设置为新标准模式。
标准模式数据库更新单元20更新标准模式数据库(语音识別词典文件) 24。也就是说,标准模式数据库更新单元2()用新标准模式置换使用源的现存 标准模式,或添加该新标准模式到标准模式数据库24。当将新标准模式添加 到标准模式数据库24时,使用源的现存标准模式和新标准模式共存。
图2是示出在图1所示的语音识别装置中从现存标准模式生成新标准模 式并更新标准模式数据库的操作的流程图。在图2中,为了方便解释,以字 母表示语音数据的时间序列模式(语音的特征参数)。
执行指定使用源的现存标准模式的变更部分的操作(步骤SIOO)。
变更部分指定单元14中的模式匹配单元16在用于指定变更部分的语音 数据("cd")与使用源的标准模式("abcdef,)之间执行模式匹配(步骤 S101)。将匹配部分("cd")设置为变更部分(步骤S102),或者将将不 匹配部分("abef,)设置为变更部分(步骤S1.03)。
标准模式生成单元18生成新标准模式(步骤200 )。
也就是说,从步骤S100所指定的变更部分中剪切出语音数据(步骤102 和步骤103 )(步骤201和步骤202 )。
可以将剪切出的语音数据"a.bef,或"c(l"设置为新标准模式(步骤301 和步骤302)。语音数据"abef'是步骤SK)l中匹配的部分之外的部分,其 通过从使用源的标准模式中删除匹配部分的语音数据获得。
接下来,执行置换或组合处理(步骤201和步骤202 )。在步骤S201, 用更新用语音数据"QRS"置换在步骤S102中所指定的变更部分的语音数据 "c.d"。在步骤S204,将更新用语音数据"QRS"与步骤S201中剪切出的 语音数据"cd"的头或尾组合。更新用语音数据"(:)RS"是从麦克风输入的 语音的语音数据、在步骤201或步骤202中剪切出的语音数据或现存标准模 式的语音数据。
也就是说,在步骤S203,通过用"QRS"置换"abOOef'中的OO部分 获得"abQRSef'(即用"QRS"置换使用源标准模式的"cd")。
在步骤S204,将"QRS"与"cd"的头或尾组合获得"QRScd"或"cdQRS"。
可以将"cd (剪切出的数据)"、"abef (通过删除匹配部分的语音数据
处理包括"置换(步骤S301 )"和"添加(步骤S302 )"。
也就是说,在"置换"(步骤S3()1)情况下,用新标准模式置换使用源 的现存标准模式。在"添加"(步骤S302 )情况下,将新标准模式添加到标 准模式数据库24。在这种情况下,使用源的现存标准模式与新标准模式一起
也就是说,根据本发明的第一实施方式,由于从现存标准模式生成新标 准模式并且通过模式匹配处理自动指定变更部分(语音识别装置的语音识别 功能用于生成标准模式),所以可以有效地生成有用的标准模式。因此,可 以容易而且迅速地增加可以以语音识别的词的数量。 (第二实施方式)
第二实施方式描述语音识别装置的结构和操作以及生成标准模式的序 列 在该实施方式中,使用各种标准模式来识別在火车或地铁中广播的通知。
例如,乘火车或地铁往返的通勤乘客(commuter)可能错过其该下车的 车站(例如涉谷车站)。在这种情况下,当通勤乘客携带了配备有语音识别 装置的移动终端时,移动终端可以识别火车或地铁中广播的"本站是涉谷" 的通知,并在识别到该通知时激活振动器来提醒通勤乘客,从而提供方便。 因此,可以防止通勤乘客忘记下车。当通勤乘客经常在"横滨"下车的情况 下,可以将移动终端配置成当其识别到"本站是4夤滨"时就激活振动器。
在标准模式"本站是涉谷"被记录在语音识别装置中的情况下,可以通 过在该标准模式中用"横滨"置换"涉谷"而有效地生成需要的标准模式。
图3是用于解释拥有配备了根据本发明的实施方式的语音识别单元的移 动终端的用户生成标准模式的序列的视图。
该用户通过移动终端550的麦克风2记录通知"本站是涉谷",分析该 通知的声音以提取特征参数,并将所提取的特征参数作为标准模式登记在移 动终端550中(步骤Sl )。
在移动终端550的显示单元(LCD等)30上显示消息"发音要变更的部 分"(步骤S2 )。
接下来,用户P发音"涉谷"。通过麦克风2在移动终端550中记录语 音"涉谷",并分析该语音"涉谷"以提取特征参数。在使用源标准模式(即 语句"本站是涉谷"的特征参数)与用于指定变更部分的语音数据"涉谷"
的特征参数之间执行匹配处理(步骤S4),,在这种情况下、将匹配邻分指定
为变吏部分。
接下来,在移动终端550的显示单元30上显示消息"发音要置换的词" (步骤S5 )。
当用户P说"横滨"日于,通过麦克风2在移动终端550中记录语音"横 滨",并进行声音分析以提取特征参数。
为了防止生成错误的标准模式,在显示单元30上显示新标准模式("本 站是横滨"),以便用户P可以确认该新标准模式是否正确。用户查看该新 标准模式并选4奪"是"(步骤S7 )。
自动生成由语句"本站是横滨"的特征参数构成的标准模式,并更新标 准模式数据库24 (步骤S8 )。也就是说,用"横滨"的特征参数置换在步骤 S4中指定的变更部分的语音数据("涉谷"的特征参数),以便生成由语句
"本站是横滨"的特征参数构成的新标准模式,并将该新标准模式添加到标
准模式数据库(图1的附图标记24)。
图4 (a)至图4 (d)是图解当根据图3的序列生成标准模式时的信号处 理的视图。
在图4U)中,在使用源标准模式的语音数据"下一站是涉谷"与用于 指定变更部分的语音数据"涉谷"之间执行匹配处理。
在图4 (b)中,将使用源标准模式的"涉谷"部分指定为变更部分(用 两个粗箭头指定),并用"横滨"置换"涉谷"。
在图4 (c)中,将更新语音"下一站是横滨"(即新标准模式)添加到 累积在语音存储单元〖图!的附图标记24)中的标准模式的现存组("下一 站是横滨"、"火车不久将到达横滨"和"火车马上将到达橫滨")中。
在图4 (d)示出已更新标准模式组。
图5是根据本发明的示例性实施方式的语音识别装置的方框图。相同附 图标记在图1和图5中表示相同的单元。
参照图5,语音识別装置还包括麦克风2、语音记录累积单元4、正常控 制语音识别装置的操作的控制单元、显示接口 28和显示单元30。上面参照 图1描述了该语音识别装置的操作。
图6是示出图5的语音识别装置的每个单元的操作序列和数据(信号) 交换序列的序列图。
控制控制单元26,使得在显示单元30上显示使用源的语音的选择屏幕, 以便用户可以选择使用源的语音数据(步骤S400 ),,在这种情况下,如图3 所示,由于已经在语音记录累积单元4中记录并累积了火车通知"火车马上 将到达横滨",所以用户选择该通知。
接下来,声音分析单元10分析该语音(步骤S4(M ),而特征参数提取
单元12提取特征参数(步骤S402)。将所提取的特征参数发送到变更部分 指定单元14和标准;漠式生成单元18 (步骤S403和步骤S404 )。
此外,控制单元26在显示单元30上显示提示用户输入指定变更部分的 语音的消息(步骤S405 )。接下来,通过声音分析操作(步骤S406)和特征 参数提取操作(步骤S407 )提取特征参数。将该特征参数发送到变更部分指 定单元14和标准模式生成单元1.8 (步骤S408和步骤S409 ),并指定变更部
分(步骤S410)。将指示变更部分的位置的信号发送到标准模式生成单元18 (步骤S411 )。
接下来,用户输入更新用语音("横滨")来代替变更部分(步骤S412)。 然后,通过声音分析操作(步骤S413 )、特征参数提取操作(步骤S414 )和 将特征参数传送到标准模式生成单元18的操作(步骤S4I5)生成新标准模 式(步骤S4.1.6)。
将新标准模式发送到标准模式数据库更新单元20 (步骤S417 )和显示单 元30 (步骤S418 )。当用户确认了更新(步骤S419)时,更新标准模式数 据库24 (步骤S420 )。 (第三实施方式)
第三实施方式描述生成新标准模式以通过用户语音控制配备有语音识別 装置的移动终端的设置(例如,接收到电子邮件时的设置)的序列。
用户可以改变接收到电子邮件时其移动终端的显示单元上显示的屏幕或
响铃铃声,并选择累积电子邮件的文件夹。
—般来说,通过操作输入键来改变接收到邮件时的屏幕或铃声,,然而, 由于移动终端的操作键很小,所以用户不方便操作这种键,.因此,通过输入 语音而不是键来改变屏幕或铃声很方便。
术语"显示设置"除了电子邮件的显示设置外,还包括电话的待机屏幕 的显示设置和下载的游戏的显示设置。 一般来说,当改变移动终端的设置时, 改变上位概念的菜单项"改变显示设置",然后选择下位概念的菜单项"改 变电子邮件接收的显示设置"。
当用语音选择菜单项"改变显示设置"时,需要识别用户的语音"改变 显示设置"。因此,需要事先登记语句"改变显示设置"的语音的标准模式。
假设在移动终端中登记了标准模式"改变电子邮件接收的显示设置"。 当删除"电子邮件接收的"的语音数据时,可以轻松地生成标准模式"改变 显示设置"。
图'7是示出通过语音识別选择标准模式"改变电子邮件接收的显示设置" 并从所选标准模式中删除"电子邮件接收的"部分以生成新标准模式的序列 的f见图。
在移动终端550的显示单元30上显示消息"发音要变更的词"(步骤 S.l)。
用户P发音作为检索使用源的标准模式的关键词的"电子邮件接收"(步
骤S2)。
然后,通过语音识别提取具有与"电子邮件接收"匹配的部分的标准模 式。也就是说,从登记为标准模式的词中提取包含关键词"电子邮件接收" 的词("L改变电子邮件接收的显示设置"、"2.改变电子邮件接收的声音
设置"和"3.改变电子邮件接收的分布设置")作为使用源标准模式的候选
者,并显示在显示单元30上(步骤S4)。
因此,当选择使用源标准模式时,可以通过使用语音识别装置的语音识
别功能有效地检索使用源标准模式。
接下来,用户P选择"1.改变电子邮件接收的显示设置"(.步骤S5) 接下来,在移动终端550的显示单元30上显示消息"发音要变更的词" (步骤S6 )。
用户P发音"电子邮件接收的"。在移动终端550上记录该语音,通过 声音分析提取特征参数,并在"电子邮件接收的"与在步骤S5中选4奪的标准 模式"改变电子邮件接收的显示设置"的特征参数之间执行匹配处理,使得 "电子邮件接收的"部分被指定为变更部分(步骤8 )。
接下来,在移动终端550的显示单元30上显示查询变更标准模式的方法 的消息 即,显示两个项"!.删除目标部分"和"2.变更目标部分"(歩服
S9)',
在这种情况下,用户P选择"1.删除目标部分"。在显示单元3()上显 示确认屏幕来确认是否删除目标部分。当用户P选择"是"时,生成词(words) "改变显示设置"的标准模式(步骤Sll)。
通过从使用源标准模式中删除语音数据"电子邮件接收的"来生成新标 准模式。然而,通过从作为使用源标准模式的语音数据"改变电子邮件接收 的显示设置"中剪切掉变更部分的语音数据("电子邮件接收的")并将剩 余部分("改变显示设置")设置为新标准模式来执行该处理。
图8 (a)至图8 (d.)是图解根据图7所示的序列生成标准模式时的信号 处理的视图。
在图8 (a)中,已经指定了作为使用源标准模式的语音数据"改变电子 邮件接收的显示设置",并且在标准模式与用于指定变更部分的语音数据"电 子邮件接收的"之间执行匹配处理。
在图8 (b)中,将"电子邮件接收的"部分指定为使用源标准模式的变 更部分(用两个粗箭头指定该变更部分)。
在图8(c)中,从作为使用源标准模式的"改变电子邮件接收的显示设 置"中删除"电子邮件接收的"来生成新标准模式"改变显示设置"。
将该新标准模式添加到被登记在标准模式数据库(图1的附图标记24) 中的标准模式组(也就是,"改变电子邮件接收的显示设置"、"改变电子 邮件接收的自动设置"和"改变电子邮件接收的分布设置")中。
在图8 (d)示出已更新标准模式组。
图9是根据本发明的实施方式的语音识别装置(其执行图7和图8所示 的控制操作)的方框图。在图1 、 5和9中,相同的附图标记表示相同的单元。
在图9中,该语音识别装置不包括图5的结构中的语音记录累积单元4, 但进一步包括了使用源标准模式提取单元32 (其包括模式匹配单元34并且 提取具有与输入的关键词匹配的现存标准模式作为使用源标准模式的候选 者)。
使用源标准模式提取单元32中的模式匹配单元34将从标准模式生成单 元20发送出来的现存标准模式的特征参数与从特征参数提取单元12发送出 来的关键词"电子邮件接收的"的特征参数比较,以确定它们之间的匹配度, 并提取具有与输入的关键词匹配的模式的现存标准模式作为使用源标准模式
的候选者。
上面参照图1和5描述了图9所示的语音识别装置的操作。
图IO是示出图9所示的语音识别装置的每个单元的操作序列和数据(信
号)交换序列的序列图。
控制单元26在显示单元30上显示提示用户输入选择使用源语音的关键 词的语音的屏幕,并且用户输入关健词的语音("电子邮件接收")(步骤 S600)。
接下来,执行声音分析操作(步骤S601)和特征参数提取操作(步骤 S602 ),并在输入的关键词的语音("电子邮件接收")的特征参数与现存 标准模式组的每一个特征参数之间执行匹配处理(步骤S603 ),以提取具有 匹配部分的标准模式,
接下来,将所提取的标准模式的信息发送到显示单元30 (步骤S604),
在显示单元30上显示该信息,并且用户选择成为使用源的标准模式"改变电 子邮件接收的分布设置"(步骤S605 ),从而指定使用源标准模式。
接下来,将存储在标准模式数据库24中的使用源的标准模式的特征参数 发送到变更部分指定单元14和标准模式生成单元18 (步骤S606和步骤 S607 )。
接下来,用户输入指定变更部分的语音(即,"电子邮件接收的")(步 骤S608 )。
接下来,执行声音分析操作(步骤S609),执行特征参数提取操作(步 骤S610),并将所提取的特征参数发送到变更部分指定单元14和标准模式 生成单元18 (步骤S6] 1和步骤S612 )。
变更部分指定单元14通过模式匹配操作指定变更部分(步骤S613)。 将指示变更部分的位置的信号发送到标准模式生成单元8 (步骤S614)。
接下来,用户选择删除操作(步骤S615)。因此,从使用源的标准模式 "改变电子邮件接收的分布设置"中删除"电子邮件接收的",以便生成新 标准模式("改变显示设置")(步骤S616)。
将新标准模式的信息发送到显示单元3 0,以便用户可以确认该新标准模 式是否被添加到标准模式数据库24 (步骤S618)。
当用户同意添加该新标准模式时,标准模式数据库更新单元20将该标准 模式添加到标准模式数据库24,以便更新标准模式数据库(语音识别词典文 件)(步骤S620 )。 (第四实施方式)
第四实施方式描述了配备有根据本发明的语音识别装置的移动终端的结
构和操作。
图11是配备有根据本发明的实施方式的语音识别装置的移动终端的外
部结构的透视图。
移动终端1000包括天线AN、上层包装1002、下层包装1004、显示单元 1006、操作键1008、插入存储标准模式的记录媒体1012的插入孔1010、扬 声器704和麦克风705。
图12是图11所示的移动终端的内部结构的方框图。
移动终端1000包括天线AN、无线单元700、语音编解码器701 、数字信 号处理器'702、 A/D转换器和:D/A转换器703、扬声器704、麦克风705、控 制器706、语音记录器707、声音分析单元708、特征参数提取单元709、变 更部分指定单元710 (包括模式匹配单元711 )、标准模式生成单元712、标 准模式数据库更新单元713、标准模式数据库714、用作记录标准模式的记录 媒体1012的数据接口的媒体接口 715、模式匹配单元(其执行语音识别装置 的语音识別并且在必要时提取使用源的标准模式的候选者)716和语音/文本 转换器717。
可以用语音控制这样配置的移动终端的操作和设置。 此外,可以由语音/文本转换器717将语音自动转换成文本。因此,容易 生成电子邮件。
如上所述,当用语音控制移动终端的操作时,识别通过用其他语音置换 典型语音模式的组成部分生成的各种语音很重要。
例如,假设移动终端在诸如影剧院、医院、车站、建筑物之类的公共场 合中通过识别所广播的通知而自动关闭。首先,将移动终端配置成在影剧院 中识别通告"在该影剧院请关闭你的移动终端"的通知(即,词"在该影剧 院请关闭你的移动终端"的标准模式事先登记在移动终端的语音识别词典
中)。然后,可以用"在该医院"、"在该车站"或"在该建筑物"置换标 准模式中的"在该影剧院"部分,使得标准模式可以有效地用于在不问场合 关闭移动终端。
此外,当借助语音/文本转操作通过输入语音来写电子邮件时,识别通过 用其他语音置换典型语音模式的组成部分生成的各种语音变得很重要。
子邮件经常被用于改变用户的约会。
例如,当准备标准才莫式"让我们星期一下午6点在涉谷的Hachiko会面" 时,"星期一"可以用其他日子置换,"下午6点"可以用其他时间置换, 或"在涉谷的Hachiko"可以用其他地点置换。因此,可以有效地生成用于语 音识别的标准模式。
用以在根据本发明的实施方式的语音识别装置中添加新标准模式的、变 更现存标准模式的组成部分的方法,作为扩充集成在移动终端中的语音识別 装置的识別词典的方法,是很有效的。 (第五实施方式)
虽然上述实施方式描述了语音识别装置(根据本发明的用于语音识別的 语音编辑装置),但该语音编辑装置可以用于不同的目的。例如,该语音编 辑装置可以用于处理或编辑语音。
例如,假设用户在其移动终端中记录其语音数据(例如,准备将要通过 电子邮件发送的语音数据)。当用户由于某种原因需要变更语音数据的组成 部分时,再次输入整个语音数据导致效率不高。
在这种情况下,通过模式匹配指定变更部分并将该变更部分的语音数据 变更为另 一语音数据效率高。
也就.是it,通过从现存的语音数据生成新语音数据,并在编辑该语音数 据时通过模式匹配处理自动指定变更部分(即,语音识别装置的语音识別功 能也用于编辑语音),使语音数据的编辑操作变得简单。因此,可以通过将 语音的组成部分插入现存语音,轻松地剪切或组合语音。
例如,假设在移动终端中存储了现存语音数据"I entered the 'A, company on April 1, 2005"。
编辑该现存语音数据的方法如下。首先,当语句"请发音要剪切的部分" 显示在移动终端的显示单元上时,用户发音"on April 1,2005"。用户的语音 被输入移动终端。然后,在现存语音数据和新输入的语音之间执行模式匹配 处理,并剪切掉匹配的部分。纟吉果,获得"1 entered the'A, company"。
此外,本发明可以用于将现存语音数据分割成多个语句.
例如,假设在移动终端中存储了语音数据"the meeting will take place at 10 o'clock in the first conference room"。当语句"请发音要分割的语音部分"显 示在移动终端的显示单元上时,用户发音"in"。然后,语音"in"被输入移 动终端,并通过在其与现存语音数据之间执行模式匹配处理来将其与现存语 音数据比较。
纟吉果,将现存i吾音凄丈寺居"the meeting will take place at 10 o'clock in the first conference room"分割成两个"i吾音凄t才居,即 "the meeting will take place at 10 o'clock" 和 "in the first conference room"。
编辑语音数据的配置与上述实施方式的配置相同。也就是说,可以通过 利用Mel倒谱数据的匹配处理来指定现存语音数据的变更部分(由于Mel倒
傳数据通过分析预定片断(section)中的语音数据生成,所以可以指定关于 语音的变更部分)。
此外,可以基于该变更部分的信息,方便地编辑语音,也就是说,、可 以方便地剪切语音> 插入新语音或组合剪切出的语音。
因此,根据按照本发明的实施方式的语音编辑装置,可以方便地使用移 动终端编辑语音数据。结果,可以有效而且廉价地生成各种语音数据。
由于语音编辑装置通过编辑现存语音数据来生成新语音数据(包括标准 模式作为语音识別词典),所以可以通过使用模式匹配处理自动指定变更部 分来轻松地编辑语音数据,即通过使用语音识别装置的语音识别功能来编辑 语音数据。
也就是说,可以简单地编辑语音数据,即,因为语音数据部分地输入到 现存语音中,所以可以简单地剪切或组合语音数据。
以使得可以有效而且廉价地生成各种语音数据。例如,在变更移动纟^端中所 存储的一部分语音数据时,可以通过指定变更部分并用另 一语音数据置换它
来编捐-语-,i-数据。
具体地说,可以通过将语音编辑装置、语音编辑方法和语音编辑程序用 作语音识別装置、标准模式生成方法和标准模式生成程序,来从现存标准模 式中有效地生成各种标准模式。
此外,可以通过经由模式匹配处理自动指定变更部分,来有效地生成有 用的标准模式,即通过使用语音识别装置的语音识別功能生成标准模式。因
此,可以轻4公迅速地扩充可以以语音识别的词的M:。
当通过语音识别控制移动终端的操作或通过将输入的语音信号转换成文 本数据来有效地生成电子邮件时,识别不同的语音部分很重要。因此,根据 本发明的实施方式的、通过变更现存标准模式的组成部分生成新标准;漠式的 方法邻〈有效。
也就是说,由于在本发明中语音识别装置的匹配处理功能也用于生成标准模 式,所以可以减少所需的硬件数量。因此,可见降低成本。
可以使用用户输入的语音、通过剪切现存标准模式所获得的语音数据或 现存标准模式本身的语音数据作为更新现存标准模式的更新用语音数据。由 于使用各种语音数据,使得新标准模式创建处理更有效。
此外,由于语音编辑装置(包括语音识别装置)可以轻松地定制语音数 据,同时还小巧和廉价,所以语音编辑装置可以轻松地被包含在电子设备中。
此外,根据按照本发明的实施方式的语音编辑方法(包括标准模式生成 方法),可以轻松有效地扩充新的有用的语音数据(标准模式)。
而且,根据本发明的实施方式的语音编辑程序,可以方便而且廉价地编 辑语音数据(包括标准模式)。
本领域普通技术人员应该明白,可以在不脱离本发明的精神或范围的情 况下,在本发明中进行各种变更和变型。因此,本发明打算覆盖在所附权利 要求及其同等物的范围提供的该发明的变更和变型。
该申请要求于2005年5月27日提交的日本专利申请第2005-156205的
优先权,该专利申请将通过引用、像其全部在本文提出那样合并在此。
工业实用性
根据本发明,可以方便地使用移动终端编辑语音数据.具体地说,当本 发明用作语音识别装罝时,可以轻松有效地扩充可以以语音识别的词的数量。 因此,例如,适合用于集成在电子设备或移动终端〖移动电话、PI)A等)中 的紧致廉价语音编辑装置(包括语音识别装置)。
权利要求
1.一种使用现存语音数据生成另一语音数据的语音编辑装置,该装置包括变更部分指定单元,其在该现存语音数据之中的使用源语音数据和用于指定该使用源语音数据的变更部分的变更部分语音数据之间执行匹配处理,并且将该使用源语音数据的至少一部分指定为变更部分;以及语音数据生成单元,其将该变更部分指定单元所指定的该变更部分语音数据用于生成另一语音数据。
2. 如权利要求1所述的语音编辑装置,其中,该语音数据生成单元生成 通过用不同语音数据置换由该变更部分指定单元指定的该使用源语音数据的 该变更部分语音数据而获得的语音数据,作为另 一语音数据。
3. 如权利要求1所述的语音编辑装置,其中,该语音数据生成单元生成 通过将由该变更部分指定单元指定的该变更部分语音数据与不同语音数据组i语音数据,作为另一语音数据。-来仝
4.如权利要求2或3所述的语音编辑装置,其中,用以生成另一S同语音数据^部输入到该语音编辑装置的语音数据、从该现-数据中被剪切出的语音数据或者该现存语音it据.
5. —种使用现存标准模式来借助如权利要求1至4之一所述的该语音编 辑装置生成另一标准模式的语音识别装置,该语音识别装置包括变更部分指定单元,其在该现存标准模式之中的使用源标准模式和用于 指定该使用源标准模式的变更部分的变更部分语音数据之间执行匹配处理, 并且将该使用源标准模式的至少一部分指定为变更部分;以及语音数据生成单元,其将该变更部分指定单元所指定的该变更部分语音 数据用于生成另一语音数据。
6. 如权利要求5所述的语音识别装置,还包括标准模式数据库更新单元, 其通过将该使用源标准模式置换为该语音数据生成单元所生成的该其他标准 模式或通过将该其他标准模式添加为不同于该使用源标准模式的标准模式, 来更新标准模式数据库。
7. 如权利要求5或6所述的语音识别装置,其中,该变更部分指定单元 在用于提取该使用源标准模式的该语音数据和具有多个现存标准模式的该语 音数据之间执行匹配处理,并且提取包含在用于提耳又该使用源 语音数据和具有多个现存标准模式的该语音数据之间的匹配部分的该现存标 准模式,作为该使用源标准模式。
8. —种配备有如权利要求1至4之一所述的语音编辑装置或如权利要-求 5至7之一所述的语音识别装置的电子设备。
9. —种配备有如权利要求1至4之一所述的语音编辑裝置或如权利要求 5至7之一所述的语音识別装置的移动终端。
10. —种使用现存语音数据生成另一语音数据的语音编辑方法,该方法 包括在使用源语音数据和用于指定该使用源语音数据的变更部分的变更部分 语音数据之间执行匹配处理,并且将该使用源语音数据的至少一部分指定为 变更部分;以及将该指定的变更部分语音数据用于生成另 一语音数据。
11. 一种使用现存标准模式生成另一标准模式的语音识别方法,该方法 包括在使用源标准模式和用于指定该使用源标准模式的变更部分的变更部分 语音数据之间#"亍匹配处理,并且将该使用源标准模式的至少 一 部分指定为 变更部分以及将该指定的变更部分语音数据用于生成另 一语音数据。
12. —种用以在计算机上执行如权利要求10所述的语音编辑方法的语音 编辑程序。
13. —种用以在计算机上执行如权利要求11所述的语音编辑方法的语音 识别程序。
全文摘要
可以方便地丰富登记在语音识别装置中的标准模式并且有效地扩充可以以语音识别的词的数量。通过部分地变更现存标准模式而有效地生成新标准模式,而不是从零开始来生成新标准模式。变更部分指定单元(14)中的模式匹配单元(16)执行匹配处理来标识将要变更的现存标准模式中的一部分。标准模式生成单元(18)通过剪切掉将要变更的标准模式的该部分上的语音数据、删除它以及用另一语音数据置换它或者将其与另一语音数据组合来生成新标准模式。标准模式数据库更新单元(20)添加新标准模式到标准模式数据库(24)。
文档编号G10L15/06GK101185115SQ20068001855
公开日2008年5月21日 申请日期2006年5月25日 优先权日2005年5月27日
发明者寺西利之, 幡野浩司 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1