语音检索装置以及语音检索方法

文档序号:8923595阅读:803来源:国知局
语音检索装置以及语音检索方法
【专利说明】语音检索装置以及语音检索方法
[0001]本申请主张以2014年3月5日申请的日本专利申请特愿2014-42542为基础的优先权,将该基础申请的内容全部组合到本申请中。
技术领域
[0002]本发明涉及一种语音检索装置以及语音检索方法。
【背景技术】
[0003]近年来,伴随着语音、动画等多媒体内容的扩大、普及,要求高精度的多媒体检索技术。关于语音检索,研宄了从语音中确定发出与所给出的检索词(查询)对应的语音的位置的语音检索技术。在语音检索中,由于语音识别的难度等特有的原因,与从字符串中确定包含希望的检索词的位置的字符串检索技术相比,还没有确立充分性能的检索方法。因此,研宄了各种用于实现充分性能的语音检索的技术。
[0004]例如,非专利文献I (Y.Zhang and J.Glass.“An inner-product lower-boundestimate for dynamic time warping,,,in Proc.1CASSP, 2011,pp.5660 ~ 5663.)公开了将语音信号彼此高速地比较的方法。由此,能够从作为检索对象的语音信号中高速地确定与用语音输入的查询对应的位置。
[0005]但是,在非专利文献I中用语音输入查询,因此在作为检索对象的语音包含多个发言者的语音的情况下,有时特征与查询输入者的语音近似的发言者的发言优先。
[0006]另外,在查询输入者的语音在声音上特异的情况下,或查询输入者原本就难以发声的情况下,无法利用通过语音输入查询的方法。

【发明内容】

[0007]本发明用于解决上述那样的问题,其目的在于提供一种能够高精度并且高速地进行语音检索的语音检索装置以及语音检索方法。
[0008]为了达到上述目的,本发明的语音检索装置具备:
[0009]检索字符串取得单元,其取得检索字符串;
[0010]变换单元,其将上述检索字符串取得单元取得的检索字符串变换为音素列;
[0011]时间长度导出单元,其取得在上述变换单元变换而得的音素列中包含的各音素的持续长度,根据该取得的持续长度,导出与上述检索字符串对应的语音的发言时间长度;
[0012]区间指定单元,其指定作为检索对象的语音信号中的由上述时间长度导出单元导出的时间长度的区间即似然度取得区间;
[0013]似然度取得单元,其取得表示上述区间指定单元指定的似然度取得区间是发出与上述检索字符串对应的语音的区间的似然性的似然度;
[0014]重复单元,其改变上述区间指定单元指定的似然度取得区间,重复进行上述区间指定单元和上述似然度取得单元的处理;以及
[0015]确定单元,其根据上述似然度取得单元针对上述区间指定单元指定的似然度取得区间分别取得的似然度,从上述作为检索对象的语音信号中确定被推定为发出与上述检索字符串对应的语音的推定区间。
[0016]根据本发明,能够高精度并且高速地进行语音检索。
【附图说明】
[0017]图1是表示本发明的实施方式I的语音检索装置的物理结构的图。
[0018]图2是表示本发明的实施方式I的语音检索装置的功能结构的图。
[0019]图3(a)是作为检索对象的语音信号的波形图。图3(b)是表示在作为检索对象的语音信号中设定的帧的图。图3(c)是表示在作为检索对象的语音信号中指定的似然度计算区间的图。
[0020]图4是表示对输出概率进行下界化的例子的图。
[0021]图5是表示本发明的实施方式I的语音检索装置执行的语音检索处理的流程的流程图。
[0022]图6是表示确定与检索字符串对应的区间的处理的流程的流程图。
[0023]图7是表示本发明的实施方式2的语音检索装置执行的语音检索处理的流程的流程图。
[0024]图8是表示本发明的实施方式3的语音检索装置的功能结构的图。
【具体实施方式】
[0025]以下,参照【附图说明】本发明的实施方式。此外,在图中对相同或相当的部分赋予相同符号。
[0026](实施方式I)
[0027]实施方式I的语音检索装置在物理上如图1所示那样构成。语音检索装置100具备ROM(只读存储器)1、RAM(随机存取存储器)2、外部存储装置3、输入装置4、输出装置5和CPU (中央处理单元)6。
[0028]ROMl存储用于进行各种初始设定、硬件的检查、程序的装载等的初始程序。RAM2暂时存储CPU6执行的各种软件程序、这些软件程序的执行所需要的数据等。
[0029]外部存储装置3例如是硬盘等,存储各种软件程序、数据等。在这些软件程序中包含应用软件程序、OS (操作系统)那样的基本软件程序等。
[0030]输入装置4例如是键盘等。输入装置4将用户使用键盘操作输入的文本数据等输入到CPU6。输出装置5例如具备液晶显示器等的画面、扬声器等。输出装置5将由CPU6输出的文本数据显示在画面上,从扬声器输出语音数据。
[0031]CPU6将存储在外部存储装置3中的软件程序读出到RAM2中,执行控制该软件程序,由此实现以下的功能结构。
[0032]语音检索装置100在功能上如图2所示那样构成。语音检索装置100具备语音信号存储部101、单音素模型(mono-phone model)存储部102、三音素模型(tr1-phonemodel)存储部103、时间长度存储部104、检索字符串取得部111、变换部112、时间长度导出部113、区间指定部114、特征量计算部115、输出概率取得部116、置换部117、似然度计算部118、重复部119、选择部120、第二变换部121、第二输出概率取得部122、第二似然度计算部123、确定部124。在外部存储装置3的存储区域中构筑语音信号存储部101、单音素模型存储部102、三音素模型存储部103以及时间长度存储部104。
[0033]语音信号存储部101存储作为检索对象的语音信号。作为检索对象的语音信号例如是新闻广播等的语音、被录音的会议的语音、电影的语音等的语音信号。
[0034]单音素模型存储部102和三音素模型存储部103存储声音模型。对构成能够作为检索字符串而取得的字符串的各音素的频率特性进行模型化来得到声音模型。具体地说,单音素模型存储部102存储基于单音素(一个音素)的声音模型(mono-phone model),三音素模型存储部103存储基于三音素(3个音素)的声音模型(tr1-phone model)。
[0035]单音素模型是对每个音素生成的声音模型,是不依存于相邻的音素的、即将与前后的音素状态的状态转移固定化了的声音模型。三音素模型是对每3个音素生成的声音模型,是依存于相邻的音素的、即考虑到与前后的音素状态的状态转移的声音模型。语音检索装置100通过普通的方法学习单音素模型和三音素模型,分别预先存储在单音素模型存储部102和三音素模型存储部103中。
[0036]作为单音素模型和三音素模型,例如可以利用作为在普通的语音识别中利用的声音模型的HMM(Hidden Markov Model,隐马尔科夫模型)。HMM是用于通过统计的方法概率地从语音信号中推定成为输出该语音信号的基础的词汇的模型。HMM使用以表示时间性的状态波动的转移概率、输出从各状态输入的特征量的概率(输出概率)作为参数的标准模式。通过将用预定的加权系数加权后的高斯(正态)分布相加所得的混合高斯分布来表示该输出概率。
[0037]时间长度存储部104以各音素的状态为单位存储在声音模型中利用的各音素的平均持续长度。各音素的平均持续长度是发出各音素时的平均的时间长度。各音素的状态是指在时间方向上对各音素进行细分所得的单位,相当于声音模型的最小单位。对各音素预先确定了状态数。
[0038]以下,以对各音素确定的状态数是“3”的情况为例进行说明。例如,音素“a”被分为包含该音素的发言开始时的第一状态“al”、作为中间状态的第二状态“a2”、包含发言结束时的第三状态“a3”这3个状态。在将在声音模型中利用的全部音素的个数设为Q的情况下,存在(3XQ)个状态。语音检索装置100针对(3XQ)个状态分别根据大量语音信号的数据计算持续长度的平均值,预先存储在时间长度存储部104中。
[0039]此外,为了提高检索精度,适合的是在与发出作为检索对象的语音信号的域(环境)相同的域中发出用于学习声音模型的语音信号、以及用于计算音素的平均持续长度的语音信号。例如,在检索对象是在会议室中录音的语音信号的情况下,适合的是使用在会议室中录音的语音信号学习声音模型,计算音素的平均持续长度。但是,也可以在与发出作为检索对象的语音信号的域不同的域中发出用于学习声音模型的语音信号、以及用于计算音素的平均持续长度的语音信号。
[0040]检索字符串取得部111取得检索字符串。检索字符串取得部111例如取得用户经由输入装置4输入的检索字符串。即,用户用字符串(文本)给出用于从作为检索对象的语音信号中检索发出目标语音的部分的检索词(查询)。
[0041]变换部112依照检索字符串取得部111取得的检索字符串,对不依存于相邻的音素的声音模型即单音素模型的音素进行排列,将检索字符串变换为音素列。即,变换部112按照与包含在检索字符串中的字符相同的顺序,排列对各字符发声时的音素(单音素),由此将检索字符串变换为单音素音素列。
[0042]例如,在输入日语“歹一 7 V ”作为检索字符串的情况下,“歹一 7 V ”包含“r”、“a: ”、“m”、“e”、“N”这5个音素(单音素),因此变换部112生成音素列“r,a:,m,e,N”。或者,在输入了英语“cake”作为检索字符串的情况下,“cake”包含“k”、“e”、“i”、“k”这4个音素(单音素),因此变换部112生成音素列“k,e,i,k”。
[0043]时间长度导出部11
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1