声音检索装置以及声音检索方法

文档序号:9929566阅读:848来源:国知局
声音检索装置以及声音检索方法
【专利说明】声音检索装置以及声音检索方法
[0001 ] 本申请主张以2014年12月22日申请的日本国专利申请2014-259418号为基础的优先权,将该基础申请的内容作为参照全部合并到本申请中。
技术领域
[0002]本发明涉及一种声音检索装置以及声音检索方法。
【背景技术】
[0003]随着声音和动画等多媒体内容的扩大/普及,寻求高精度的多媒体检索技术。其中,正在研究一种声音检索的技术,即从声音信号中确定发出与设为检索对象的检索词(查询)对应的声音的位置。
[0004]在声音检索中,还没有确立与使用了图像识别的字符检索的技术相比具有充分性能的检索方法。因此纷纷研究用于实现充分性能的声音检索的技术。
[0005]例如,非专利文献I(Y.Zhang and J.Glass.“An inner-product lower-boundestimate for dynamic time warping,,,in Proc.1CASSP,2011,pp.5660_5663)中公开一种高速地比较声音信号之间的方法。这样,能够从检索对象的声音信号中高速地确定与通过声音输入的查询对应的位置。
[0006]在非专利文献I公开的技术中,在检索对象的声音的语速和查询输入者的语速不同的情况下有检索精度变差的问题。

【发明内容】

[0007]本发明是用于解决以上问题的发明,其目的在于提供能够从不同语速的声音信号中高精度地检索检索词的声音检索装置以及声音检索方法。
[0008]为了达到上述目的,本发明的声音检索装置具备:
[0009]记录单元,其记录检索对象的声音信号;时间长度取得单元,其从存储有与音素相关的持续时间长度数据的数据库取得检索字符串的音素串中包括的各个音素的持续时间长度;语速信息取得单元,其取得由用户指定的与语速相关的信息;时间长度变更单元,其根据上述语速信息取得单元取得的与语速相关的信息,变更上述时间长度取得单元取得的各个音素的持续时间长度;时间长度导出单元,其根据由上述时间长度变更单元变更的各个音素的持续时间长度,导出与上述检索字符串对应的声音发声时间长度;区间指定单元,其在上述检索对象的声音信号的时间长度中指定多个上述时间长度导出单元导出的发声时间长度的区间作为似然取得区间;似然取得单元,其取得似然,该似然表示上述区间指定单元指定的似然取得区间是发出与上述检索字符串对应的声音的区间的似然度;以及确定单元,其根据上述似然取得单元针对由上述区间指定单元指定的似然取得区间分别取得的似然,确定从检索对象的声音信号中推定发出了与上述检索字符串对应的声音的推定区间。
[0010]根据本发明,能够从不同语速的声音信号中高精度地检索检索词。
【附图说明】
[0011]如果将以下详细的描述与以下的附图对应起来考虑,则能够更深地理解本申请。
[0012]图1是表示本发明实施方式I的声音检索装置的物理结构的图。
[0013]图2是表示本发明实施方式I的声音检索装置的功能结构的图。
[0014]图3是用于说明音素的状态的图。
[0015]图4是表示用于使音素各个状态的持续时间长度伸缩的语速信息的例子的图。
[0016]图5是表示用于使音素状态的持续时间长度伸缩的计算例的图。
[0017]图6A是检索对象的声音信号的波形图。图6B是表示在检索对象的声音信号中设定的帧的图。图6C是表示在检索对象的声音信号中指定的似然取得期间的图。
[0018]图7是将输出概率进行下限化的例子的图。
[0019]图8是表示本发明实施方式I的声音检索装置所执行的声音检索处理的流程的流程图。
[0020]图9是表示确定与检索字符串对应的区间的处理流程的流程图。
[0021]图10是表示将使持续时间长度伸缩的变更率仅设定为母音的持续时间长度的例子的图。
[0022]图11是表示本发明实施方式2的声音检索装置所执行的声音检索处理的流程的流程图。
[0023]图12是表示按照音素的每个状态设定使持续时间长度伸缩的变更率的例子的图。
[0024]图13是表示将使持续时间长度伸缩的变更率仅设定为音素的特定状态的例子的图。
【具体实施方式】
[0025]以下,一边参照附图一边说明本发明实施方式的声音检索装置、声音检索方法以及程序。另外,对于图中相同或相应的部分标注相同符号。
[0026](实施方式I)
[0027]如图1所示,实施方式I的声音检索装置100物理地具备:R0M(Read Only Memory:只读存储器)l、RAM(Random Access Memory:随机存取存储器)2、外部存储装置3、输入装置
4、输出装置5、CPU(Central Processing Unit:中央处理单元)6以及总线7。
[0028]ROMl存储声音检索程序。RAM2作为CPU6的工作区而使用。
[0029]外部存储装置3例如由硬盘构成,将作为检索对象的声音信号、后述的单音子模型、三音子模型以及音素的时间长度作为数据进行存储。
[0030]输入装置4例如由键盘和声音识别装置构成。输入装置4将用户输入的检索词作为文本数据提供给CPU6。输出装置5例如具备液晶显示器等画面、扬声器等。输出装置5将通过CPU6输出的文本数据显示在画面上,从扬声器输出声音数据。
[0031 ] CPU6将存储在ROMl中的声音检索程序读出到RAM2,通过执行该声音检索程序,实现以下所示的功能。总线7连接ROM 1、RAM2、外部存储装置3、输入装置4、输出装置5以及CPU6。
[0032]如图2所示,声音检索装置100在功能上具备声音信号存储部101、单音子模型存储部102、三音子模型存储部103、时间长度存储部104、检索字符串取得部111、变换部112、时间长度取得部113、语速信息取得部114、时间长度变更部115、时间长度导出部116、区间指定部117、特征量计算部118、输出概率取得部119、置换部120、似然取得部121、重复部122、选择部123、第二变换部124、第二输出概率取得部125、第二似然取得部126以及确定部127。在外部存储装置3的存储区域中构筑声音信号存储部101、单音子模型存储部102、三音子模型存储部103以及时间长度存储部104。
[0033]声音信号存储部101存储检索对象的声音信号。检索对象的声音信号是例如与新闻广播等的声音、被录音的会议的声音、被录音的讲演会的声音、电影的声音相关的声音信号。
[0034]单音子模型存储部102以及三音子模型存储部103存储声学模型。声学模型是将构成作为检索字符串而能够取得的字符串的各个音素的频率特性进行模型化而得的模型。具体地说,单音子模型存储部102存储单音子(I个音素)的声学模型(单音子模型),三音子模型存储部103存储三音子(3个音素)的声学模型(三音子模型)。
[0035]音素是构成由说话者发出的声音的成分单位。例如,“力亍riy”这个单词由“k”、“a”、“t”、“e”、“g”、V’、“r”、“i” 这8个音素构成。
[0036]单音子模型是按照每个音素生成的声学模型,是不依存于相邻的音素,即将与前后的音素状态之间的状态迀移进行了固定化的声学模型。三音子模型是按照每3个音素生成的声学模型,依存于相邻的音素,即考虑了与前后的音素状态之间的状态迀移的声学模型,具有比单音子模型更多的信息。声音检索装置100通过一般的方法学习单音子模型以及三音子模型,分别预先存储在单音子模型存储部102以及三音子模型存储部103中。
[0037]作为单音子模型以及三音子模型,例如能够使用通过一般声音识别而使用的声学模型即HMM(Hidden Markov Model:隐马尔科夫模型)。!!丽是用于通过统计方法根据声音信号概率地推定构成该声音信号的音素的模型。HMM使用将表示时间状态的摇摆的迀移概率、输出根据各个状态输入的特征量的概率(输出概率)设为参数的标准模式。
[0038]时间长度存储部104通过各个音素的状态单位来存储通过声学模型而使用的各个音素的平均持续时间长度。各个音素的平均持续时间长度是发出各个音素时的平均时间长度。各个音素的状态是在时间方向将各个音素进行了细化的单位,相当于声学模型的最小单位。针对各个音素预先决定状态数量。
[0039]在本实施方式中,以针对各个音素决定的状态数量为“3”的情况作为例子进行说明。例如,如图3所示,声音“$)”被分为包括该音素的发声开始时的第一状态“al”、作为中间状态的第二状态“a2”、包括发声结束时的第三状态“a3”共3个状态。即,一个音素由3个状态构成。在将通过声学模型而使用的所有音素的数量设为Q的情况下,存在(3XQ)个状态。声音检索装置100对于音素的状态分别根据大量的声音信号数据来计算持续时间长度的平均值,预先存储在时间长度存储部104中。
[0040]检索字符串取得部111取得用户经由输入装置4而输入的检索字符串。即,用户通过字符串(文本)对声音检索装置100赋予用于从检索对象的声音信号检索发出目的声音的部分的检索词(查询)。
[0041]变换部112将不依存于相邻音素的声学模型即单音子模型的音素按照检索字符串取得部111取得的检索字符串进行排列,将检索字符串变换为音素串。即,变换部112按照与检索字符串中包括的字符相同的顺序,排列发声各个字符时的音素(单音子),从而将检索字符串变换为单音子音素串。
[0042]在本实施方式中,说明检索日语“力fd'y”的情况。当作为检索字符串输入日语“力亍=i'y” 时,“力亍=i'y” 包括 “k”、“a”、“t”、“e”、“g”、V’、“r”、“i” 这8个音素(单音子),因此变换部112生成音素串“k、a、t、e、g、o、r、i”。
[0043]时间长度取得部丨丨3从时间长度存储部104取得由变更部112生成的音素串所对应的音素的每个状态的平均持续时间长度。
[0044]语速信息取得
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1