声音检索装置、声音检索方法

文档序号：9930272阅读：1320来源：国知局

声音检索装置、声音检索方法
【专利说明】声音检索装置、声音检索方法
[0001]关于本申请，主张以在2014年12月22日申请的日本国专利申请第2014-259419号为基础的优先权，参照该基础申请的内容，在本申请引用全部内容。
技术领域
[0002]本发明涉及一种声音检索装置、声音检索方法。
【背景技术】
[0003]随着声音、动画等多媒体内容的扩大/普及，要求高精度的多媒体检索技术。其中，正在研究从声音信号中确定发出与成为检索对象的检索词(查询)对应的声音的位置的声音检索技术。
[0004]在声音检索中，尚未确立与使用图像识别的字符串检索技术相比具有充分的性能的检索方法。因此，正在研究用于实现具有充分性能的声音检索的各种技术。
[0005]例如，在非专利文献I 中(Y.Zhang and J.Glass.“An inner-productlower-bound estimate for dynamic time warping” in P r o c.1CASSP, 2011，pp.5660-5663.)，公开了高速地比较声音信号之间的方法。由此，能够从检索对象的声音信号中高速地确定与通过声音输入的查询对应的位置。
[0006]在非专利文献I公开的技术中，在检索对象的音声的语速和查询输入者的语速不同的情况下，存在检索精度变差的问题。

【发明内容】

[0007]本发明是为了解决上述的课题而提出的，其目的是提供一种能够从不同语速的声音信号中高精度地对检索词进行检索的声音检索装置、声音检索方法。
[0008]为了实现上述目的，本发明的声音检索装置具备:
[0009]记录单元，其记录检索对象的声音信号；
[0010]变换单元，其将检索字符串变换为音素串；
[0011]时间长度取得单元，其从存储有与音素相关的持续时间长度数据的数据库中取得由所述变换单元进行变换而得的音素串所包含的各音素的持续时间长度；
[0012]时间长度导出单元，其根据由所述时间长度取得单元取得的持续时间长度，导出多个相互不同的语速所对应的多个时间长度作为与所述检索字符串对应的声音的发声时间长度的候补；
[0013]区间指定单元，其在检索对象的声音信号的时间长度中，对所述多个时间长度中的各时间长度指定多个具有由所述时间长度导出单元导出的时间长度的区间即似然取得区间；
[0014]似然取得单元，其取得表示由所述区间指定单元指定的似然取得区间是发出与所述检索字符串对应的声音的区间的似然度的似然；以及
[0015]确定单元，其根据由所述似然取得单元针对由所述区间指定单元指定的似然取得区间分别取得的似然，确定从所述检索对象的声音信号中推定发出与所述检索字符串对应的声音的推定区间。
[0016]根据本发明，能够从不同语速的声音信号中能够高精度地对检索词进行检索。
【附图说明】
[0017]若根据以下的附图考虑以下的详细记述，则能够得到对本申请的更深的理解。
[0018]图1是表示本发明的实施方式I的声音检索装置的物理结构的图。
[0019]图2是表示本发明的实施方式I的声音检索装置的功能结构的图。
[0020]图3是用于说明音素的状态的图。
[0021]图4是用于说明导出与语速对应的说话时间长度的图。
[0022]图5(a)是检索对象的声音信号的波形图，图5(b)是表示在检索对象的声音信号中设定的帧的图，图5(c)是表示在检索对象的声音信号中指定的似然取得区间的图。
[0023]图6是表不将输出概率下限化的例子的图。
[0024]图7是用于说明基于选择部的候补区间的选择方法的图。
[0025]图8是表示本发明的实施方式I的声音检索装置执行的声音检索处理的流程的流程图。
[0026]图9是表示确定与检索字符串对应的区间的处理流程的流程图。
[0027]图10是表示本发明的实施方式2的声音检索装置的功能结构的图。
[0028]图1lA是用于说明选择部在乘上所取得的似然的加权系数后选择候补区间的方法的图。
[0029]图1lB是表示加权系数的例子的图。
[0030]图12是用于说明基于选择部的候补区间的选择方法的图。
[0031]图13A是表示选择部对每个语速记载了分割声音信号而得的区间的最大似然的例子的图。
[0032]图13B是表示在分割声音信号而得的每个区间对与语速对应的似然顺序进行比较的例子的图。
【具体实施方式】
[0033]以下，参照附图对本发明的实施方式的声音检索装置进行说明。另外，对图中相同或对应的部分赋予相同符号。
[0034](实施方式I)
[0035]如图1所示，实施方式I的声音检索装置100物理上具备:R0M(Read Only Memory:只读存储器)1、RAM(Random Access Memory:随机存取存储器)2、外部存储装置3、输入装置4、输出装置5、CPU(Central Processing Unit:中央处理单元)6以及总线7。
[0036]ROMl存储声音检索程序。RAM2被用作CPU6的工作区域。
[0037]外部存储装置3例如由硬盘构成，将解析对象即声音信号、后述的单音子模型、三音子模型以及音素的时间长度作为数据来存储。
[0038]输入装置4例如由键盘、声音识别装置构成。输入装置4向CPU6提供用户输入的检索词作为文本数据。输出装置5例如具备液晶显示器等画面、扬声器等。输出装置5在画面上显示由CPU6输出的文本数据，从扬声器输出声音数据。
[0039]CPU6将存储在ROMl中的声音检索程序读出到RAM2并执行该声音检索程序，由此实现以下所示的功能。总线7连接R0M1、RAM2、外部存储装置3、输入装置4、输出装置5、CPU6。
[0040]如图2所示，声音检索装置100功能上具备声音信号存储部101、单音子模型存储部102、三音子模型存储部103、时间长度存储部104、检索字符串取得部111、变换部112、时间长度取得部113、时间长度导出部114、区间指定部115、特征量计算部116、输出概率取得部117、置换部118、似然取得部119、重复部120、选择部121、第2变换部122、第2输出概率取得部123、第2似然取得部124以及确定部125。在外部存储装置3的存储区域构筑声音信号存储部101、单音子模型存储部102、三音子模型存储部103以及时间长度存储部104。
[0041]声音信号存储部101存储检索对象的声音信号。检索对象的声音信号例如是新闻播放等声音、所录音的会议的声音、所录音的演讲的声音、电影的声音等声音信号。
[0042]单音子模型存储部102和三音子模型存储部103存储声学模型。声学模型是对构成能够作为检索字符串而取得的字符串的各音素的频率特性等进行模型化而得的模型。具体而言，单音子模型存储部102存储基于单音子(I个音素)的声学模型(单音子模型)，三音子模型存储部103存储基于三音子(3个音素)的声学模型(三音子模型)。
[0043]音素是构成说话者发出的声音的成分单位。例如“力尹=T >J ”这一单词由“k”、“a”、“ t ”、“ e ”、“ g”、“ ο ”、“r ”、“ i ” 这 8 个音素构成。
[0044]单音子模型是对每一个音素生成的声学模型，是不依存相邻的音素，即是固定化与前后的音素状态的状态迀移而得的声学模型。三音子模型是对每三个音素生成的声学模型，是依存相邻的音素，即考虑与前后的音素状态的状态迀移而得的声学模型，与单音子模型相比，具有较多信息。声音检索装置100通过一般的方法学习单音子模型和三音子模型，并分别预先存储在单音子模型存储部102和三音子模型存储部103中。
[0045]作为单音子模型和三音子模型，例如可以利用在一般的声音识别中所利用的声学模型即HMM(Hidden Markov Model，隐马尔科夫模型)。HMM是用于通过统计方法根据声音信号概率地推定构成该声音信号的音素的模型。在HMM中使用将表示时间状态的起伏的迀移概率和输出从各状态输入的特征量的概率(输出概率)作为参数的标准模式。
[0046]时间长度存储部104将在声学模型中利用的各音素的持续时间长度区分为语速、性别、每个年两层、发声环境等的组，并以各音素的状态单位进行存储。各音素的持续时间长度是发出各音素时的平均时间长度。各音素的状态是在时间方向对各音素进行细分化而得的单位，相当于声学模型的最小单位。对各音素预先决定状态数。例如，以对各音素决定的状态数为“3”的情况为例进行说明。例如如图3所示，将声音“态”的音素“a”分为包含该音素的发声开始时的第I状态“al”、作为中间状态的第2状态“a2”以及包含发声结束时的第3状态“a3”这3个状态。即，I个音素由3个状态构成。将在声学模型中利用的全部音素的数量设为Q的情况下，存在(3XQ)个状态。声音检索装置100根据大量的声音信号的数据分别针对(3XQ)个状态计算持续时间长度的平均值，并预先存储在时间长度存储部104中。
[0047]在本实施方式中，将音素的持续时间长度的组分为与“快”、“较快”、“普通”、“较慢”、“慢”这5个阶段的语速对应的组。时间长度存储部104将大量的声音数据分为“快”、“较快”、“普通”、“较慢”、“慢”这5个阶段的语速的组，对各语速的每个组求出音素的持续时间长度的平均，对与语速对应的每个组存储持续时间长度。
[0048]检索字符串取得部111取得用户经由输入装置4输入的检索字符串。S卩，用户用字符串(文本)对声音检索装置100赋予用于从检索对象的声音信号检索发出目的声音的部分的检索词(查询)。
[0049]变换部112按照检索字符串取得部111取得的检索字符串排列不依存于相邻的音素的声学模型即单音子模型的音素，将检索字符串变换为音素串。即，变换部112按照与在检索字符串中包含的字符相同的顺序排列发出各字符时的音素(单音子)，由此将检索字符串变换为单音子音素串。
[0050]在本

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：富田宽基;
技术所有人：卡西欧计算机株式会社;
我是此专利的发明人

上一篇：一种自适应调整语音识别率的方法及装置的制造方法
上一篇：连续长语音识别方法及系统、硬件设备的制造方法