声音检索装置、声音检索方法_6

文档序号：9930272阅读：来源：国知局

所包含的各音素的持续时间长度；时间长度导出单元，其根据由所述时间长度取得单元取得的持续时间长度，导出多个相互不同的语速所对应的多个时间长度作为与所述检索字符串对应的声音的发声时间长度的候补；区间指定单元，其在检索对象的声音信号的时间长度中，对所述多个时间长度分别指定多个具有由所述时间长度导出单元导出的时间长度的区间即似然取得区间；似然取得单元，其取得表示由所述区间指定单元指定的似然取得区间是发出与所述检索字符串对应的声音的区间的似然度的似然；以及确定单元，其根据由所述似然取得单元针对由所述区间指定单元指定的似然取得区间分别取得的似然，确定从所述检索对象的声音信号中推定发出与所述检索字符串对应的声音的推定区间。2.根据权利要求1所述的声音检索装置，其特征在于，该声音检索装置还具备:选择单元，其根据由所述似然取得单元取得的似然，从所述多个时间长度中选择一个时间长度，所述确定单元根据针对具有所述选择的时间长度的似然取得区间取得的似然，从所述选择的时间长度的似然取得区间中确定所述推定区间。3.根据权利要求2所述的声音检索装置，其特征在于，所述选择单元针对所述多个时间长度分别取得按照似然从高到低的顺序相加预定数量的针对相同时间长度的似然取得区间取得的似然而得的相加值，并对该取得的相加值进行比较，从所述多个时间长度中选择相加值最大的时间长度。4.根据权利要求3所述的声音检索装置，其特征在于，所述选择单元通过以似然越高乘上越大的加权系数的方式将针对相同时间长度的似然取得区间取得的似然相加来取得上述相加值。5.根据权利要求1至4中的任一项所述的声音检索装置，其特征在于，该声音检索装置还具备: 特征量计算单元，其针对比较声音信号和音素模型的区间即每个帧计算出由所述区间指定单元指定的似然取得区间中的所述检索对象的声音信号的特征量；以及输出概率取得单元，其对每个帧取得从所述音素串包含的各音素输出所述检索对象的声音信号的特征量的输出概率，所述似然取得单元相加将针对由所述区间指定单元指定的似然取得区间所包含的每个帧取得的输出概率取对数而得的值，来取得该似然取得区间的所述似然。6.根据权利要求5所述的声音检索装置，其特征在于，该声音检索装置还具备:输出概率存储单元，其对所述检索对象的声音信号所包含的每个帧，将声学模型的音素的各状态与输出概率对应起来进行存储，其中，该输出概率是从根据声学模型生成的音素的各状态输出所述检索对象的声音信号的特征量的概率，在所述变换单元将所述检索字符串变换为所述音素串时，所述输出概率取得单元从存储在所述输出概率存储单元中的输出概率中，针对所述似然取得区间所包含的每个帧取得与该音素串所包含的音素的各状态对应起来存储的输出概率。7.根据权利要求6所述的声音检索装置，其特征在于，该声音检索装置还具备:置换单元，其将由所述输出概率取得单元针对每个帧取得的输出概率分别置换为该帧、该帧之前的NI个帧以及该帧之后的N2个帧中最大的输出概率，所述NI和N2是包含O的自然数，NI和N2中的任一个不是O，所述似然取得单元根据基于所述置换单元的置换后的输出概率，取得由所述区间指定单元指定的似然取得区间的所述似然。8.根据权利要求2至7中的任一项所述的声音检索装置，其特征在于，所述变换单元排列不依存于相邻音素的声学模型的音素，将所述检索字符串变换为所述音素串，所述似然取得单元根据所述音素串取得由所述区间指定单元指定的似然取得区间的所述似然，所述选择单元根据所述似然取得单元取得的似然，从所述区间指定单元指定的似然取得区间中选择所述推定区间的多个候补，该声音检索装置还具备: 第2变换单元，其排列依存于相邻音素的第2声学模型的音素，将所述检索字符串变换为第2音素串；以及第2似然取得单元，其根据所述第2音素串，对所述选择单元选择的多个候补分别取得第2似然，其中，该第2似然表示所述选择单元选择为所述推定区间的候补的区间为发出与所述检索字符串对应的声音的区间的似然度，所述确定单元根据所述第2似然取得单元取得的第2似然，从所述选择单元选择的多个候补中确定所述推定区间。9.根据权利要求8所述的声音检索装置，其特征在于，所述选择单元从所述区间指定单元指定的似然取得区间中，对每个预定的选择时间长度逐一选择在从该预定的选择时间长度的区间中开始的似然取得区间中所述似然最大的似然取得区间，由此选择所述推定区间的多个候补。10.一种声音检索方法，其是具有记录检索对象的声音信号的存储器的声音检索装置中的声音检索方法，该声音检索方法的特征在于，具备: 变换步骤，将检索字符串变换为音素串；时间长度取得步骤，从存储有与音素相关的持续时间长度数据的数据库中取得由所述变换步骤进行变换而得的音素串所包含的各音素的持续时间长度；时间长度导出步骤，根据由所述时间长度取得步骤取得的持续时间长度，导出多个相互不同的语速所对应的多个时间长度作为与所述检索字符串对应的声音的发声时间长度的候补；区间指定步骤，在检索对象的声音信号的时间长度中，对所述多个时间长度分别指定多个具有由所述时间长度导出步骤导出的时间长度的区间即似然取得区间；似然取得步骤，取得表示由所述区间指定步骤指定的似然取得区间是发出与所述检索字符串对应的声音的区间的似然度的似然；以及确定步骤，根据由所述似然取得步骤针对由所述区间指定步骤指定的似然取得区间分别取得的似然，确定从所述检索对象的声音信号中推定发出与所述检索字符串对应的声音的推定区间。11.根据权利要求10所述的声音检索方法，其特征在于，该声音检索方法还具备:选择步骤，根据由所述似然取得步骤取得的似然，从所述多个时间长度中选择一个时间长度，所述确定步骤根据针对具有所述选择的时间长度的似然取得区间取得的似然，从所述选择的时间长度的似然取得区间中确定所述推定区间。12.根据权利要求11所述的声音检索方法，其特征在于，在所述选择步骤中，针对所述多个时间长度分别取得按照似然从高到低的顺序相加预定数量的针对相同时间长度的似然取得区间取得的似然而得的相加值，并对所取得的相加值进行比较，从所述多个时间长度中选择相加值最大的时间长度。13.根据权利要求12所述的声音检索方法，其特征在于，所述选择步骤以似然越高乘上越大的加权系数的方式将针对相同时间长度的似然取得区间取得的似然相加，来取得所述相加值。14.根据权利要求10至13中的任一项所述的声音检索方法，其特征在于，该声音检索方法还具备: 特征量计算步骤，针对比较声音信号和音素模型的区间即每个帧计算出由所述区间指定步骤指定的似然取得区间中的所述检索对象的声音信号的特征量；以及输出概率取得步骤，其针对每个帧取得从所述音素串包含的各音素输出所述检索对象的声音信号的特征量的输出概率，在所述似然取得步骤中，相加将针对由所述区间指定步骤指定的似然取得区间所包含的每个帧取得的输出概率取对数而得的值，来取得该似然取得区间的所述似然。15.根据权利要求14所述的声音检索方法，其特征在于，该声音检索装置还具备:输出概率存储部，其对所述检索对象的声音信号所包含的每个帧将声学模型的音素的各状态与输出概率对应起来进行存储，其中，该输出概率是从根据声学模型生成的音素的各状态输出所述检索对象的声音信号的特征量的概率，在所述输出概率取得步骤中，所述变换步骤将所述检索字符串变换为所述音素串时，从存储在所述输出概率存储部中的输出概率中对所述似然取得区间所包含的每个帧取得与该音素串所包含的音素的各状态对应起来存储的输出概率。16.根据权利要求15所述的声音检索方法，其特征在于，该声音检索方法还具备:置换步骤，将在所述输出概率取得步骤中对每个帧取得的输出概率分别置换为该帧、该帧之前的NI个帧以及该帧之后的N2个帧中最大的输出概率，所述NI和N2是包含O的自然数，NI和N2中的任一个不是0，在所述似然取得步骤中，根据基于所述置换步骤的置换后的输出概率，取得由所述区间指定步骤指定的似然取得区间的所述似然。17.根据权利要求11至16中的任一项所述的声音检索方法，其特征在于，在所述变换步骤中，排列不依存于相邻音素的声学模型的音素，将所述检索字符串变换为所述音素串，在所述似然取得步骤中，根据所述音素串取得在所述区间指定步骤指定的似然取得区间的所述似然，在所述选择步骤中，根据在所述似然取得步骤中取得的似然，从在所述区间指定步骤中指定的似然取得区间中选择所述推定区间的多个候补，该声音检索方法还具备: 第2变换步骤，排列依存于相邻音素的第2声学模型的音素，将所述检索字符串变换为第2音素串；以及第2似然取得步骤，根据所述第2音素串，对所述选择步骤选择的多个候补分别取得第2似然，其中，该第2似然表示在所述选择步骤中选择为所述推定区间的候补的区间为发出与所述检索字符串对应的声音的区间的似然度，在所述确定步骤中，根据在所述第2似然取得步骤中取得的第2似然，从所述选择步骤选择的多个候补中确定所述推定区间。18.根据权利要求17所述的声音检索方法，其特征在于，在所述选择步骤中，从在所述区间指定步骤中指定的似然取得区间中，对每个预定的选择时间长度逐一选择在从该预定的选择时间长度的区间中开始的似然取得区间中所述似然最大的似然取得区间，由此选择所述推定区间的多个候补。
【专利摘要】本发明提供声音检索装置、声音检索方法。检索字符串取得部取得检索字符串。变换部将检索字符串变换为音素串。时间长度导出部使用语速不同的多个音素的持续时间长度，导出多个与检索字符串对应的声音的发声时间长度。区间指定部指定检索对象的声音信号中的似然取得区间。似然取得部取得表示似然取得区间为发出与检索字符串对应的声音的区间的似然度的似然。重复部改变由区间指定部指定的似然取得区间，重复进行区间指定部和似然取得部的处理。选择部选择使用与似然变高的语速对应的持续时间长度的似然取得区间。确定部根据针对所选择的似然取得区间分别取得的似然，确定从检索对象的声音信号中推定发出与检索字符串对应的声音的推定区间。
【IPC分类】G10L15/14
【公开号】CN105719643
【申请号】CN201510974271
【发明人】富田宽基
【申请人】卡西欧计算机株式会社
【公开日】2016年6月29日
【申请日】2015年12月22日
【公告号】US20160180839

完整全部详细技术资料下载

当前第6页1 2 3 4 5 6