语音检索装置以及语音检索方法_4

文档序号:8923595阅读:来源:国知局
39)。如果似然度计算部118计算出似然度,则重复部119针对时间长度导出部113导出的各时间长度,判定作为检索对象的语音信号的全部区间的似然度计算是否结束(步骤S40)。
[0098]在全部区间的似然度计算没有结束的情况下(步骤S40:否),针对时间长度导出部113导出的3个时间长度,分别由区间指定部114指定从上一个指定的帧的下一个帧开始的似然度计算区间(步骤S41),语音检索处理返回到步骤S36。然后,重复部119针对各时间长度对新指定的似然度计算区间重复进行上述的步骤S36?S40的处理,计算似然度。这样,重复部119直到到达作为检索对象的语音信号的末尾为止,使区间指定部114指定的似然度计算区间逐帧地偏移,依次计算似然度。
[0099]最终,如果区间的似然度计算结束(步骤S40:是),则语音检索处理转移到根据计算出的似然度确定与检索字符串对应的区间的处理(步骤S42)。该确定处理与参照图6的流程图说明的处理相同。
[0100]S卩,选择部120从区间指定部114针对3个时间长度分别指定的似然度计算区间中,针对每个预定的选择时间长度逐一地选择区间(步骤S101)。进而,选择部120从这样选择出的区间中按照似然度从高到低的顺序选择X个区间(步骤S102)。第二输出概率取得部122根据三音素音素列,对每个帧取得选择部120选择出的区间中的输出概率(步骤
5103)。第二似然度计算部123通过DP匹配计算选择部120选择出的区间的似然度(步骤
5104)。然后,确定部124根据计算出的第二似然度,确定被推定为发出与检索字符串对应的的语音的区间(步骤S105)。
[0101]如果确定与检索字符串对应的区间,则确定部124经由输出装置5输出确定结果(步骤S43)。通过以上步骤,语音检索装置100执行的语音检索处理结束。
[0102]如以上说明的那样,实施方式2的语音检索装置100导出与快/普通/慢的3个语速对应的3个时间长度,作为与检索字符串对应的语音的发言时间长度。然后,将分别与导出的3个时间长度相当的时间长度的区间指定为似然度计算区间,从指定的似然度计算区间中确定被推定为发出与检索字符串对应的语音的区间。其结果是能够减少由于语速的不同而似然度恶化,从候选中遗漏的情况,在针对与平均的语速有偏差的语音信号的语音检索中,也能够提高检索精度。
[0103](实施方式3)
[0104]接着,说明本发明的实施方式3。
[0105]实施方式I和实施方式2的语音检索装置100在检索字符串取得部111取得了检索字符串后执行用于似然度的计算的输出概率的计算。但是,输出概率的计算是计算量多的处理。因此,实施方式3的语音检索装置,预先在预备选择与检索字符串对应的区间的候选时使用单音素模型计算输出概率,谋求检索时的高速化。以下进行说明。
[0106]实施方式3的语音检索装置与实施方式I的语音检索装置100同样地在物理上如图1所示那样构成。因此,在此省略详细的说明。
[0107]实施方式3的语音检索装置在功能上如图8所示那样构成。语音检索装置300不具备实施方式I和实施方式2的语音检索装置100所具备的单音素模型存储部102,代替它而具备输出概率存储部105。在外部存储装置3的存储区域中构筑输出概率存储部105。另外,与实施方式I和实施方式2的语音检索装置100相比,替换了各部的处理的顺序。以下,说明各部的细节。
[0108]输出概率存储部105对包含在作为检索对象的语音信号中的每个帧,对应地存储声音模型的各音素、从该各音素输出作为检索对象的语音信号的特征量的输出概率。声音模型是在预备选择时使用的单音素模型。例如,日语的单音素全部具有约40种音素。输出概率存储部105将针对向这40种音素追加了无音的I个音素的41个音素123状态预先计算作为检索对象的语音信号的从开头到末尾的全部帧的全部输出概率所得的结果存储为检索索引。
[0109]例如,如果假定用8字节的双精度(double)型保存每一个状态的输出概率,则可以用约960字节存储每一帧的输出概率。另一方面,如果基于16位PCM/16kHz采样的条件,将偏移长度S假定为10msec,则语音信号的容量对每一个偏移长度是320字节。因此,为了存储输出概率所需要的容量只是为了存储语音信号所需要的容量的最多3倍。
[0110]此外,可以由语音检索装置300执行使用单音素模型预先计算输出概率的处理。或者,也可以由其他信息处理装置计算输出概率,由语音检索装置300取得其结果,存储在输出概率存储部105中。
[0111]检索字符串取得部111取得检索字符串。检索字符串取得部111例如经由操作部12取得用户输入的检索字符串。变换部112依照检索字符串取得部111取得的检索字符串对不依存于相邻的音素的声音模型即单音素模型的音素进行排列,将检索字符串变换为音素列。
[0112]如果变换部12将检索字符串变换为音素列,则输出概率取得部116从存储在输出概率存储部105中的输出概率中取得与包含在该音素列中的各音素对应地存储的输出概率。具体地说,输出概率取得部116从对每帧存储的单音素模型的全部音素的输出概率中,针对作为检索对象的语音信号的全部帧取得检索所需要的音素的输出概率。
[0113]如果输出概率取得部116取得输出概率,则置换部117针对取得的输出概率执行下界(Lower-Bound)化处理。S卩,置换部117将针对作为检索对象的语音信号的全部帧取得的输出概率置换为在连续的多个帧中取得的多个输出概率中的值最大的输出概率。
[0114]时间长度导出部113从时间长度存储部104取得包含在变换部112变换后的音素列中的各音素的平均持续长度。然后,根据取得的平均持续长度,导出与检索字符串对应的语音的发言时间长度。区间指定部114从作为检索对象的语音信号的开头开始按顺序地指定时间长度导出部113导出的时间长度的区间即似然度计算区间。
[0115]似然度计算部118根据置换部117的置换后的输出概率,计算表示区间指定部114指定的似然度计算区间是发出与检索字符串对应的语音的区间的似然性的似然度。具体地说,似然度计算部118确定区间指定部114指定的似然度计算区间中的各帧、包含在音素列中的音素的状态中的与该帧对应的状态的置换后的输出概率。然后,通过在似然度计算区间的从开头到末尾的全部帧中将取所确定的输出概率的对数而得的值相加,得到该似然度计算区间的似然度。
[0116]重复部119使区间指定部114指定的似然度计算区间每次偏移I帧,重复进行区间指定部114、似然度计算部118的处理。然后,针对在作为检索对象的语音信号中能够指定的似然度计算区间分别计算似然度。
[0117]选择部120根据似然度计算部118计算出的似然度,从区间指定部114指定的似然度计算区间中,选择被推定为发出与检索字符串对应的语音的推定区间的多个候选。经由输出装置5所具备的画面向外部显示选择部120的选择结果。然后,语音检索装置300针对选择出的X个区间,执行基于三音素模型和DP匹配的更高精度的似然度计算处理。
[0118]特征量计算部115从语音信号存储部101取得作为检索对象的语音信号,对每个帧计算作为检索对象的语音信号的特征量。第二变换部121依照检索字符串取得部111取得的检索字符串,对作为依存于相邻的音素的第二声音模型的三音素模型的音素进行排列,将检索字符串变换为作为第二音素列的三音素音素列。
[0119]第二输出概率取得部122从三音素模型存储部103取得三音素模型,对每个帧取得从包含在第二变换部121变换后的三音素音素列中的各音素输出选择部120选择为推定区间的候选的区间中的作为检索对象的语音信号的特征量的输出概率。
[0120]第二似然度计算部123针对选择部120选择出的多个候选分别计算表示由选择部120选择为推定区间的候选的区间是发出与检索字符串对应的语音的区间的似然性的第二似然度。
[0121]例如,第二似然度计算部123根据第二输出概率取得部122取得的输出概率,通过DP匹配来搜索选择部120选择出的区间中的各帧和包含在三音素音素列中的各三音素之间的对应。然后,通过将取针对与选择部120选择出的区间中的各帧对应的三音素分别取得的输出概率的对数所得的值相加,而得到该区间中的第二似然度。
[0122]确定部124根据第二似然度计算部123计算出的第二似然度,从选择部120选择出的多个候选中,确定被推定为从作为检索对象的语音信号中发出与检索字符串对应的语音的推定区间。例如,确定部124按照第二似然度计算部123计算出的第二似然度从大到小的顺序将预定个数的区间确定为推定区间。确定部124所确定的区间的位置信息作为最终的检索结果,经由输出装置5具备的画面向外部显示。
[0123]如以上说明的那样,实施方式3的语音检索装置300在预备选择的似然度计算时不计算输出概率,而预先计算作为检索对象的语音信号全体的输出概率,保存为检索索引。然后,在检索时,语音检索装置300利用该检索索引预备选择最终结果的候选,只针对作为候选而剩下的区间,使用包含在检索字符串中的三音素音素来计算输出概率。其结果是能够高速地进行语音检索。
[0124]此外,如果能够作为预先具备用于实现本发明的功能的结构的语音检索装置来提供,则也能够通过程序的应用而使现有的个人计算机、信息终端设备等作为本发明的语音检索装置发挥功能。即,通过以由控制现有的个人计算机、信息终端设备等的CPU等能够执行用于实现在上述实施方式中例示的语音检索装置100、300的各功能结构的程序的方式来应用,能够使其作为本发明的语音检索装置发挥功能。另外,能够使用语音检索装置实施本发明的语音检索方法。
[0125]另外,这样的程序的应用方法是任意的。例如,可以将程序存储在计算机可读取的记录介质(CD-ROM (Compact Disc Read-Only Memory)、DVD (Digital Versatile Disc)、MO (
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1