语音模糊检索方法及装置的制作方法

文档序号：6480167阅读：320来源：国知局

专利名称：语音模糊检索方法及装置的制作方法
技术领域：
本发明涉及语音识别领域和检索领域，尤其涉及一种语音模糊检索方法及装置。
语音模糊检索作为多媒体检索技术中的一个分支，与传统的文本检索和音频检索不同，它解决的不是文本之于文本库的检索或音频之于音频库的检索，而是音频之于文本库的检索，即如何根据用户提交的一段语音信号，在文本库中检索出与之内容相关的文本信息。
语音识别技术可以将语音信号转换为文字内容，若利用转换后的文字并借鉴文本检索方法，便可实现音频之于文本库的检索，然而，语音识别技术
不能做到百分之百准确，特别是对于口语语音，识别准确率通常低于90%，可以想象，用非准确的文本来检索海量文本条目库，一企索结果是更加不准确的。

发明内容
本发明提供一种语音模糊检索方法及装置，以解决现有语音识别技术存在的检索不准确的问题。
为此，本发明实施例采用如下技术方案
一种语音模糊检索方法，包括
利用预置的声学模型及语言模型对获取的语音信号进行语音识别，得到识别结果；
背景技术：
利用预置的索引表根据所述识别结果在预置的文本条目库中进行检索，得到初选条目；
将所述初选条目与所述识别结果进行字符串模糊匹配，选取匹配度在预
置的匹配度阈值范围内的精选条目，同时记录匹配位置；
计算精选条目匹配部分文本与所述语音信号间的后—验概率，利用后—险概率以及通过所述匹配位置获得的匹配比例选择若干个条目作为语音信号的检索结果。
该方法还包4舌
根据待检索的文本条目以音节、字或词为索引单元建立所述索引表，用以进行一级或多级索引。
该方法还包括
所述语言模型全部或部分利用所述预置的文本条目库训练得到。
所述识别结果的形式包括语音信号对应的最可能文字串、语音信号对应的最有可能的多种文字串，以及语音信号对应的词图。
所述利用预置的索引表根据所述识别结果在预置的文本条目库中进行才企索得到初选条目的具体过程为
利用预置的索引表对识别结果中的每个字/词进行投票，选取投票数高于预置的投票数阈值的条目作为所述初选条目；
其中，所述投票是指用识别结果中的字/词查找索引表的索引项，查询到索引项后，将该索引所包括的每个条目投票数都加1。
所述模糊匹配的匹配算法采用基于混淆矩阵的文本间编辑距离动态规划计算方法，其中，所述混淆矩阵通过训练得到或者预先设定，对替换、插入、删除代价进行优化。
一种语音模糊检索装置，包括
其中:语音信号获取单元，用于获取语音信号；
识别单元，用于利用预置的声学模型及语言模型对获取的语音信号进行
语音识别，得到识别结果；
;险索单元，用于利用预置的索引表根据所述识别结果在预置的文本条目库中进行-险索，得到初选条目；
模糊匹配单元，用于将所述初选条目与所述识别结果进行字符串模糊匹配，选取匹配度在预置的匹配度阈值范围内的精选条目，并记录匹配位置；
结果确定单元，用于计算精选条目的匹配部分与所述语音信号间的后验概率，利用后验概率以及通过所述匹配位置获得的匹配比例选择若干个条目作为语音信号的检索结果。
该装置还包括
索引表建立单元，用于根据待检索的预置的文本条目库以音节、字或词为索引单元建立所述索引表，所述索引表用以进行一级或多级索引。
该装置还包括
语言模型建立单元，用于利用所述预置的文本条目库训练得到所述语言模型的部分或全部。
所述检索单元包括
索引投票子单元，用于利用预置的索引表对识别结果中的每个字/词进行投票，其中，所述投票是指用识别结果中的字/词查找索引表的索引项，查询倒索引项后，将该索引所包括的每个条目投票数都加1;
初选条目选取子单元，用于选取投票数高于预置的投票数阈值的条目作为所述初选条目。
可见，本发明提出了一种全新的语音模糊检索模式，它通过应用相关的语言模型、索引投票、字符串模糊匹配、精选条目与语音信号的后验概率计算等步骤，克服了不完全正确的语音识别结果对文本库检索的不利影响，实现了语音信号在海量文本条目库上的快速准确;险索。

图1为本发明语音模糊检索方法流程图2为本发明方法实施例流程图3为本发明语音模糊检索装置结构示意图。
具体实施例方式
本发明提供的语音模糊检索方案，在识别时加入合适的语言模型以提高准确率，在利用识别结果作为文本检索时进行字符串模糊匹配以减小识别错误的影响，并且，计算候选关键词为音频内容的后验概率进行验证，从而大幅度提高检索的准确性和可靠性。
参见图1，为本发明语音模糊检索方法流程图，包括以下步骤
S101:利用预置的声学模型以及语言模型对获取的语音信号进行语音识别，得到识别结果；
S102:利用预置的索引表根据所述识别结果在预置的文本条目库中进行检索，得到初选条目；
其中，所述预置的文本条目库一般是海量的文本条目库，包括大量的文本条目信息。
S103:将所述初选条目与所述识别结果进行字符串模糊匹配，选取匹配度在预置的匹配度阈值范围内的精选条目，同时记录匹配位置；
S104:计算精选条目的匹配部分与所述语音信号间的后验概率，利用所述后验概率以及通过所述匹配位置获得的匹配比例选择若干个条目作为语音信号的检索结果。
下面结合具体实例，对本发明进行详细介绍。
参见图2，为利用语音模糊检索技术进行语音检索海量文本条目库的具体实施例方法流程图，包括
S201:获取用户输入的语音信号；S202:利用预先建立的声学模型以及语言模型对获取的语音信号进行语音识别，得到识别结果；
S203:利用预置的索引表根据识别结果在预置的文本条目库中进行快速检索，得到初选条目；
在开始构建语音模糊检索系统之前，需要预先建立合适的语音模型和海量文本条目库的索引表。
因为要在海量文本条目库中检索包含语音内容的文本，所以语音内容极有可能是海量文本条目库中存在的，是其中的某个条目或某个条目的一部分，因此，根据海量文本条目库为语料库训练出的语言模型是应用相关的语言模型，它能更好地适应^^索任务。
对于预置的索引表，它包括两部分组成索引项以及索引项对应的内容。本发明中索引表的索引项为字或词，索引项对应的内容是海量文本条目库中包含该字或词的文本，通常一个索引项对应多个文本。例如，索引项"中"对应的内容包括"中国共产党"、"中国人民共和国"以及"我们的大中国"等等。
由此，在S202中对输入语音进行语音识别时，加入S203中训练的应用相关的语言模型，可以很好地提高识别的准确率，在S202中得到准确率高的识别结果。
识别结果是语音信号经解码后的字符表现形式，常用的形式有输入语音信号对应的最可能文字串(即只有一种识别结果，例如"中华人民共和国")、最有可能的是N种文字串(即多种识别结果，例如3种识别结果"中国共产党"、"中国人民共和国"以及"我们的大中国")、语音信号对应的词图，所谓词图是指以有向无环图的方式表示所有可能的文字串，词图是最高效的识别结果表现形式，它包含的信息量也是最丰富的。
在S203中，对S202中得到的识别结果中的每个字/词，利用预置的索引表进行索引投票。所谓投票也就是说，用识别结果中的字/词查找索引表的索引项，查询倒索引项后，对应的文本投票数加1。例如，识别结果中包含"中" 字，则所有包含"中"的文本，如中国共产党"、"中国人民共和国"以及"我们的大中国"等对应的投票数加1。投票数越高的文本，与识别结果的匹配程度越高。保留投票数高于闹值的文本作为初选条目。
S204:对初选条目与识别结果进行字符串模糊匹配，依据匹配度从高到低排序匹配的条目，且只保留匹配度在匹配度阈值范围内的精选条目；
由于语音识别技术不能保证百分百的正确率，导致识别结果中存在一定的错误，而且，索引表只记录了文本中含有那些字/词，并没有字/词的位置信息，因此索引出的初选条目不能直接作为检索结果。
因此，利用字符串模糊匹配技术，得到初选条目与识别结果中的匹配度。相对于字符串精度匹配而言，模糊匹配允许子串与主串不完全相同。目前字符串模糊匹配的两个主要方法是位向量方法和过滤方法，本发明可以采用现有的方法进行。最简单的模糊匹配算法是基于动态规划的编辑距离，匹配中存在删除、插入和替代三种错误，每种错误可以依据实际应用定义不同的错误代价，对于正确匹配的部分，通常定义错误代价为零。本发明中，识别结果和海量文本条目库中的文本都可以看作是某种字符表现形式，且子串是识别结果，主串是海量文本条目库中的条目。匹配度与错误代价程反比。由于用户输入的语音信号可能是海量文本条目库中的文本片段，字符串模糊匹配在给出匹配程度的同时，还给定了最可能的匹配位置。
S205:对每个符合条件的精选条目计算其为输入音频内容的后验概率；同时，记录匹配位置；
由于步骤S204得到的精选条目是与识别结果在字符层面进行比较得来的，而识别结果本身含有一定错误，因此匹配程度高并不一定代表其为语音实际内容的可能性大。因此在S205中，计算了给定语音信号条件下精选条目的后验概率。该后验概率是0到1之间的数值，所有精选条目的后验概率之和为1。后验概率越大，其对应的条目确为语音内容的可能性就越大。后验概率是指在得到"结果"的信息后重新修正的概率，如贝叶斯公式中的，是'孰果寻因"问题中的"因"，先验概率与后验概率有不可分割的联系，后验概率的计算要以先验概率为基础。有关后验概率的计算方法为成熟的现有技术，此处不作多描述。S206:利用所述后验概率以及通过所述匹配位置获得的匹配比例，选择若干个条目作为语音信号的检索结果，然后结束流程。
其中，可通过对后-验;f既率和匹配比例加一又处理的方式，最终选择出后-验概率和匹配比例相对较高的条目作为检索结果。
与上述方法相对应，本发明提供一种语音模糊检索装置，该装置可以由软件、硬件或软硬件结合方式实现。
参见图3,为该装置内部结构示意图，包括语音信号获取单元300、识别单元301、检索单元302、模糊匹配单元303以及结果确定单元304,其中
语音信号获取单元300,用于获取语音信号；
识别单元301,用于利用预置的声学模型以及语言模型对语音信号获取单元300获取的语音信号进行语音识别，得到识别结果；
检索单元302,用于利用预置的索引表根据识别单元301得到的识别结果在预置的文本条目库中进行检索，得到初选条目；
模糊匹配单元303，用于将检索单元302得到的初选条目与识别单元301 得到的识别结果进行字符串模糊匹配，选取匹配度在预置的匹配度阈值范围内的精选条目，同时记录匹配位置；
结果确定单元304,用于计算模糊匹配单元303匹配的精选条目与语音信号间的后验概率，利用所述后验概率以及通过所述匹配位置获得的匹配比例，选择若干个条目作为语音信号的检索结果。
优选地，该装置还包括
索引表建立单元305,用于根据所述预置的文本条目以音节、字或词为索引单元建立索引表。
优选地，该装置还包括
语言模型建立单元306，用于利用所述预置的文本条目库训练得到语言模型。
10优选地，检索单元302进一步包括
索引投票子单元(图中未示出)，用于利用预置的索引表对识别结果中的每个字/词进行投票，其中，所述投票是指用识别结果中的字/词查找索引表的索引项，查询倒索引项后，将该索引所包括的每个条目投票数都加1;
初选条目选取子单元(图中未示出)，用于选取投票数高于预置的投票数阈值的条目作为所述初选条目。
对于本发明提供装置的实现细节可参见方法实施例，此处不再赘述。
可见，本发明提出了一种全新的语音模糊检索方案，它通过应用相关的语言模型、索引投票、字符串模糊匹配、候选文本与语音信号的后验概率计算等步骤，克服了不完全正确的语音识别结果对文本库^r索的不利影响，实现了语音信号在海量文本条目库上的快速准确检索。
本领域普通技术人员可以理解，实现上述实施例的方法的过程可以通过程序指令相关的硬件来完成，所述的程序可以存储于可读取存储介质中，该程序在执行时执行上述方法中的对应步骤。所述的存储介质可以如 ROM/RAM 、磁碟、光盘等。
以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。
权利要求
1、一种语音模糊检索方法，其特征在于，包括利用预置的声学模型及语言模型对获取的语音信号进行语音识别，得到识别结果；利用预置的索引表根据所述识别结果在预置的文本条目库中进行检索，得到初选条目；将所述初选条目与所述识别结果进行字符串模糊匹配，选取匹配度在预置的匹配度阈值范围内的精选条目，同时记录匹配位置；计算精选条目匹配部分文本与所述语音信号间的后验概率，利用后验概率以及通过所述匹配位置获得的匹配比例选择若干个条目作为语音信号的检索结果。
2、根据权利要求1所述方法，其特征在于，还包括根据待检索的文本条目以音节、字或词为索引单元建立所述索引表，用以进行一级或多级索引。
3、根据权利要求2所述方法，其特征在于，还包括所述语言模型全部或部分利用所述预置的文本条目库训练得到。
4、根据权利要求1所述方法，其特征在于，所述识别结果的形式包括语音信号对应的最可能文字串、语音信号对应的最有可能的多种文字串，以及语音信号对应的词图。
5、根据权利要求1所述方法，其特征在于，所述利用预置的索引表根据所述识别结果在预置的文本条目库中进行检索得到初选条目的具体过程为利用预置的索引表对识别结果中的每个字/词进行投票，选取投票数高于预置的投票数阈值的条目作为所述初选条目；其中，所述投票是指用识别结果中的字/词查找索引表的索引项，查询到索引项后，将该索引所包括的每个条目投票数都加1。
6、根据权利要求1所述方法，其特征在于，所述模糊匹配的匹配算法采用基于混淆矩阵的文本间编辑距离动态规划计算方法，其中，所述混淆矩阵通过训练得到或者预先设定，对替换、插入、删除代价进行优化。
7、一种语音模糊检索装置，其特征在于，包括语音信号获取单元，用于获取语音信号；识别单元，用于利用预置的声学模型及语言模型对获取的语音信号进行语音识别，得到识别结果；检索单元，用于利用预置的索引表根据所述识别结果在预置的文本条目库中进行检索，得到初选条目；模糊匹配单元，用于将所述初选条目与所述识别结果进行字符串^^莫糊匹配，选取匹配度在预置的匹配度阈值范围内的精选条目，并记录匹配位置；结果确定单元，用于计算精选条目的匹配部分与所述语音信号间的后验概率，利用后验概率以及通过所述匹配位置获得的匹配比例选择若干个条目作为语音信号的检索结果。
8、根据权利要求7所述装置，其特征在于，还包括索引表建立单元，用于根据待检索的预置的文本条目库以音节、字或词为索引单元建立所述索引表，所述索引表用以进行一级或多级索引。
9、根据权利要求8所述装置，其特征在于，还包括语言模型建立单元，用于利用所述预置的文本条目库训练得到所述语言模型的部分或全部。
10、根据权利要求7、 8或9所述装置，其特征在于，所述检索单元包括:索引投票子单元，用于利用预置的索引表对识别结果中的每个字/词进行投票，其中，所述投票是指用识别结果中的字/词查找索引表的索引项，查询倒索引项后，将该索引所包括的每个条目投票数都加1;初选条目选取子单元，用于选取投票数高于预置的投票数阈值的条目作为所述初选条目。
全文摘要
本发明公开了一种语音模糊检索方法及装置，其中方法包括以下步骤利用预置的声学模型及语言模型对获取的语音信号进行语音识别，得到识别结果；利用预置的索引表根据所述识别结果在预置的文本条目库中进行检索，得到初选条目；将所述初选条目与所述识别结果进行字符串模糊匹配，选取匹配度在预置的匹配度阈值范围内的条目作为精选条目，同时记录各条目的匹配位置；计算精选条目匹配部分文本与所述语音信号间的后验概率，最终利用后验概率以及通过所述匹配位置得到的匹配比例选择若干个条目作为语音信号的检索结果。采用本发明，可实现基于语音信号在海量文本条目库上的快速准确检索到与语音信号相匹配的文本条目。
文档编号G06F17/30GK101464896SQ20091000116
公开日2009年6月24日申请日期2009年1月23日优先权日2009年1月23日
发明者刘庆峰, 萍吕, 及吴, 吴晓如, 王仁华, 王智国, 郁胡, 胡国平, 胜钱, 陈志刚申请人:安徽科大讯飞信息科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王智国;吴及;钱胜;吕萍;陈志刚;胡国平;胡郁;刘庆峰;吴晓如;王仁华
技术所有人：安徽科大讯飞信息科技股份有限公司
我是此专利的发明人

上一篇：显示控制器及用于其的触碰侦测方法及电路的制作方法
上一篇：引介名片之获利系统及其方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。