一种分布式语音识别及检索方法与流程

文档序号：13319230阅读：151来源：国知局

本发明涉及基于内容的语音检索领域，具体涉及一种分布式语音识别及检索方法。

背景技术：

传统的语音识别设备大多采用集中式语音识别技术，任务主要集中在单一设备完成。该方法面对纷杂的网络环境，对资源的精确检索已经成为大势所趋，移动网络的不断发展使得掌上检索成为可能。缺点是计算领大，需要较大存储空间，传输占信道带宽较大，而且语音在传输过程中受到噪声干扰会引起失真从而导致识别率降低。目前互联网时代，在各种移动设备上采用集中式语音识别是不现实的，因此需要采用分布式语音识别技术，该技术把语音识别引擎分成若干个功能独立的模块，通过定义模块之间的交互接口使得分布在网络各处的功能模块协同工作，共同完成语音识别任务。

技术实现要素：

有鉴于此，本发明的一个目的是提供一种分布式语音识别及检索方法，从而降低了语音识别客户端占用的空间，更好的方便用户使用，并且提高了语音识别的正确率。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

本发明的一个目的是提供的一种分布式语音识别及检索方法，包括：

在服务器端设置语音识别单元，该语音识别单元为每个注册用户建立语音配置文件；

用户登陆客户端的浏览器对语音进行检索，该语音信息通过客户端传送语音至服务器；

服务器根据语音识别引擎和用户的配置文件识别语音，并将检索结果返回至客户端。

在一些可选的实施例中，对于非注册用户，服务器端根据用户的ip自动调用特定地域的语音识别配置文件进行识别。

在一些可选的实施例中，所述服务器中包括以下一个或多个检索单元：

语音预存检索单元，用于预先对常用的热点语音信息进行分析、保存、检索和维护；

语音缓存检索单元，用于检索语音缓存，并更新缓存内关键词被访问的次数；

语音拼音图检索单元，用于对视频节目对应的语音拼音图进行保存、检索和维护。

在一些可选的实施例中，通过对热点话题的分析，得到关于常用关键字，并将其预设于语音预存检索单元的数据库中进行保存。

在一些可选的实施例中，预设自动更新数据库的时间。

在一些可选的实施例中，所述语音拼音图检索单元，其中包括一个用来存储拼音图xml文件的数据库表，所述语音拼音图检索单元的数据库中存放的是语音文件的拼音图信息。

在一些可选的实施例中，不同的资源分别位于不同的服务器上，在多个服务器群中指定一台服务器为主服务器，其他从服务器向指定的主服务器进行服务器注册。

在一些可选的实施例中，对xml文件的解析，xml文件中存放了所有资源的关键词、类型以及所位于的服务器地址，这样对xml文件进行解析即得到所有资源的位置。

在一些可选的实施例中，还包括：

在用户语音检索的同时不断更新语音配置文件。

本发明的另一个目的是提供的一种语音检索方法，包括：

客户端接收原始音频；

将所述原始音频进行预处理，得到音频元数据；

根据用户输入不同的查询条件，在所述音频元数据中利用相关元数据进行所需内容的检索；

将常用的热点语音信息、检索次数最多的热点语音信息保存到数据库。

在一些可选的实施例中，所述预处理，具体包括：

格式转换，转换为系统内部的统一格式；

预处理引擎进行音频自动分段、分类，特征提取，利用声学模型和拼音文法进行声学识别，并进行说话人分析。

在一些可选的实施例中，所述预处理，具体包括：

将语音识别成多候选拼音图，然后从拼音图中筛选出关键字。

在一些可选的实施例中，所述元数据，具体包括：

特征，识别得到的拼音图，说话人分析结果。

在一些可选的实施例中，包括：

接收用户端提交的关键词文本，从音频库中超找出指定的关键词；

接收用户端提交的语音样本，从音频库中找出该关键说话人的语音；

接收用户端提交的关键音频，从音频数据库中找出这个关键音频。

在一些可选的实施例中，根据用户输入不同的关键词，在所述音频元数据中利用相关元数据进行所需内容的检测，包括：

根据用户输入的关键词文本，通过字音转换将其转为相应的关键拼音串；

然后在已经生成的拼音图中基于动态规划的拼音串进行匹配搜索

返回多个关键词候选列表；

并根据后验概率置信度计算进行排序，得到检索结果。

在一些可选的实施例中，根据用户输入不同的关键说话人的语音，在所述音频元数据中利用相关元数据进行所需内容的检测，包括：

根据用户提供的关键说话人的语音样本，建立关键说话人gmm模型；

通过似然比假设检验进行判决。

采用本发明的方法，有如下效果：

本发明的云识别，将语音识别单元从客户端转移到服务器端降低了语音识别客户端占用的空间，更好的方便用户使用，并且提高了语音识别的正确率。

为了上述以及相关的目的，一个或多个实施例包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明某些示例性方面，并且其指示的仅仅是各个实施例的原则可以利用的各种方式中的一些方式。其它的益处和新颖性特征将随着下面的详细说明结合附图考虑而变得明显，所公开的实施例是要包括所有这些方面以及它们的等同。

说明书附图

图1为本发明提供的一种分布式语音识别及检索的方法流程图；

图2为本发明提供的另一种分布式语音识别及检索的方法流程图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。其他实施方案可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求，否则单独的组件和功能是可选的，并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围，以及权利要求书的所有可获得的等同物。在本文中，本发明的这些实施方案可以被单独地或总地用术语“发明”来表示，这仅仅是为了方便，并且如果事实上公开了超过一个的发明，不是要自动地限制该应用的范围为任何单个发明或发明构思。

实施例一

本发明提供的一种分布式语音识别及检索方法，参照图1，该方法包括：

步骤s101、在服务器端设置语音识别单元，该语音识别单元为每个注册用户建立语音配置文件；

步骤s102、用户登陆客户端的浏览器对语音进行检索，该语音信息通过客户端传送语音至服务器；

步骤s103、服务器根据语音识别引擎和用户的配置文件识别语音，并将检索结果返回至客户端。

实施例二

步骤s101、在服务器端设置语音识别单元，该语音识别单元为每个注册用户建立语音配置文件；

在一些可选的实施例中，对于非注册用户，服务器端根据用户的ip自动调用特定地域的语音识别配置文件进行识别。

步骤s102、用户登陆客户端的浏览器对语音进行检索，该语音信息通过客户端传送语音至服务器；

步骤s103、服务器根据语音识别引擎和用户的配置文件识别语音，并将检索结果返回至客户端。

较佳地，所述服务器中包括以下一个或多个检索单元：

语音预存检索单元，用于预先对常用的热点语音信息进行分析、保存、检索和维护；

语音缓存检索单元，用于检索语音缓存，并更新缓存内关键词被访问的次数；

语音拼音图检索单元，用于对视频节目对应的语音拼音图进行保存、检索和维护。

较佳地，所述语音拼音图检索单元，其中包括一个用来存储拼音图xml文件的数据库表，所述语音拼音图检索单元的数据库中存放的是语音文件的拼音图信息。

较佳地，通过对热点话题的分析，得到关于常用关键字，并将其预设于语音预存检索单元的数据库中进行保存。

较佳地，预设自动更新数据库的时间。

较佳地，不同的资源分别位于不同的服务器上，在多个服务器群中指定一台服务器为主服务器，其他从服务器向指定的主服务器进行服务器注册。

较佳地，对xml文件的解析，xml文件中存放了所有资源的关键词、类型以及所位于的服务器地址，这样对xml文件进行解析即得到所有资源的位置。

较佳地，还包括：

在用户语音检索的同时不断更新语音配置文件。

实施例三

如图2所示，本发明还提供的一种语音检索方法，包括：

步骤s201、客户端接收原始音频；

步骤s202、将所述原始音频进行预处理，得到音频元数据；

步骤s203、根据用户输入不同的查询条件，在所述音频元数据中利用相关元数据进行所需内容的检索；

步骤s204、将常用的热点语音信息、检索次数最多的热点语音信息保存到数据库。

实施例四

本发明还提供了一种语音检索方法，包括：

步骤s201、在服务器端设置语音识别单元，该语音识别单元为每个注册用户建立语音配置文件；

较佳地，对于非注册用户，服务器端根据用户的ip自动调用特定地域的语音识别配置文件进行识别。

步骤s202、用户登陆客户端的浏览器对语音进行检索，该语音信息通过客户端传送语音至服务器；

步骤s203、服务器根据语音识别引擎和用户的配置文件识别语音，并将检索结果返回至客户端。

较佳地，所述服务器中包括以下一个或多个检索单元：

语音预存检索单元，用于预先对常用的热点语音信息进行分析、保存、检索和维护；

语音缓存检索单元，用于检索语音缓存，并更新缓存内关键词被访问的次数；

语音拼音图检索单元，用于对视频节目对应的语音拼音图进行保存、检索和维护。

较佳地，通过对热点话题的分析，得到关于常用关键字，并将其预设于语音预存检索单元的数据库中进行保存。

较佳地，预设自动更新数据库的时间。

较佳地，不同的资源分别位于不同的服务器上，在多个服务器群中指定一台服务器为主服务器，其他从服务器向指定的主服务器进行服务器注册。

较佳地，对xml文件的解析，xml文件中存放了所有资源的关键词、类型以及所位于的服务器地址，这样对xml文件进行解析即得到所有资源的位置。

较佳地，还包括：

在用户语音检索的同时不断更新语音配置文件。

实施例五

本发明提供的一种语音检索的方法，参照图2，该方法包括：

步骤s101、客户端接收原始音频；

步骤s102、将所述原始音频进行预处理，得到音频元数据；

较佳的，所述预处理，具体包括：

格式转换，转换为系统内部的统一格式；

预处理引擎进行音频自动分段、分类，特征提取，利用声学模型和拼音文法进行声学识别，并进行说话人分析。

较佳的，所述预处理，具体包括：

将语音识别成多候选拼音图，然后从拼音图中筛选出关键字。

较佳的，所述元数据，具体包括：

特征，识别得到的拼音图，说话人分析结果。

步骤s103、根据用户输入不同的查询条件，在所述音频元数据中利用相关元数据进行所需内容的检索；

较佳的，接收用户端提交的关键词文本，从音频库中超找出指定的关键词；

较佳的，接收用户端提交的语音样本，从音频库中找出该关键说话人的语音；

较佳的，接收用户端提交的关键音频，从音频数据库中找出这个关键音频。

较佳的，具体包括：

s1031，根据用户输入的关键词文本，通过字音转换将其转为相应的关键拼音串；

s1032，然后在已经生成的拼音图中基于动态规划的拼音串进行匹配搜索；

s1033，返回多个关键词候选列表；

s1034，并根据后验概率置信度计算进行排序，得到检索结果

较佳的，具体包括：

s1035，根据用户提供的关键说话人的语音样本，建立关键说话人gmm模型；

s1036，通过似然比假设检验进行判决。

步骤s104、将常用的热点语音信息、检索次数最多的热点语音信息保存到数据库。

实施例六

为使本发明的原理、特性和优点，更加清楚，下面结合具体实施例进行描述。

在服务器端设置语音识别单元，该语音识别单元为每个注册用户建立语音配置文件；对于非注册用户，服务器端根据用户的ip自动调用特定地域的语音识别配置文件进行识别。用户登陆客户端的浏览器对某段语音进行检索，该语音信息通过客户端传送语音至服务器；服务器根据语音识别引擎和用户的配置文件识别语音，并将检索结果返回至客户端。

所述服务器中包括以下检索单元：语音预存检索单元，用于预先对常用的热点语音信息进行分析、保存、检索和维护；语音缓存检索单元，用于检索语音缓存，并更新缓存内关键词被访问的次数；和语音拼音图检索单元，用于对视频节目对应的语音拼音图进行保存、检索和维护。

所述语音拼音图检索单元，其中包括一个用来存储拼音图xml文件的数据库表，所述语音拼音图检索单元的数据库中存放的是语音文件的拼音图信息。

可以通过对热点话题的分析，得到关于常用关键字，并将其预设于语音预存检索单元的数据库中进行保存，例如各种节日，重大事件等。

预设好自动更新数据库的时间，例如为凌晨1点钟更新数据库，那么每到陵城一点，数据库开始更新。

不同的资源分别位于不同的服务器上，在多个服务器群中指定一台服务器a为主服务器，其他从服务器b、c、d向指定的主服务器进行服务器注册。

对xml文件的解析，xml文件中存放了所有资源的关键词、类型以及所位于的服务器地址，这样对xml文件进行解析即得到所有资源的位置。

在用户语音检索的同时不断更新语音配置文件。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

对于软件实现，本申请中描述的技术可用执行本申请所述功能的模块(例如，过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内，也可以实现在处理器外，在后一种情况下，它经由各种手段以通信方式耦合到处理器，这些都是本领域中所公知的。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：罗旻;白永强;鲍东山
技术所有人：北京新岸线网络技术有限公司
我是此专利的发明人

上一篇：精确量化上电时序的LED屏幕测试电源控制电路及方法与流程
上一篇：磁记录介质及磁存储装置的制作方法