一组可以进行语音互动的装置以及其和人的语音互动方法

文档序号:2832018阅读:629来源:国知局
专利名称:一组可以进行语音互动的装置以及其和人的语音互动方法
技术领域
本发明涉及语音识别领域,具有语音识别的装置,尤其涉及一组可以 进行语音互动的装置以及利用该一组装置在人和该一组装置之间的语音 互动方法。
背景技术
与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐 以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转 变为相应的文本或命令的高技术。语音识别是一门交叉学科,近二十年来,
语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10
年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服
务、消费电子产品等各个领域,是2000年至2010年间电子、信息领域十 大科技成果应用之一。这一成果在全国乃至全世界的家电、通信以及工业 控制领域将起到相当大的产品换代作用。目前,世界上的许多公司都已经 在电信、服务业和工业生产线上使用了语音识别技术,并创造出一批新颖 的语音产品(如语音记事本、声控玩具、语音遥控器、家用服务器)。目 前,在语音识别领域中,语音识别装置是使用者与装置之间一对一的语言 交流,而且该语言交流的场景非常有限,语音识別装置可识别的条目也非 常有限。针对以上缺点,有必要提出 一种可以在多个装置间进行语言互动, 并丰富对话场景的一组装置。

发明内容
本发明要解决的技术问题在于提供一组可以进行语音互动的装置以 及其和人的语音互动方法,通过该组装置中每一装置中的语音识别系统中 的数据库中存储的具有逻辑相关性的数据,实现各个装置之间的语音互 动;并且通过对数据库中的数据进行分组,在进行语音识别时,将输入的 语音与相应的数据组进行比较从而可以提高语音识别速度,极大降低对系 统内存的需求;同时在增加数据库中的数据时,不会降低语音识别的速度, 也不需要改变随机存储器的容量,因而可以方便且自由地丰富语音识别的
4内容。
为解决以上技术问题,本发明提供一组可以进行语音互动的装置,其
中该一组装置包括两个以上的装置;每个装置中设置有语音识别系统,该 语音识别系统包括一语音输入模块,用以将语音输入到语音识别系统中; 一数据库,该数据库中存储待识别的内容以及根据所识别的内容所要做出 响应的内容等语音数据; 一语音识别控制模块,其用以将经所述的语音输 入模块输入的语音数据与数据库中存储的语句进行识别,经该语音识别系 统中包括的一语音输出模块输出语音,其特征在于所述的每个装置中的 语音识另'J系统中的数据库中存储的数据之间存在逻辑相关性,从而可以实 现该一组装置之间的语音互动。
本发明的进一 步改进在于所述的数据库中存储的数据根据所应用对 话的场景分为若干个组,每一场景为一组数据,并且每一组数据具有一头 节点,该头节点含有该数据组的场景信息;其中,每一装置中的语音识别 系统中的数据库中的至少 一 组数据与其他装置中语音识另'J系统中的数据 库中的至少一组数据存在逻辑相关性。
本发明的进一步改进在于所述的每一组数据可以分成复数组分数
成一个新的Il,或者i兌场景。、 。、一 、-、 -、 -s
本发明的进一步改进在于所述的语音识别系统中,包括有一数据输 入接口,用于将新的数据输入到数据库中。
另一方面,本发明提供一种在人和一组装置之间进行语音互动的方 法,其中该一组装置包括两个以上的装置;每个装置中设置有语音识别系 统,该语音识别系统包括一语音输入才莫块,用以将语音输入到语音识别系 统中; 一数据库,该数据库中存储待识别的内容以及根据所识别的内容所 要做出响应的内容等语音数据; 一语音识别控制模块,其用以将经所述的 语音输入模块输入的语音数据与数据库中存储的语句进行识别,经该语音 识别系统中包括的一语音输出模块输出语音,所述的每个装置中的语音识 别系统中的数据库中存储的数据之间存在逻辑相关性,从而可以实现该一 组装置之间的语音互动,该方法包括a)首先由人讲话发出指令;
b) 在该一组装置中的每一装置听到该指令后,每一装置通过其上的 语音识别系统中的语音识别控制模块识别该指令,并通过语音识别控制模 块于数据库中找到与该指令对应的场景的 一组数据;
c) 在相关装置找到对应场景的一组数据后,由第一装置根据该指令 由其语音输出端发出语音;
其特征在于d)在与场景相关的装置中的第一个装置发出语音后,其他装置通过其语音识别系统接收该语音数据,并将该语音数据与其数据
库中存储的数据进行比较识别;与场景相关的第二装置通过其上的语音输 出端根据比较识别的结果,输出与第 一装置发出的语音匹配的语音;
重复以上步骤,直至完成一个完整的场景对话。
本发明该方面的进一 步改进在于所述的数据库中存储的数据根据所 应用的场景分为若干个组,每一场景为一组数据,并且每一组数据具有一 头节点,该头节点含有该数据组的场景信息;其中,每一装置中的语音识 别系统中的数据库中的至少一组数据与其他装置中语音识别系统中的数 据库中的至少一组数据存在逻辑相关性。
本发明该方面的进一步改进在于在步骤c)中还包括,步骤cl)在 用户讲话发出指令后,每一装置中的语音识别系统通过其语音识别控制模 块将该指令与每 一 组数据的头节点场景信息数据进行比较识别,然后找到 对应的数据组;步骤c2)由第一装置通过其语音识别系统中的语音输出端 输出与用户指令具有相关性的语音;
在步骤d)中还包括,步骤dl)在第一装置发出语音后,其他装置将 该第一装置发出的语音数据通过其上的语音识别系统的语音输入模块装 入语音识别系统的语音识別控制模块中,并将该第一装置发出的语音数据 与相应场景的的数据组中的数据进行比较识别;
步骤d2)在第二装置找到与第一装置发出的语音相匹配的语音数据, 通过其上的语音输出模块将语音输出。
通过以上所述的技术方案,本发明提供的一组可以进行语音互动的装 置以及其和人的语音互动方法,通过该组装置中每一装置中的语音识别系 统中的数据库中存储的具有逻辑相关性的数据,实现各个装置之间的语音 互动;并且通过对数据库中的数据进行分组,在进行语音识别时,将输入 的语音与相应的数据组进行比较从而可以提高语音识别速度,极大降低对 系统内存的需求;同时在增加数据库中的数据时,也不需要改变随机存储 器的容量,不会降低语音识别的速度,因而可以方便且自由地丰富语音识 别的内容。


图1为本发明一较佳实施例的一组装置中每一装置内设置的语音识别 系统模块图2为本发明 一较佳实施例的 一组可以进行语音互动的装置中每一装 置的语音识别系统的识别流程图3为本发明 一较佳实施例的 一组可以进行语音互动的装置中每一装置内的语音识别系统的数据库的数据分组图;以及
图4为本发明 一较佳实施例的人和 一组装置之间进行语言互动的流程图。
具体实施例方式
本发明涉及多个装置,但是每个装置的硬件结构与工作流程都是相同
的。要实现本发明主要是3个方面的技术, 一个是语音识别,二个是通过好 的数据结构帮助场景的切换。三是以有效的方法提高装置之间识别的正确 性,装置对使用者的语音判断的正确性。在该具体实施例中以两个装置为例, 详细介绍了一组可以进行语音互动的装置。下面参考附图对本发明做详细的 说明。
参考图i为本发明一较佳实施例的一组装置中每一装置内设置的语音 识别系统模块图;该语言识别系统包括一语音识别控制模块10,分别与该 语音识别控制模块IO通信连接的一语音输入模块20、 一数据库30、 一数据 输入接口 40、 一语音输出模块50以及一动作输出才莫块60;其中,语音识别 控制模块10包括一处理器及运行在其上面的语音识别算法,另外,该语音 识别控制模块IO也可以是一个处理器加上单独的语音识别模块;语音输入 模块20包括一麦克风话筒,用于将输入的语音放大输入, 一模数(A/D) 转换电路,其用来将输入的语音由模拟信号转换为数字信号,然后将该数字 信号输入语音识别控制模块10;数据库30,其中存储的是待识别的内容以 及根据所识别的内容所要做出响应的内容等语音数据;数据输入接口 40, 用于通过该接口 40将新的数据输入到数据库30中,使得装置能够根据用户 需要改变功能和内容;语音输出模块50包括数模(D/A)转换电路和喇p八, 用于将待输出的数字语音数据转换为模拟语音数据后经喇口八放大输出。输出 内容不仅限于语音,也可以是其它在识别到语音后作出的机械和电子动作。
以上所述均为本发明中使用的每一装置中具有的语音识别系统的介绍。 在该语音识别系统中,其数据库30中存储的数据为开放式数据,也就是说 用户可以根据自己的需要改变其中的内容,即每次使用之前都可以增加、减 少、改变识别条目,从而可以满足用户自己的需要;通过所述的数据输入接 口 40,用户可以将事先烧录好的数据输入到所述的语音识别控制模块10中, 利用该语音识别控制模块IO通过数据接口 40将进来的数据放入到数据库 30中。
另外,参考图2,该数据库30中存储的数据根据各种不同的场景分为 复数个数据组31、 32、 33…,每一组数据代表一个不同的场景;而且各个 凄史据组31、 32、 33…,又可以分为复凄t个分凄t据组311、 312、 313…,321、322、 323…,并且所述的每一分数据组中的内容也可以与其它组的分数据 组的内容组合成一个新的组,或者说场景;其中,在将数据进行分组时, 每一数据组具有一个头节点,该头节点含有该数据组的场景信息,包括场景 名称,可能的所有识别项的地址等,并且根据具体的场景,每一数据组根据 其分数据组的情况,又具有若干个分节点,该若干个分节点同样含有分数据 组的信息,包括名称信息、可能的所有识别项的地址等;所述的语音识别控 制模块10,在将经输入模块20输入该语音识别控制模块10中的语音数据 与所述的数据库30中存储的数据进行比较识别时,并不是象传统的语音识 别方法那样,将输入的语音数据与所有的数据库30中存储的数据进行比较, 而是将输入的语音数据与各个数据组中的场景名称即头节点进行比较,从而 选择对应的数据组,然后将对应场景的数据组与输入的语音数据进行比较; 通过这样的一种数据比较的方式,可以加快语音识别的速度,并且可以增大 数据库30中存储的数据也不会减慢语音识别的速度。另外,通过分组的方 法,本发明还可以利用空出来的识别条目为 一 些容易混淆或者多语同义的识 别节点增加副节点,以此来有效提高语音识别率和识别效果。比如在识别"您 好,,这一条的时候,增加副节点"你好,,"您好啊,,,在一装置根据讲话内 容进行场景识别,对节点进行比较识别时同时也对副节点进行比较识别,从 而可以提高识别效率和识别效果;这样使得装置能够更好地配合用户的讲话 习惯。
参考图3为本发明一较佳实施例的每一装置中的语音识别系统的语音 识别流程图;201:首先用户讲话发出指令或其他装置讲话发出语音,然后 该讲话内容的语音信号通过输入模块20将该语音模拟信号转换为语音数字 信号经放大后输入到语音识别控制模块10; 202:根据讲话内容确定要识别 的场景内容;203:语音识别控制模块20将输入的数字语音信号内容加入识 别列表;204:语音识别控制模块20将加入识别列表的内容与用户输入的语 音数据或其他装置输入的语音数据进行比较识别;205:识别成功,输出识 别结果并根据结果确定新的场景;如果识别不成功,则返回步骤204重新进 4亍比4交识别。
参考图4为本发明 一较佳实施例的使用者与两装置进行语音互动的流 程图。当利用两可以进行语音互动的装置进行语音互动时,包括步骤401: 由使用者讲一句话发出指令启动两语音互动装置;步骤402、 402':第一 装置和第二装置通过其上的语音输入模块20接收由使用者所讲的话,并通 过其上的语音识别控制模块10对使用者所讲的话进行语音识别,通过该语 音识别控制模块10将使用者所讲的话与数据库30中存储的数据组的头节点 进行比较;步骤403、 403':通过步骤402中的语音识别,第一装置找到
8与用户所讲的话对应场景的数据组N,第二装置找到与用户所讲的话对应场
景的数据组N —;步骤404:在第一装置找到相应的场景数据组后,第一装 置讲出场景的第一句话,通过语音输出模块50将该第一句话输出; 404':第二装置找到相应的场景数据组后,第二装置将该第一装置讲出的 第一句话设为识别内容,同时将其他场景的第一句话写入识别列表,经通过 语音识别控制模块IO对该第一句话进行识別;步骤405':如果是对应的 场景,则第二装置讲出第二句话,如果不是对应的场景,则根据识别列表中 的其他场景的第一句话更换场景,找到对应的场景后,讲出第二句话;步骤 405:第 一装置通过语音输入模块20将第二装置讲出的第二句话装入语音识 别控制模块10中的语音识别列表,并识别该第二句话,之后讲出第三句话; 重复以上的步骤直至完成该场景对话。
以上所描述的装置之间的语音互动只是两个装置以及与人之间的语音 互动,在本发明中,当涉及多于两个装置之间的语音互动时,其工作方式与 两个装置之间的工作方式相同,首先由用户讲话发出指令,每一装置找到对 应的场景,之后每一装置将其他装置讲话的内容作为识别的内容,并根据识 别结果讲出与其他装置讲话内容相符的讲话内容。
可以理解的是,上述实施例的详细说明是为了阐述和解释本发明的原 理而不是对本发明的保护范围的限定。在不脱离本发明的主旨的前提下, 本领域的一般技术人员通过对上述技术方案的所教导的原理的理解可以 在这些实施例基础上做出修改,变化和改动。因此本发明的保护范围由所 附的权利要求以及其等同来限定。
权利要求
1、一组可以进行语音互动的装置,其中该一组装置包括两个以上的装置;每个装置中设置有语音识别系统,该语音识别系统包括一语音输入模块,用以将语音输入到语音识别系统中;一数据库,该数据库中存储待识别的内容以及根据所识别的内容所要做出响应的内容等语音数据;一语音识别控制模块,其用以将经所述的语音输入模块输入的语音数据与数据库中存储的语句进行识别,经该语音识别系统中包括的一语音输出模块输出语音,其特征在于所述的每个装置中的语音识别系统中的数据库中存储的数据之间存在逻辑相关性,从而可以实现该一组装置之间的语音互动。
2、 如权利要求1所述的一组可以进行语音互动的装置,其特征在于 所述的数据库中存储的数据根据所应用的场景分为若干个组,每一场景为 一组数据,并且每一组数据具有一头节点,该头节点含有该数据组的场景 信息;其中,每一装置中的语音识别系统中的数据库中的至少一组数据与 其他装置中语音识别系统中的数据库中的至少一组数据存在逻辑相关性。
3、 如权利要求2所述的一组可以进行语音互动的装置,其特征在于 所述的每一组数据可以分成复数组分数据组,所述的每一分数据组中的内 容也可以与其它组的分数据组的内容组合成一个新的组,或者说场景。
4、 如权利要求l-3任一所述的一组可以进行语音互动的装置,其特 征在于所述的语音识别系统中,包括有一数据输入接口,用于将新的数 据输入到数据库中
5、 在人和一组装置之间进行语音互动的方法,其中该一组装置包括 两个以上的装置;每个装置中设置有语音识别系统,该语音识别系统包括 一语音输入模块,用以将语音输入到语音识别系统中; 一数据库,该数据 库中存储待识别的内容以及根据所识别的内容所要做出响应的内容等语音 数据; 一语音识别控制模块,其用以将经所述的语音输入模块输入的语音 数据与数据库中存储的语句进行识别,经该语音识别系统中包括的一语音 输出模块输出语音,所述的每个装置中的语音识别系统中的数据库中存储 的数据之间存在逻辑相关性,从而可以实现该一组装置之间的语音互动, 该方法包括a)首先由人讲话发出指令;b) 在该一组装置中的每一装置听到该指令后,每一装置通过其上的 语音识别系统中的识别模块识别该指令,并通过识别模块于数据库中找到 与该指令对应的场景的 一组数据;c) 在相关装置找到对应场景的一组数据后,根据该指令由其语音输出端发出语音;其特征在于d)在与场景相关的装置中的第一个装置发出语音后, 其他装置通过其语音识别系统接收该语音数据,并将该语音数据与其数据 库中存储的数据进行比较识别;与场景相关的第二装置通过其上的语音输 出端根据比较识别的结果,输出与第 一装置发出的语音匹配的语音;重复以上步骤,直至完成一个完整的场景对话。
6、 如权利要求5所述的在人和一组装置之间进行语音互动的方法, 其特征在于所述的数据库中存储的数据根据所应用的场景分为若干个 组,每一场景为一组数据,并且每一组数据具有一头节点,该头节点含有 该数据组的场景信息;其中,每一装置中的语音识别系统中的数据库中的 至少 一组数据与其他装置中语音识别系统中的数据库中的至少 一组数据 存在逻辑相关性。
7、 如权利要求8所述的在人和一组装置之间进行语音互动的方法, 其特征在于在步骤c)中还包括,步骤cl )在用户讲话发出指令后,每 一装置中的语音识别系统通过其语音识别控制模块将该指令与每一组数 据的头节点场景信息数据进行比较识别,然后找到对应的数据组;步骤c2) 由第 一装置通过其语音识别系统中的语音输出端输出与用户指令具有相 关性的语音;在步骤d)中还包括,步骤dl)在第一装置发出语音后,其他装置将 该第一装置发出的语音数据通过其上的语音识别系统的语音输入模块装 入语音识别系统的语音识别控制模块中,并将该第一装置发出的语音数据 与相应场景的的数据组中的数据进行比较识别;步骤d2)在第二装置找到与第一装置发出的语音相匹配的语音数据, 通过其上的语音输出模块将语音输出。
全文摘要
本发明提供一组可以进行语音互动的装置以及其和人的语音互动方法,该一组装置包括两个以上的装置;每个装置中设置有语音识别系统,该语音识别系统包括一语音输入模块,一数据库,一语音识别控制模块,一语音输出模块输出语音,所述的每个装置中的语音识别系统中的数据库中存储的数据之间存在逻辑相关性,从而可以实现该一组装置之间的语音互动。通过每一装置中的语音识别系统数据库中存储的具有逻辑相关性的数据,实现各个装置之间的语音互动;并且通过对数据库中的数据进行分组,在语音识别时,将输入的语音与相应的数据组进行比较从而可以提高语音识别速度,并且可以丰富语音识别的内容。
文档编号G10L15/00GK101551998SQ20091005103
公开日2009年10月7日 申请日期2009年5月12日 优先权日2009年5月12日
发明者竞 潘, 程青云, 果 马 申请人:上海锦芯电子科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1