一种多用户协作的语音辅助方法与流程

文档序号：14187333阅读：164来源：国知局

一种多用户协作的语音辅助方法，属于计算机软件技术领域。

背景技术：

语音交互是人们最广泛使用和适应的一种日常交互方式，在电子信息领域，也是一种理想的人机交互方式，随着语音识别算法的发展和相关硬件技术进步，语音识别技术逐步走向成熟，目前在语音输入领域、语音大数据分析、语音生活辅助等领域已经有较多的应用场景。但是语音辅助技术目前仍存在一定难点，例如语音开集库识别成功率较低、语音交互速度较慢，同时目前语音交互系统往往适用于单个用户单一上下文的情况，即使某些系统可以将不同用户的不同语境上下文进行区分，在指令交互过程中指令的识别和反馈也只能局限在单一上下文语境中。针对现有技术的不足，目前急需一种适用于多用户多任务，协作并行化处理，有效提高语音信息输入和识别效率的技术方案。

技术实现要素：

本发明要解决的技术问题是：克服现有技术的不足，提供一种适用于多用户多任务，协作并行化处理，有效提高语音信息输入和识别效率的多用户协作的语音辅助方法。

本发明解决其技术问题所采用的技术方案是：该一种多用户协作的语音辅助方法，包括用户交互层、逻辑层和底层框架层，用户交互层包括语音监听模块和反馈模块，逻辑层包括语音识别模块、模式识别模块和指令执行模块，底层框架层包括数据库和运行框架，数据库中存储若干指令样本；语音监听模块接收用户信息，语音监听模块的输出端连接语音识别模块，语音识别模块的输出端连接模式识别模块的输入端，语音监听模块的输出端连接语音识别模块的输入端，模式识别模块的输出端连接指令执行模块的输入端，指令执行模块的输出端连接反馈模块的输入端；

其特征在于：所述的用户信息包括语音信息，指令样本中包括公共指令样本、私有指令样本和穿透指令样本，系统中创建公共上下文和多个用户上下文，公共上下文包括所有用户上下文，公共指令进入公共上下文执行，私有指令进入当前用户上下文执行，穿透指令从当前用户上下文进入其他用户上下文执行，所述的数据库中还存储声纹样本；

所述的多用户协作的语音辅助方法的工作步骤为：

步骤1：多用户协作的语音辅助方法启动后，语音监听模块实时监听用户输入的语音信息，进入步骤2；

步骤2：语音监听模块压缩语音信息并传递给语音识别模块，语音识别模块提取语音信息中的声纹信息与声纹样本匹配，进入步骤3；

步骤3：若能匹配，进入对应的用户上下文，若未能匹配，创建新的声纹样本并进入对应的用户上下文，进入步骤4；

步骤4：语音识别模块将语音信息的内容转换为字符串格式后传递给模式识别模块，进入步骤5；

步骤5：模式识别模块将字符串格式的语音信息按顺序与指令样本进行匹配识别，若与指令样本匹配，进入步骤6，同时返回步骤5继续按字符串顺序往后匹配的语音信息，若匹配完毕，语音信息整体未能匹配，进入步骤11，否则返回步骤1；

步骤6：若与穿透指令样本匹配识别为穿透指令，进入步骤7，若与公共指令样本匹配识别为公共指令，进入步骤8，若与私有指令样本匹配识别为私有指令，进入步骤9，若与公共指令样本和私有指令样本共同匹配，识别为公共指令和私有指令共有的指令，进入步骤10；

步骤7：进入穿透模式，穿透指令进入对应的用户上下文，进入步骤12；

步骤8：公共指令进入公共上下文，进入步骤12；

步骤9：私有指令进入当前用户的上下文，进入步骤12；

步骤10：通过反馈模块要求用户筛选进入当前用户上下文或公共上下文，根据用户所选进入相应的上下文，进入步骤12；

步骤11：通过反馈模块向用户反馈未能匹配已有指令样本，返回步骤1；

步骤12：指令执行模块执行所匹配的语音信息，将执行所产生的反馈信息传递给反馈模块，反馈模块将反馈信息反馈给用户。

优选的，所述的指令样本还包括打断指令样本，若模式识别模块将语音信息中的打断指令与打断指令样本匹配，则终止打断指令所对应的操作。

优选的，所述的用户交互层还包括用户输入模块，所述的用户信息还包括手动输入信息，用户输入模块接收手动输入信息，手动输入信息为字符串格式，用户输入模块将手动输入信息传递给模式识别模块，先在公共上下文中匹配，列举所匹配到的用户上下文，通过反馈模块向用户请求选择对应要进入的用户上下文。

优选的，所述的用户上下文对应一个用户，一个用户对应多个用户上下文。优选的，所述的反馈模块的实现方式为语音信息反馈。

优选的，所述的反馈模块的实现方式为文字信息反馈。

优选的，所述的指令样本根据需要对用户提供的指令内容建立。

优选的，所述的若干指令样本组成有限状态机，每一个指令样本作为有限状态机的单一状态，所述的匹配的指令信息作为有限状态机中状态转移的标志。

进一步的，所述的有限状态机呈树结构排列，按照指令样本的执行顺序建立多层树结构。

优选的，所述的字符串格式的用户信息与指令样本匹配采用顺序字符串匹配算法。

本发明的工作原理为：

本发明通过采用多线程的运行模式，将多个用户上下文和公共上下文分别对应设置为独立线程，私有指令、公共指令和穿透指令分别进入相应的独立线程进行处理，对用户上下文或公共上下文执行相应操作。

与穿透指令对应设计穿透模式，使得系统在为多用户协作提供服务的过程中，不仅能够对同一用户上下文执行相应操作，并且能够识别穿透指令，在不同用户上下文之间跳转，并能够针对多个用户上下文进行指令执行或系统反馈，最终达到适用于多用户多任务、协作并行化处理的目的。

与现有技术相比，本发明所具有的有益效果是：

1、一种多用户协作的语音辅助方法，具有适用于多用户多任务，协作并行化处理，有效提高语音信息输入和识别效率的有益效果。

2、本发明采用多线程的运行模式，将多个用户上下文和公共上下文分别对应设置为独立线程，私有指令、公共指令和穿透指令分别进入相应的独立线程进行处理，对用户上下文或公共上下文执行相应操作。

3、本发明设置与穿透指令对应设计穿透模式，使得系统在为多用户协作提供服务的过程中，不仅能够对同一用户上下文执行相应操作，并且能够识别穿透指令，在不同用户上下文之间跳转，并能够针对多个用户上下文进行指令执行或系统反馈，最终达到适用于多用户多任务、协作并行化处理的目的。

4、本发明设置语音监听模块，进行实时监听，保证随时输入用户信息，减少用户手动操作效率降低问题。

5、本发明用户交互层中增加了用户输入模块，适用于无法使用语音输入的场景，为用户提供用户信息输入入口，方便适用于任何场景。

6、本发明提升了用户信息匹配成功率，在指令模式识别过程中，采用有限状态机模型，采用有限状态机，可以建立指令样本，在对用户输入信息进行指令匹配时，采用顺序字符串匹配算法，这样可以高效过滤用户信息，快速提取用户信息。

7、本发明优化系统内置的有限状态机结构，调整为具有层级结构的树结构，能够提高语音信息输入效率和语音信息识别的成功率。

附图说明

图1为本发明的整体结构框图。

图2为本发明中公共上下文与用户上下文关系的结构示意图。

图3为本发明的有限状态机的工作流程图。

图4为本发明的有限状态机的树结构工作流程图。

具体实施方式

图1~4是本发明的最佳实施例，下面结合附图1~4对本发明做进一步说明。

如图1所示，包括用户交互层、逻辑层和底层框架层，用户交互层接收用户信息并传送给逻辑层，逻辑层处理用户信息并将处理后的反馈结果传回用户交互层，底层框架层支持用户交互层和逻辑层的运行。

用户交互层包括监听用户语音的语音监听模块和向用户反馈信息的反馈模块，逻辑层为系统核心部分，包括语音识别模块、模式识别模块和指令执行模块；底层框架层包括数据库和运行框架，提供了系统基础运行平台，底层框架层根据不同的系统部署要求可以进行对应的调整，数据库中存储若干指令样本，运行框架用于支持用户交互层和逻辑层的运行。

语音识别模块的输出端连接模式识别模块的输入端，语音监听模块的输出端连接语音识别模块的输入端，模式识别模块的输出端连接指令执行模块的输入端，指令执行模块的输出端连接反馈模块的输入端。

用户信息包括语音信息，本实施例中用户信息还可包括手动输入信息，用户交互模块还包括用户输入模块，用户输入模块接收手动输入信息，手动输入信息为字符串格式，语音监听模块的输出端与语音识别模块的输入端连接，用户输入模块、语音识别模块的输出端共同连接模式识别模块的输入端，模式识别模块的输出端连接指令执行模块的输入端，指令执行模块的输出端连接反馈模块的输入端。

如图2所示，本实施例中数据库中存储声纹样本，指令样本中包括公共指令样本、私有指令样本和穿透指令样本，其中私有指令样本和公共指令样本可以存在相同的数据信息。系统中创建公共上下文和多个用户上下文，公共上下文包括所有用户上下文，如用户a的用户上下文和用户b的用户上下文；其中一个用户上下文对应一个用户，一个用户对应多个用户上下文，如对于用户a的用户上下文中包括用户上下文1和用户上下文2，用户b的同理。公共指令进入公共上下文执行，即公共指令可进入所有用户上下文中执行；私有指令进入当前用户上下文执行，穿透指令从当前用户上下文进入其他用户上下文执行。

采用多线程的运行模式，将多个用户上下文和公共上下文分别对应设置为独立线程，私有指令、公共指令和穿透指令分别进入相应的独立线程进行处理，对用户上下文或公共上下文执行相应操作。

以仅输入语音信息为例，多用户协作的语音辅助方法工作步骤为：

步骤1：多用户协作的语音辅助方法启动后，语音监听模块实时监听用户输入的语音信息，进入步骤2；

步骤2：语音监听模块压缩语音信息并传递给语音识别模块，语音识别模块提取语音信息中的声纹信息与声纹样本匹配，进入步骤3；

步骤3：若能匹配，进入对应的用户上下文，若未能匹配，创建新的声纹样本并进入对应的用户上下文，进入步骤4；

步骤4：语音识别模块将语音信息的内容转换为字符串格式后传递给模式识别模块，进入步骤5；

步骤7：进入穿透模式，穿透指令进入对应的用户上下文，进入步骤12；

步骤8：公共指令进入公共上下文，进入步骤12；

步骤9：私有指令进入当前用户的上下文，进入步骤12；

步骤10：通过反馈模块要求用户筛选进入当前用户上下文或公共上下文，根据用户所选进入相应的上下文，进入步骤12；

步骤11：通过反馈模块向用户反馈未能匹配已有指令样本，返回步骤1；

步骤12：指令执行模块执行所匹配的语音信息，将执行所产生的反馈信息传递给反馈模块，反馈模块将反馈信息反馈给用户。

若增加手动输入信息，用户输入模块将手动输入信息传递至模式识别模块进行匹配识别，先在公共上下文中匹配，列举所匹配到的用户上下文，通过反馈模块向用户请求选择对应要进入的用户上下文。

本实施例中指令样本还包括打断指令样本，若模式识别模块将语音信息中的打断指令与打断指令样本匹配，则终止打断指令所对应的操作。

本实施例中反馈模块的实现方式为语音信息反馈或文字信息反馈。

如图3所示，确定系统所需要对用户提供的指令内容，在数据库中建立指令样本和声纹样本，若干指令样本组成有限状态机，在上述每个用户上下文中，均保持一个有限状态机的指令框架。每一个指令样本作为有限状态机的单一状态，匹配的指令信息作为有限状态机中状态转移的标志。

匹配时，采用顺序字符串匹配算法，本实施例中采用kmp算法，能够高效过滤非指令信息的用户信息，快速提取指令信息，有效提高效率。提取待匹配的指令信息后，将该指令信息作为有限状态机中状态转移的标志，获取用户真正需要执行的操作，达到用户信息匹配的目的。在匹配指令过程中，若出现穿透指令和公共指令，则重新进入模式识别模块的上下文匹配过程。

本实施例中有限状态机中的多个状态之间还可设置为层级结构，将无结构的字符串格式的用户信息提取转换为结构化的树结构，按照指令样本的执行顺序建立多层树结构，能够提高用户输入效率。

如图4所示，假设用户信息为“aabb0246cc”，模式识别模块匹配至“0”时，将不再向用户返回确认请求，将继续进行指令匹配，直至匹配至“c”，那么最终状态将跳转至状态7，向用户返回请求指令7执行，得到确认后执行指令。

在面对多层指令操作时，用户只需要语音输入或手动输入连续的用户信息，直接跳转至目标状态，直接执行目标状态，具有快速匹配用户信息的目的，极大提升用户输入效率，避免重复的语音信息或手动输入步骤。

指令执行模块执行用户数据和系统操作的指令，为多用户协作的语音辅助方法的其他模块提供系统操作接口，方便调用。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张子辰
技术所有人：张子辰
我是此专利的发明人

上一篇：用于确定工具偏移的系统和方法与流程
上一篇：一种厂房空气净化装置的制作方法