一种快速实现语音交互功能的系统的制作方法

文档序号：22756915发布日期：2020-10-31 09:54阅读：99来源：国知局

本申请涉及语音交互领域，特别是涉及一种快速实现语音交互功能的系统。

背景技术：

随着人工智能技术的普及，语音识别技术也发展的越来越快，且被应用于各种安卓设备上，用以提升安卓设备的操控便捷性和人机交互体验。

现有的安卓设备的语音交互功能的开发流程一般为如下步骤：

硬件选型，根据语音交互功能对算力、ram(randomaccessmemory，随机存取存储器)、rom(read-onlymemory，只读存储器)等资源的需求，选择相应cpu(centralprocessingunit，中央处理器)、ddrsdram(doubledataratesynchronousdynamicrandomaccessmemory，双倍速率同步动态随机存储器)、麦克风和喇叭等硬件；

识别引擎移植，根据安卓设备部署的操作系统，在对语音识别引擎的算法进行交叉编译和调试的情况下，将语音识别引擎移植到安卓设备上；

录音和放音开发测试，对已经选择好的硬件进行开发调试，如在对麦克风阵列录音质量测试的情况下，需要对麦克风进行增益测试、一致性测试，并且也需要对驱动程序进行开发和调试；

上层应用语音开发，对上述语音识别引擎的调试、录音能力以及放音能力的开发调试进行整合，即调用麦克风阵列采集用户的指令录音，并将指令录音发送到语音识别引擎得到指令文本，然后语音识别引擎解析该指令文本以执行与指令文本相对应的执行动作，然后对指令动作完成播报；

上层应用业务开发，在应用语音能力开发的情况下，需要在应用语音能力的基础上逐步实现业务需求，即基于应用语音能力开发各种业务功能，如gui(graphicaluserinterface，图形用户界面)动画渲染、拟人播报应答。

相关技术中，在对语音交互功能进行开发的情况下，一般难度较高，需要软件工程师、硬件工程师以及算法工程师共同参与设计和实现；且在对语音交互功能进行开发的情况下，从设计、实现到调优，周期较长，需要耗费大量的时间成本；并且针对于不同的安卓设备的硬件和产品需求，语音识别引擎中语音控制部分不具有可移植性；在对语音交互功能进行开发的情况下，软件工程师既要实现语音识别殷勤的识别播报能力，又要实现具体业务需求，难以并行开发，复杂度较高。

目前针对相关技术中语音交互功能开发难度高、周期长、不具有可移植性以及复杂度高的问题，尚未提出有效地解决方案。

技术实现要素：

本申请实施例提供了一种快速实现语音交互功能的系统，以至少解决相关技术中语音交互功能开发难度高、周期长、不具有可移植性以及复杂度高的问题。

本发明提供了一种快速实现语音交互功能的系统，应用于安卓设备，包括：

i2s标准麦克风阵列，用于采集用户的第一模拟语音数据；

语音转换单元，用于将所述第一模拟语音数据转换为第一数字语音数据，以及将第二数字语音数据转换为第二模拟语音数据；

语音处理单元，用于对所述第一数字语音数据进行全链路语音处理，以生成与所述第一数字语音数据相对应的所述第二数字语音数据，其中，所述语音处理单元独立运行于所述安卓设备的操作系统，所述全链路语音处理包括语音识别、语义理解、对话管理、自然语言生成以及文本转语音；

i2s标准播放器，用于播放所述第二模拟语音数据。

进一步地，还包括：

i2s标准接口，用于接收所述i2s标准麦克风阵列发送的所述第一模拟语音数据、并将所述第一模拟语音数据发送到所述语音转换单元，以及接收所述语音转换单元发送的所述第二模拟语音数据、并将所述第二模拟语音数据发送到所述i2s标准播放器。

进一步地，所述语音处理单元包括：

语音识别模块，用于识别所述第一数字语音数据以获取用户意图，并将所述用户意图发送到所述安卓设备的应用层，其中，所述语音识别模块具有可移植性，能够使所述语音处理单元运行在若干种处理器架构上。

进一步地，所述语音处理单元还包括：

语音合成模块，用于在所述安卓设备的应用层生成与所述用户意图相对应的执行动作的执行动作结果的情况下，根据所述执行动作结果合成所述第二数字语音数据。

进一步地，所述语音处理单元还包括：

配置模块，用于配置所述i2s标准麦克风阵列的参数。

进一步地，还包括：

jni标准动态链接库，用于接收所述语音转换单元发送的所述第一数字语音数据，并将所述第一数字语音数据发送到所述语音处理单元。

进一步地，所述语音处理单元还包括：

通信接口，用于与所述安卓设备的应用层进行进程间通信。

进一步地，所述通信接口包括：

调用接口，用于调用所述语音处理单元执行与所述第一数字语音数据相对应的执行动作。

进一步地，所述通信接口还包括：

事件通报接口，用于向所述安卓设备的应用层通报执行结果。

进一步地，所述语音转换单元可以为tinyalsa音频驱动。

相比于相关技术，本申请实施例提供的一种快速实现语音交互功能的系统，包括：i2s标准麦克风阵列，用于采集用户的第一模拟语音数据；语音转换单元，用于将第一模拟语音数据转换为第一数字语音数据，以及将第二数字语音数据转换为第二模拟语音数据；语音处理单元，用于对第一数字语音数据进行全链路语音处理，以生成与第一数字语音数据相对应的第二数字语音数据，其中，语音处理单元独立运行于安卓设备的操作系统，全链路语音处理包括语音识别、语义理解、对话管理、自然语言生成以及文本转语音；i2s标准播放器，用于播放第二模拟语音数据。解决了现有技术中语音交互功能开发难度高、周期长、不具有可移植性以及复杂度高的问题，实现了快速开发语音交互功能的技术效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本发明实施例的一种快速实现语音交互功能的系统的结构框图一；

图2是本发明实施例的一种快速实现语音交互功能的系统的结构框图二；

图3是本发明实施例的一种快速实现语音交互功能的系统的结构框图三；

图4是本发明实施例的一种快速实现语音交互功能的系统的结构框图四；

图5是本发明实施例的一种快速实现语音交互功能的系统的结构框图五；

图6是本发明实施例的一种快速实现语音交互功能的系统的结构框图六。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“a和/或b”可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本发明提供的一种快速实现语音交互功能的系统，可以应用于语音交互领域和安卓设备，图1是本发明实施例的一种快速实现语音交互功能的系统的结构框图一，请参见图1，该系统包括i2s(inter—icsound，集成电路内置音频总线)标准麦克风阵列110、语音转换单元120、语音处理单元130以及i2s标准播放器140。

i2s标准麦克风阵列110用于采集用户的第一模拟语音数据，并将第一模拟语音数据发送到语音转换单元120。i2s标准麦克风阵列110采集的第一模拟语音数据为模拟信号，不能直接被安卓设备识别，所以需要将第一模拟语音数据发送到语音转换单元120，以获取安卓设备能够识别的信号类型。

其中，i2s标准麦克风阵列110可以根据产品需求配置麦克风的数目和参数，以使i2s标准麦克风阵列110能够清晰地接收用户的语音数据，防止i2s标准麦克风阵列110接收的用户的语音数据不清晰而影响语音交互。

语音转换单元120用于将第一模拟语音数据转换为第一数字语音数据，并将第一数字语音数据发送到语音处理单元130。具体地，由于第一模拟语音数据为模拟信号并不能直接被安卓设备识别，因此语音转换单元120将第一模拟语音数据转换为第一数字语音数据，其中，第一数字语音数据为数字信号。

语音处理单元130对第一数字语音数据进行全链路语音处理，以生成与第一数字语音数据相对应的第二数字语音数据，然后语音处理单元130将第二数字语音数据发送到语音转换单元120；其中，全链路语音处理包括语音识别、语义理解、对话管理、自然语言生成以及文本转语音。

具体地，语音处理单元130对第一数字语音数据进行语音识别以生成文本数据；对该文本数据进行语义理解，且根据对话管理找到与文本数据相对应的对话流程；然后根据对话流程生成应答文本数据；将应答文本数据转换为第二数字语音数据。如在第一数字语音数据为执行动作的情况下，第二数字语音数据为执行动作结果；在第一数字语音数据为问题的情况下，第二数字语音数据为该问题的答案。

例如，在用户输入的第一数字语音数据为“播放音乐”的情况下，此时语音处理单元130对第一数字语音数据进行全链路语音处理，生成第二数字语音数据“已为您播放音乐”。

其中，第一模拟语音数据、第二模拟语音数据均为模拟信号；第一数字语音数据、第二数字语音数据均为数字信号。

语音转换单元120将第二数字语音数据转换为第二模拟语音数据，且将第二模拟语音数据发送到i2s标准播放器140，由于i2s标准播放器140不能直接识别数字信号，所以i2s标准播放器140不能直接识别并播放第二数字语音数据，需要语音转换单元120将第二数字语音数据转换为第二模拟语音数据，也即将数字信号转换为模拟信号；然后i2s标准播放器140接收并播放第二模拟语音数据。

其中，语音转换单元120可以为tinyalsa音频驱动，tinyalsa音频驱动为安卓设备的操作系统中的一种音频体系结构，能够控制管理多种模式的音频通路，且安卓设备的操作系统能够通过tinyalsa音频驱动完成对底层硬件的操作。如tinyalsa音频驱动可以接收i2s标准麦克风阵列110发送的第一模拟语音数据，并将该第一模拟语音数据转换为第一数字语音数据，然后将该第一数字语音数据发送到语音处理单元130，语音处理单元130对第一数字语音数据进行全链路语音处理以生成第二数字语音数据；tinyalsa音频驱动还可以接收语音处理单元130发送的第二数字语音数据，并将该第二数字语音数据转换为第二模拟语音数据，然后将该第二模拟语音数据发送到i2s标准播放器140，以使i2s标准播放器140播放该第二模拟语音数据。

通过tinyalsa音频驱动能够控制管理多种音频模式的音频通路，从而不需要在花费较多的时间对语音转换单元120进行调试，进而缩短了语音交互功能的开发周期和降低了语音交互功能的开发难度。

其中，语音处理单元130独立运行于安卓设备的操作系统中，从而使语音处理单元130与安卓设备的应用层完全解耦，省去了语音处理单元与上层应用进行联编联调的工作，从而降低了语音交互功能的开发难度。

例如，在语音处理单元130为语音助手程序的情况下，语音助手程序接收tinyalsa音频驱动发送的第一数字语音数据，然后语音助手程序对第一数字语音数据进行语音识别、语义理解、对话管理、自然语言生成以及文本转语音，然后将处理结果发送到安卓设备的应用层，应用层根据该处理结果执行相对应的执行动作；语音处理单元130在应用层执行动作的情况下，语音处理单元130根据执行动作结果生成第二数字语音数据，并将该第二数字语音数据发送到tinyalsa音频驱动。

i2s标准播放器140，用于接收tinyalsa音频驱动转换的第二模拟语音数据，并播放第二模拟语音数据。其中，可以根据产品需求选择合适的i2s标准播放器140，以防止播放器140在接收到第二模拟语音数据的情况下，出现播放不清楚的问题。

通过使用相对成熟的标准化的i2s标准麦克风阵列110、语音转换单元120、语音处理单元130以及i2s标准播放器140组成的系统，从而使该系统作为一个独立的整体为安卓设备的应用层提供服务，节省了调试、试错的时间；且由于语音处理单元130作为独立的进程运行与安卓设备的操作系统，也节省了语音处理单元130与应用层的联编联调的工作，进而降低了语音助手功能的开发难度和周期。

图2是根据本发明实施例的一种快速实现语音功能的系统的结构框图二，请参见图2，该系统还包括：

i2s标准接口150，用于接收i2s标准麦克风阵列110发送的第一模拟语音数据，并将第一模拟语音数据发送到语音转换单元120，以及接收语音转换单元120发送的第二模拟语音数据，并将第二模拟语音数据发送到i2s标准播放器140。

i2s标准是为数字音频设备进行数据传输而制定的一种总线标准，且i2s标准即规定了硬件接口规范，也规定了数字音频数据的格式，从而通过使用i2s标准麦克风阵列110、i2s标准接口150以及i2s标准播放器140，屏蔽和处理了不同硬件的差异，解决了在开发语音交互功能的过程中需要对录音和放音花费大量时间进行开发测试的问题，实现了i2s标准麦克风阵列110和i2s标准播放器140的即装即用。

图3是跟据本发明实施例的一种快速实现语音交互功能的系统的结构框图三，请参见图3，语音处理单元130包括：

语音识别模块131，用于识别第一数字语音数据以获取用户意图，并将该用户意图发送到应用层，且所述语音识别模块具有可移植性，能够使所述语音处理单元运行在若干种处理器架构上。

其中，语音识别模块131可以为语音识别引擎，语音识别模块131可以针对主流的中央处理器架构进行性能调优，从而使语音处理单元130能够在主流的处理器架构上运行。如可以对语音识别模块131进行性能调优，使语音处理单元130能够在intelx86架构、arm(acornriscmachine)架构以及mips(microprocessorwithoutinterlockedpipedstages)架构上运行。

其中，对语音识别模块131进行性能调优，还能够使语音识别模块131支持主流语音芯片的交叉编译。

通过语音识别模块131能够运行在多种中央处理器架构以及能够支持多种语音芯片的交叉编译，解决了现有技术中语音交互功能不具有可移植性的问题。

图4是根据本发明实施例的一种快速实现语音交互功能的系统的结构框图四，请参见图4，语音处理单元130还包括：

语音合成模块132，用于在安卓设备的应用层生成与用户意图相对应的执行动作的执行动作结果的情况下，根据执行动作结果合成第二数字语音数据。

其中，在语音识别模块131将用户意图发送到安卓设备的应用层的情况下，应用层执行与该用户意图相对应的执行动作，并生成执行动作结果，然后将该执行动作结果发送到语音合成模块132，语音合成模块132根据该执行动作结果生成第二数字语音数据。

通过语音合成模块132安卓设备的应用层执行与用户意图相对应的执行动作且根据执行动作结果合成第二数字语音数据，从而使安卓设备能够实现语音交互功能。

图5是根据本发明实施例的一种快速实现语音交互功能的系统的结构框图五，请参见图5，语音处理单元130还包括：

配置模块133，用于配置i2s标准麦克风阵列110的参数。

通过配置模块133配置i2s标准麦克风阵列110的参数，以使i2s标准麦克风阵列110能够清晰地接收用户的语音信息。

图6是根据本发明实施例的一种快速实现语音交互功能的系统的结构框图六，请参见图6，该系统还包括：

jni标准动态链接库160，用于接收语音转换单元120发送的第一数字语音数据，并将第一数字语音数据发送到语音处理单元130。

jni标准动态链接库160为基于jni(javanativeinterface，java本地接口)标准的动态链接库160，且由于通过jni标准编写的程序可以在不同的平台进行移植，从而能够使语音交互功能也具有一定的可移植性。

其中，语音处理单元130还包括通信接口，用于与安卓设备的应用层进行进程间通信，且该通信接口分为上行的事件通报接口和下行的调用接口。通信接口主要用于进行使语音处理单元130与安卓设备的应用层进行进程间通信，从而能够使安卓设备能够实现语音交互功能。

其中，调用接口用于操控语音处理单元130执行与第一数字语音数据相对应的执行动作。具体地，在语音处理单元130为语音助手程序的情况下，应用层可以通过调用接口调用语音助手程序执行录音、语音识别、语音合成、语音播放以及参数配置等操作。

事件通报接口用于向安卓设备的应用层通报执行结果，如在语音处理单元130执行第一数字信息的语音识别的情况下，语音处理单元130可以将语音识别结果通过事件通报接口发送到应用层；在语音处理单元130执行语音合成的情况下，还可以将语音合成结果发送到应用层。

另外，事件通报接口还可以向应用层通报音频播放开始和结束，硬件和网络异常等事件。

通过语音处理单元130独立运行与安卓设备的操作系统，且能够提供一套标准的语音助手接口，从而使应用程序的开发工程师无需关注语音能力的实现方式，只需对接语音处理单元130的标准的通信接口，进而使开发工程师能够专注于业务续期开发，降低了开发工程师的开发难度。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘重凯;李旭滨
技术所有人：上海茂声智能科技有限公司
我是此专利的发明人

上一篇：GPI锚定抗原的增强的免疫原性的制作方法
上一篇：载药植入医疗器械及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。