一种智能音箱的音频处理方法及系统与流程

文档序号：16312768发布日期：2018-12-19 05:21阅读：433来源：国知局

本发明属于通信技术领域，特别涉及一种智能音箱的音频处理方法及系统。

背景技术

随着人工智能的日趋火爆，智能音箱等智能产品也越来越火爆。作为一台智能音箱最重要的就是语音识别和语意解析，只有正确的理解到用户的意图才能为用户提供更精确的服务。而生产智能音箱的公司一般自己没有专业的语音识别团队，需要和第三方服务器平台等合作，在智能音箱端调用第三方平台提供的sdk将音频信息传输到第三方的服务器，由第三方服务器对音频信息进行语音识别和语意解析，然后将语音识别结果和语意解析结果返回到智能音箱端。此种方式使得智能音箱生产商无法获取并保存用户输入的音频信息和识别结果到自己的服务器上，使得生产商无法根据识别结果获得所需信息，从而无法为用户提供更好的服务。

技术实现要素：

本发明的目的是提供一种智能音箱的音频处理方法及系统，实现在使用第三方服务器进行音频语义解析的同时，保存用户输入的音频信息和识别结果的目的。

本发明提供的技术方案如下：

一种智能音箱的音频处理方法，包括：

所述智能音箱与第一服务器建立长连接；

所述智能音箱发送报文信息至所述第一服务器；所述报文信息包含所述智能音箱的设备信息；

当所述第一服务器根据所述设备信息确认所述智能音箱合法时，所述第一服务器与第二服务器建立长连接，并将所述报文信息发送至所述第二服务器；

所述第一服务器接收并保存所述智能音箱上传的音频信息，同时将所述音频信息传输给所述第二服务器；

所述第二服务器根据所述报文信息和所述音频信息生成识别结果，并将所述识别结果返回至所述第一服务器；

所述第一服务器保存所述识别结果，并根据所述识别结果生成回复信息。

进一步地，所述智能音箱与第一服务器建立长连接之前还包括：

所述智能音箱获取用户信息和所述用户输入的音频信息；

所述第一服务器接收并保存所述智能音箱上传的音频信息具体包括：

所述第一服务器接收所述智能音箱上传的所述用户信息和所述音频信息，根据所述用户信息识别所述用户的身份信息；

根据所述用户的身份信息，建立或查找到与所述用户对应的文件库，并将所述音频信息保存在所述文件库中。

进一步地，所述第一服务器保存所述识别结果，并根据所述识别结果生成回复信息具体包括：

所述第一服务器保存所述识别结果至所述文件库中；

当所述文件库中存储有历史识别结果时，所述第一服务器根据所述识别结果和所述历史识别结果生成回复信息。

进一步地，所述第一服务器根据所述识别结果和所述历史识别结果生成回复信息具体包括：

对所述历史识别结果进行分词处理，得到所述历史识别结果的词向量；

对所述识别结果进行分词处理，得到关键词；

根据所述关键词在所述词向量中查找到与所述关键词相关的词语；

根据所述识别结果和与所述关键词相关的词语生成回复信息。

进一步地，当所述第一服务器根据所述设备信息确认所述智能音箱不合法时，所述第一服务器断开与所述智能音箱的长连接。

本发明还提供一种智能音箱的音频处理系统，包括：智能音箱，用于与第一服务器建立长连接，并用于发送报文信息至所述第一服务器；所述报文信息包含所述智能音箱的设备信息；

所述第一服务器，用于当根据所述设备信息确认所述智能音箱合法时，与第二服务器建立长连接，并将所述报文信息发送至所述第二服务器；同时接受并保存所述智能音箱上传的音频信息，并将所述音频信息传输给所述第二服务器；

所述第二服务器，用于根据所述报文信息和所述音频信息生成识别结果，并将所述识别结果返回至所述第一服务器；

所述第一服务器，还用于保存所述识别结果，并根据所述识别结果生成回复信息。

进一步地，所述智能音箱包括：

获取模块，用于获取用户信息和所述用户输入的音频信息；

所述第一服务器包括：

接收模块，用于接收所述智能音箱上传的所述用户信息和所述音频信息；

识别模块，用于根据所述用户信息识别所述用户的身份信息；

文件库模块，用于根据所述用户的身份信息，建立或查找到与所述用户对应的文件库；

存储模块，用于将所述音频信息保存在所述文件库中。

进一步地，所述第一服务器还包括生成模块：

所述存储模块，还用于保存所述识别结果至所述文件库中；

所述生成模块，用于当所述文件库中存储有历史识别结果时，所述第一服务器根据所述识别结果和所述历史识别结果生成回复信息。

进一步地，所述生成模块包括：

分词单元，用于对所述历史识别结果进行分词处理，得到所述历史识别结果的词向量；还用于对所述识别结果进行分词处理，得到关键词；

查找单元，用于根据所述关键词在所述词向量中查找到与所述关键词相关的词语；

生成单元，用于根据所述识别结果和与所述关键词相关的词语生成回复信息。

进一步地，所述第一服务器还用于当所述第一服务器根据所述设备信息确认所述智能音箱不合法时，所述第一服务器断开与所述智能音箱的长连接。

通过本发明提供的一种智能音箱的音频处理方法及系统，能够带来以下至少一种有益效果：

1、本发明通过将音频信息先传输给第一服务器，再由第一服务器将音频信息透传到第二服务器，识别结果先传输给第一服务器再传输给智能音箱，使得第一服务器可保存音频信息和识别结果，以便根据识别结果对用户进行大数据分析，获取生成商所需的信息；同时第一服务器可根据识别结果直接生产回复信息，无需智能音箱获取到识别结果后再向服务器发出获取回复信息请求，简化操作流程。

2、本发明通过识别用户身份信息，可根据用户的历史喜好和习惯为用户生成符合用户喜好的回复信息，以提高用户的使用体验。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对一种智能音箱的音频处理方法及系统的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明一种智能音箱的音频处理方法的实施例一的流程示意图；

图2是本发明一种智能音箱的音频处理方法的实施例三的流程示意图；

图3是本发明一种智能音箱的音频处理系统的一个实施例的结构示意框图；

图4是本发明一种智能音箱的音频处理系统的另一个实施例四的结构示意框图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

根据本发明提供的第一实施例，如图1所示，

一种智能音箱的音频处理方法，包括：

所述智能音箱与第一服务器建立长连接；

所述智能音箱发送报文信息至所述第一服务器；所述报文信息包含所述智能音箱的设备信息；

当所述第一服务器根据所述设备信息确认所述智能音箱合法时，所述第一服务器与第二服务器建立长连接，并将所述报文信息发送至所述第二服务器；

所述第一服务器接收并保存所述智能音箱上传的音频信息，同时将所述音频信息传输给所述第二服务器；

所述第二服务器根据所述报文信息和所述音频信息生成识别结果，并将所述识别结果返回至所述第一服务器；

所述第一服务器保存所述识别结果，并根据所述识别结果生成回复信息。

具体地，智能音箱获取到音频信息后与第一服务器建立长连接，如建立websocket连接，在建立websocket连接的情况下，智能音箱与第一服务器可以进行多次甚至是任意次数的通信，并且每次通信不要重复发送一些头部信息。第一服务器为智能音箱生厂商自己的服务器。智能音箱与第一服务器建立长连接后，智能音箱发送报文信息至第一服务器，报文信息既包含音频信息的格式、类型等，还包括智能音箱的设备信息。第一服务器通过报文信息中包含的智能音箱的设备信息判断智能音箱是否合法，即判断智能音箱是否是本公司产品，当判断合法时，第一服务器与第二服务器建立websocket连接，并同时将智能音箱发送的报文信息透传至第二服务器，第二服务器为第三方提供语音识别服务的服务器。当第一服务器根据设备信息判断智能音箱不合法时，断开与智能音箱的长连接，以防止信息泄露，提高信息安全。

智能音箱、第一服务器和第二服务器之间建立双层websocket连接后，智能音箱上传音频信息至第一服务器，第一服务器保存该音频信息并将该音频信息透传至第二服务器。智能音箱发送的音频信息为二进制文件，且可以0字节标识音频的结尾。

第二服务器根据接收到的报文信息和音频信息，解析该音频信息，然后进行语音识别和语义解析，生成语义识别结果，并将语义识别结果返回至第一服务器。第一服务器保存第二服务器返回的语义识别结果，并根据该语义识别结果生成回复信息。回复信息可为文本信息、也可为列表信息。当音频信息为提问式时，如某一歌曲是谁唱的，此时，回复信息为文本信息；当音频信息为非提问式，而为指令式时，如播放某一歌手的歌曲，此时，回复信息为列表信息。

根据本发明提供的一种智能音箱的音频处理方法的第二实施例，如图所示，在上述第一实施例中，智能音箱与第一服务器建立长连接之前还包括：

所述智能音箱获取用户信息和所述用户输入的音频信息；

所述第一服务器接收并保存所述智能音箱上传的音频信息具体包括：

所述第一服务器接收所述智能音箱上传的所述用户信息和所述音频信息，根据所述用户信息识别所述用户的身份信息；

根据所述用户的身份信息，建立或查找到与所述用户对应的文件库，并将所述音频信息保存在所述文件库中。

具体地，智能音箱获取用户语音输入的音频信息时，可获取用户的信息，如获取用户的指纹或头像等信息，第一服务器根据用户的指纹或头像识别出用户的身份信息，当第一服务器根据用户的身份信息判断用户为新用户时，为用户建立对应的文件库，并将音频信息保存在用户对应的文件库中。同时在判断用户为新用户时，还可将用户为新用户的信息返回至智能音箱，使得智能音箱根据返回信息生成语音提示信息，以便让用户根据语音提示信息语音输入自己的年龄、听歌喜好和听歌习惯等，然后再将这些信息返回至第一服务器，并由第一服务器保存在用户对应的文件库中。

当第一服务器根据用户的身份信息判断用户非新用户时，查找到与用户对应的文件库，并将音频信息保存在用户对应的文件库中，使得文件库中存储有该用户的所有历史使用信息；可方便生产商根据每个用户的使用信息，对智能音箱进行优化升级，从而为用户提供更好的服务。

根据本发明提供的一种智能音箱的音频处理方法的第三实施例，如图2所示，在上述第二实施例中，第一服务器保存识别结果，并根据识别结果生成回复信息具体包括：

第一服务器保存识别结果至文件库中；

当文件库中存储有历史识别结果时，对历史识别结果进行分词处理，得到历史识别结果的词向量；

对识别结果进行分词处理，得到关键词；

根据所述关键词在所述词向量中查找到与所述关键词相关的词语；

根据所述识别结果和与所述关键词相关的词语生成回复信息。

具体地，第一服务器接收到第二服务器返回的识别结果后，将识别结果保存在对应的文件库中，即当前用户对应的文件库。

当用户为新用户时，文件库中只存储有用户的年龄、喜好等信息，此时，可结合用户的喜好和当前识别结果生成回复信息。

如用户的喜好是喜欢听a类型的歌曲，当根据用户输入的音频信息识别得到的识别结果为播放b歌手的歌曲，此时，生成的回复信息为一歌曲播放列表，该播放列表中歌曲的排列顺序可根据用户的喜好进行排列，如在b歌手的歌曲中搜索到属于a类型的歌曲，并将搜索到的歌曲排在播放列表的前面，智能音箱根据该播放列表播放歌曲时，可优先播放用户喜欢的a类型的歌曲，提高用户的使用体验。

当用户为非新用户时，文件库中不仅存储有用户的年龄、喜好等信息，还存储有历史识别结果，此时，可结合用户的喜好、历史识别结果和当前识别结果生成回复信息。

其过程为：先对历史识别结果进行分词处理，得到历史识别结果的词向量，对历史识别结果进行分词处理的过程可在获取到每一个历史识别结果时，对其进行分词处理，并将分词处理后的所有词语保存在一个总的词向量中，当词向量中保存有当前进行分词处理得到的词语时，不再将当前分词处理得到的词语保存在词向量中，而是在词向量中将该词语出现的次数加一，词向量中的词语根据词语出现的次数进行降序排列。

当获取到当前识别结果时，对当前识别结果进行分词处理，得到关键词，根据关键词在词向量中查找到与关键词相关的词语，并根据用户的喜好和与关键词相关的词语对歌曲进行排序。

如用户的喜好是喜欢听a类型的歌曲，词向量中包含有多个歌曲名称，当根据用户输入的音频信息识别得到的识别结果为播放b歌手的歌曲，此时，生成的回复信息也为一歌曲播放列表，该播放列表中歌曲的排列顺序可根据用户的喜好和以前听过的歌曲名称进行排列。先在词向量中查找是否有b歌手的歌曲，如有，则根据歌曲在词向量中出现的次数和所属类型进行排列，对于出现的次数和所属类型的权重可根据实际情况进行设置；如词向量中不包含有b歌手的歌曲，则直接根据用户的喜好进行排列。通过根据用户的喜好和历史习惯生成回复信息，可获得更符合用户喜好的回复信息，从而提高用户的使用体验。

根据本发明提供的第四实施例，如图3所示，

一种智能音箱的音频处理系统，包括：

智能音箱100，用于与第一服务器200建立长连接，并用于发送报文信息至所述第一服务器；所述报文信息包含所述智能音箱的设备信息；

所述第一服务器200，用于当根据所述设备信息确认所述智能音箱合法时，与第二服务器300建立长连接，并将所述报文信息发送至所述第二服务器300；同时接受并保存所述智能音箱上传的音频信息，并将所述音频信息传输给所述第二服务器300；

所述第二服务器300，用于根据所述报文信息和所述音频信息生成识别结果，并将所述识别结果返回至所述第一服务器200；

所述第一服务器200，还用于保存所述识别结果，并根据所述识别结果生成回复信息。

具体地，智能音箱100获取到音频信息后与第一服务器200建立长连接，如建立websocket连接，在建立websocket连接的情况下，智能音箱100与第一服务器200可以进行多次甚至是任意次数的通信，并且每次通信不要重复发送一些头部信息。第一服务器200为智能音箱100的生厂商自己的服务器。智能音箱100与第一服务器200建立长连接后，智能音箱100发送报文信息至第一服务器200，报文信息既包含音频信息的格式、类型等，还包括智能音箱100的设备信息。第一服务器200通过报文信息中包含的智能音箱100的设备信息判断智能音箱100是否合法，即判断智能音箱100是否是本公司产品，当判断合法时，第一服务器200与第二服务器300建立websocket连接，并同时将智能音箱100发送的报文信息透传至第二服务器300，第二服务器300为第三方提供语音识别服务的服务器。当第一服务器200根据设备信息判断智能音箱100不合法时，断开与智能音箱100的长连接，以防止信息泄露，提高信息安全。

智能音箱100、第一服务器200和第二服务器300之间建立双层websocket连接后，智能音箱100上传音频信息至第一服务器200，第一服务器200保存该音频信息并将该音频信息透传至第二服务器300。智能音箱100发送的音频信息为二进制文件，且可以0字节标识音频的结尾。

第二服务器300根据接收到的报文信息和音频信息，解析该音频信息，然后进行语音识别和语义解析，生成语义识别结果，并将语义识别结果返回至第一服务器100。第一服务器100保存第二服务器300返回的语义识别结果，并根据该语义识别结果生成回复信息。回复信息可为文本信息、也可为列表信息。当音频信息为提问式时，如某一歌曲是谁唱的，此时，回复信息为文本信息；当音频信息为非提问式，而为指令式时，如播放某一歌手的歌曲，此时，回复信息为列表信息。

根据本发明提供的第五实施例，如图4所示，

一种智能音箱的音频处理系统，包括：

智能音箱100，用于与第一服务器200建立长连接，并用于发送报文信息至所述第一服务器200；所述报文信息包含所述智能音箱100的设备信息；

所述第一服务器200，用于当根据所述设备信息确认所述智能音箱100合法时，与第二服务器300建立长连接，并将所述报文信息发送至所述第二服务器300；同时接受并保存所述智能音箱100上传的音频信息，并将所述音频信息传输给所述第二服务器300；

所述第二服务器300，用于根据所述报文信息和所述音频信息生成识别结果，并将所述识别结果返回至所述第一服务器200；

所述第一服务器200，还用于保存所述识别结果，并根据所述识别结果生成回复信息。

优选地，所述智能音箱100包括：

获取模块110，用于获取用户信息和所述用户输入的音频信息；

所述第一服务器200包括：

接收模块210，用于接收所述智能音箱100上传的所述用户信息和所述音频信息；

识别模块220，用于根据所述用户信息识别所述用户的身份信息；

文件库模块230，用于根据所述用户的身份信息，建立或查找到与所述用户对应的文件库；

存储模块240，用于将所述音频信息保存在所述文件库中。

优选地，所述第一服务器200还包括生成模块250：

所述存储模块240，还用于保存所述识别结果至所述文件库中；

所述生成模块250，用于当所述文件库中存储有历史识别结果时，所述第一服务器200根据所述识别结果和所述历史识别结果生成回复信息。

优选地，所述生成模块250包括：

分词单元251，用于对所述历史识别结果进行分词处理，得到所述历史识别结果的词向量；还用于对所述识别结果进行分词处理，得到关键词；

查找单元252，用于根据所述关键词在所述词向量中查找到与所述关键词相关的词语；

生成单元253，用于根据所述识别结果和与所述关键词相关的词语生成回复信息。

优选地，所述第一服务器200还用于当所述第一服务器200根据所述设备信息确认所述智能音箱100不合法时，所述第一服务器200断开与所述智能音箱100的长连接。

本实施例中的各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈兵
技术所有人：四川斐讯信息技术有限公司
我是此专利的发明人

上一篇：一种温室作物灌溉决策预警装置及方法与流程
上一篇：一种太阳能电池板角度的路灯的调节方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。