一种语音处理方法、装置、设备及存储介质与流程

文档序号:24688971发布日期:2021-04-16 09:58阅读:107来源:国知局
一种语音处理方法、装置、设备及存储介质与流程

1.本申请实施例涉及语音识别领域,涉及但不限于一种语音处理方法、装置、 设备及存储介质。


背景技术:

2.随着人工智能技术的发展,语音识别技术也广泛的应用于各行各业中,通 过对用户语音进行分析,确认用户的意图,并进行相应的响应,极大的简化了 用户操作,提升了用户对产品的体验感。
3.车载设备中,根据车载硬件配置的不同,导致允许应用使用的内存不同。 通常,针对不同的内存限制,语义资源配置采用高中低差异化配置。这些基于 不同性能要求的差异化配置资源,均需要模块预先定义。


技术实现要素:

4.本申请实施例提供了一种语音处理方法、装置、设备及存储介质。
5.本申请实施例的技术方案是这样实现的:
6.第一方面,本申请实施例提供了一种语音处理方法,所述方法包括:
7.获取语音信号;
8.根据已加载的第一语义资源,确定所述语音信号的语义信息;
9.当所述语音信号的语义信息确定异常时,根据语音信号,确定所述语音信 号对应的第二语义资源;
10.加载所述第二语义资源;
11.根据所述第二语义资源,确定所述语音信号的语义信息。
12.基于上述方案,所述根据语音信号,确定所述语音信号对应的第二语义资 源,包括:
13.将所述语音信号输入到神经网络中,得到所述语音信号的意图类别;
14.根据所述意图类别,确定所述语音信号对应的第二语义资源。
15.基于上述方案,所述根据语音信号,确定所述语音信号对应的第二语义资 源,包括:
16.根据所述语音信号,确定所述语音信号对应的文字信息;
17.对所述文字信息进行关键词提取,确定所述文字信息的意图类别;
18.根据所述意图类别,确定所述语音信号对应的第二语义资源。
19.基于上述方案,所述方法还包括:
20.在语音识别功能启动时,加载所述第一语义资源。
21.基于上述方案,所述加载所述第一语义资源,至少包括以下之一:
22.根据历史语义资源的加载记录,加载所述第一语义资源;
23.根据预设的功能需求,加载所述第一语义资源。
24.基于上述方案,所述方法还包括:
25.根据所述第二语义资源对应的第二领域,对已加载的至少一个对应于第一 领域的第一语义资源进行卸载。
26.第二方面,本申请实施例提供了一种语音处理装置,所述装置包括:获取 单元,用于获取语音信号;
27.确定单元,用于根据已加载的第一语义资源,确定所述语音信号的语义信 息;当所述语音信号的语义信息确定异常时,根据语音信号,确定所述语音信 号对应的第二语义资源;根据所述第二语义资源,确定所述语音信号的语义信 息;
28.加载单元,用于加载所述第二语义资源。
29.基于上述方案,所述确定单元,具体用于将所述语音信号输入到神经网络 中,得到所述语音信号的意图类别;
30.根据所述意图类别,确定所述语音信号对应的第二语义资源。
31.基于上述方案,所述确定单元,具体用于根据所述语音信号,确定所述语 音信号对应的文字信息;
32.对所述文字信息进行关键词提取,确定所述文字信息的意图类别;
33.根据所述意图类别,确定所述语音信号对应的第二语义资源。
34.基于上述方案,所述加载单元,还用于在语音识别功能启动时,加载所述 第一语义资源。
35.基于上述方案,所述加载单元,具体用于至少以下之一:
36.根据历史语义资源的加载记录,加载所述第一语义资源;
37.根据预设的功能需求,加载所述第一语义资源。
38.基于上述方案,所述装置还包括:卸载单元,用于根据所述第二语义资源 对应的意图类别,对已加载的至少一个第一语义资源进行卸载。
39.第三方面,本申请实施例提供了一种语音处理设备,所述设备至少包括: 处理器和配置为存储可执行指令的存储介质,其中:处理器配置为执行存储的 可执行指令,所述可执行指令配置为执行上述实施例提供的语音处理方法。
40.第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可 读存储介质中存储有计算机可执行指令,该计算机可执行指令配置为执行上述 实施例提供的语音处理方法。
41.本申请实施例中,在根据已加载的第一语义资源确定语音信号的语义信息, 所述语音信号的语义信息确定异常时,根据语音信号,确定所述语音信号对应 的第二语义资源;加载所述第二语义资源;根据所述第二语义资源,确定所述 语音信号的语义信息。本申请实施例通过在语音信号理解异常时,动态加载语 义资源以确定语音的语义信息,一方面,释放了部分语音处理设备的内存资源, 降低了语音处理设备的配置要求,减少了语音识别的成本,另一方面,通过动 态加载语义信息,减少了预加载固定的语义资源所导致的语义理解有限,不能 支持多场景语义分析,从而语义解析异常的问题。
附图说明
42.图1为本申请实施例提供的语音处理方法的流程示意图;
43.图2为本申请实施例提供的一种基于深度学习网络的语音处理方法的流程 示意图;
44.图3为本申请实施例提供的基于rnn构建音频的识别文字向量的示意图;
45.图4为本申请实施例提供的一种语音处理系统的架构图;
46.图5为本申请实施例提供的语音处理装置组成结构示意图;
47.图6为本申请实施例提供的一种语音处理设备结构示意图;
48.图7为本申请实施例提供的一种深度学习网络模型结构示意图。
具体实施方式
49.为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发 明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普 通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本 发明保护的范围。
50.在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集, 但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集, 并且可以在不冲突的情况下相互结合。
51.在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对 象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情 况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除 了在这里图示或描述的以外的顺序实施。
52.除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术 领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发 明实施例的目的,不是旨在限制本发明。
53.以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐 述。
54.本申请实施例提供一种语音处理方法,该方法应用于语音处理设备,该设 备可以为手机、台式电脑、平板电脑、服务器集群等电子设备,该方法所实现 的功能可以通过设备中的处理器调用程序代码来实现,当然程序代码可以保存 在计算机存储介质中,可见,该设备至少包括处理器和存储介质。
55.图1为本申请实施例提供的语音处理方法的流程示意图,如图1所示,该 方法包括:
56.步骤s110,获取语音信号;
57.步骤s120,根据已加载的第一语义资源,确定所述语音信号的语义信息;
58.步骤s130,当所述语音信号的语义信息确定异常时,根据语音信号,确定 所述语音信号对应的第二语义资源;
59.步骤s140,加载所述第二语义资源;
60.步骤s150,根据所述第二语义资源,确定所述语音信号的语义信息。
61.其中,在一实施例中,步骤s110中,获取语音信号具体包括:通过音频采 集装置采集用户的音频信号,对采集的音频信号进行预处理。其中,预处理包 括:降噪、消回声等。音频采集装置包括但不限于:麦克风。
62.其中,第一语义资源和第二语义资源可均为离线语义资源,存储于存储设 备中,
用于对语音信号进行语义解析。所述存储设备包括但不限于磁盘、u盘、 硬盘。在一实施例中语音信号的语义信息确定异常可包括但不限于:对语音信 号进行语义分析,其语义反馈为空值,即对语音信号进行语义分析失败,无法 获取语音信息的语义信息;或者,确定的语义信息不符合预设的响应条件时, 判定语义信息确定异常。其中所述预设的响应条件为功能响应的预设响应条件。 例如:车辆行驶过程中,通过第一语义资源确定语音信号的语义为“打开车门”, 开车门的预设的响应条件为车辆停止运动,此时“打开车门”不符合开车门的 响应条件,则判定语义信息确定异常。
63.本申请实施例中,通过在已经加载的第一语义资源无法确定语音信号的语 义信息时,根据语音信号动态加载用于解析语音信号的第二语义资源,从而根 据第二语义资源确定语音信号的语义信息。在一实施例中,加载是指将数据从 语音处理设备的内存以外的存储设备导入语音处理设备的内存中。已加载的第 一语义资源为存储于语音处理设备内存中的第一语义资源。
64.本实施例,一方面,通过动态加载语义资源,减少了语音处理设备的存储 资源的占用,降低了语音处理设备的配置要求,减少了语音处理的成本,有利 于语音处理方法的广泛应用;另一方面通过动态加载语义资源,减少了因预加 载固定语义资源导致的语义理解有限,不能支持多场景语义分析,从而语义解 析异常的问题;另一方面,通过使用离线语义资源,减少了语音处理过程中语 义资源的获取对网络信号的依赖和受网络信号的影响,提升了语音处理的稳定 性和效率。
65.在一些实施例中,所述根据语音信号,确定所述语音信号对应的第二语义 资源,包括:
66.将所述语音信号输入到神经网络中,得到所述语音信号的意图类别;
67.根据所述意图类别,确定所述语音信号对应的第二语义资源。
68.在一实施例中,神经网络是基于循环神经网络和自注意力机制构建的深度 学习网络模型,用于确定语音信号的意图类别。在获取语音信号之前,基于循 环神经网络和自注意力机制,确定待训练的神经网络的网络结构,并根据语料 语音以及语料语音对应的文字和语义意图,对构建的神经网络进行训练,得到 训练后的神经网络。
69.在一实施例中,语音信号的意图类别为语音信号的意图所属的领域。所述 领域包括导航、影音播放、车辆控制等。不同的意图会有的不同的领域词典, 比如书名,歌曲名,商品名等等。根据意图和词典的匹配程度可以判断该意图 属于哪个领域。例如:当语音信号为:我要到xxx,那么将语音信号输入训练 好的神经网络后,神经网络确定语音信号的意图为:搜索目的地。
70.基于此可以确定语音信号对应的第二语义资源为导航类的语义资源。又例 如:当语音信号为:播放流行歌曲,那么将语音信号输入训练好的神经网络后, 神经网络确定语音信号的意图为:播放周杰伦的歌曲。基于此,可以确定语音 信号对应的第二语义资源为音乐类的语义资源。再例如:当语音信号为:打开 车窗,将语音信号输入训练好的神经网络后,神经网络确定语音信号的意图为: 车辆控制,此时语音信号对应的第二语义资源为车辆控制类的语义资源。
71.在一些实施例中,所述根据语音信号,确定所述语音信号对应的第二语义 资源,包括:
72.根据所述语音信号,确定所述语音信号对应的文字信息;
73.对所述文字信息进行关键词提取,确定所述文字信息的意图类别;
74.根据所述意图类别,确定所述语音信号对应的第二语义资源。
75.其中,在一实施例中,采用将语音信息转换为语音信号对应的文字信息, 可以采用tf

idf(term frequency

inverse document frequency,词频

逆文本频 率指数)获取语音信号对应的文字信息中的关键词,根据关键词的类别确定文 字信息的意图类别。所述关键词通常包括:动词和名词。例如:对于语音信号 对应的文字为“我要去xxx”,通过关键词提取可得到“去”,“xxx”,那么就可 以得知其对应的意图类别为导航。
76.在一些实施例中,所述方法还包括:
77.在语音识别功能启动时,加载所述第一语义资源。
78.语音识别功能开启的同时,从存储设备中提取用于语音信号语义分析的第 一语义资源,将第一语义资源加载到语音处理设备的内存中用于对用户输入的 语音进行语义分析。
79.在一些实施例中,所述加载所述第一语义资源,至少包括以下之一:
80.根据历史语义资源的加载记录,加载所述第一语义资源;
81.根据预设的功能需求,加载所述第一语义资源。
82.其中,在一实施例中,根据历史语义资源的加载记录,加载所述第一语义 资源,包括:根据语义资源加载记录,历史加载频次最高的一个或多个语义资 源。
83.在一实施例中,根据历史语义资源的加载记录,加载所述第一语义资源, 还包括:根据前次语音处理过程中语义资源的加载顺序,将加载记录中前一个 或多个语义资源加载到语义处理设备的内存中。
84.在另一实施例中,根据历史语义资源的加载记录,加载所述第一语义资源, 还包括:加载前次语音处理过程中最后加载的语义资源。根据历史语义资源的 加载记录,确定加载的第一语义资源,第一方面,通过预加载操作,提升了用 户语音处理的效率,第二方面,通过根据历史语义资源的加载记录加载语义资 源,较少了无用语义资源的加载。
85.在一些实施例中,预设的功能需求包括:用户根据自身需求设置的常用的 语音控制功能。具体的,可根据用户设置的常用功能所对应的领域,加载该领 域的语义资源。例如用户将导航功能设置为常用功能,则加载导航领域的语义 资源。又例如:用户将音乐播放设置为常用功能,则加载音乐类的语义资源。
86.本实施例,第一方面通过预加载操作,提升了用户语音处理的效率。第二 方面通过根据预设功能需求加载第一语义资源,使语音处理更加符合用户需求, 提升了用户体验。
87.在一些实施例中,所述语音处理方法应用于车载系统中,所述方法还包括: 根据行车状况信息,加载所述第一语义资源。其中,所述行车状况信息,包括 但不限于:车辆状态信息、车载人员的状态信息、天气信息以及时间信息。
88.所述车辆状态信息包括但不限于:车辆的剩余油耗信息、车内的温度信息 以及车辆器件的状态。具体的,在一实施例中,当车辆的剩余油耗低于预设油 耗阈值时,加载加油站导航对应的语义资源。其中预设油耗阈值通常设置为油 箱储油量的1/4。在一实施例中,当车内温度超过预设温度区间时,加载空调控 制对应的离线语义资源,所述预设温度区间
一般设置在15摄氏度至30摄氏度 之间。在一实施例中,当车辆器件监测异常时,例如:车胎气压异常时,加载 汽修领域对应的语义资源。
89.所述车载人员的状态信息,包括但不限于车载人员的精神状态以及车载人 员的健康状况。具体的,当车载人员处于疲惫状态时,加载音乐播放对应的语 义资源;当车载人员身体出现病痛时,加载医疗对应的语义资源。
90.在一实施例中,根据天气信息,加载所述第一语义资源,包括:当前天气 信息为阴霾天气时,加载车灯控制对应的语义资源;当前天气为雨雪天气时, 加载雨刮控制对应的语义资源等。
91.在一实施例中,根据时间信息,加载所述第一语义资源,包括:当前时刻 处于预设时间区间内时,加载餐饮店名对应的语义资源。所述预设时间区间通 常设置为11:00至13:00之间以及17:00至19:00之间。
92.在一实施例中,根据行车状况信息,加载所述第一语义资源,还包括:当 监测到车辆启动时,预先加载导航语义资源。
93.本实施例通过根据行车状况进行第一语义资源的加载,通过预测控制意图, 提前加载语义资源,提高了语音处理的响应效率。
94.在一些实施例中,所述方法还包括:
95.根据所述第二语义资源对应的第二领域,对已加载的至少一个对应于第一 领域的第一语义资源进行卸载。
96.其中,所述第一领域、第二领域分别为语义资源中词典所对应的领域,例 如:语义资源中的单词为导航类的单词,则该语义资源对应于导航领域,属于 导航类的语义资源。
97.本实施例通过根据第二语义资源对应的第一领域,将已经加载的且不属于 第一领域的语义资源进行卸载,减少了语音处理系统中内存资源的占用,从而 减少了在语义解析需要利用新的语义资源,因内存不足无法加载语义资源,导 致无法实现语音信号的语义解析的情况。例如:若第二语义资源对应于导航领 域,是导航类的语义资源,则对内存中已经加载的不是导航类的语义资源进行 卸载。在一实施例中,对对应于第一领域的第一语义资源进行卸载,具体包括: 根据语义资源加载时间顺序,将最早加载的,且与第二语义资源所属领域不同 的一个或多个第一语义资源进行卸载。
98.以下结合上述实施例提供一个具体示例:
99.在车载系统中,针对不同的内存限制,离线语义资源配置采用高中低差异 化配置。这些基于不同性能要求的差异化配置资源,均需要事先盘点产品功能 清单,模块预先定义。经过分析,语音处理主要存在以下几个问题:
100.1、预定义高中低配置:事先模块预定义,可支持语义理解的语料有限,且 语料泛化能力差。
101.2、基于用户高频语料分类加载语义资源:可以差异化加载部分用户偏好的 语义,减小系统性能消耗,但是也是预加载,语义理解范围被缩小,不具有多 场景能力。
102.基于此,本示例提出一种基于深度学习网络的语音处理方法,应用于车载 系统中。本方案重点在于汇集语义理解成功的用户语料和意图标签,构建深度 学习网络结构,训练出语料音频意图分类器。针对内存中未加载用户语料离线 资源导致无法理解的异常问题,使用该意图分类器,可有效动态加载所属语义 资源,触发多轮会话,引导用户。该方
案提供更智能化、其核心在于针对解决 语音识别无语义返回,增强离线语义能力,完成人机交互。
103.如图2所示,本示例提出的一种基于深度学习网络的语音处理方法,包括 以下步骤:
104.步骤s201,音频采集器采集用户的语音信号。
105.具体的,通过车内麦克风录入用户的音频语料,并对原始数据做预处理, 比如:降噪、消回声。
106.步骤s202:语音识别引擎根据已加载的离线语义资源,确定用户语音信号 的语义信息。
107.具体的通过asr(automatic speech recognition,语音识别)确定用户语 音的文字信息,根据语音处理设备内存中的离线语义资源确定语音信号文字信 息的语义信息,即利用语音识别引擎,识别用户所说的每条语料,如未识别, 不能确定语音信号的语义信息,给出空反馈信息。
108.步骤s203:解析出语义信息。判断步骤s202中是否成功解析出了用户语 音信号的语义信息,若解析出了语义信息则跳转到步骤s200,结束语音信号的 处理。若没有解析成功,则执行步骤s204。
109.步骤s204:触发音频意图解码器。
110.步骤s205:预测用户语音信号的控制意图类别。
111.具体的,将用户的语音信号输入到音频控制意图分类器中,确定用户语音 信号的意图类别。若用户语音信号的意图类别为搜索目的地,则执行步骤s206; 若用户语音信号的意图类别为播放歌曲,则执行步骤s207;若用户语音信号的 意图类别为车辆控制,则执行步骤s208。
112.其中,音频控制意图分类器是在采集用于语音信号之前,基于rnn (recurrent neural network,循环神经网络)和self

attention(自注意力机制) 构建深度学习网络模型(如图7所示)。
113.具体的通过语料音频、asr(automatic speech recognition,语音识别)对 应的文字、语义意图对深度度学习网络模型进行训练得到音频控制意图分类器。 如下语料和标注:
114.音频样本识别文字标注

语义意图音频1今天天气怎么样查询天气音频2我想听刘德华的歌播放歌曲音频3去xxx搜索目的地音频4打开车窗车辆控制
………
115.定义x为一段音频fbank特征,即x={x1,x2,

,x
n
}。
116.定义x

为一段音频对应的识别文字,即x

={x
′1,x
′2,

,x

k
},如,对于识别 文字“打开车窗”,x
′1=打,x
′2=开,x
′3=天,x
′4=窗。
117.定义y为一句语义意图,即y={y1,y2,

,y
m
},
118.如,对于意图“车辆控制”,y1=车,y2=辆,y3=控,y4=制。
119.emb(x)表示字x的词向量。
120.详细算法如下:
121.(1)意图文字通常很短,所以基于词向量平均模型,计算语义意图向量 y
emb_avg
,如下:
[0122][0123]
其中,emb(y
i
)为y
i
的词向量。
[0124]
(2)基于rnn构建已知音频的识别文字向量c(如图3所示)。
[0125]
基于attention机制,计算文字向量c和语义意图向量相似度a
i
,如下:
[0126][0127][0128]
其中,h
i
和h
j
分别为音频对应的识别文字中的第i和第j个词对应的rnn隐 藏层的特征。
[0129]
(3)构建音频意图控制预测模型
[0130]
如图7构建训练模型,包括cnn(convolutional neural networks,卷积神经 网络)层、rnn(recurrent neural network,循环神经网络)层、rnn+selfattention(自注意力)层、全连接层,其中rnn+self attention层可以重复多层。
[0131]
h
i
计算如下:
[0132][0133]
h
i
=a
ih
×
h
i
[0134]
其中,h
i
和h
j
分别为音频fbank特征中的第i和第j个特征对应的rnn隐藏 层的特征。a
ij
为语义意图向量相似度。
[0135]
s
i
计算如下:
[0136][0137]
其中,s
i
为音频fbank特征中的第i个特征对应的输出向量,a为系数矩阵, b为常量,tanh为激活函数。c为基于rnn构建已知音频的识别文字向量c。通 过在激活函数中引入c减少了深度学习训练过程中梯度消失导致训练失败的情 况。
[0138]
最后计算意图词向量y
i
与标注

语义意图的损失函数,梯度下降训练,确定 神经网络的网络参数,得到音频控制意图分类器。
[0139]
步骤s206:语义资源加载器加载导航意图的语义资源到内存。
[0140]
步骤s207:语义资源加载器加载歌曲意图的语义资源到内存。
[0141]
步骤s208:语义资源加载器加载车控意图的语义资源到内存。
[0142]
步骤s209:触发导航多轮会话。例如:询问“你要出哪里”。然后离线语 音引擎根据用户的回答进一步确定用户的语义信息,从而响应用户的语音控制。 例如:若用户回答去xxx,则离线语音引擎确定用户是要去xxx后,车载系统 会搜索去xxx的路线并开启导航路线。
[0143]
步骤s210:触发歌曲多轮会话。例如:推荐询问“你想听***歌吗”。然后 离线语音引擎根据用户的回答进一步确定用户的语义信息,从而响应用户的语 音控制。例如:若用户回答想听周杰伦的歌,则离线语音引擎确定用户要听周 杰伦的歌后,车载系统会进行周杰伦歌曲的播放。
[0144]
步骤s211:触发车控多轮会话。例如:询问“你要打开车窗吗”。然后离 线语音引擎根据用户的回答进一步确定用户的语义信息,从而响应用户的语音 控制。例如:若用户回答打开车窗,则离线语音引擎确定用户要打开车窗后, 车载系统会控制车窗打开。
[0145]
图4为本示例提供的一种语音处理系统的架构图。音频采集器401:通过 车内麦克风录入用户的音频语料,需要对原始数据做预处理,比如降噪、消回 声。402语音识别引擎:识别音频采集器将处理后的用户的音频语料,如果未 识别,则触发音频意图解码器403,音频意图解码器根据用户音频语料,通过 音频意图分类模型404,预测出用户的控制意图。语义资源加载器405根据用 户的控制意图,动态加载控制意图所属的离线语义资源到内存,并触发场景多 轮会话触发器406。触发场景多轮会话触发器406:根据控制意图,触发不同场 景的多轮会话,引导用户二次确认。如,音频语料被预测为“搜索目的地”意 图,则触发导航二轮会话,询问用户去哪里,再语音输入目的地。
[0146]
本示例方案,第一方面,通过采用离线语义资源确定用户的语义信息,减 少网络信号对语音处理的影响,增强了语音处理的离线语义能力。第二方面, 通过在已加载的离线语义资源无法确定语音信号的语义信息时,根据音频意图 分类器,确定用户的意图类别,动态加载离线语义资源,较少了只通过预加载 的语义资源进行语义解时,语料泛化能力差,语义理解范围被缩小,不具有多 场景语义分析能力,导致语义解析失败的情况。第三方面,通过触发多轮会话, 通过用户的二次确认,提高了用户意图分析的准确性的同时,也提升了用户的 体验感。
[0147]
基于前述的实施例,本申请实施例提供一种语音处理装置,该装置所包括 的各单元,都可以通过语音处理设备中的处理器来实现;当然也可通过的逻辑 电路实现;在实施的过程中,处理器可以为中央处理器(cpu)、微处理器(mpu)、 数字信号处理器(dsp)或现场可编程门阵列(fpga)等。
[0148]
图5为本申请实施例提供语音处理装置组成结构示意图,所述装置500包 括:
[0149]
获取单元510,用于获取语音信号;
[0150]
确定单元520,用于根据已加载的第一语义资源,确定所述语音信号的语 义信息;当所述语音信号的语义信息确定异常时,根据语音信号,确定所述语 音信号对应的第二语义资源;根据所述第二语义资源,确定所述语音信号的语 义信息;
[0151]
加载单元530,用于加载所述第二语义资源。
[0152]
在一些的实施例中,所述确定单元,具体用于将所述语音信号输入到神经 网络中,得到所述语音信号的意图类别;根据所述意图类别,确定所述语音信 号对应的第二语
义资源。
[0153]
在一些的实施例中,所述确定单元,还具体用于根据所述语音信号,确定 所述语音信号对应的文字信息;对所述文字信息进行关键词提取,确定所述文 字信息的意图类别;根据所述意图类别,确定所述语音信号对应的第二语义资 源。
[0154]
在一些的实施例中,所述加载单元,还用于在语音识别功能启动时,加载 所述第一语义资源。
[0155]
在一些的实施例中,所述加载单元,具体用于至少以下之一:
[0156]
根据历史语义资源的加载记录,加载所述第一语义资源;
[0157]
根据预设的功能需求,加载所述第一语义资源。
[0158]
在一些的实施例中,所述装置还包括:卸载单元,用于根据所述第二语义 资源对应的第二领域,对已加载的至少一个对应于第一领域的第一语义资源进 行卸载。
[0159]
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述语 音处理方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读 取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现 有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存 储在一个存储介质中,包括若干指令用以使得一台服务器执行本申请各个实施 例所述方法的全部或部分。而前述的存储介质包括:u盘、移动硬盘、只读存 储器(read only memory,rom)、磁碟或者光盘等各种可以存储程序代码的 介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
[0160]
对应地,本申请实施例提供一种计算机可读存储介质,其上存储有计算机 程序,该计算机程序被处理器执行时实现上述实施例提供的语音处理方法中的 步骤。
[0161]
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施 例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请存储介质 和设备实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
[0162]
需要说明的是,图6为本申请实施例提供的一种语音处理设备结构示意图, 如图6所示,该设备600至少包括:处理器610、通信接口620和存储器630, 其中:
[0163]
处理器610通常控制设备600的总体操作。
[0164]
通信接口620可以使设备通过网络与其他设备通信。
[0165]
存储器630配置为存储由处理器610可执行的指令和应用,还可以缓存待 处理器610以及设备600中各模块待处理或已经处理的数据(例如,图像数据、 音频数据、语音通信数据和视频通信数据),可以通过闪存(flash)或随机 访问存储器(random access memory,ram)实现。
[0166]
当然,本申请实施例中的装置还可有其他类似的协议交互实现案例,在不 背离本申请精神及其实质的情况下,本领域的技术人员当可根据本申请实施例 做出各种相应的改变和变形,但这些相应的改变和变形都应属于本申请方法所 附的权利要求的保护范围。
[0167]
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计 算机程序产品。因此,本申请可采用硬件实施例、软件实施例、或结合软件和 硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算 机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储 器等)上实施的计算机程序产品的形式。
[0168]
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品 的流程
图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方 框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结 合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或 其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可 编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个 流程和/或方框图一个方框或多个方框中指定的功能的设备。
[0169]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备 以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的 指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流 程和/或方框图一个方框或多个方框中指定的功能。
[0170]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使 得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理, 从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程 或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0171]
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实 施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此, 在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指 相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合 在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序 号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻 辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例 序号仅仅为了描述,不代表实施例的优劣。
[0172]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意 在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装 置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为 这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由 语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物 品或者装置中还存在另外的相同要素。
[0173]
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可 以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所 述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式, 如:多个模块或组件可以结合,或可以集成到另一个系统,或一些特征可以忽 略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦 合、或通信连接可以是通过一些接口,设备或模块的间接耦合或通信连接,可 以是电性的、机械的或其它形式的。
[0174]
上述作为分离部件说明的模块可以是、或也可以不是物理上分开的,作为 模块显示的部件可以是、或也可以不是物理模块;既可以位于一个地方,也可 以分布到多个网络模块上;可以根据实际的需要选择其中的部分或全部模块来 实现本实施例方案的目的。
[0175]
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化 或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所 述权利要求的保护范围为准。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1