1.本公开涉及人工智能技术领域,尤其涉及语音技术,具体涉及一种语音交互方法、装置、设备和存储介质。
背景技术:2.随着人工智能技术的不断发展,智能语音设备(诸如智能音箱)应运而生,为用户的生活提供了便利。例如,智能语音设备可以根据用户的语音指令,进行相应资源的反馈。
3.现有技术使用智能语音设备中,需要用户手动选择用户模式,或者通过在语音指令中携带模式信息,选择用户模式,需要用户配合进行操作,增加了用户的操作,降低了用户的使用体验。
技术实现要素:4.本公开提供了一种语音交互方法、装置、设备和存储介质。
5.根据本公开的一方面,提供了一种语音交互方法,包括:
6.获取语音信息;
7.根据语音信息,确定音频特征;
8.根据音频特征,确定目标服务模式;
9.根据目标服务模式关联的资源集合,确定目标资源,以供输出。
10.根据本公开的另一方面,还提供了一种电子设备,包括:
11.至少一个处理器;以及
12.与至少一个处理器通信连接的存储器;其中,
13.存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开实施例所提供的任一语音交互方法。
14.根据本公开的另一方面,还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开实施例所提供的任一语音交互方法。
15.根据本公开的技术,提高了操作便捷度。
16.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
17.附图用于更好地理解本方案,不构成对本公开的限定。其中:
18.图1a是根据本公开实施例提供的一种语音交互方法的示意图;
19.图1b是根据本公开实施例提供的一种语音交互系统的示意图;
20.图1c是根据本公开实施例提供的另一种语音交互系统的示意图;
21.图2是根据本公开实施例提供的另一种语音交互方法的示意图;
22.图3是根据本公开实施例提供的另一种语音交互方法的示意图;
23.图4是根据本公开实施例提供的另一种语音交互方法的示意图;
24.图5是本公开实施例提供的一种语音交互装置的结构图;
25.图6是用来实现本公开实施例的语音交互方法的电子设备的框图。
具体实施方式
26.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
27.本公开实施例所提供的各语音交互方法和语音交互装置,适用于与智能语音设备进行语音交互的应用场景。本公开实施例所提供的各语音交互方法,可以由语音交互装置执行,该语音交互装置可以采用软件和/或硬件实现,并具体配置于电子设备中。该电子设备可以是语音交互设备或语音交互设备所关联的其他计算设备。示例性的,语音交互设备可以是手机或平板等。特别的,语音交互设备可以是智能音箱。
28.为了便于理解,以下首先对本公开所提供的各语音交互方法进行详细说明。
29.参见图1a所示的一种语音交互方法,包括:
30.s110、获取语音信息。
31.其中,语音信息可以由智能语音设备获取,例如可以是智能音箱设备,还可以是具有语音交互功能的手机、平板或笔记本等;还可以由智能语音设备采集,并传输至与智能语音设备关联的其他计算设备,例如云服务器中,以供使用。本公开实施例对云服务器的操作系统不作任何限定,例如可以采用dueros操作系统。
32.s120、根据语音信息,确定音频特征。
33.示例性的,可以对语音信息中的声纹信息进行提取,得到音频特征。其中,音频特征可以包括声纹信息,携带有频域特性信息和/或时域特性信息。例如,可以通过声纹特征提取技术,提取语音信息中的声纹信息,得到音频特征。在一个可选实施方式中,可以将语音信息输入至训练好的声纹提取模型中,根据输出结果,确定音频特征。其中,声纹提取模型可以基于机器学习模型或深度学习模型加以实现,本公开对此不作任何限定。
34.s130、根据音频特征,确定目标服务模式。
35.示例性的,根据受众群体不同,设置不同的服务模式,以供使用。在一个具体实现方式中,服务模式可以根据受众群体的年龄属性,设置老年模式、儿童模式、青少年模式和中年模式等;还可以根据地域不同设置不同地域的服务模式;还可以根据所需功能不同,设置不同的功能模式,例如娱乐模式、财经模式等;还可以根据性别不同设置男性模式和女性模式等。本公开实施例可以由技术人员或操作方根据实际需求进行服务模式的设定或调整。其中,目标服务模式可以理解为与语音信息发起方相匹配的服务模式。
36.在一个可选实施例中,可以将音频特征输入至训练好的分类模型中,并根据分类结果,确定音频特征对应的服务模式。其中,分类模型可以通过大量样本音频特征和对应服务模式标签,对预先构建的机器学习模型或深度学习模型进行训练得到。其中,本公开对机器学习模型或深度学习模型的具体网络结果不作任何限定。
37.在另一可选实施例中,例如在智能语音设备的家庭应用场景中,智能语音设备的
操作方相对固定,因此还可以预先存储不同操作方的音频特征,并设置相应操作方的服务模式。相应的,将根据语音信息所确定的音频特征与预先存储的各音频特征进行匹配,并将匹配到的音频特征相对应的服务模式作为目标服务模式。
38.s140、根据目标服务模式关联的资源集合,确定目标资源,以供输出。
39.其中,资源集合可以包括音频资源集合、视频资源集合、图片资源集合和文本资源集合等中的至少一种。目标资源可以是与目标服务模式相对应的资源集合中的元素。
40.示例性的,可以确定各资源对应的资源标签,并通过资源标签,构建不同服务模式所关联的资源集合。例如,某资源“影片a”对应的资源标签可以包括“悬疑”标签。需要说明的是,任一资源可以对应至少一类标签,例如,某图片资源对应的资源标签可以包括“彩色系”标签和“动物”标签等。示例性的,可以通过聚类算法对各资源标签进行聚类分析,并根据聚类结果,构建不同的资源集合。例如,聚类算法可以是k均值聚类算法(k-meansclustering algorithm,k-means)。
41.在一个可选实施例中,服务模式与资源集合之间的对应关系可以由技术人员根据实际需求进行绑定,从而通过限制不同服务模式的资源集合,实现对不同受众群体的资源约束。
42.在另一可选实施例中,还可以通过自动化的方式进行不同服务模式与资源集合之间对应关系的确定,从而提高上述对应关系的确定效率,减少人力成本。示例性的,针对某一服务模式,可以根据该服务模式的关联关键词,从原始资源中选取候选资源;将候选资源添加至该服务模式的资源集合。
43.其中,原始资源可以理解为使用智能语音设备时,能够输出的原始资源库中的全量资源。
44.可以理解的是,上述技术方案通过引入服务模式的关联关键词,进行相应服务模式的资源集合的自动化构建,避免了人为构建差异性以及人为疲劳带来候选资源确定结果准确度较差的情况发生,进而提高了不同服务模式对应资源集合构建结果准确度。同时,通过构建不同服务模式的资源集合,对不同服务模式可输出资源加以限制,避免了向该服务模式下的受众群体提供不适宜的资源内容,提高了语音信息发起方的使用体验。同时,通过自动化构建资源集合的方式,还提高了资源集合构建效率,同时减少了人力成本投入。
45.其中,服务模式的关联关键词用于表征该服务模式下允许或禁止呈现的资源对应的资源标签。例如,关联关键词可以包括许可关键词,对应允许呈现资源的资源标签;又如,关联关键词可以包括禁忌关键词,对应禁止呈现资源的资源标签。
46.可选的,针对某一服务模式,可以从原始资源中剔除标记有该服务模式的禁忌关键词的原始资源,得到候选资源;将候选资源添加至该服务模式的资源集合中。
47.具体的,针对某一服务模式,可以预先设置该服务模式的资源集合中包括全量的原始资源,然后识别该资源集合中标记有该服务模式的禁忌关键词的原始资源,并将剔除后的资源集合作为该服务模式的资源集合。其中,该服务模式的禁忌关键词可以由技术人员根据需要或经验值进行设置或调整。例如,在儿童模式下,可以将“暴力”和“色情”等关键词作为禁忌关键词;相应的,从儿童模式的资源集合中剔除标记有“暴力”或“色情”等资源标签的原始资源。
48.或者可选的,针对某一服务模式,还可以选取标记有该服务模式的许可关键词的
原始资源,作为候选资源;将候选资源添加至服务模式的资源集合中。
49.具体的,针对某一服务模式,可以预先设置该服务模式的资源集合为空集,然后确定标记有该服务模式的许可关键词的原始资源作为候选资源;将各候选资源添加至该服务模式的资源集合中。其中,该服务模式的许可关键词可以由技术人员根据需要或经验值进行设置或调整。例如,在儿童模式下,可以将“喜剧”、“美食”和“彩色”等关键词作为许可关键词;相应的,从原始资源中选取标记有“喜剧”、“美食”和“彩色”等资源标签的原始资源添加至儿童模式的资源集合中。
50.可以理解的是,通过上述方案通过剔除和/或选取的方式,进行某一服务模式下的候选资源的确定,进而进行该服务模式的资源集合的构建,丰富了资源集合的构建方式,为目标服务模式的资源集合的确定奠定了基础。
51.示例性的,根据目标服务模式关联的资源集合,确定目标资源,可以是:从目标服务模式关联的资源集合中选取至少一个集合元素,作为目标资源;控制智能语音设备向语音信息的发起方输出该目标资源。
52.可选的,从目标服务模式关联的资源集合中选取至少一个集合元素,作为目标资源,可以是:从目标服务模式关联的资源集合中随机选取至少一个集合元素,作为目标资源。
53.或者可选的,从目标服务模式关联的资源集合中选取至少一个集合元素,作为目标资源,可以是:根据语音信息的发起时间或获取时间,从目标服务模式关联的资源集合中选取至少一个集合元素,作为目标资源。例如,资源集合中存储有广播体操的播放音乐和跑步背景音乐;在广播体操播放时段,将广播体操的播放音乐作为目标资源;在跑步时段,将跑步背景音乐作为目标资源。
54.本公开实施例通过引入音频特征,确定目标服务模式,通过目标服务模式的资源集合,对可供输出的内容资源加以限制,避免了其他服务模式下的内容资源的输出,给语音信息发起方带来的不适。另外,本公开实施例直接根据语音信息进行音频特征的确定,进而进行目标服务模式的自动化确定,无需手动输入目标服务模式,减少了用户操作,从而提高了语音交互过程的操作便捷度,增强了用户的使用体验。
55.需要说明的是,本公开实施例实现语音交互方法的执行主体可以是智能语音设备本身和/或,与智能语音设备关联的其他计算设备,以减少对智能语音设备的计算能力的要求。在一个可选实施例中,还可以通过智能语音设备和至少一个其他计算设备交互执行语音交互方法,以实现计算资源的均衡分配。
56.参见图1b所示的一种语音交互系统,包括智能语音设备10和云服务器20。其中,智能语音设备10和云服务器20之间通信连接。本公开对具体的通信方式和/或通信网络不作任何限定。
57.其中,智能语音设备10获取语音信息,并将语音信息发送至云服务器20。云服务器20根据语音信息,确定音频特征,并根据音频特征,确定目标服务模式;根据目标服务模式关联的资源集合,确定目标资源,并将目标资源反馈至智能语音设备10。其中,目标资源的确定操作可参见其他实施例的表述,本公开在此不再赘述。
58.示例性的,还可以由云服务器20与其他平台相互协作完成相关操作。例如,其他平台可以包括技能平台和/或资源平台。具体的,参见图1c所示的语音交互系统架构图。语音
交互系统可以包括智能语音设备10、云服务器20、技能平台30和资源平台40,其中,技能平台30中可以包括特征辨识模块、模式配置模块、对话管理模块和标签分组模块等中的至少一种;资源平台40可以包括音视频资源、图片资源、文本资源和技能资源等不同类别资源。
59.具体的,智能语音设备10获取语音信息,并将语音信息发送至云服务器20;云服务器20对语音信息进行处理,确定音频特征;云服务器20 将音频特征发送至技能平台30;技能平台30中的特征辨识模块根据音频特征,通过模式配置模块确定目标服务模式;技能平台30可以确定资源平台40中目标服务模式关联的资源集合;技能平台30还可以根据目标服务模式关联的资源集合,确定目标资源,并将目标资源通过云服务器20 反馈至智能语音设备10。技能平台30中的标签分组模块可以对资源平台 40中不同内容资源的资源标签进行分组,并通过模式配置模块,确定不同分组与服务模式之间的对应关系,从而实现服务模式与资源集合之间关联关系的构建。
60.在一个可选实施例中,技能平台30和/或资源平台40可以集成设置于云服务器20。
61.可以理解的是,通过智能语音设备获取语音信息,并将语音信息发送至云服务器进行目标资源的确定。由于智能语音设备仅向云服务器进行语音信息的传输,从而减少了无关数据的传输带来带宽资源的浪费。同时,将目标资源的确定过程在云服务器中实现,减少了智能语音设备的数据运算量,降低了对智能语音设备的数据处理能力的要求,从而减少了智能语音设备的硬件成本投入。
62.在上述各技术方案的基础上,本公开还提供了一个可选实施例。在该可选实施例中,对目标服务模式的确定操作进行了优化改进。在本实施例未详述部分,可参见前述实施例的表述,在此不再赘述。
63.参见图2所示的一种语音交互方法,包括:
64.s210、获取语音信息。
65.s220、根据语音信息,确定音频特征。
66.s230、根据音频特征,确定年龄信息。
67.其中,年龄信息可以包括年龄值或年龄区间。示例性的,可以将音频特征输入至训练好的年龄识别模型中,得到年龄信息。其中,年龄识别模式可以基于大量样本音频特征和年龄信息标签,对预先构建的机器学习模型或深度学习模型进行训练得到。其中,样本音频特征可以通过对样本语音信息进行声纹信息提取得到,年龄信息标签可以人工标注或采用其他现有方式得到。本公开对年龄识别模型的具体网络结构不作任何限定。
68.在一个可选实施例中,根据音频特征确定年龄信息的同时,还可以关联确定性别信息。例如,可以在年龄识别模型训练过程中,添加性别标签,从而使得所训练的年龄识别模型同样具备性别识别能力。例如,将女性的性别标签设置为0,将男性的性别标签设置为1。当然,还可以分别将性别标签设置为其他不同数值,本公开对此不作任何限定。
69.s240、根据年龄信息,确定目标服务模式。
70.可选的,可以预先设定不同年龄信息与服务模式之间的年龄模式对应关系;相应的,根据该对应关系,从各服务模式中确定与音频特征所确定年龄信息相匹配的目标服务模式。
71.在一个具体实现方式中,年龄模式对应关系可以为不同年龄段与相应服务模式之间的对应关系。例如0-12岁对应儿童模式;55岁及以上对应老年模式。可以理解的是,通过
设置不同服务模式与相应年龄段之间的对应关系,能够适配通用场景,例如家庭使用场景或影院使用场景等。以年龄信息包括年龄值为例,若年龄信息中的年龄值为6岁,则对应的目标服务模式可以是儿童模式;若年龄信息中的年龄值为75岁,则对应的目标服务模式可以是老年模式。以年龄信息包括年龄区间为例,若年龄信息中的年龄区间为7-9岁,则对应的目标服务模式可以是儿童模式;若年龄信息中的年龄值为70-75岁,则对应的目标服务模式可以是老年模式。
72.在另一具体实现方式中,年龄模式对应关系可以为不同年龄值与相应服务模式之间的对应关系。例如,4岁对应儿童模式、16岁对应青少年模式、50岁对应中年模式、70岁对应老年模式等。可以理解的是,通过设置不同年龄值与相应服务模式之间的对应关系,能够适配使用人群相对固定的应用场景,例如家庭使用场景中。
73.或者可选的,可以根据音频特征,对音频进行分类,并根据音频分类结果,确定各类音频对应的目标服务模式。示例性的,可以将音频特征输入至训练好的音频分类模型中,得到音频分类结果。其中,音频类别至少包括儿童类和老年类,还可以包括其他类别,例如青年类。根据音频类别确定对应的目标服务模式,如,儿童类音频对应的目标服务模式为儿童模式。其中,音频分类模型可以基于大量样本音频特征和对应音频分类标签,对预先构建的机器学习模型或深度学习模型进行训练得到。本公开对音频分类模型的具体网络结构不做任何限定。
74.由于相同年龄的语音信息发起方可能期望使用的服务模式并不相同,同时年龄信息确定结果可能存在一定的误差,将会导致选取的目标服务模式存在一定的争议性,可能会影响目标服务模式与语音信息发起方的匹配度。例如,部分12岁用户期望使用儿童模式,而部分12岁用户期望使用青少年模式。又如,确定年龄信息为12岁,而该发起方的实际年龄可能为10-15岁之间,而10-12岁可以适用儿童模式,13-15岁可以适用青少年模式。
75.为了进一步提高目标服务模式确定结果与语音信息发起方之间的匹配度,在一个可选实施例中,可以预先设定不同年龄区间与服务模式之间关联关系。相应的,根据年龄信息,确定目标服务模式,可以包括:根据年龄信息和年龄信息的邻近年龄区间,确定年龄信息的置信度类型;根据置信度类型,从邻近年龄区间对应服务模式中,确定目标服务模式。
76.示例性的,可以根据置信度类型,从邻近年龄区间对应服务模式中选取服务模式作为目标服务模式;或者,根据置信度类型,从邻近年龄区间中选取目标年龄区间,并将目标年龄区间对应服务模式作为目标服务模式。可以理解的是,通过直接选取或间接选取的方式,进行目标服务模式的确定,丰富了目标服务模式确定方式的多样性。例如,年龄区间1-12岁对应的服务模式为儿童模式;年龄区间13-18岁对应的服务模式为青少年模式;年龄区间为大于69岁对应的服务模式为老年模式等。
77.其中,年龄信息的置信度类型用于表征该年龄信息的可信情况,和/ 或直接根据该年龄信息确定相应服务模式的可信情况。示例性的,置信度类型可以包括高置信度类型和低置信度类型两类。其中,邻近年龄区间,用于表征与年龄信息相关联的年龄区间,例如,可以包括年龄信息中年龄值或年龄段所属的年龄区间,和/或年龄信息中年龄值或年龄段所属年龄区间的相邻年龄区间。其中,相邻年龄区间可以为两个,例如左邻或右邻。当然,还可以确定年龄信息中年龄值或年龄段与左邻年龄区间和右邻年龄区间的最小年龄查值;选取年龄差值较小的年龄区间作为相邻年龄区间。
78.在一个具体实现方式中,置信度类型可以通过置信度区间进行确定。置信度区间可以包括高置信度区间和低置信度区间。其中,低置信度区间可以设置为年龄区间中的预设边缘子区间;高置信度区间可以设置为年龄区间中的预设中心子区间;其中,预设边缘子区间为预设中心子区间在对应年龄区间中的补集子区间。
79.其中,预设边缘子区间可以由相关技术人员进行提前设定。举例说明,若对应儿童模式的年龄区间为1-12岁,则预设边缘子区间可以设置为 10-12岁,预设中心子区间可以为1-9岁。相应的,若年龄信息中的年龄值(例如11岁)对应预设边缘子区间,则认为该年龄信息属于低置信度区间;若年龄信息中的年龄值(例如8岁)对应预设中心子区间,则认为该年龄信息属于高置信度区间。若对应中年模式的年龄区间为46-69岁,则预设边缘子区间可以设置为包括46-49岁和61-69岁,预设中心子区间可以设置为50-60岁。相应的,若年龄信息中的年龄值(例如47、62岁) 对应预设边缘子区间,则认为该年龄信息属于低置信度区间;若年龄信息中的年龄值(例如55岁)对应预设中心子区间,则认为该年龄信息属于高置信度区间。
80.示例性的,年龄信息的邻近年龄区间,即,分别是该年龄值所属的年龄区间,以及该年龄值所属年龄区间的相邻年龄区间。例如,若获取到的年龄值为11岁,则该年龄值所属年龄区间为1-12岁,相邻年龄区间为13-18 岁,因此,该年龄值对应的邻近年龄区间为1-12岁和13-18岁。又如,若青少年模式对应年龄区间为14-17岁(相应预设中心子区间为15-16岁)、青年对应年龄区间为18-45岁(相应预设中心子区间为20-40岁)、以及中年对应年龄区间为46-69岁(相应预设中心子区间为50-60岁)。若年龄信息中的年龄值为47岁,则确定所属年龄区间为46-69岁,相邻年龄区间为18-45岁,因此,该年龄值对应的邻近年龄区间为18-45岁和46-69 岁。
81.相应的,可以通过置信度区间确定置信度类型。若年龄信息中的年龄值在预设边缘子区间内,则可以确定该年龄信息在低置信度区间内,即年龄信息的置信度类型为低置信度类型。若年龄信息中的年龄值在预设中心子区间内,则可以确定该年龄信息在高置信度区间内,即年龄信息的置信度类型为高置信度类型。
82.本可选实施例通过确定置信度类型,并根据置信度类型确定目标服务模式的方式,完善了目标服务模式的确定机制,提高了目标年龄区间确定结果的准确度,从而提高了目标服务模式与语音信息发起方的匹配度,进而提高了用户的使用体验感。
83.在一个可选实施例中,若置信度类型为高置信度类型,则从邻近年龄区间中选取年龄信息所属的年龄区间,作为目标年龄区间;将目标年龄区间对应服务模式作为目标服务模式。
84.示例性的,若置信度类型为高置信度类型,则表明该年龄信息确定准确度较高,或者根据该年龄信息直接确定服务模式争议性较低,因此可以将邻近年龄区间对应的年龄信息所属的年龄区间,作为目标年龄区间,进而将目标年龄区间对应的服务模式作为目标服务模式。例如,若年龄信息中的年龄值为8岁,属于儿童模式对应的年龄区间0-12岁中的高置信度区间0-9岁,则,认定年龄信息的置信度类型为高置信度类型,且将年龄信息所属的年龄区间为0-12岁,作为目标年龄区间。
85.本可选实施例通过根据邻近年龄区间确定年龄信息所属的年龄区间的方式,实现了在置信度类型为高置信度类型时,直接将年龄信息所属的年龄区间作为目标年龄区间,
提高了目标年龄区间确定结果的准确度,有助于提高目标服务模式与语音信息发起方的匹配度。
86.在另一可选实施例中,若置信度类型为低置信度类型,则向语音信息的发起方反馈邻近年龄区间;将发起方从邻近年龄区间中选取的年龄区间,作为目标年龄区间;将目标年龄区间对应服务模式作为目标服务模式。
87.若置信度类型为低置信度类型,则表明该年龄信息确定准确度较低,或者根据该年龄信息直接确定服务模式争议性较高,因此可以向语音信息的发起方反馈邻近年龄区间,具体可以是将低置信度对应的年龄信息相关联的两个邻近年龄区间(所属年龄区间和相邻年龄区间)反馈至语音信息的发起方。语音信息的发起方可以根据实际需求,从接收到的邻近年龄区间中进行选择。将语音信息的发起方选择的邻近年龄区间作为目标年龄区间,并将该目标年龄区间对应的服务模式作为目标服务模式。
88.举例说明,若年龄信息中的年龄值为47岁,属于中年对应年龄区间 46-69岁中的低置信度区间46-49岁,则确定该年龄信息的置信度类型为低置信度类型,并将包括该年龄信息关联的所属年龄区间为46-69岁和相邻年龄区间18-45岁的邻近年龄区间发送至语音信息的发起方,并由语音信息的发起方根据实际需求进行年龄区间选择。
89.本可选实施例通过向语音信息的发起方反馈邻近年龄区间,并由发起方从邻近年龄区间中选取的年龄区间作为目标年龄区间,实现了由发起方根据自身意愿在置信度类型为低置信度类型时,对目标年龄区间的获取,提高了目标年龄区间确定的灵活性和准确度,进而有助于提高所确定目标服务模式与发起方之间的匹配度。
90.在再一可选实施例中,若置信度类型为低置信度类型,则向语音信息的发起方反馈邻近年龄区间对应服务模式;将发起方选取的服务模式作为目标服务模式。
91.若置信度类型为低置信度类型,则表明该年龄信息确定准确度较低,或者根据该年龄信息直接确定服务模式争议性较高,因此可以向语音信息的发起方反馈邻近年龄区间对应服务模式,具体可以是将低置信度对应的年龄信息相关联的所属年龄区间对应服务模式和相邻年龄区间对应服务模式,一并反馈至语音信息的发起方。语音信息的发起方可以根据实际需求,从接收到的服务模式中进行选择。将语音信息的发起方选择的服务模式作为目标服务模式。
92.举例说明,若年龄信息中的年龄值为47岁,属于中年对应年龄区间 46-69岁中的低置信度区间46-49岁,则确定该年龄信息的置信度类型为低置信度类型,并将该年龄信息关联的所属年龄区间为46-69岁对应的中年模式,以及相邻年龄区间18-45岁的邻近年龄区间对应的青年模式,发送至语音信息的发起方,并由语音信息的发起方根据实际需求进行服务模式选择。
93.上述技术方案通过向语音信息的发起方反馈服务模式的方式,由发起方从所反馈的服务模式中进行目标服务模式的选取,实现了由发起方根据自身意愿在置信度类型为低置信度类型时,进行目标服务模式的直接选取,提高了目标服务模式确定的灵活性和准确度,进而有助于提高所确定目标服务模式与发起方之间的匹配度。
94.可选的,可以根据语音信息的发起方的历史行为数据,确定目标年龄区间。其中,历史行为数据可以包括在置信度类型为低置信度类型时,对邻近年龄区间的区间选择频次。具体的,若置信度类型为低置信度类型,则可以获取当前的语音信息发起方的历史行为
数据,根据历史行为数据中,语音信息发起方对邻近年龄区间的区间选择频次,将区间选择频次较大的年龄区间作为目标年龄区间。该可选方案无需在置信度类型为低置信度类型时,介入用户的选择操作,而是通过用户的历史行为数据自动化的进行选择,使得语音交互过程更加简捷,提高了用户的使用体验。
95.s250、根据目标服务模式关联的资源集合,确定目标资源,以供输出。
96.本公开实施例通过音频特征,确定年龄信息;根据年龄信息,确定所述目标服务模式,实现了目标服务模式的自动化选取操作,从而提高了语音交互过程的便捷度。同时,上述技术方案引入年龄信息,进行目标服务模式的确定,进而根据目标服务模式关联的资源集合进行目标资源的确定,使得所确定的目标资源能够适配语音信息对应发起方的年龄情况,从而提高了目标服务模式与语音信息发起方在年龄层面上的匹配程度,进而提升了用户的使用体验。
97.在上述各技术方案的基础上,本公开还提供了一个可选实施例。在该可选实施例中,对语音交互方法进行了追加。在本实施例未详述部分,可参见前述实施例的表述,在此不再赘述。
98.参见图3的一种语音交互方法,包括:
99.s310、获取语音信息。
100.s320、根据语音信息,确定音频特征。
101.s330、根据语音信息,确定附加特征。
102.其中,附加特征用于作为目标资源的确定依据,可以包括文本内容和性别信息等中的至少一种。
103.若附加信息包括文本内容,则可以基于语音识别技术提取语音信息中的文本内容。例如,可以通过语音识别平台或语音识别软件对语音信息进行识别,得到文本内容;也可以将语音信息属于知预先训练好的语音识别模型中,根据模型输出结果,确定文本内容。其中,语音识别模型可以基于大量文本语音信息和对应文本内容标签对预先构建的神经网络模型进行训练得到,本公开对语音识别模型的具体网络结构不作任何限定。
104.需要说明的是,该文本内容可以是直接将语音信息转化为文本数据后的全部数据,还可以是将语音信息转化为文本形式内容后,对转换结果进行关键字提取,所得到的至少一个关键字,从而减少文本内容的数据量。
105.若附加信息包括性别信息,则可以根据语音信息,确定音频特征,并根据音频特征中的时域特征和/或频域特征,确定性别信息,其中,性别信息可以包括男性和女性。具体的,可以将音频特征输入至预先训练好的性别分类模型中,根据模型输出结果,确定性别信息。其中,性别分类模型可以基于大量样本音频特征和性别信息标签对预先构建的机器学习模型或深度学习模型训练得到。本公开对性别分类模型的具体网络结构不作任何限定。
106.需要说明的是,不同附加特征可以同时或先后根据语音信息进行确定,本公开对各附加特征确定过程的先后顺序不作任何限定。若在进行目标服务模式确定时,需要预先根据音频特征进行年龄信息确定,则本公开对年龄信息和附加特征的确定过程的先后顺序也不作任何限定。例如,可以分别先后进行年龄信息和附加特征的性别信息的确定,或同时进行年龄信息和性别信息的确定。
107.s340、根据音频特征,确定目标服务模式。
108.其中,s330可以在s340之前或之后执行,还可以与s340同步执行或交替执行,本公开对s330与s340的执行先后顺序不作任何限定。
109.s350、根据附加特征,从目标服务模式关联的资源集合中选取目标资源,以供输出。
110.可选的,可以根据附加特征中的文本内容,从目标服务模式关联的资源集合中选取目标资源,从而提高目标资源与语音信息发起方在内容层面的匹配度。具体的,可以根据文本内容,从目标服务模式关联的资源集合中进行资源匹配,将匹配程度较高的资源数据作为目标资源,并向语音信息发起方反馈该目标资源。其中,资源匹配过程可以通过资源标签相似度匹配等方式加以实现,当然还可以采用其他方式加以实现,本公开对此不作任何限定。
111.示例性的,可以是计算文本内容的关键词与资源集合中的各资源数据的相关性,并将相关性最高的资源数据作为目标资源。其中,文本内容的关键词可以通过自然语言处理技术进行自动化提取。
112.可选的,可以从目标服务模式关联的资源集合中,选取与附加特征中的性别信息相匹配的目标资源,从而提高目标资源与语音信息发起方在性别层面的匹配度。例如,在医院体检场景中,可以根据体检方的性别,输出体检指示信息。
113.需要说明的是,本公开对目标资源的输出方式不作任何限定,例如可以根据目标资源的资源类型,进行输出方式的确定,进而根据所确定输出方式,向语音信息发起方输出目标资源。例如,通过音频播放、视频播放和界面展示等方式中的至少一种,展示目标资源。
114.本公开实施例通过根据语音信息,确定附加特征,根据附加特征,从目标服务模式关联的资源集合中选取目标资源,从而提高了所选取目标资源与语音信息发起方的匹配度,提高了用户的使用体验。
115.在上述各技术方案的基础上,本公开还提供了一个优选实施例,参见图4所示的一种语音交互方法,包括:
116.s401、响应于模式配置请求,通过技能平台中的模式配置模块,预先配置不同年龄段与服务模式之间的对应关系。
117.需要说明的是,上述对应关系可以根据实际需求进行添加、删除或修改。
118.s402、技能平台中的多标签分组模块用于对资源平台中各资源标签进行分组,并建立标签分组与服务模式之间的对应关系。
119.s403、资源平台向技能平台发送本地资源的资源标签更新情况。
120.其中,资源平台可以实时或定时性技能平台发送本地资源的资源标签更新情况。其中,更新包括增加、删除和修改等。
121.s404、技能平台根据资源平台中已有资源的资源标签的更新情况,更新资源标签分组。
122.其中,资源标签分组可以实时或定时更新,本公开对此不作任何限定。
123.s405、智能语音设备操作方发起语音信息;
124.s406、智能语音设备将语音信息发送至云服务器。
125.s407、云服务器根据语音信息,确定音频特征和文本内容。
126.s408、云服务器将解析得到的音频特征和文本内容发送至技能平台。
127.s409、技能平台通过特征辨识模块对音频特征进行分析,确定年龄值。
128.s410、技能平台通过对话管理模块,根据年龄值确定年龄值的置信度类型。
129.s411、技能平台通过对话管理模块,判断置信度类型是否为高置信度;若是,则执行s412a;否则,执行s412b。
130.s412a、技能平台通过对话管理模块,将年龄值所属年龄段作为目标年龄段。继续执行s414。
131.s412b、技能平台通过对话管理模块,向智能语音设备反馈年龄值所属年龄段以及年龄值的相邻年龄段;或者,向智能语音设备反馈年龄值所属年龄段的服务模式,以及年龄值的相邻年龄段的服务模式;继续执行 s413。
132.s413、智能语音设备响应于选取操作,向技能平台发送选取结果。继续执行s414。
133.s414、技能平台通过模式配置模块根据不同年龄段与服务模式之间的对应关系,将目标年龄段对应服务模式作为目标服务模式,或通过对话管理模块,将选取结果对应服务模式作为目标服务模式。
134.s415、技能平台通过标签分组模块,确定目标服务模式对应的资源标签分组,以确定资源平台中目标服务模式对应的资源集合;
135.s416、技能平台根据文本内容从目标服务模式对应的资源集合中确定目标资源。
136.s417、技能平台向智能语音设备反馈目标资源。
137.s418、智能语音设备输出目标资源。
138.举例说明,一儿童向智能语音设备发送“播放xxx”的语音信息,其中,“xxx”为色情类影片。智能语音设备将该“播放xxx”的语音信息发送至云服务器;云服务器提取该语音信息中的音频特征和文本特征,并将提取结果发送技能平台;技能平台基于特征辨识模块识别到音频特征对应年龄为8岁,则确定8岁属于儿童模式下的高置信度类型,因此,从儿童模式对应的资源集合中,查找与“xxx”相匹配的内容资源作为目标资源,通过智能语音设备加以输出,从而避免了不适宜儿童的资源数据的播放。同时,无需该儿童手动或在语音信息中携带模式类别,即可进行与该发起方身份相适宜的模式的自动化选取,提高了语音交互过程的便捷度。
139.作为上述各语音交互方法的实现,本公开还提供了一种实施各语音交互方法的执行装置的可选实施例。该执行装置可以采用软件和/或硬件实现,并具体配置于电子设备中。
140.进一步参见图5,该语音交互装置500,包括:语音信息获取模块501、音频特征确定模块502、目标服务模式确定模块503和目标资源确定模块504。其中,
141.语音信息获取模块501,用于获取语音信息;
142.音频特征确定模块502,用于根据所述语音信息,确定音频特征;
143.目标服务模式确定模块503,用于根据所述音频特征,确定目标服务模式;
144.目标资源确定模块504,用于根据所述目标服务模式关联的资源集合,确定目标资源,以供输出。
145.本公开实施例通过引入音频特征,确定目标服务模式,通过目标服务模式的资源集合,对可供输出的内容资源加以限制,避免了其他服务模式下的内容资源的输出,给语音信息发起方带来的不适。另外,本公开实施例直接根据语音信息进行音频特征的确定,进而
进行目标服务模式的自动化确定,无需手动输入目标服务模式,减少了用户操作,从而提高了语音交互过程的操作便捷度,增强了用户的使用体验。
146.在一个可选实施例中,目标服务模式确定模块503,包括:
147.年龄信息确定单元,用于根据所述音频特征,确定年龄信息;
148.目标服务模式确定单元,用于根据所述年龄信息,确定所述目标服务模式。
149.在一个可选实施例中,目标服务模式确定单元,包括:
150.置信度类型确定子单元,用于根据所述年龄信息和所述年龄信息的邻近年龄区间,确定所述年龄信息的置信度类型;
151.目标服务模式确定子单元,用于根据所述置信度类型,从所述邻近年龄区间对应服务模式中,确定所述目标服务模式。在一个可选实施例中,目标服务模式确定子单元,包括:
152.第一年龄区间选取从单元,用于若所述置信度类型为高置信度类型,则从所述邻近年龄区间中选取所述年龄信息所属的年龄区间,作为所述目标年龄区间;
153.第一目标服务模式确定从单元,用于将所述目标年龄区间对应服务模式作为所述目标服务模式。
154.在一个可选实施例中,目标服务模式确定子单元,包括:
155.服务模式反馈从单元,用于若所述置信度类型为低置信度类型,则向所述语音信息的发起方反馈所述邻近年龄区间对应服务模式;
156.第二目标服务模式确定从单元,用于将所述发起方选取的服务模式,作为所述目标服务模式。
157.在一个可选实施例中,目标服务模式确定子单元,包括:
158.邻近年龄区间反馈从单元,用于若所述置信度类型为低置信度类型,则向所述语音信息的发起方反馈所述邻近年龄区间;
159.第二年龄区间选取从单元,用于将所述发起方从所述邻近年龄区间中选取的年龄区间,作为所述目标年龄区间;
160.第三目标服务模式确定从单元,用于将所述目标年龄区间对应服务模式作为所述目标服务模式。
161.在一个可选实施例中,该装置还包括:
162.附加特征确定模块,用于根据所述语音信息,确定附加特征;
163.其中,目标资源确定模块,包括:
164.目标资源选择单元,用于根据所述附加特征,从所述目标服务模式关联的资源集合中选取目标资源,以供输出。
165.在一个可选实施例中,所述附加特征包括文本内容和/或性别信息。
166.在一个可选实施例中,该装置还包括:
167.候选资源选取模块,用于针对任一服务模式,根据该服务模式的关联关键词,从原始资源中选取候选资源;
168.候选资源添加模块,用于将所述候选资源添加至该服务模式的资源集合中。
169.在一个可选实施例中,候选资源选取模块,包括:
170.第一候选资源确定单元,用于从所述原始资源中,剔除标记有该服务模式的禁忌
关键词的原始资源,得到所述候选资源;和/或,
171.第二候选资源确定单元,用于选取标记有该服务模式的许可关键词的原始资源,作为所述候选资源。
172.上述语音交互装置可执行本公开任意实施例所提供的语音交互方法,具备执行各语音交互方法相应的功能模块和有益效果。
173.本公开的技术方案中,所涉及的语音信息的获取、存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
174.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
175.图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
176.如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(rom)602中的计算机程序或者从存储单元608加载到随机访问存储器(ram)603中的计算机程序,来执行各种适当的动作和处理。在 ram 603中,还可存储设备600操作所需的各种程序和数据。计算单元 601、rom 602以及ram 603通过总线604彼此相连。输入/输出(i/o) 接口605也连接至总线604。
177.设备600中的多个部件连接至i/o接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
178.计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如语音交互方法。例如,在一些实施例中,语音交互方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元 608。在一些实施例中,计算机程序的部分或者全部可以经由rom 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到 ram 603并由计算单元601执行时,可以执行上文描述的语音交互方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行语音交互方法。
179.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/ 或解释,该可编程处理器
可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
180.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
181.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
182.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入) 来接收来自用户的输入。
183.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
184.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
185.人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技
术、大数据处理技术、知识图谱技术等几大方向。
186.云计算(cloud computing),指的是通过网络接入弹性可扩展的共享物理或虚拟资源池,资源可以包括服务器、操作系统、网络、软件、应用和存储设备等,并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术,可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。
187.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
188.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。