语音处理方法、装置、存储介质及电子设备与流程

文档序号:33620761发布日期:2023-03-25 11:38阅读:54来源:国知局
语音处理方法、装置、存储介质及电子设备与流程

1.本技术涉及计算机技术领域,尤其涉及一种语音处理方法、装置、存储介质及电子设备。


背景技术:

2.语音处理技术是信息处理领域的一个重要分支,也是现今语音识别和语音评价系统的主要核心技术。随着科技的发展,语音处理技术应用越来越广泛。在用户处于诸如购物场景、出行场景、视听场景等事务场景下,用户的语音数据可以反馈高价值的共性问题,对事务场景的场景体验改善具有参考意义。


技术实现要素:

3.本说明书提供了一种语音处理方法、装置、存储介质及电子设备,所述技术方案如下:
4.第一方面,本说明书提供了一种语音处理方法,所述方法包括:
5.对目标语音数据进行语义识别处理,得到所述目标语音数据对应的至少一个目标语义标签;
6.基于所述至少一个目标语义标签对参考语音集合进行语音匹配处理,得到所述目标语音数据对应的相似语音数据。
7.第二方面,本说明书提供了一种语音处理装置,所述装置包括:
8.标签确定模块,用于对目标语音数据进行语义识别处理,得到所述目标语音数据对应的至少一个目标语义标签;
9.语音匹配模块,用于基于所述至少一个目标语义标签对参考语音集合进行语音匹配处理,得到所述目标语音数据对应的相似语音数据。
10.第三方面,本说明书提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。
11.第四方面,本说明书提供一种电子设备,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法步骤。
12.第五方面,本说明书提供一种计算机程序产品,所述计算机程序产品存储有至少一条指令,所述至少一条指令由处理器加载并执行上述的方法步骤。
13.本说明一些实施例提供的技术方案带来的有益效果至少包括:
14.在本说明书一个或多个实施例中,通过对目标语音数据进行语义识别处理确定目标语音数据对应的至少一个目标语义标签,然后基于至少一个目标语义标签对参考语音集合中的若干参考语音数据进行语音匹配处理,就可以得到目标语音数据对应的若干相似语音数据。整个语音处理阶段,避免采用对大量语音文本进行聚类的方式,基于目标语音数据的目标语义标签可以实现对参考语音集合的快速匹配,优化了语音处理流程、减小了语音处理计算量;可以实现实时语音处理以实时反馈相似语音,提升了语音处理的时效性。
附图说明
15.为了更清楚地说明本说明书或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
16.图1是本说明书提供的一种语音处理系统的场景示意图;
17.图2是本说明书提供的一种语音处理方法的流程示意图;
18.图3是本说明书提供的一种语音处理方法的流程示意图;
19.图4是本说明书提供的一种语音处理装置的结构示意图;
20.图5是本说明书提供的一种系数确定模块的结构示意图;
21.图6是本说明书提供的一种向量构建单元的结构示意图;
22.图7是本说明书提供的一种语音处理单元的结构示意图;
23.图8是本说明书提供的一种系数确定模块的结构示意图;
24.图9是本说明书提供的一种结果确定模块的结构示意图;
25.图10是本说明书提供的一种电子设备的结构示意图。
具体实施方式
26.下面将结合本说明书中的附图,对本说明书中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
27.在本技术的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本技术的描述中,需要说明的是,除非另有明确的规定和限定,“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本技术中的具体含义。此外,在本技术的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
28.在相关技术中,在用户处于诸如购物场景、出行场景、视听场景等事务场景下,会存在需要从大量用户语音数据中搜寻若干相似语音的情形,如,针对某个目标语音搜索目标语音的同类相似语音,以基于若干相似语音以及目标语音进一步分析和改善事务场景体验。通常会对目标语音数据和大量用户语音数据均转换为语音文本,采用对所有语音文本进行纯文本聚类的方式实现,如常用的使用文本聚类算法会对所有语音文本进行文本聚类,会得到至少一个类别下的多组相似语音文本,而某个类别下的多组相似语音文本对应的原语音数据可作为一组相似语音。采用类似文本聚类的方式,语音处理流程繁琐、语义处理计算量大,时效性也较差,通常只能离线计算,无法反映实时动态的相似语音情形。
29.请参见图1,为本说明书提供的一种语音处理系统的场景示意图。如图1所示,所述语音处理系统至少可以包括客户端集群和服务平台100。
30.所述客户端集群可以包括至少一个客户端,如图1所示,具体包括用户1对应的客户端1、用户2对应的客户端2、

、用户n对应的客户端n,n为大于0的整数。
31.客户端集群中的各客户端可以是具备通信功能的电子设备,该电子设备包括但不限于:可穿戴设备、手持设备、个人电脑、平板电脑、车载设备、智能手机、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中电子设备可以叫做不同的名称,例如:用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant,pda)、5g网络或未来演进网络中的电子设备等。
32.所述服务平台100可以是单独的服务器设备,例如:机架式、刀片、塔式、或者机柜式的服务器设备,或采用工作站、大型计算机等具备较强计算能力硬件设备;也可以是采用多个服务器组成的服务器集群,所述服务集群中的各服务器可以是以对称方式组成的,其中每台服务器在事务链路中功能等价、地位等价,各服务器均可单独对外提供服务,所述单独提供服务可以理解为无需另外的服务器的辅助。
33.在本说明书的一个或多个实施例中,服务平台100与客户端集群中的至少一个客户端可建立通信连接,基于该通信连接完成语音处理过程中语音数据的交互;示意性的,客户端集群中的客户端1可以通过通信连接向服务平台100上传用户在相应事务场景下的语音数据,如目标语音数据、参考语音数据等。服务平台100获取到客户端1上传的目标语音数据进行执行所述语音处理方法,然后可以确定目标语音数据对应的相似语音数据。
34.需要说明的是,服务平台100与客户端集群中的至少一个客户端通过网络建立通信连接进行交互通信,其中,网络可以是无线网络,也可以是有线网络,无线网络包括但不限于蜂窝网络、无线局域网、红外网络或蓝牙网络,有线网络包括但不限于以太网、通用串行总线(universal serial bus,usb)或控制器局域网络。在说明书一个或多个实施例中,使用包括超文本标记语言(hyper text mark-up language,html)、可扩展标记语言(extensible markup language,xml)等的技术和/或格式来代表通过网络交换的数据(如目标压缩包)。此外还可以使用诸如安全套接字层(secure socket layer,ssl)、传输层安全(transport layer security,tls)、虚拟专用网络(virtual private network,vpn)、网际协议安全(internet protocol security,ipsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
35.本说明书所提供的语音处理系统实施例与一个或多个实施例中的所述语音处理方法属于同一构思,在说明书一个或多个实施例涉及的所述语音处理方法对应的执行主体可以是上述服务平台100;在说明书一个或多个实施例涉及的所述语音处理方法对应的执行主体也可以是客户端所对应的电子设备,具体基于实际应用环境确定。语音处理系统实施例其体现实现过程可详见下述的方法实施例,这里不再赘述。
36.基于图1所示的场景示意图,下面对本说明书一个或多个实施例提供的语音处理方法进行详细介绍。
37.请参见图2,为本说明书一个或多个实施例提供了一种语音处理方法的流程示意
图,该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的背景调查装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。所述语音处理装置可以为服务平台。
38.具体的,该语音处理方法包括:
39.s102,对目标语音数据进行语义识别处理,得到所述目标语音数据对应的至少一个目标语义标签。
40.语音数据是指语言的声音数据,它是语言符号系统的载体,电子设备所获取到的目标语音数据实际上是在相应事务场景下的由用户发出的一种信号波。示意性的,在目标语音数据采集阶段,首先需要对采集的信号波进行预处理,同时对信号波进行分帧,此时语音就变成了很多小段,然后对语音的信号波形作时域变换,所述时域变换常用的方法是提取梅尔频率倒谱特征(melfrequencycepstral coefficents,mfcc)特征信息,根据人耳的生理特性,把每一帧信号波形变成一个多维向量,可以简单地理解为这个向量包含了这帧语音的内容信息。
41.可选的,目标语音数据可以是用户在某事务场景下的真实反馈数据,在该事务场景下可以收集大量用户的语音数据;这些语音数据和当前收集的目标语义数据之间在语音信息维度上存在共性特征,这些共性特征对该事务场景中相应事务功能的改善以及优化具有参考意义;基于此,在实际应用中,会存在针对当前的目标语音数据去查询其他用户的相似语音数据,以基于一类语音数据(目标语音数据和目标语音数据对应的相似语音数据)对该事务场景中相应事务功能进行改善以及优化。
42.可选的,目标语音数据可以是用户在某事务场景下的事务反馈语音数据、事务咨询语音数据、事务评价语音数据等等。
43.所述目标语义标签是目标语音数据经语义识别处理得到的语义特征信息对应的语义标签,该语义特征信息通过语义标签的形式与原目标语音数据建立映射关系。所述语义识别处理在本实施例中可以理解为以目标语音数据为识别对象,在获取采集到的目标语音数据之后,通过对目标语音数据进行语音信号处理(如对目标语音数据进行预处理)和语义识别,让服务平台自动识别和理解用户在事务场景下中的口述语音,并识别语音中的语义特征信息以生成对应的目标语义标签。
44.在一种可行的实施方式中,可以将目标语音数据输入标签分类模型中,通过标签分类模型对目标语音数据进行语义识别处理,以输出针对所述目标语音数据的至少一个目标语义标签。
45.在语义识别处理的之前,通常需要获取大量语音样本数据提取语义特征信息以训练初始标签分类模型,语义特征信息是以自然语言表达的非结构化数据特有的语义属性,以一篇论文为例,语义特征信息包括作者创作意图、数据主题说明、底层特征含义等语义要素。所述语义特征信息是能够表达对象本身的语义以及在环境中语义的多种特征,以某事物场景下的场景语音数据为例,所述语义特征信息可以是组成元素的顺序、词的顺序、词的情感信息、互信息等。
46.其中,组成元素可以理解为组成一段话最小的组成单位,以汉语言为例,最小组成单位是每个字的发音。
47.词顺序为用户表达一句话(一个意思)组成的各个词的先后顺序。
48.词的情感信息为用户表达该词语在这个句子中所表达的情感含义,所述情感含义可以理解为词在句子是高昂还是低沉、是褒义还是贬义、是欣喜还是悲伤等。
49.互信息是指某个词或字和类别之间的统计独立关系,互信息常应用于度量两个对象之间的相互性。
50.在本实施例中,对于语音数据来说提取的语义特征信息所生成的语义标签,它包括但不限于关键词信息对应的关键词标签、词频分布信息对应的词频分布标签、语法级的实体信息对应的实体标签、语义级的主题所对应主题标签等。
51.在本实施例中,对于整个目标语音数据来说,目标语义标签它包括但不限于用户体验事务场景中的事务功能过程中针对事务场景或事务的目标关键词标签、目标词频分布标签、目标实体标签、目标主题标签等。
52.具体的,服务平台首先需要对初始标签分类模型进行训练,可以从已有的语音数据库中获取大量用户针对事务场景所输入的全部或部分语音样本数据(在一些实施例中,语音样本数据也可称为参考语音数据),和/或获取采用录音设备对实际语言环境下录制的语音样本数据,然后通过初始标签分类模型提取关键语义片段,对关键片段聚合以从聚合片段中抽取出样本语义标签并输出至少一个样本语义标签。
53.在本说明书一个或多个实施例中,所述标签分类模型为神经网络模型,所述神经网络模型可以是基于卷积神经网络(convolutional neural network,cnn)模型,深度神经网络(deep neural network,dnn)模型、循环神经网络(recurrent neural networks,rnn)、模型、嵌入(embedding)模型、梯度提升决策树(gradient boosting decision tree,gbdt)模型、逻辑回归(logistic regression,lr)模型等模型中的一种或多种的拟合实现的。
54.可以理解的,在获取到大量的语音样本数据之后,通过初始标签分类模型提取关键语义片段以输出若干候选语义标签;可以基于专家端服务对语音样本数据对应的候选语义标签进行语义标签调整,得到针对语音样本数据的若干标准语义标签,基于已经标注标准语义标签的语音样本数据对标签分类模型进行模型训练,在模型训练中通过标准语义标签可以调整模型参数以及模型架构,以得到训练好的标签分类模型。
55.可选的,基于专家端服务对语音样本数据对应的候选语义标签进行语义标签调整可以是:对语音样本数据对应的若干候选语义标签进行标签命名改写、标签合并归一、标签属性挂载、标签准确率确认等调整方式中的至少一种,得到针对语音样本数据的若干标准语义标签,将符合规范的标准语义标签与语音样本数据关联之后进行保存(如存储至数据库中)。
56.可选的,标签命名改写可以理解为:是针对标签分类模型某个识别出的候选语义标签的标签名修改为符合规范的标签名,如“收款码找不到”候选标签按照标签规范可以修改为“收钱码找不到”已生成符合便签命名规范的标准语义标签。
57.可选的,标签合并归一可以理解为:可以对多个相似的候选语义标签统一修改为一个标准语义标签,例如3个候选语义标签:“健康码变红”、“健康码变绿”、“健康码变黄”均可以合并为一个标准语义标签:“健康码颜色变化”。
58.可选的,标签属性挂载可以理解为:对候选语义标签所包含的至少一个属性元素进行调整,如从候选语义标签中去除或新增某个标签属性。
59.可选的,标签准确率确认候选语义标签中存在误差的标签,将存在误差的标签和原语音样本数据进行标注,然后后续输入模型进行训练。
60.可以理解的,在本技术中可以直接对语音数据进行语义识别,得到语义标签,也就是说可以不必将语音数据转化为语音文本,对语音文本进行语义识别。进一步的,前述候选语义标签、目标语义标签等均可以是语音类型标签,也可以是文本类型标签。
61.s104,基于所述至少一个目标语义标签对参考语音集合进行语音匹配处理,得到所述目标语音数据对应的相似语音数据。
62.在一种可行的实施方式中,所述参考语音集合由若干参考语音(数据)构成,参考语音(数据)可以关联至少一个参考语义标签。
63.可选的,参考语音(数据)为服务平台获取的大量其他用户针对同类事物场景所输入的全部或部分语音数据,可以是用户在同类事物场景(如支付场景、购物场景、健康码场景)下的事务反馈语音数据、事务咨询语音数据、事务评价语音数据等等。进一步的,服务平台可以预先对参考语音(数据)进行语义识别确定至少一个参考语义标签,并将这些参考语义标签与参考语音数据进行关联。然后组成由若干参考语音数据构成的参考语音集合。
64.可选的,可以将参考语音数据输入至标签分类模型,输出针对参考语音数据的至少一个参考语义标签。
65.在一种可行的实施方式中,基于所述至少一个目标语义标签对参考语音集合进行语音匹配处理,可以理解为基于语义标签来计算目标语音数据与参考语音数据的语义相似度,语义相似度的计算依据两两语音数据对应的语义标签,去语义相似度大于阈值的语音数据作为目标语音数据的相似语音数据。
66.在一种可行的实施方式中,服务平台基于所述至少一个目标语义标签对参考语音集合进行语音匹配处理,得到所述目标语音数据对应的相似语音数据,可以是:服务平台在确定目标语音数据对应的至少一个目标语义标签,基于各所述目标语义标签构建目标语义查询规则;
67.服务平台可以获取参考语音集合中至少一个参考语音对应的参考语义标签,基于各所述参考语音对应的参考语义标签采用所述目标语义查询规则进行语音匹配处理,得到所述目标语音数据对应的相似语音数据。
68.可选的,目标语义查询规则可以是基于各目标语义标签构建语义查询搜索式,基于语义查询搜索式在参考语音集合中搜索具有同类标签的相似语音。
69.可选的,语义查询搜索式可以是按照多个目标语义标签构建逻辑关系以生成用于查询相似语音的逻辑搜索式,例如,可以将某些语义标签构建为逻辑“与”关系,又例如可以将某些目标语义标签构建为逻辑“或”关系,等等。
70.可选的,目标语音数据对应的相似语音数据可以是多个,可以在确定目标语音数据对应的相似语音数据过程中,计算目标语音数据对应的相似语音的声量,也即相似语音数量的数量。
71.在本说明书一个或多个实施例中,通过对目标语音数据进行语义识别处理确定目标语音数据对应的至少一个目标语义标签,然后基于至少一个目标语义标签对参考语音集合中的若干参考语音数据进行语音匹配处理,就可以得到目标语音数据对应的若干相似语音数据。整个语音处理阶段,避免采用对大量语音文本进行聚类的方式,基于目标语音数据
的目标语义标签可以实现对参考语音集合的快速匹配,优化了语音处理流程、减小了语音处理计算量;可以实现实时语音处理以实时反馈相似语音,提升了语音处理的时效性。
72.请参见图3,图3是本说明书一个或多个实施例提出的一种语音处理方法的另一种实施例的流程示意图。具体的:
73.s202:对目标语音数据进行语义识别处理,得到所述目标语音数据对应的至少一个目标语义标签;
74.具体可参见本说明书一个或多个实施例,此处不再赘述。
75.可以理解的,可以基于至少一个目标语义标签采用至少一个话题模板规则对目标语音数据进行话题匹配处理,得到所述目标语音数据对应的目标话题,然后基于目标话题从参考语音集合中获取目标话题对应的相似语音数据。可参见下述步骤。
76.s204:获取至少一个话题模板规则对应的语义标签规则;
77.可以理解的,话题对应相应的话题模板规则,话题模板规则至少对应该话题下的语义标签规则,例如,存在n个话题,预先建立n个话题对应的n个话题模板规则,每个话题模板规则下均对应该话题的语义标签规则。
78.可以理解的,将目标语音数据与针对若干参考话题所设置的话题模板规则中的语义标签规则进行匹配,以确定相匹配的目标标签规则。
79.在本说明书一个或多个实施例中,所述语义标签规则为标签逻辑规则,也即由多个语义标签组成的标签逻辑规则,标签逻辑规则可以是以标签逻辑表达式的形式表征,如可以由多个标签构成逻辑表达式(也可理解为逻辑运算式)。例如,可以针对某个话题进行设置:将与该话题相关的某些语义标签构建为逻辑“与”关系,又例如可以将某些目标语义标签构建为逻辑“或”关系,等等,示意性的,针对话题a,可以设置话题模板规则下的语义标签规则为:语义标签a“与”语义标签b,也即满足话题a的语音数据,同时对应语义标签a和语义标签b。
80.可选的,上述标签逻辑规则可以是基于至少一个语义标签以及逻辑运算符构成的逻辑运算式。
81.在一种具体的实施场景中,通过设置若干参考话题,然后对这些参考话题分别设置话题模板规则下的语义标签规则,语义标签规则基于至少一个参考语义标签以及逻辑运算符构成。然后可对若干参考话题以及相应的话题模板规则进行存储。
82.可选的,每个参考话题中的部分或全部可以是通过预先获取大量参考语音数据进行话题创建得到;
83.可选的,每个参考话题中的部分或全部可以是基于专家端服务由人工进行创建;
84.可选的,每个参考话题中的部分或全部可以是基于对若干参考语义标签进行分类,基于分类后的语义类别进行话题抽取(也可以理解为话题改写)得到,示意性,例如可以将若干参考语义标签基于实际事务场景划分为场景障碍类别、场景诉求类别、场景咨询类别、场景状态类别等,则任一标签类别下对应若干属于该类别的语义标签,则可以基于某一标签类别进行话题抽取以确定参考话题,然后基于该标签类别下的若干语义标签构建话题模板规则中的语义标签规则。
85.s206:从各所述语义标签规则中确定所述至少一个目标语义标签匹配的目标标签规则,
86.可以理解的,每个参考话题至少对应一个语义标签规则,通过语义标签规则来表征某话题下的语音数据对应的语义标签之间的要素关系,通过语义标签规则至少可以反馈参考话题下必须具有的若干语义标签、参考话题下可以具有的若干语义标签中的至少其一、参考话题下不应具有的语义标签、参考话题下语义标签的数量。
87.可以理解的,通过确定目标语音数据对应的若干目标语义标签,然后基于若干目标语义标签,逐一判断“若干目标语义标签”是否共同满足参考话题对应的语义标签规则;示意性的,若“若干目标语义标签”不满足某一参考话题对应的语义标签规则,则目标语音数据通常从话题语义标签的维度可以确定不属于“某一参考话题”。示意性的,若“若干目标语义标签”满足某一参考话题对应的语义标签规则,则目标语音数据通常从话题语义标签的维度可以确定属于“某一参考话题”。
88.可选的,一个目标语义数据基于若干目标语义标签与多个目标标签规则进行匹配,以判断是否满足目标标签规则;若干目标语义标签可以同时满足“多个目标标签规则”中的至少其一,也就是说,从话题语义标签的维度可以确定属于或满足多个“参考话题”对应的语义标签规则。
89.在一种具体的实施场景中,所述语义标签规则可以为标签逻辑规则,预先可设置多个参考话题,例如参考话题数量为n,设置参考话题对应的话题模板规则下的标签逻辑规则;通过获取至少一个话题模板规则对应的标签逻辑规则;然后检测所述“至少一个目标语义标签”是否与各所述标签逻辑规则匹配,也即这些目标语义标签是否满足各参考话题对应的标签逻辑规则,然后可以得到标签匹配结果;
90.示意性的,标签匹配结果可以是针对每个参考话题的标签匹配结果,若目标语音数据的i个目标语义标签满足参考话题x对应的标签逻辑规则,则针对参考话题x的标签匹配结果即为:满足参考话题x;若目标语音数据的i个目标语义标签不满足参考话题x对应的标签逻辑规则,则针对参考话题x的标签匹配结果即为:不满足参考话题x;
91.示意性的,然后基于所述标签匹配结果,可以确定所述至少一个目标语义标签匹配的目标标签规则。
92.示意性的,目标标签规则也即“所述至少一个目标语义标签”所满足的语义标签规则。
93.s208:获取所述目标标签规则对应的第一话题;
94.所述第一话题也即目标标签规则对应的参考话题,例如目标标签规则对应的参考话题:为场景障碍话题a,则场景障碍话题a也即第一话题。
95.在一种可行的实施方式中,可以基于第一话题确定所述目标语音数据对应的目标话题。也即直接将目标标签规则对应的第一话题作为目标话题。
96.在一种可行的实施方式中,还可执行下述步骤确定第二话题、第三话题,基于所述第一话题、所述第二话题以及所述第三话题中的至少一种确定所述目标语音数据对应的目标话题。
97.s210:获取至少一个话题模板规则对应的关键信息规则和/或混合信息规则;
98.所述关键信息规则是以自然语言表达的非结构化数据特有的话题关键特性,关键信息规则由至少一个关键信息(如关键文本、关键语音信号)构成的话题规则,关键信息如参考话题对应的话题意图、话题决策信息、话题建议信息、话题中心词、参关键语音信号、关
键文本等。示意性的,关键信息规则可由至少一个关键信息和逻辑关系符构成。在一些实施例中,关键信息规则还可以包括词顺序、关键语音信号顺序、关键词/句间距规则、关键语音信号之间的间距规则等。
99.可以理解的,话题对应相应的话题模板规则,话题模板规则至少对应该话题下的关键信息规则,例如,存在n个话题,预先建立n个话题对应的n个话题模板规则,每个话题模板规则下均对应该话题的关键信息规则。可选的,上述关键信息规则可以是基于至少一个关键信息(元素)以及逻辑运算符构成的逻辑运算式。
100.所述混合信息规则可以为由语义标签与关键信息构成的模板规则,也即由若干语义标签和若干关键信息所构成的模板规则。通过混合信息规则至少可以反馈参考话题下语义标签与关键信息之间的话题特性,如某一参考话题下需同时存在的语义标签和关键信息(如关键词、关键句)、某一参考话题下需存在的语义标签以及不存在的关键信息(如关键词、关键句)等。
101.可以理解的,话题对应相应的话题模板规则,话题模板规则至少对应该话题下的混合信息规则,例如,存在n个话题,预先建立n个话题对应的n个话题模板规则,每个话题模板规则下均对应该话题的混合信息规则。可选的,上述混合信息规则可以是基于至少一个语义标签(元素)与至少一个关键信息(元素)以及逻辑运算符构成的逻辑运算式,例如语义标签(元素)与关键信息(元素)之间的逻辑关系(如逻辑与关系、逻辑非关系、逻辑或关系等等)。
102.在一种可行的实施方式中,可以获取至少一个话题模板规则对应的关键信息规则,每一话题模板规则对应一个参考话题。
103.在一种可行的实施方式中,可以获取至少一个话题模板规则对应的混合信息规则,每一话题模板规则对应一个参考话题。
104.在一种可行的实施方式中,可以获取至少一个话题模板规则对应的关键信息规则和混合信息规则,每一话题模板规则对应一个参考话题。
105.可以理解的,参考话题的话题模板规则包括关键信息规则、混合信息规则、语义标签规则等一种或多种的拟合。示意性的,获取相应的话题模板规则之后,确定相应信息规则对应的话题。
106.s212:从各所述关键信息规则中确定所述目标语音数据匹配的目标关键信息规则,获取所述目标关键信息规则对应的第二话题;
107.可以理解的,获取至少一个话题模板规则对应的关键信息规则之后,就可以从各所述关键信息规则中确定所述目标语音数据匹配的目标关键信息规则,以此来确定目标关键信息规则对应的第二话题。
108.示意性,每个参考话题至少对应一个关键信息规则,通过关键信息规则来表征某话题下的语音数据对应的关键信息(元素)之间的要素关系,通过关键信息规则至少可以反馈参考话题下必须具有的若干关键信息(元素)、参考话题下可以具有的若干关键信息(元素)中的至少其一、不应具有的关键信息(元素)、关键信息(元素)的数量、词顺序、关键语音信号顺序、关键词/句之间的间距规则、关键语音信号之间的间距规则等类型中的一种或多种的拟合。
109.在一种可行的实施方式中,可以基于各所述关键信息规则分别对所述目标语音数
据进行信息检测处理,得到信息检测结果;然后基于所述信息检测结果确定所述目标语音数据匹配的目标关键信息规则。
110.示意性的,关键信息规则可以是由关键信息逻辑表达式构成的,通过构建关键信息逻辑表达式可以检测相应语音数据是否符合关键信息规则,如是否具有若干关键信息(元素)中的至少其一、是否不具有相应关键信息、关键信息(元素)的数量是否满足、词顺序是否满足、关键语音信号顺序是否满足、关键词/句之间的间距规则是否满足、关键语音信号之间的间距规则是否满足。以上各类均可基于构建关键信息逻辑表达式来实现事务场景下对目标语音数据的规则匹配。
111.可以理解的,通过多个参考话题设置的关键信息规则,逐一对所述目标语音数据进行信息检测处理,以确定是否满足关键信息规则;示意性的,若目标语音数据不满足某一参考话题对应的关键信息规则,则目标语音数据通常从话题关键信息的维度可以确定不属于“某一参考话题”。示意性的,若目标语音数据满足某一参考话题对应的关键信息规则,则目标语音数据通常从话题关键信息的维度可以确定属于“某一参考话题”。
112.在一种具体的实施场景中,预先可设置多个参考话题,例如参考话题数量为n,设置参考话题对应的话题模板规则下的关键信息规则;通过获取至少一个话题模板规则对应的关键信息规则;逐一对所述目标语音数据进行信息检测处理,以确定是否满足关键信息规则,然后可以得到关键信息检测结果;
113.示意性的,若目标语音数据满足参考话题x对应的关键信息规则,则针对参考话题x的关键信息检测结果即为:满足参考话题x;若目标语音数据不满足参考话题x对应的关键信息规则,则针对参考话题x的关键信息检测结果即为:不满足参考话题x;
114.在一种具体的实施场景中,关键信息规则可以是信息逻辑规则,可以是信息顺序规则,可以是信息间距规则;
115.所述信息逻辑规则可以是理解为该参考话题下若干关键信息(元素)之间的逻辑关系,关键信息(元素)可以是关键词、关键文本、关键句段等,逻辑关系可以是逻辑与关系、逻辑或关系、逻辑非关系等等。
116.所述信息顺序规则可以是理解为该参考话题下若干关键信息(元素)之间的顺序或时序关系,比如,针对某一参考话题,信息顺序规则可以是关键词a的顺序在关键文本b之前、关键词b的顺序在关键词c之后。
117.所述信息间距规则可以是理解为该参考话题下若干关键信息(元素)之间的间隔或间距关系,比如,针对某一参考话题,信息间距规则可以是关键词a与关键文本b之间间隔x个字符单位、关键词b与关键词c之间的间隔单位应该在某个单位范围内。
118.示意性的,基于各所述关键信息规则分别对所述目标语音数据进行关键信息检测处理,以此得到信息检测结果,具体可以是基于关键信息规则所包含的信息逻辑规则、信息顺序规则、信息间距规则中的至少其一对目标语音数据进行检测。
119.可选的,可以是基于各所述关键信息规则对应的信息逻辑规则分别对所述目标语音数据进行关键信息逻辑检测处理,得到逻辑检测结果;
120.具体的,预先可设置多个参考话题,例如参考话题数量为n,设置参考话题对应的话题模板规则下的关键信息规则,关键信息规则可以包括信息逻辑规则;通过获取若干关键信息规则对应的信息逻辑规则;然后检测目标语音数据是否与各信息逻辑规则匹配,也
即目标语音数据是否满足各参考话题对应的信息逻辑规则,然后可以得到逻辑检测结果;
121.示意性的,逻辑检测结果可以是针对每个参考话题的基于若干关键信息(元素)逻辑维度的匹配结果,若目标语音数据满足参考话题x对应的信息逻辑规则,则针对参考话题x的逻辑检测结果即为:满足参考话题x;若目标语音数据不满足参考话题x对应的信息逻辑规则,则针对参考话题x的逻辑检测结果即为:不满足参考话题x;
122.可选的,可以是基于各所述关键信息规则对应的信息顺序规则分别对所述目标语音数据进行关键信息顺序检测处理,得到顺序检测结果;
123.具体的,预先可设置多个参考话题,例如参考话题数量为n,设置参考话题对应的话题模板规则下的关键信息规则,关键信息规则可以包括信息顺序规则;通过获取若干关键信息规则对应的信息顺序规则;然后检测目标语音数据是否与各信息顺序规则匹配,也即目标语音数据是否满足各参考话题对应的信息顺序规则,然后可以得到顺序检测结果;
124.示意性的,逻辑检测结果可以是针对每个参考话题的基于若干关键信息(元素)逻辑维度的匹配结果,若目标语音数据满足参考话题x对应的信息顺序规则,则针对参考话题x的顺序检测结果即为:满足参考话题x;若目标语音数据不满足参考话题x对应的信息顺序规则,则针对参考话题x的顺序检测结果即为:不满足参考话题x;
125.可选的,可以是基于各所述关键信息规则对应的信息间距规则分别对所述目标语音数据进行关键信息间距检测处理,得到间距检测结果。
126.具体的,预先可设置多个参考话题,例如参考话题数量为n,设置参考话题对应的话题模板规则下的关键信息规则,关键信息规则可以包括信息间距规则;通过获取若干关键信息规则对应的信息间距规则;然后检测目标语音数据是否与各信息间距规则匹配,也即目标语音数据是否满足各参考话题对应的信息间距规则,然后可以得到间距检测结果;
127.示意性的,逻辑检测结果可以是针对每个参考话题的基于若干关键信息(元素)逻辑维度的匹配结果,若目标语音数据满足参考话题x对应的信息间距规则,则针对参考话题x的间距检测结果即为:满足参考话题x;若目标语音数据不满足参考话题x对应的信息间距规则,则针对参考话题x的间距检测结果即为:不满足参考话题x;
128.可以理解的,信息检测结果按照具体关键信息检测方式可以包括关键信息逻辑检测结果、信息顺序检测结果、文本间距检测结果等类型中的至少一种。
129.s214:从各所述混合信息规则中确定所述目标语音数据匹配的目标混合信息规则,获取所述目标混合信息规则对应的第三话题;
130.在一种可行的实施方式中,从各所述混合信息规则中确定所述目标语音数据匹配的目标混合信息规则,具体实施中:所述混合信息规则可以理解为语义标签与关键信息共同对应的信息元素逻辑规则;通过混合信息规则至少可以反馈参考话题下语义标签与关键信息之间的话题特性,如某一参考话题下需同时存在的语义标签和关键信息(如关键词、关键句)、某一参考话题下需存在的语义标签以及不存在的关键信息(如关键词、关键句)等。
131.具体的:可以基于各所述信息元素逻辑规则分别对所述目标语音数据进行元素逻辑检测处理,得到元素逻辑检测结果;
132.例如,存在n个话题,预先建立n个话题对应的n个话题模板规则,每个话题模板规则下均对应该话题的混合信息规则,也即信息元素规则。可选的,上述信息元素规则可以是基于至少一个语义标签(元素)与至少一个关键信息(元素)以及逻辑运算符构成的逻辑运
算式,例如语义标签(元素)与关键信息(元素)之间的逻辑关系(如逻辑与关系、逻辑非关系、逻辑或关系等等),。例如语义标签和文本关键词之间亦有“与、或”逻辑配置
133.具体的,预先可设置多个参考话题,例如参考话题数量为n,设置参考话题对应的话题模板规则下的元素逻辑规则,通过获取若干参考话题对应的元素逻辑规则;然后检测目标语音数据是否与各元素逻辑规则匹配,也即目标语音数据是否满足各参考话题对应的元素逻辑规则,然后可以得到元素逻辑检测结果;
134.示意性的,元素逻辑检测结果可以是针对每个参考话题的基于若干关键信息(元素)和若干语义标签之间逻辑维度的匹配结果,若目标语音数据满足参考话题x对应的元素逻辑规则,则针对参考话题x的元素逻辑结果即为:满足参考话题x;若目标语音数据不满足参考话题x对应的元素逻辑规则,则针对参考话题x的元素逻辑结果即为:不满足参考话题x;
135.具体的:然后基于所述元素逻辑检测结果确定所述目标语音数据匹配的目标混合信息规则,目标混合信息规则也即目标语音数据匹配的混合信息规则,获取所述目标混合信息规则对应的第三话题。例如目标混合信息规则对应的参考话题:为场景障碍话题a,则场景障碍话题a也即第三话题。
136.s216:基于所述第一话题、所述第二话题以及所述第三话题中的至少一种确定所述目标语音数据对应的目标话题。
137.示意性的,可以基于所述第一话题确定所述目标语音数据对应的目标话题。
138.示意性的,可以基于所述第一话题和所述第二话题中的至少一种确定所述目标语音数据对应的目标话题。
139.例如,可以对所述第一话题、所述第二话题以及所述第三话题取话题交集,将其共同对应的话题作为目标话题。也就是说通过上述步骤可准确确定目标语音数据对应的目标话题,以基于目标话题搜索同类或相同话题的参考语音,将这些参考语音作为相似语音。
140.s218:基于所述目标话题对参考语音集合进行语音匹配处理,得到所述目标语音数据对应的相似语音数据。
141.在一种可行的实施方式中,可以获取所述参考语音集合中至少一个参考语音数据对应的参考话题;可以理解为:参考语音集合中由若干参考语音数据构成,每个参考语音数据对应至少一个参考话题;然后可以基于各所述参考语音数据对应的参考话题从参考语音集合中确定所述目标话题对应的相似语音数据。
142.可选的,预先可以基于各所述话题模板规则对所述参考语音集合中至少一个参考语音数据进行话题匹配处理,得到所述参考语音数据对应的参考话题,以将每个参考语音数据与相应的参考话题相关联。可以理解的,确定参考语音数据对应的参考话题的执行步骤与确定目标语音数据对应的目标话题的执行步骤类似或相同,其步骤执行处理中的处理对象不同。
143.可选的,还可以是基于调用专家端服务来确定参考语音数据对应的参考话题。
144.在本说明书一个或多个实施例中,整个语音处理阶段,避免采用对大量语音文本进行聚类的方式,基于目标语音数据的目标语义标签可以实现对参考语音集合的快速匹配,优化了语音处理流程、减小了语音处理计算量;以及基于每个参考话题配置的在语义标签维度的基础上结合关键信息维度和/或混合信息维度的话题模板规则,可以召回大量相
似散点原声,提高相似声音的召回率;以及可以结合语义标签维度、关键信息维度以及混合信息维度中的至少其一实现准确确定目标话题,实现了基于目标话题的准确处理;由于语音实时处理过程中仅需确定目标语音数据的目标话题而节省了对参考语音集合中数据的再处理,可以实现实时语音处理以实时反馈相似语音,提升了语音处理的时效性。
145.请参见图4,图4是本说明书一个或多个实施例提出的一种语音处理方法的另一种实施例的流程示意图。具体的:
146.在本说明书一个或多个实施例,可以基于参考语音集合中的至少一个参考语音数据确定至少一个话题模板规则。所述话题模板规则可以包括但不限于语义标签规则、关键信息规则以及混合信息规则中的至少一种;话题模板规则的确定过程可参考下述步骤。
147.s302:基于所述参考语音集合中至少一个参考语音数据确定参考语义标签以及确定参考话题;
148.可选的,所述参考话题可以由调用专家服务对相应事务场景下的真实反馈数据(如参考语音数据)进行分析而确定出的若干参考话题。
149.可选的,所述参考话题可以是对所述参考语音集合中每个参考语音数据进行语音聚类处理,得到至少一个聚类话题,基于所述至少一个聚类话题确定参考话题。
150.示意性的,声音聚类处理提供了相应事务场景下用户原声的话题生成;声音聚类处理可以是采用相应声音聚类算法,例如,一种纯聚类的方式可以通过语义相似度计算,对若干参考语音数据进行自动聚类得到多个类簇,其中每个类簇所包含的对应一个话题。
151.例如:将相应事务场景下的不同渠道来源的参考语音数据(如服务聊天记录、服务对话记录等等)规范化,例如对每个参考语音数据进行语音转文本得到参考语音文本,对每个参考语音文本抽取出摘要,基于各摘要得到标准的文本格式存储;将标准格式文本使用神经网络模型(如word2vec模型)向量化得到文本向量,基于向量聚类算法(如hdbscan密度聚类算法)进行文本聚类计算以得到多个类簇,并抽每个取聚类核心中质量最高的作为聚类话题;可以直接将聚类话题作为参考话题,或,基于专家服务人工审核聚类话题,将不合理的若干聚类话题进行话题名改写处理,或者语义相似的某些聚类话题进行合并处理来以此得到处理之后的参考话题。
152.在本说明书一个或多个实施例中,参考话题的确定可以是上述其一,或上述方式的综合,也可以不限于上述方式来确定参考话题。
153.在一种可行的实施方式中,可以基于所述参考语音集合中至少一个参考语音数据确定参考语义标签,具体实施中:可以确定针对所述参考语音集合中每个参考语音数据对应的至少一个关键语义片段;然后对各所述关键语义片段进行片段聚合处理,得到至少一个聚合片段;确定各所述聚合片段对应的参考语义标签;
154.示意性的,服务平台可以基于标签分类模型确定参考语音数据所对应的参考语义标签,首先需要对初始标签分类模型进行训练,可以从已有的语音数据库中获取大量用户针对事务场景所输入的全部或部分参考语音数据,和/或获取采用录音设备对实际语言环境下录制的参考语音数据,然后通过标签分类模型提取关键语义片段,对各所述关键语义片段进行片段聚合处理得到至少一个聚合片段,然后通过标签分类模型从聚合片段中抽取出候选语义标签并输出至少一个候选语义标签。可以基于专家端服务对参考语音数据对应的候选语义标签进行语义标签调整,得到针对语音样本数据的若干标准语义标签,此时标
准语义标签也即参考语义标签。
155.可选的,基于专家端服务对参考语音数据对应的候选语义标签进行语义标签调整可以是:对参考语音数据对应的若干候选语义标签进行标签命名改写、标签合并归一、标签属性挂载、标签准确率确认等调整方式中的至少一种,得到针对参考语音数据的若干标准语义标签,将符合规范的标准语义标签(也即参考语义标签)与参考语音数据关联之后进行保存(如存储至数据库中)。
156.可选的,标签命名改写可以理解为:是针对标签分类模型某个识别出的候选语义标签的标签名修改为符合规范的标签名,如“收款码找不到”候选标签按照标签规范可以修改为“收钱码找不到”已生成符合便签命名规范的标准语义标签。
157.可选的,标签合并归一可以理解为:可以对多个相似的候选语义标签统一修改为一个标准语义标签,例如3个候选语义标签:“健康码变红”、“健康码变绿”、“健康码变黄”均可以合并为一个标准语义标签:“健康码颜色变化”。
158.可选的,标签属性挂载可以理解为:对候选语义标签所包含的至少一个属性元素进行调整,如从候选语义标签中去除或新增某个标签属性。
159.可选的,标签准确率确认候选语义标签中存在误差的标签,将存在误差的标签和原参考语音数据进行标注,然后后续输入模型进行训练。
160.可以理解的,在本技术中可以直接对语音数据进行语义识别,得到语义标签,也就是说可以不必将语音数据转化为语音文本,对语音文本进行语义识别。进一步的,前述候选语义标签、目标语义标签等均可以是语音类型标签,也可以是文本类型标签。
161.可选的,可以基于已经标注标准语义标签的参考语音数据对标签分类模型进行模型训练,在模型训练中通过标准语义标签可以调整模型参数以及模型架构,以得到训练好的标签分类模型。
162.s304:基于所述参考语义标签构建针对所述参考话题的话题模板规则;
163.在一种可行的实施方式中,可以基于所述参考语义标签构建所述参考话题对应的语义标签规则;可以理解的,通过确定每个参考语音数据的参考话题和参考语义标签之后,可以基于同类或相同参考话题下的若干参考语音数据进行标签分析处理,确定若干参考语音数据之间的标签逻辑共性信息,以此来构建参考话题对应的语义标签规则。
164.如,通过分析某参考话题下所有参考语音数据的语义标签,确定诸如参考话题下必须具有的若干语义标签、参考话题下可以具有的若干语义标签中的至少其一、参考话题下不应具有的语义标签、参考话题下语义标签的数量等标签逻辑共性信息,来构建参考话题对应的语义标签规则。
165.s306:获取针对所述参考话题的参考关键信息,基于所述参考语义标签和所述参考关键信息构建针对所述参考话题的话题模板规则。
166.所述参考关键信息可以是关键信息元素(如关键字、关键词、关键句)、关键信息的顺序、关键信息(元素)的数量、关键词/句之间的间距信息等等。
167.在一种可行的实施方式中,获取针对所述参考话题的参考关键信息,具体可以是:设置针对所述参考话题的参考关键信息;和/或,对所述参考话题对应的所述参考语音数据进行关键信息识别,得到针对所述参考话题的参考关键信息。
168.示意性的,通过专家服务设置针对所述参考话题的参考关键信息,如设置某个参
考话题中不具有的关键信息、关键信息(元素)的数量、词顺序、关键语音信号顺序、关键词/句之间的间距、关键语音信号之间的间距等等。
169.示意性的,可以通过对参考话题对应的若干参考语音数据进行关键信息识别,依次确定参考话题下每个参考语音数据对应的候选关键信息,可以基于同类或相同参考话题下的若干候选关键信息进行信息分析处理,确定若干参考语音数据之间的关键逻辑共性信息,以此来得到针对参考话题的若干参考关键信息。
170.如,通过识别某参考话题下所有参考语音数据的若干组候选关键信息(每个参考语音数据对应一组候选关键信息),基于同类或相同参考话题下的若干组候选关键信息之间的信息逻辑共性,以此来得到针对参考话题的若干参考关键信息。
171.示意性的,所述话题模板规则包括语义标签规则、关键信息规则以及混合信息规则中的至少一种;
172.可选的,可以基于所述参考语义标签构建所述参考话题对应的语义标签规则;具体可参见s304,此处不再赘述。
173.可选的,可以基于所述参考关键信息构建所述参考话题对应的关键信息规则,如,通过识别某参考话题下所有参考语音数据的若干组候选关键信息(每个参考语音数据对应一组候选关键信息),基于同类或相同参考话题下的若干组候选关键信息之间的信息逻辑共性,诸如参考话题下必须具有若干关键信息(元素)中的至少其一、参考话题下不应具有的相应关键信息、参考话题下的关键信息(元素)的数量、参考话题下的词顺序、参考话题下的关键语音信号顺序、参考话题下的关键词/句之间的间距规则、参考话题下的关键语音信号之间的间距等信息逻辑共性,以此来基于若干参考关键信息对应的信息逻辑共性,构建所述参考话题对应的关键信息规则,通常关键信息规则以逻辑表达式的形式表征。
174.可选的,可以基于所述参考语义标签和所述参考关键信息构建所述参考话题对应的混合信息规则。
175.所述混合信息规则可以理解为语义标签与关键信息共同对应的信息元素逻辑规则;通过混合信息规则至少可以反馈参考话题下语义标签与关键信息之间的话题特性,如某一参考话题下需同时存在的语义标签和关键信息(如关键词、关键句)、某一参考话题下需存在的语义标签以及不存在的关键信息(如关键词、关键句)等。
176.示意性的,通过识别某参考话题下所有参考语音数据的若干组候选关键信息(每个参考语音数据对应一组候选关键信息)和参考语义标签之后,基于同类或相同参考话题下的若干组“候选关键信息与参考语义标签”(每个参考语音数据对应一组“候选关键信息与参考语义标签”)之间的混合信息逻辑共性,混合信息逻辑共性参考话题下需存在的语义标签以及不存在的关键信息,诸如可以是:参考话题下需同时存在的语义标签和关键信息(也即语义标签与关键信息之间的逻辑与关系)、参考话题下需存在的语义标签或存在的关键信息(也即语义标签与关键信息之间的逻辑或关系)等,构建所述参考话题对应的混合信息规则,通常混合信息规则以逻辑表达式的形式表征。
177.可以理解的,针对参考话题构建的话题模板规则,话题模板规则包括语义标签规则、关键信息规则以及混合信息规则中的至少一种;
178.s308:对目标语音数据进行语义识别处理,得到所述目标语音数据对应的至少一个目标语义标签以及获取所述目标语音数据对应的事务场景;
179.所述事务场景可以理解为当前目标语音数据所对应的事务场景特征,如目标语音数据通常为用户在某事务场景所输入的,通过采集用户在某事务场景下所输入的目标语音数据,从而服务平台可以获取到目标语音数据。也就是说目标语音数据与事务场景相关联,事务场景可以是功能名称(如某应用功能名称)、平台名称(如某综合事务平台)、应用场景名称(如某购物场景id、某通讯场景名称)等类型。
180.可以理解的,目标语音数据在采集时可随之确定目标语音数据所属的事务场景;例如,目标语音数据为在某购物平台场景下所采集的用户反馈语音,则目标语音数据对应的事务场景即为某购物平台场景。
181.在本说明书一个或多个实施例中,对于参考语音集合中的每个参考语音数据可以随之确定其参考事务场景,将每个参考语音数据对应的参考事务场景进行关联。
182.s310:基于所述至少一个目标语义标签和所述事务场景对参考语音集合进行语音匹配处理,得到所述目标语音数据对应的相似语音数据。
183.在本说明书一个或多个实施例中,可以基于所述至少一个目标语义标签采用至少一个话题模板规则对所述目标语音数据进行话题匹配处理,得到所述目标语音数据对应的目标话题;然后基于所述目标话题和所述事务场景对参考语音集合进行语音匹配处理,得到所述目标语音数据对应的相似语音数据。通过准确确定目标话题并结合事务场景进行相似语音确定,可以提升相似语音的准确性避免非事务场景下的语音干扰,提升相似语音的召回准确性。进一步的,由于不需要在每一轮语音处理过程中对参考语音数据和目标语音数据重新召回以及重新计算处理,大幅减小了实时处理的计算量,节省了相似语音处理过程中的计算资源,提升了处理效率,可以实现对目标语音数据对应相似语音的实时反馈。
184.可以理解的,在确定目标语音数据对应的目标话题和事务场景之后,可以在参考语音集合中查找同属于该目标话题和事务场景的语音数据,然后将这些语音数据作为目标语音数据第一的相似语音数据。
185.示意性的,目标话题可以是多个,可以将目标语音数据对应的目标话题组装成“或”的逻辑关系或者“与”的逻辑关系,以及基于场景话题构建搜索查询式,实现相似声音的实时搜索,乃至声量的实时计算或者声量趋势的实时获取展示。例如:目标语音数据1确定的两个目标话题为topic1和topic2,则目标语音数据1的相似声音sql(也即搜索查询式)可以为:select*from voice where topic in(topic1,topic2)and product_id='xxx',其中,“product_id='xxx'”表示事务场景。
186.在本说明书一个或多个实施例中,整个语音处理阶段,避免采用对大量语音文本进行聚类的方式,基于目标语音数据的目标语义标签可以实现对参考语音集合的快速匹配,优化了语音处理流程、减小了语音处理计算量;以及基于每个参考话题配置的在语义标签维度的基础上结合关键信息维度和/或混合信息维度的话题模板规则,可以召回大量相似散点原声,提高相似声音的召回率;以及可以结合语义标签维度、关键信息维度以及混合信息维度中的至少其一实现准确确定目标话题,实现了基于目标话题的准确处理;由于语音实时处理过程中诸如标签确定、模板匹配等处理过程仅基于单条目标语音数据确定目标话题即可,从而节省了对参考语音集合中数据的再处理,可以实现实时语音处理以实时反馈相似语音,提升了语音处理的时效性。
187.下面将结合图5,对本说明书一个或多个实施例中提供的语音处理装置进行详细
介绍。需要说明的是,图5所示的语音处理装置,用于执行本技术图2~图3所示实施例的方法,为了便于说明,仅示出了与本说明书相关的部分,具体技术细节未揭示的,请参照本说明书的一个或多个实施例。
188.请参见图5,其示出本说明书一个或多个实施例中的语音处理装置的结构示意图。该语音处理装置1可以通过软件、硬件或者两者的结合实现成为用户终端的全部或一部分。根据一些实施例,该语音处理装置1包括标签确定模块11、语音匹配模块12,具体用于:
189.标签确定模块11,用于对目标语音数据进行语义识别处理,得到所述目标语音数据对应的至少一个目标语义标签;
190.语音匹配模块12,用于基于所述至少一个目标语义标签对参考语音集合进行语音匹配处理,得到所述目标语音数据对应的相似语音数据。
191.可选的,如图6所示,所述语音匹配模块12,包括:
192.话题确定单元121,用于基于所述至少一个目标语义标签采用至少一个话题模板规则对所述目标语音数据进行话题匹配处理,得到所述目标语音数据对应的目标话题;
193.语音匹配单元122,用于基于所述目标话题对参考语音集合进行语音匹配处理,得到所述目标语音数据对应的相似语音数据。
194.可选的,如图7所示,所述话题确定单元121,包括:
195.规则获取子单元1211,用于获取至少一个话题模板规则对应的语义标签规则;
196.规则匹配子单元1212,用于从各所述语义标签规则中确定所述至少一个目标语义标签匹配的目标标签规则,获取所述目标标签规则对应的第一话题;
197.话题确定子单元1213,用于基于所述第一话题确定所述目标语音数据对应的目标话题。
198.可选的,所述话题确定单元121,具体用于:
199.获取至少一个话题模板规则对应的标签逻辑规则;
200.检测所述至少一个目标语义标签是否与各所述标签逻辑规则匹配,得到标签匹配结果;
201.基于所述标签匹配结果,确定所述至少一个目标语义标签匹配的目标标签规则。
202.可选的,所述规则获取子单元1211,具体用于:
203.获取至少一个话题模板规则对应的关键信息规则和/或混合信息规则,所述混合信息规则为由语义标签与关键信息构成的模板规则;
204.所述话题确定子单元1213,具体用于:
205.从各所述关键信息规则中确定所述目标语音数据匹配的目标关键信息规则,获取所述目标关键信息规则对应的第二话题;基于所述第一话题和所述第二话题中的至少一种确定所述目标语音数据对应的目标话题;或,
206.从各所述混合信息规则中确定所述目标语音数据匹配的目标混合信息规则,获取所述目标混合信息规则对应的第三话题;基于所述第一话题和所述第三话题中的至少一种确定所述目标语音数据对应的目标话题;或,
207.从各所述关键信息规则中确定所述目标语音数据匹配的目标关键信息规则,获取所述目标关键信息规则对应的第二话题;从各所述混合信息规则中确定所述目标语音数据匹配的目标混合信息规则,获取所述目标混合信息规则对应的第三话题;基于所述第一话
题、所述第二话题以及所述第三话题中的至少一种确定所述目标语音数据对应的目标话题。
208.可选的,所述话题确定子单元1213,具体用于:
209.基于各所述关键信息规则分别对所述目标语音数据进行信息检测处理,得到信息检测结果;
210.基于所述信息检测结果确定所述目标语音数据匹配的目标关键信息规则。
211.可选的,所述话题确定子单元1213,具体用于:
212.基于各所述关键信息规则对应的信息逻辑规则分别对所述目标语音数据进行关键信息逻辑检测处理,得到逻辑检测结果;和/或,
213.基于各所述关键信息规则对应的信息顺序规则分别对所述目标语音数据进行关键信息顺序检测处理,得到顺序检测结果;和/或,
214.基于各所述关键信息规则对应的信息间距规则分别对所述目标语音数据进行关键信息间距检测处理,得到间距检测结果。
215.可选的,所述规则匹配子单元1212,具体用于:
216.所述混合信息规则为语义标签与关键信息共同对应的信息元素逻辑规则;
217.基于各所述信息元素逻辑规则分别对所述目标语音数据进行元素逻辑检测处理,得到元素逻辑检测结果;
218.基于所述元素逻辑检测结果确定所述目标语音数据匹配的目标混合信息规则。
219.可选的,如图8所示,所述装置1,还包括:
220.规则确定模块13,用于基于参考语音集合中的至少一个参考语音数据确定至少一个话题模板规则。
221.可选的,所述规则确定模块13,具体用于:
222.基于所述参考语音集合中至少一个参考语音数据确定参考语义标签以及确定参考话题;基于所述参考语义标签构建针对所述参考话题的话题模板规则;或,
223.基于所述参考语音集合中至少一个参考语音数据确定参考语义标签以及确定参考话题;获取针对所述参考话题的参考关键信息,基于所述参考语义标签和所述参考关键信息构建针对所述参考话题的话题模板规则。
224.可选的,所述话题模板规则包括语义标签规则、关键信息规则以及混合信息规则中的至少一种;如图9所示,所述规则确定模块13,包括:
225.语义标签规则确定单元131,用于基于所述参考语义标签构建所述参考话题对应的语义标签规则;
226.关键信息规则确定单元132,用于基于所述参考关键信息构建所述参考话题对应的关键信息规则;
227.混合信息规则确定单元133,用于基于所述参考语义标签和所述参考关键信息构建所述参考话题对应的混合信息规则。
228.可选的,根据权利要求10所述的方法,所述规则确定模块13,具体用于:
229.设置针对所述参考话题的参考关键信息;和/或,
230.对所述参考话题对应的所述参考语音数据进行关键信息识别,得到针对所述参考话题的参考关键信息。
231.可选的,所述规则确定模块13,具体用于:
232.确定针对所述参考语音集合中每个参考语音数据对应的至少一个关键语义片段;对各所述关键语义片段进行片段聚合处理,得到至少一个聚合片段;确定各所述聚合片段对应的参考语义标签;
233.对所述参考语音集合中每个参考语音数据进行语音聚类处理,得到至少一个聚类话题,基于所述至少一个聚类话题确定参考话题;和/或,调用专家服务设置参考话题。
234.可选的,所述语音匹配模块12,具体用于:
235.获取所述参考语音集合中至少一个参考语音数据对应的参考话题;
236.基于各所述参考语音数据对应的参考话题从参考语音集合中确定所述目标话题对应的相似语音数据。
237.可选的,所述语音匹配模块12,具体用于:
238.基于各所述话题模板规则对所述参考语音集合中至少一个参考语音数据进行话题匹配处理,得到所述参考语音数据对应的参考话题。
239.可选的,所述标签确定模块11,具体用于:
240.将目标语音数据输入标签分类模型中,输出针对所述目标语音数据的至少一个目标语义标签。
241.可选的,所述标签确定模块11,具体用于:获取所述目标语音数据对应的事务场景;
242.所述语音匹配模块,具体用于:基于所述至少一个目标语义标签和所述事务场景对参考语音集合进行语音匹配处理,得到所述目标语音数据对应的相似语音数据。
243.需要说明的是,上述实施例提供的语音处理装置在执行语音处理方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音处理装置与语音处理方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
244.上述本说明书序号仅仅为了描述,不代表实施例的优劣。
245.在本说明书的一个或多个实施例中,整个语音处理阶段,避免采用对大量语音文本进行聚类的方式,基于目标语音数据的目标语义标签可以实现对参考语音集合的快速匹配,优化了语音处理流程、减小了语音处理计算量;以及基于每个参考话题配置的在语义标签维度的基础上结合关键信息维度和/或混合信息维度的话题模板规则,可以召回大量相似散点原声,提高相似声音的召回率;以及可以结合语义标签维度、关键信息维度以及混合信息维度中的至少其一实现准确确定目标话题,实现了基于目标话题的准确处理;由于语音实时处理过程中仅需确定目标语音数据的目标话题而节省了对参考语音集合中数据的再处理,可以实现实时语音处理以实时反馈相似语音,提升了语音处理的时效性。
246.本说明书实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图2~图4所示实施例的所述语音处理方法,具体执行过程可以参见图2~图4所示实施例的具体说明,在此不进行赘述。
247.本说明书实施例还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由所述处理器加载并执行如上述图2~图4所示实施例的所述语
音处理方法,具体执行过程可以参见图2~图4所示实施例的具体说明,在此不进行赘述。
248.请参见图10,为本说明书一个或多个实施例提供了一种电子设备的结构示意图。如图10所示,所述电子设备1000可以包括:至少一个处理器1001,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。
249.其中,通信总线1002用于实现这些组件之间的连接通信。
250.其中,用户接口1003可以包括显示屏(display)、摄像头(camera),可选用户接口1003还可以包括标准的有线接口、无线接口。
251.其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。
252.其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个服务器1000内的各个部分,通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集,以及调用存储在存储器1005内的数据,执行服务器1000的各种功能和处理数据。可选的,处理器1001可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器1001可集成中心处理器(central processing unit,cpu)、图像处理器(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1001中,单独通过一块芯片进行实现。
253.其中,存储器1005可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory)。可选的,该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及应用程序。
254.在图10所示的电子设备1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;而处理器1001可以用于调用存储器1005中存储的应用程序,并具体执行以下操作:
255.对目标语音数据进行语义识别处理,得到所述目标语音数据对应的至少一个目标语义标签;
256.基于所述至少一个目标语义标签对参考语音集合进行语音匹配处理,得到所述目标语音数据对应的相似语音数据。
257.在一个实施例中,所述处理器1001在执行所述基于所述至少一个目标语义标签对参考语音集合进行语音匹配处理,得到所述目标语音数据对应的相似语音数据时,具体执行以下步骤:
258.基于所述至少一个目标语义标签采用至少一个话题模板规则对所述目标语音数
据进行话题匹配处理,得到所述目标语音数据对应的目标话题;
259.基于所述目标话题对参考语音集合进行语音匹配处理,得到所述目标语音数据对应的相似语音数据。
260.在一个实施例中,所述处理器1001在执行所述基于所述至少一个目标语义标签采用至少一个话题模板规则对所述目标语音数据进行话题匹配处理,得到所述目标语音数据对应的目标话题时,具体执行以下步骤:获取至少一个话题模板规则对应的语义标签规则;
261.从各所述语义标签规则中确定所述至少一个目标语义标签匹配的目标标签规则,获取所述目标标签规则对应的第一话题;
262.基于所述第一话题确定所述目标语音数据对应的目标话题。
263.在一个实施例中,所述处理器1001在执行所述语义标签规则为标签逻辑规则,所述获取至少一个话题模板规则对应的语义标签规则,从各所述语义标签规则中确定所述至少一个目标语义标签匹配的目标标签规则时,具体执行以下步骤:获取至少一个话题模板规则对应的标签逻辑规则;
264.检测所述至少一个目标语义标签是否与各所述标签逻辑规则匹配,得到标签匹配结果;
265.基于所述标签匹配结果,确定所述至少一个目标语义标签匹配的目标标签规则。
266.在一个实施例中,所述处理器1001在执行所述获取至少一个话题模板规则对应的语义标签规则之后,执行以下步骤:
267.获取至少一个话题模板规则对应的关键信息规则和/或混合信息规则,所述混合信息规则为由语义标签与关键信息构成的模板规则;
268.所述基于所述第一话题确定所述目标语音数据对应的目标话题,包括:
269.从各所述关键信息规则中确定所述目标语音数据匹配的目标关键信息规则,获取所述目标关键信息规则对应的第二话题;基于所述第一话题和所述第二话题中的至少一种确定所述目标语音数据对应的目标话题;或,
270.从各所述混合信息规则中确定所述目标语音数据匹配的目标混合信息规则,获取所述目标混合信息规则对应的第三话题;基于所述第一话题和所述第三话题中的至少一种确定所述目标语音数据对应的目标话题;或,
271.从各所述关键信息规则中确定所述目标语音数据匹配的目标关键信息规则,获取所述目标关键信息规则对应的第二话题;从各所述混合信息规则中确定所述目标语音数据匹配的目标混合信息规则,获取所述目标混合信息规则对应的第三话题;基于所述第一话题、所述第二话题以及所述第三话题中的至少一种确定所述目标语音数据对应的目标话题。
272.在一个实施例中,所述处理器1001在执行所述从各所述关键信息规则中确定所述目标语音数据匹配的目标关键信息规则时,具体执行以下步骤:
273.基于各所述关键信息规则分别对所述目标语音数据进行信息检测处理,得到信息检测结果;
274.基于所述信息检测结果确定所述目标语音数据匹配的目标关键信息规则。
275.在一个实施例中,所述处理器1001在执行所述基于各所述关键信息规则分别对所述目标语音数据进行关键信息检测处理,得到信息检测结果时,具体执行以下步骤:
276.基于各所述关键信息规则对应的信息逻辑规则分别对所述目标语音数据进行关键信息逻辑检测处理,得到逻辑检测结果;和/或,
277.基于各所述关键信息规则对应的信息顺序规则分别对所述目标语音数据进行关键信息顺序检测处理,得到顺序检测结果;和/或,
278.基于各所述关键信息规则对应的信息间距规则分别对所述目标语音数据进行关键信息间距检测处理,得到间距检测结果。
279.在一个实施例中,所述处理器1001在执行所述从各所述混合信息规则中确定所述目标语音数据匹配的目标混合信息规则时,具体执行以下步骤:
280.所述混合信息规则为语义标签与关键信息共同对应的信息元素逻辑规则;
281.基于各所述信息元素逻辑规则分别对所述目标语音数据进行元素逻辑检测处理,得到元素逻辑检测结果;
282.基于所述元素逻辑检测结果确定所述目标语音数据匹配的目标混合信息规则。
283.在一个实施例中,所述处理器1001在执行所述确定目标语音数据对应的至少一个目标语义标签之前,还执行以下步骤:基于参考语音集合中的至少一个参考语音数据确定至少一个话题模板规则。
284.在一个实施例中,所述处理器1001在执行所述基于参考语音集合中的至少一个参考语音数据确定至少一个话题模板规则时,具体执行以下步骤:
285.基于所述参考语音集合中至少一个参考语音数据确定参考语义标签以及确定参考话题;基于所述参考语义标签构建针对所述参考话题的话题模板规则;或,
286.基于所述参考语音集合中至少一个参考语音数据确定参考语义标签以及确定参考话题;获取针对所述参考话题的参考关键信息,基于所述参考语义标签和所述参考关键信息构建针对所述参考话题的话题模板规则。
287.在一个实施例中,所述处理器1001在执行所述基于所述参考语义标签和所述参考关键信息构建针对所述参考话题的话题模板规则时,具体执行以下步骤:
288.所述话题模板规则包括语义标签规则、关键信息规则以及混合信息规则中的至少一种;
289.基于所述参考语义标签构建所述参考话题对应的语义标签规则;
290.基于所述参考关键信息构建所述参考话题对应的关键信息规则;
291.基于所述参考语义标签和所述参考关键信息构建所述参考话题对应的混合信息规则。
292.在一个实施例中,所述处理器1001在执行所述获取针对所述参考话题的参考关键信息时,具体执行以下步骤:
293.设置针对所述参考话题的参考关键信息;和/或,
294.对所述参考话题对应的所述参考语音数据进行关键信息识别,得到针对所述参考话题的参考关键信息。
295.在一个实施例中,所述处理器1001在执行所述基于所述参考语音集合中至少一个参考语音数据确定参考语义标签以及确定参考话题时,具体执行以下步骤:
296.确定针对所述参考语音集合中每个参考语音数据对应的至少一个关键语义片段;对各所述关键语义片段进行片段聚合处理,得到至少一个聚合片段;确定各所述聚合片段
对应的参考语义标签;
297.对所述参考语音集合中每个参考语音数据进行语音聚类处理,得到至少一个聚类话题,基于所述至少一个聚类话题确定参考话题;和/或,调用专家服务设置参考话题。
298.在一个实施例中,所述处理器1001在执行所述基于所述目标话题对参考语音集合进行语音匹配处理,得到所述目标语音数据对应的相似语音数据时,具体执行以下步骤:获取所述参考语音集合中至少一个参考语音数据对应的参考话题;基于各所述参考语音数据对应的参考话题从参考语音集合中确定所述目标话题对应的相似语音数据。
299.在一个实施例中,所述处理器1001在执行所述获取所述参考语音集合中至少一个参考语音数据对应的参考话题之前,还执行以下步骤:基于各所述话题模板规则对所述参考语音集合中至少一个参考语音数据进行话题匹配处理,得到所述参考语音数据对应的参考话题。
300.在一个实施例中,所述处理器1001在执行所述确定目标语音数据对应的至少一个目标语义标签时,具体执行以下步骤:将目标语音数据输入标签分类模型中,输出针对所述目标语音数据的至少一个目标语义标签。
301.在一个实施例中,所述处理器1001在执行所述基于所述至少一个目标语义标签对参考语音集合进行语音匹配处理,得到所述目标语音数据对应的相似语音数据时,具体执行以下步骤:获取所述目标语音数据对应的事务场景;基于所述至少一个目标语义标签和所述事务场景对参考语音集合进行语音匹配处理,得到所述目标语音数据对应的相似语音数据。
302.在一个实施例中,所述处理器1001在执行所述得到所述目标语音数据对应的相似语音数据之后,还执行以下步骤:基于所述相似语音数据,确定所述目标语音数据对应的相似声量
303.在本说明书一个或多个实施例中,整个语音处理阶段,避免采用对大量语音文本进行聚类的方式,基于目标语音数据的目标语义标签可以实现对参考语音集合的快速匹配,优化了语音处理流程、减小了语音处理计算量;以及基于每个参考话题配置的在语义标签维度的基础上结合关键信息维度和/或混合信息维度的话题模板规则,可以召回大量相似散点原声,提高相似声音的召回率;以及可以结合语义标签维度、关键信息维度以及混合信息维度中的至少其一实现准确确定目标话题,实现了基于目标话题的准确处理;由于语音实时处理过程中仅需确定目标语音数据的目标话题而节省了对参考语音集合中数据的再处理,可以实现实时语音处理以实时反馈相似语音,提升了语音处理的时效性。
304.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
305.以上所揭露的仅为本技术较佳实施例而已,当然不能以此来限定本技术之权利范围,因此依本技术权利要求所作的等同变化,仍属本技术所涵盖的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1