信息处理方法、装置、设备、存储介质及程序产品与流程

文档序号:30417862发布日期:2022-06-15 12:04阅读:116来源:国知局
信息处理方法、装置、设备、存储介质及程序产品与流程

1.本发明涉及信息处理技术领域,尤其涉及一种信息处理方法、装置、设备、存储介质及程序产品。


背景技术:

2.质检是风险控制中不可或缺的一环,它大量应用于银行电核,催收等场景。通过对话录音进行智能质检能够有效缓解人工抽样质检录音带来的质检效率低,覆盖面有限的问题。在大多数情况下,质检需要角色的信息支持,用于指定质检的对象。因此,角色识别是智能质检系统中重要的一部分。
3.目前,现有的角色识别是通过将单声道录音分成两个声道,然后利用设计的规则模型和二分类器对每个声道的文本进行分类,进而实现文本匹配。
4.但是,从本质上来说该方法只停留在浅层的文本规则匹配上,需要制定很多种规则尽可能的去覆盖各类文本,步骤繁琐,且角色识别的准确率较低。


技术实现要素:

5.本发明的主要目的在于提供一种信息处理方法、装置、设备、存储介质及程序产品,旨在能够简便地识别角色,且识别的准确率较高,进而为语音质检提供较为准确地依据。
6.为实现上述目的,本发明提供一种信息处理方法,所述方法包括:
7.获取历史录音数据中所属客服角色的客服文本;
8.根据所述客服文本,通过预训练语言模型,确定所述客服文本对应的目标深度语义向量;
9.根据所述目标深度语义向量,从所述客服文本中查找所述目标深度语义向量对应的目标客服文本,并将所述目标客服文本以及所述目标深度语义向量构成客服话术库;
10.将获取到的新的客服文本添加至所述客服话术库中,用以更新客服话术库;
11.其中,所述客服话术库用于支持角色匹配,用以为语音质检提供依据。
12.可选地,所述根据所述客服文本,通过预训练语言模型,确定所述客服文本对应的目标深度语义向量,包括:
13.将所述客服文本输入到所述预训练语言模型中,生成所述客服文本中每句话的第一深度语义向量;
14.对各个所述第一深度语义向量进行聚类,确定所述目标深度语义向量。
15.可选地,所述对各个所述第一深度语义向量进行聚类,确定所述目标深度语义向量,包括:
16.对各个所述第一深度语义向量进行聚类,得到多个簇,每个簇中包含至少一个第一深度语义向量;
17.根据每个簇中第一深度语义向量的数量,对所述多个簇进行过滤,得到至少一个
目标簇;
18.将所述至少一个目标簇中的第一深度语义向量作为目标深度语义向量。
19.可选地,将获取到的新的客服文本添加至所述客服话术库中,用以更新客服话术库,包括:
20.获取待识别录音数据中的各个待识别通道,每个待识别通道包括至少一个待识别文本;
21.通过所述预训练语言模型,根据每个待识别通道中的各个所述待识别文本以及所述客服话术库中每个目标深度语义向量,确定各个所述待识别通道对应的角色,所述角色至少包括客服角色和客户角色;
22.将角色为客服角色的通道中文本添加至所述客服话术库中,并通过聚类以及过滤处理,用以更新客服话术库;
23.其中,所述角色为客服角色的通道中文本为所述新的客服文本。
24.可选地,所述通过所述预训练语言模型,根据每个待识别通道中的各个所述待识别文本以及所述客服话术库中每个目标深度语义向量,确定各个所述待识别通道对应的角色,包括:
25.针对每个待识别通道,执行下述步骤:根据各个所述待识别文本,通过所述预训练语言模型,确定各个所述待识别文本对应的待识别深度语义向量;针对每个所述待识别深度语义向量,计算所述待识别深度语义向量与所述客服话术库中每个目标深度语义向量的语义匹配分数;根据每个所述待识别深度语义向量对应的语义匹配分数,确定所述待识别通道对应的角色匹配分数;
26.根据各个所述待识别通道对应的角色匹配分数,确定各个所述待识别通道对应的角色。
27.可选地,所述计算所述待识别深度语义向量与所述客服话术库中每个目标深度语义向量的语义匹配分数,包括:
28.计算所述待识别深度语义向量与所述客服话术库中每个目标深度语义向量的余弦相似度;
29.从各个余弦相似度中获取第一预设数目个目标余弦相似度,并计算所述第一预设数目个目标余弦相似度的平均值;
30.其中,所述预设数目个目标余弦相似度的平均值为所述语义匹配分数。
31.可选地,所述根据每个所述待识别深度语义向量对应的语义匹配分数,确定所述待识别通道对应的角色匹配分数,包括:
32.根据每个所述待识别深度语义向量对应的所述语义匹配分数,获取第二预设数目个目标语义匹配分数,并计算所述第二预设数目个目标语义匹配分数的平均值;所述第二预设数目个目标语义匹配分数的平均值为所述待识别通道对应的角色匹配分数;
33.相应的,所述根据各个所述待识别通道对应的角色匹配分数,确定各个所述待识别通道对应的角色,包括:
34.对各个所述待识别通道对应的角色匹配分数进行比较,将角色匹配分数最高的作为客服角色。
35.本发明还提供一种信息处理装置,所述装置包括:
36.获取模块,用于获取历史录音数据中所属客服角色的客服文本;
37.第一处理模块,用于根据所述客服文本,通过预训练语言模型,确定所述客服文本对应的目标深度语义向量;
38.第二处理模块,用于根据所述目标深度语义向量,从所述客服文本中查找所述目标深度语义向量对应的目标客服文本,并将所述目标客服文本以及所述目标深度语义向量构成客服话术库;
39.第三处理模块,用于将获取到的新的客服文本添加至所述客服话术库中,用以更新客服话术库;
40.其中,所述客服话术库用于支持角色匹配,用以为语音质检提供依据。
41.本发明还提供一种信息处理设备,所述信息处理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的信息处理程序,所述信息处理程序被所述处理器执行时实现如前述任一项所述的信息处理方法的步骤。
42.本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息处理程序,所述信息处理程序被处理器执行时实现如前述任一项所述的信息处理方法的步骤。
43.本发明还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现前述任一项所述的方法。
44.本发明中,通过构建属于客服角色的客服话术库,来实现角色匹配,进而为语音质检提供依据。具体地,首先通过获取历史录音数据中所属客服角色的客服文本,然后利用预训练语言模型的语义分析能力,将客服文本生成客服文本的深度表示即深度语义向量,然后基于深度语义向量,通过筛减过滤等操作,确定保留下来的深度语义向量即目标深度语义向量,该目标深度语义向量以及对应的客服文本形成客服话术库,在使用客服话术库的过程中,可以将获取到的新的客服文本添加至所述客服话术库中,用以更新客服话术库。因此,通过利用预训练语言模型进行语义分析,进而生成为承载有客服角色的有效文本的客服话术库,采用客服话术库进行语义匹配,无需人工不断标注,能够自动标注相似的客服话术,进而实现角色匹配,且通过语义匹配区别于浅层的文本规则匹配,无需制定多种多样的规则来尽可能覆盖可能出现的语句,其过程简便且角色匹配准确率高;同时,能够实现客服话术库的自动更新,很大程度地减少了业务人员手动更新规则的工作量。
附图说明
45.图1为本发明实施例提供的一种应用场景示意图;
46.图2为本发明实施例提供的一种信息处理方法的流程示意图;
47.图3为本发明实另一施例提供的一种应用场景示意图;
48.图4为本发明另一实施例提供的一种信息处理方法的流程示意图;
49.图5为本发明实施例提供的一种信息处理装置的结构示意图;
50.图6为本发明实施例提供的一种信息处理设备的结构示意图。
51.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
52.下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明完整地传达给本领域的技术人员。
53.目前,现有的角色识别是通过将单声道录音分成两个声道,然后利用设计的规则模型和分类器对每个声道的文本进行分类,进而实现文本匹配。但是,由于角色识别模块的输入是语音识别系统解析的结果,带有语音识别的错误,甚至有些句子变得难读。在这种情况下,通过规则或者分类器进行角色识别的办法准确率较低,这使得不同的业务方还是需要各自投入大量的人力和时间在修复模型规则上。因此,从本质上来说该方法只停留在浅层的文本规则匹配上,需要制定很多种规则尽可能的去覆盖各类文本,步骤繁琐,且角色识别的准确率较低。
54.为了解决这一问题,本发明的技术构思是利用预训练语言模型进行语义分析,进而生成承载有客服角色的有效文本的客服话术库,采用客服话术库进行语义匹配,无需人工不断标注,能够自动标注相似的客服话术,进而实现角色匹配,且通过语义匹配区别于浅层的文本规则匹配,无需制定多种多样的规则来尽可能覆盖可能出现的语句,其过程简便且角色匹配准确率高;同时,将获取到的新的客服文本添加至所述客服话术库中,能够实现客服话术库的自动更新,很大程度地减少了业务人员手动更新规则的工作量。
55.下面结合附图,对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
56.需要说明的是,本技术中的“多个”用于表示两个或两个以上,具体数目在此不做具体地限定。
57.图1为本发明实施例提供的一种应用场景示意图。如图1所示,该信息处理方法的执行主体可以是信息处理设备,这里的信息处理设备可以是终端或服务器,在此不做具体限定,其中,通过角色识别进而实现语音质检,可以应用于银行电核、催收等场景。
58.示例性地,以服务器为例,在银行电核的应用场景下,具有录音功能的电子设备(比如,通信设备或是具有语音交互功能的智能终端)可以记录客服与客户的对话内容,比如对话录音即录音数据(比如办理银行流水的电核录音),这里的录音数据可以是存储在电子设备的本地文件中,也可以是由电子设备上传到云服务器中。服务器为了能够较为准确地实现对客服人员在电核过程中的语音质检,首先可以对对话录音的客户角色与客服角色进行区分,避免质检的效果受客户话术的影响导致误召回。
59.具体地,角色匹配可以采用构建客服话术库,然后将获取到的实时录音数据或是待检测的录音数据与客服话术库的内容进行相似度匹配,进而识别角色。其中,客服话术库的构建以及更新过程可以为:首先收集人工标注角色的(关于电核的)录音数据中客服所有文本,记为集合m;然后服务器通过电子设备获取历史电核录音中的客服文本,运用预训练语言模型生成每句客服文本的深度表示即深度语义向量,并进行聚类,过滤掉句子数量小的簇(只保留客服通用话术);再以该信息处理设备为基础运行实施,获取最新时间段的角色识别结果,取该角色识别结果对应的所有的客服文本加入至m中,重新执行上述步骤进行迭代优化。
60.基于构建好的客服话术库,服务器通过电子设备获取实时电核录音数据或是待检测的电核录音数据,然后对该电核录音分成两个通道,一个声纹对应一个通道,即待定的客服通道和待定的客户通道。然后通过预训练语言模型,生成两个通道中文本分别对应的深度语义向量,然后将两个通道中文本分别对应的深度语义向量与客服话术库中文本的目标深度语义向量进行相似度比对,最终确定每个待识别通道(即待定的客服通道和待定的客户通道)对应的角色,将相似度匹配分值高的通道作为客服通道即角色为客服角色。并将角色为客服角色的通道中文本添加至所述客服话术库中,并通过聚类以及过滤处理,实现客服话术库的自动更新,很大程度地减少了业务人员手动更新规则的工作量。
61.因此,本发明采用语义匹配的机制进行角色识别。由于大部分场景下,客服的话术、问题、语言风格比较相近,可以通过聚类方法自动标注相似的客服话术,构建一个大规模的客服话术库,然后将每个录音通道的文本与客服话术库中的文本进行语义匹配。匹配分值最高的通道为客服通道,另外一个通道是客户通道。通过采用客服话术库进行语义匹配,无需人工不断标注,能够自动标注相似的客服话术,进而实现角色匹配,且通过语义匹配区别于浅层的文本规则匹配,无需制定多种多样的规则来尽可能覆盖可能出现的语句,其过程简便且角色匹配准确率高;同时,能够实现客服话术库的自动更新,很大程度地减少了业务人员手动更新规则的工作量。
62.图2为本发明实施例提供的一种信息处理方法的流程示意图。如图2所示,本实施例中的方法可以包括:
63.s201、获取历史录音数据中所属客服角色的客服文本。
64.获取录音数据的方式可以是直接从具有录音功能的电子设备中本地存储里获取,或是通过该电子设备从云存储中获取。根据获取到的历史录音数据,通过语音识别系统进行解析,得到解析的结果即文本,通过人工标注该文本对应的角色,从文本中选取角色为客服角色的客服文本。
65.s202、根据所述客服文本,通过预训练语言模型,确定所述客服文本对应的目标深度语义向量。
66.具体地,基于已标注好的客服文本,采用预训练语言模型,生成客服文本对应的深度语义向量,进而实现从语义上对角色进行区分,不是只停留在浅层的文本规则匹配上。预训练语言模型可以将客服文本通过矩阵映射关系映射到语义向量,然后对各个(或各句)文本对应的深度语义向量进行预处理,过滤掉一些与专业或业务不相关的信息(比如与业务场景无关的闲聊内容),得到客服文本对应的目标深度语义向量。其中,一句文本对应一个深度语义向量。
67.s203、根据所述目标深度语义向量,从所述客服文本中查找所述目标深度语义向量对应的目标客服文本,并将所述目标客服文本以及所述目标深度语义向量构成客服话术库。
68.其中,所述客服话术库用于支持角色匹配,用以为语音质检提供依据。
69.具体地,根据目标深度语义向量,从客服文本中查找出目标深度语义向量对应的各个文本(可以记为目标客服文本),然后将目标客服文本以及目标深度语义向量构成集合m,作为客服话术库,用以实现角色识别或匹配,进而高水平、高准确率地实现语音质检。
70.s204、将获取到的新的客服文本添加至所述客服话术库中,用以更新客服话术库。
本实施例中,通过自动迭代更新的客服话术,能够将最新的业务话术自动更新到识别系统(比如信息处理设备)中,很大程度地减少了业务人员手动更新规则的工作量。
71.通过获取历史录音数据中所属客服角色的客服文本,然后利用预训练语言模型的语义分析能力,将客服文本生成客服文本的深度表示即深度语义向量,然后基于深度语义向量,通过筛减过滤等操作,确定保留下来的深度语义向量即目标深度语义向量,该目标深度语义向量以及对应的客服文本形成客服话术库,在使用客服话术库的过程中,可以将获取到的新的客服文本添加至所述客服话术库中,用以更新客服话术库。因此,通过利用预训练语言模型进行语义分析,进而生成为承载有客服角色的有效文本的客服话术库,采用客服话术库进行语义匹配,无需人工不断标注,能够自动标注相似的客服话术,进而实现角色匹配,且通过语义匹配区别于浅层的文本规则匹配,无需制定多种多样的规则来尽可能覆盖可能出现的语句,其过程简便且角色匹配准确率高。
72.可选地,根据所述客服文本,通过预训练语言模型,确定所述客服文本对应的目标深度语义向量,可以通过以下步骤实现:
73.步骤a1、将所述客服文本输入到所述预训练语言模型中,生成所述客服文本中每句话的第一深度语义向量。
74.步骤a2、对各个所述第一深度语义向量进行聚类,确定所述目标深度语义向量。
75.具体地,由于获取到的历史录音数据是多条的,并且每条历史录音数据中可以包括至少一句话或多句话,一句话可以看作或对应一个文本,因此,获取到的客服文本是至少一个或多个。以客服文本为多个为例,首先将该客服文本输入到预训练语言模型中,通过对客服文本的语义分析,得到每个客服文本或每句话的第一深度语义向量,为了保证构建的客服话术库较为准确,可以对生成的所有第一深度语义向量进行聚类分析,使得通过聚类方法自动标注相似的客服话术,用以为将待检测的录音通道的文本与客服话术库中的文本进行语义匹配,进而实现角色区分。
76.可选地,对各个所述第一深度语义向量进行聚类,确定所述目标深度语义向量,所述方法还可以通过以下步骤实现:
77.步骤b1、对各个所述第一深度语义向量进行聚类,得到多个簇,每个簇中包含至少一个第一深度语义向量。
78.步骤b2、根据每个簇中第一深度语义向量的数量,对所述多个簇进行过滤,得到至少一个目标簇。
79.步骤b3、将所述至少一个目标簇中的第一深度语义向量作为目标深度语义向量。
80.具体地,首先对所有的第一深度语义向量进行聚类,其中,相似的语义向量形成一个簇,因此,对所有的第一深度语义向量进行聚类可以形成多个簇。为了保证客服话术库中的文本以及对应的语义向量跟专业或业务紧密关联且与真实文本更接近,可以对多个簇进行过滤删除:过滤掉句子数量小的簇(只保留客服通用话术),进而保留下至少一个目标簇,该至少一个目标簇中的第一深度语义向量即为目标深度语义向量。然后将目标深度语义向量以及对应的目标客服文本形成客服话术库,即客服话术库中包括目标深度语义向量以及对应的目标客服文本。
81.示例性地,通过三步构建大规模的客服话术库:第一步,收集人工标注角色的录音数据中客服所有文本,记为集合m;第二步,运用预训练语言模型生成每句客服文本的深度
表示(即第一深度语义向量),并进行聚类,过滤掉句子数量小的簇(只保留客服通用话术);第三步,以该信息处理设备为基础运行一个时间段(比如,一个月),获取最新的角色识别结果,取所有的客服文本加入至m中,重新执行第一步迭代优化,不断聚类过滤进而更新客服话术库,实现自动迭代扩充客服话术库。
82.可选地,本实施例在上述实施例的基础上,对如何使用客服话术库,实现角色识别并实现客服话术库的自动更新进行了详细说明。所述将获取到的新的客服文本添加至所述客服话术库中,用以更新客服话术库,可以通过以下步骤实现:
83.步骤c1、通过所述预训练语言模型,根据每个待识别通道中的各个所述待识别文本以及所述客服话术库中每个目标深度语义向量,确定各个所述待识别通道对应的角色,所述角色至少包括客服角色和客户角色。
84.步骤c2、将角色为客服角色的通道中文本添加至所述客服话术库中,并通过聚类以及过滤处理,用以更新客服话术库。
85.其中,所述角色为客服角色的通道中文本为所述新的客服文本。
86.具体地,结合图3所示,图3为本发明另一实施例提供的一种应用场景示意图。首先通过电子设备,比如具有录音功能的智能电话,通过智能电话获取待识别录音数据(比如近一个月产生的新录音数据),其中,获取方式可以与上述获取历史录音数据的方式类似,在此不再赘述;然后通过声纹分离技术将录音数据分成两个录音声道即待识别通道,为了对待识别通道的角色进行区分,可以利用预训练语言模型,将每个待识别通道的文本输入到预训练语言模型中,生成各个待识别通道的每句话的深度语义向量,然后将每个待识别通道的每句话(即每句文本)与客服话术库中每个目标客服文本进行语义匹配。
87.其中,语义匹配的具体过程可以是将每个待识别通道的每句话的深度语义向量分别与客服话术库中每个目标客服文本的目标深度语义向量进行语义匹配,进而确定各个待识别通道对应的角色为客服角色还是客户角色。同时,将最新的角色识别结果反馈至客服话术库中,然后再经过上述语义分析、聚类、过滤得步骤实现客服话术库的自动迭代扩充,很大程度地减少了业务人员手动更新规则的工作量。
88.可选地,本实施例在上述实施例的基础上,对如何实现角色识别进行了详细说明。通过所述预训练语言模型,根据每个待识别通道中的各个所述待识别文本以及所述客服话术库中每个目标深度语义向量,确定各个所述待识别通道对应的角色,可以通过以下步骤实现:
89.步骤d1、针对每个待识别通道,执行下述步骤:
90.步骤d11、根据各个所述待识别文本,通过所述预训练语言模型,确定各个所述待识别文本对应的待识别深度语义向量;
91.步骤d12、针对每个所述待识别深度语义向量,计算所述待识别深度语义向量与所述客服话术库中每个目标深度语义向量的语义匹配分数;
92.步骤d13、根据每个所述待识别深度语义向量对应的语义匹配分数,确定所述待识别通道对应的角色匹配分数;
93.步骤d2、根据各个所述待识别通道对应的角色匹配分数,确定各个所述待识别通道对应的角色。
94.具体地,将每个待识别通道的每个待识别文本输入到预训练语言模型中,生成每
个待识别文本的待识别深度语义向量,然后将每个待识别深度语义向量分别与客服话术库中每个目标深度语义向量进行相似度计算,得到每个待识别深度语义向量对应的语义匹配分数,然后针对每个待识别通道,基于其通道的所有待识别深度语义向量对应的语义匹配分数,计算该通道对应的角色匹配分数,比如取平均或是取排名前几的平均等。然后将分值高的通道确定为客服通道,即角色为客服角色。
95.因此,通过计算语义匹配分数以及角色匹配分数,直接判断角色,过程简单且不易出错。
96.可选地,采用相似度计算语义匹配分数,并且取平均值,保证计算的准确度。具体地,计算所述待识别深度语义向量与所述客服话术库中每个目标深度语义向量的语义匹配分数,可以通过以下步骤实现:
97.步骤e1、计算所述待识别深度语义向量与所述客服话术库中每个目标深度语义向量的余弦相似度。
98.步骤e2、从各个余弦相似度中获取第一预设数目个目标余弦相似度,并计算所述第一预设数目个目标余弦相似度的平均值。
99.其中,所述预设数目个目标余弦相似度的平均值为所述语义匹配分数。
100.可选地,根据每个所述待识别深度语义向量对应的语义匹配分数,确定所述待识别通道对应的角色匹配分数,可以通过以下步骤实现:
101.步骤e3、根据每个所述待识别深度语义向量对应的所述语义匹配分数,获取第二预设数目个目标语义匹配分数,并计算所述第二预设数目个目标语义匹配分数的平均值;
102.步骤e4、所述第二预设数目个目标语义匹配分数的平均值为所述待识别通道对应的角色匹配分数;
103.可选地,根据各个所述待识别通道对应的角色匹配分数,确定各个所述待识别通道对应的角色,可以通过以下步骤实现:
104.步骤e5、对各个所述待识别通道对应的角色匹配分数进行比较,将角色匹配分数最高的作为客服角色。
105.具体地,通过取预设数目个待识别深度语义向量对应的所述语义匹配分数,并且取平均值,然后比较各个通道对应的平均值大小,大的则为客服角色。由于客服话术库是属于客服角色的,分值越高的说明与该库内容更接近,因此,属于客服角色。通过简单的计算,实现角色识别。
106.示例性地,给定客服话术库m、待识别通道p和q,p={p1,p2,

,pn}和q={q1,q2,

,qm}分别有n和m句文本组成。目标是通过分析p和q中的句子,识别p和q分别属于哪个角色。第一步,运用预训练语言模型生成p和q中每句话的深度语义向量,然后与客服话术库m中每个句子的深度语义向量计算余弦相似度,以p通道为例,记为s《pi,j》=cosine(pi,mj)。第二步,对pi的第一预设数目个目标语义匹配分数(比如对pi的top 10(分数排名前10)匹配分数)求平均,作为pi句子的得分,同理可得q通道每个句子的语义匹配得分即语义匹配分数;第三步,对p通道第二预设数目个目标语义匹配分数(比如对p通道top 10匹配分数)求平均,作为p通道的最终得分,同理可得q通道的最终得分;第四步,比较p和q的得分,匹配得分高的为客服,得分低的为客户。基于该角色识别结果,取所有的客服文本加入m中,重新执行客服话术库的迭代优化。
107.结合图4所示,将标注的客服话术输入到预训练语言模型中,生成客服文本的深度语言向量,然后通过对所有深度语音向量进行聚类并过滤小簇,生成客服话术库(或客服话术语义向量库),针对获取到的待分类文本(即识别通道的待识别文本),与客服话术库中每个句子的深度语义向量进行匹配,计算匹配分数,进而判断出哪个通道属于客服通道,并将该新话术定时更新到上一次生成的客服话术库中(比如,原始客服语料)。
108.本发明引入预训练语言模型到角色识别中,极大地提高了算法的语义建模能力。同时,采用语义匹配框架,增强了模型的容错能力。通过自动迭代更新的客服话术,能够将最新的业务话术自动更新到识别系统(比如信息处理设备)中,很大程度地减少了业务人员手动更新规则的工作量。
109.图5为本发明实施例提供的一种信息处理装置的结构示意图。如图5所示,所述信息处理装置可以包括:
110.获取模块501,用于获取历史录音数据中所属客服角色的客服文本;
111.第一处理模块502,用于根据所述客服文本,通过预训练语言模型,确定所述客服文本对应的目标深度语义向量;
112.第二处理模块503,用于根据所述目标深度语义向量,从所述客服文本中查找所述目标深度语义向量对应的目标客服文本,并将所述目标客服文本以及所述目标深度语义向量构成客服话术库;
113.第三处理模块504,用于将获取到的新的客服文本添加至所述客服话术库中,用以更新客服话术库;
114.其中,所述客服话术库用于支持角色匹配,用以为语音质检提供依据。
115.可选地,所述第一处理模块,包括第一处理单元和第二处理单元;所述第一处理单元,用于将所述客服文本输入到所述预训练语言模型中,生成所述客服文本中每句话的第一深度语义向量;第二处理单元,用于对各个所述第一深度语义向量进行聚类,确定所述目标深度语义向量。
116.可选地,所述第二处理单元,具体用于:
117.对各个所述第一深度语义向量进行聚类,得到多个簇,每个簇中包含至少一个第一深度语义向量;
118.根据每个簇中第一深度语义向量的数量,对所述多个簇进行过滤,得到至少一个目标簇;
119.将所述至少一个目标簇中的第一深度语义向量作为目标深度语义向量。
120.可选地,获取模块,还用于:获取待识别录音数据中的各个待识别通道,每个待识别通道包括至少一个待识别文本;
121.第四处理模块包括第三处理单元和第四处理单元,
122.第三处理单元,用于通过所述预训练语言模型,根据每个待识别通道中的各个所述待识别文本以及所述客服话术库中每个目标深度语义向量,确定各个所述待识别通道对应的角色,所述角色至少包括客服角色和客户角色;
123.第四处理单元,用于将角色为客服角色的通道中文本添加至所述客服话术库中,并通过聚类以及过滤处理,用以更新客服话术库;其中,所述角色为客服角色的通道中文本为所述新的客服文本
124.可选地,第三处理单元,具体用于:
125.针对每个待识别通道,执行下述步骤:根据各个所述待识别文本,通过所述预训练语言模型,确定各个所述待识别文本对应的待识别深度语义向量;针对每个所述待识别深度语义向量,计算所述待识别深度语义向量与所述客服话术库中每个目标深度语义向量的语义匹配分数;根据每个所述待识别深度语义向量对应的语义匹配分数,确定所述待识别通道对应的角色匹配分数;
126.根据各个所述待识别通道对应的角色匹配分数,确定各个所述待识别通道对应的角色。
127.可选地,第三处理单元,具体用于:
128.计算所述待识别深度语义向量与所述客服话术库中每个目标深度语义向量的余弦相似度;
129.从各个余弦相似度中获取第一预设数目个目标余弦相似度,并计算所述第一预设数目个目标余弦相似度的平均值;
130.其中,所述预设数目个目标余弦相似度的平均值为所述语义匹配分数。
131.可选地,第三处理单元,具体用于:
132.根据每个所述待识别深度语义向量对应的所述语义匹配分数,获取第二预设数目个目标语义匹配分数,并计算所述第二预设数目个目标语义匹配分数的平均值;
133.所述第二预设数目个目标语义匹配分数的平均值为所述待识别通道对应的角色匹配分数;
134.相应的,第三处理单元,还具体用于:
135.对各个所述待识别通道对应的角色匹配分数进行比较,将角色匹配分数最高的作为客服角色。
136.前述任一实施例提供的信息处理装置,用于执行前述任一方法实施例的技术方案,其实现原理和技术效果类似,在此不再赘述。
137.图6为本发明实施例提供的一种信息处理设备的结构示意图。如图6所示,所述设备可以包括:存储器601、处理器602及存储在所述存储器601上并可在所述处理器602上运行的信息处理程序,所述信息处理程序被所述处理器602执行时实现如前述任一实施例所述的信息处理方法的步骤。
138.可选地,存储器601既可以是独立的,也可以跟处理器602集成在一起。
139.本实施例提供的设备的实现原理和技术效果可以参见前述各实施例,此处不再赘述。
140.本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息处理程序,所述信息处理程序被处理器执行时实现如前述任一实施例所述的信息处理方法的步骤。
141.本发明实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现前述任一实施例所述的方法。
142.在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者
可以集成到另一个系统,或一些特征可以忽略,或不执行。
143.上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本发明各个实施例所述方法的部分步骤。
144.应理解,上述处理器可以是中央处理单元(central processing unit,简称cpu),还可以是其它通用处理器、数字信号处理器(digital signal processor,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
145.存储器可能包含高速ram存储器,也可能还包括非易失性存储nvm,例如至少一个磁盘存储器,还可以为u盘、移动硬盘、只读存储器、磁盘或光盘等。
146.上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
147.一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(application specific integrated circuits,简称asic)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
148.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
149.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
150.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
151.以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1