一种基于时延神经网络的电力客服语音识别方法及装置与流程

文档序号：33176848发布日期：2023-02-04 03:52阅读：85来源：国知局

技术简介：
本专利针对电力客服语音识别中现有技术忽略多段语音关联性及用户意图连贯性导致识别误差的问题，提出基于时延神经网络（TDNN）的解决方案。通过TDNN建模语音时序关联，结合预处理、音素提取、Tri-gram语言模型及问答库匹配，提升识别准确率和客服响应效率，实现智能化服务。
关键词：时延神经网络,电力客服语音识别

1.本发明涉及语音识别技术领域，尤其涉及一种基于时延神经网络的电力客服语音识别方法及装置。

背景技术：

2.电网营销业务应答服务包括用电查询、停电公告、网点查询、用电知识、用电业务办理须知、故障咨询等，在实际业务实践中这是一项工作量非常庞大且繁琐的业务服务，全以人工的方式来解决，难以做到及时处理，影响客户体验感。随着创新经济的飞速发展及国网电力体制的不断改革，稳步推进数字化转型进程中，电网公司的核心价值已从“关注电力生产”向“关注客户服务”转变。因此，电网总部和省测公司迫切需求开启“自助 + 人工”客服语音服务的新模式。据统计分析，针对占客服热线业务量 70％以上的用户自助查询办理服务，由智能语音交互模式实现是最优选择。因此，如何保障语音识别的高效性，让广大用户从习惯变成喜爱，也成为了电网客服服务攻关的重点。
3.随着人工智能技术的不断发展，如今语音不仅仅是人类之间沟通的手段，也是人机之间交互的重要桥梁。近年来，语音识别技术飞速发展，己经逐渐应用到各个领域中。特别是深度神经网络的兴起，基于神经网络的声学识别模型在性能上得到显著提高。因此，电网公司需深度学习人机交互的新模式，降低人工成本，实现客服服务的智能化和服务质量的持续优化，从而有效提高客服满意度。
4.对现有技术的缺点及其原因进行分析：方案一：申请号为202011122770.5的发明授权专利，一种基于语音识别的智能客服交互系统，涉及客服交互系统技术领域，所述方法包括：本发明具体为一种基于语音识别的智能客服交互系统，包括：语音输入模块，所述语音输入模块用于接收对方语音并输入到交互系统中；语音识别模块，所述语音输入模块的输出端与语音识别模块连接，所述语音识别模块对语音输入模块输出的语音识别，并将其翻译为电信号；通过语音输入模块、语音识别模块的配合作用，能够对语音接听和识别作用，通过智能ai处理器对识别的语音进行表达内容分析，从而得到客户想要获取的信息；通过语音录入模块、输入设定模块的配合作用，能够对语音及时修正，且人工输入的语音真实感较强；减少人工的使用，能够连续性交互，客户体验效果较好。方案一的基于语音识别的智能客服方法，针对单段语音的识别进行消除环境噪声对语音的影响，但未考虑同一会话语音信号的长时相关性，即未对多段语音表达的关联性进行建模，难以避免降低语音识别效果。
5.方案二：申请号为202010565263.2的发明授权专利，一种针对智能客服通话的语音识别系统，涉及智能语音客服技术领域，所述方法包括：本发明是一种针对智能客服通话的语音识别系统，包括，语音处理模块，其用于通话语音的预处理；特征识别模块，其根据所述语音处理模块所获得的特征数据对用户的性别及年龄进行识别；语义分析模块，其用于将通话语音转换成文字信息并对用户每段语句的内容进行理解；情绪识别模块，其用于获取所述语音处理模块及所述语义分析模块的数据，并通过情感分类模型集分析出用户当前
情绪状态的信息；策略平台，其用于与ai客服的对接，使ai客服根据用户的性别、年龄、情绪及通话信息提供对应的应对策略。本发明提能够根据用户的特征提供人性化的作答方式，在减少人工客服投入的情况下保证用户的满意度。方案二的针对智能客服通话的语音识别方法，针对单段语音的识别，增加用户个人信息与情绪的因素，但同样未考虑同一会话语音信号的长时相关性，即未对多段语音表达的关联性进行建模，未引入用户意图的连贯性因素，容易出现识别错误。
6.以上两个方案均存在未考虑同一会话语音信号的长时相关性，即未对多段语音表达的关联性进行建模，未引入用户意图的连贯性因素，容易出现识别错误。
7.

技术实现要素：

8.有鉴于此，本发明的目的是提供一种基于时延神经网络的电力客服语音识别方法及装置，考虑同一会话语音信号的长时相关性，对多段语音表达的关联性进行建模，从而引入用户意图的连贯性因素，提升语音识别的准确性。
9.本发明采用以下方案实现：一种基于时延神经网络的电力客服语音识别方法，包括以下步骤：步骤s1：语音预处理：先由客户发起电话连线并接入客户语音，然后利用kaldi工具对客户语音进行预处理；步骤s2：音素提取：在语音预处理基础上，基于时延神经网络tdnn的声学模型，获得多段语音间的影响因子和关联特征，从而更好的识别出多段语音的音素；步骤s3: 语音转文本：利用声学模型提取的音素组合，结合电网发音字典和tri-gram语言模型，将声学模型识别的音素转化成最优的文本序列，解决电网专有词汇和同音字词问题，进行音文转换，实现语音识别；步骤s4：回复客服咨询：依据语言模型获得语音的文本信息，利用tf-idf算法计算同电网客服问答库中各咨询语句的相似度距离，获得最相似咨询语句对应的答案，并及时回复客户的咨询。
10.进一步地，所述步骤s1中的预处理具体包括：对语音信号的预加重、分帧、加窗以及端点检测进行预处理操作，消除语音采集设备的噪声、信号失真、高频因素对语音信号的影响，并利用kaldi工具对语音进行快速傅立叶变换、mel滤波器操作，提取fbank特征，作为声学模型的输入数据，输入基于时延神经网络tdnn的声学模型。
11.进一步地，所述步骤s2中，基于时延神经网络tdnn的声学模型接收预处理后的数据作为输入数据，声学模型的深层网络获得广泛的时间域上的特征信息，接收当前语音特征和前后若干语音段的语音特征，对多段语音表达的关联性进行建模，引入用户意图的连贯性表达特征，为后续的语言模型提供更合理的音素组合。
12.进一步地，所述步骤s3中，假设句子s由词序列w1，w2,...wn组成，则句子s的概率通过所述tri-gram语言模型获得；tri-gram语言模型具体为：p(wn|w
n-1 w
n-2
)=c(w
n-2wn-1
wn)/c(w
n-2wn-1
)其中，c(wn)为词wn出现的频数。
13.进一步地，所述步骤s5还包括，将答案反馈给客户之后，判断客户是否满意，若客
户不满意，建议客户再次表述或者转人工服为客户进行服务。
14.本发明还采用以下方案实现：一种基于时延神经网络的电力客服语音识别装置，包括：语音预处理模块，用于先由客户发起电话连线并接入客户语音，然后利用kaldi工具对客户语音进行预处理；音素提取模块，用于在语音预处理基础上，基于时延神经网络tdnn的声学模型，获得多段语音间的影响因子和关联特征，从而更好的识别出多段语音的音素；语音转文本模块，用于利用声学模型提取的音素组合，结合电网发音字典和tri-gram语言模型，将声学模型识别的音素转化成最优的文本序列，解决电网专有词汇和同音字词问题，进行音文转换，实现语音识别；回复客服咨询模块，用于依据语言模型获得语音的文本信息，利用tf-idf算法计算同电网客服问答库中各咨询语句的相似度距离，获得最相似咨询语句对应的答案，并及时回复客户的咨询。
15.进一步地，所述语音预处理模块中的预处理具体包括：对语音信号的预加重、分帧、加窗以及端点检测进行预处理操作，消除语音采集设备的噪声、信号失真、高频因素对语音信号的影响，并利用kaldi工具对语音进行快速傅立叶变换、mel滤波器操作，提取fbank特征，作为声学模型的输入数据，输入基于时延神经网络tdnn的声学模型。
16.进一步地，所述音素提取模块中，基于时延神经网络tdnn的声学模型接收预处理后的数据作为输入数据，声学模型的深层网络获得广泛的时间域上的特征信息，接收当前语音特征和前后若干语音段的语音特征，对多段语音表达的关联性进行建模，引入用户意图的连贯性表达特征，为后续的语言模型提供更合理的音素组合。
17.进一步地，所述语音转文本模块中，假设句子s由词序列w1，w2,...wn组成，则句子s的概率通过所述tri-gram语言模型获得；tri-gram语言模型具体为：p(wn|w
n-1 w
n-2
)=c(w
n-2wn-1
wn)/c(w
n-2wn-1
)其中，c(wn)为词wn出现的频数。
18.进一步地，所述回复客服咨询模块中，将答案反馈给客户之后，判断客户是否满意，若客户不满意，建议客户再次表述或者转人工服为客户进行服务。
19.相较于现有技术，本发明的优点在于：一种基于时延神经网络的电力客服语音识别方法及装置，结合语音预处理、声学模型、语言模型以及电网发音字典与客服问答库，利用kaldi工具构建出电网客服语音解码器，解码方式采用基于wfst算法的静态解码网络，将多段语音转化文本，让机器理解用户连贯意图，并通过对照电网客服问答库，及时回复客户的咨询。其中，首先利用kaldi工具对语音信号进行降噪预处理，并提取语音fbank特征；然后，基于时延神经网络tdnn的声学模型，获得多断语音间的影响因子和关联特征，从而更好的识别出多段语音的音素；接着通过tri-gram语言模型，结合电网发音字典，将声学模型识别的音素转化成最优的文本序列，完成语音识别任务。最后，通过对照电网客服问答库，及时回复客户的咨询，或未在问答库中找到答案，建议客户转人工服务。
20.附图说明
21.图1为本发明的方法流程示意图。
22.具体实施方式
23.下面结合附图及实施例对本发明做进一步说明。
24.如图1所示，本实施例提供一种基于时延神经网络的电力客服语音识别方法，包括以下步骤：步骤s1：语音预处理：先由客户发起电话连线并接入客户语音，然后利用kaldi工具对客户语音进行预处理；步骤s2：音素提取：在语音预处理基础上，基于时延神经网络tdnn的声学模型，获得多段语音间的影响因子和关联特征，从而更好的识别出多段语音的音素；步骤s3: 语音转文本：利用声学模型提取的音素组合，结合电网发音字典和tri-gram语言模型，将声学模型识别的音素转化成最优的文本序列，解决电网专有词汇和同音字词问题，进行音文转换，实现语音识别；步骤s4：回复客服咨询：依据语言模型获得语音的文本信息，利用tf-idf算法计算同电网客服问答库中各咨询语句的相似度距离，获得最相似咨询语句对应的答案，并及时回复客户的咨询。
25.在本实施例中，所述步骤s1中的预处理具体包括：对语音信号的预加重、分帧、加窗以及端点检测进行预处理操作，消除语音采集设备的噪声、信号失真、高频因素对语音信号的影响，并利用kaldi工具对语音进行快速傅立叶变换、mel滤波器操作，提取fbank特征，作为声学模型的输入数据，输入基于时延神经网络tdnn的声学模型。
26.在本实施例中，所述步骤s2中，基于时延神经网络tdnn的声学模型接收预处理后的数据作为输入数据，声学模型的深层网络获得广泛的时间域上的特征信息，接收当前语音特征和前后若干语音段的语音特征，对多段语音表达的关联性进行建模，引入用户意图的连贯性表达特征，为后续的语言模型提供更合理的音素组合。
27.在本实施例中，所述步骤s3中，假设句子s由词序列w1，w2,...wn组成，则句子s的概率通过所述tri-gram语言模型获得；tri-gram语言模型具体为：p(wn|w
n-1 w
n-2
)=c(w
n-2wn-1
wn)/c(w
n-2wn-1
)其中，c(wn)为词wn出现的频数。
28.在本实施例中，所述步骤s5还包括，将答案反馈给客户之后，判断客户是否满意，若客户不满意，建议客户再次表述或者转人工服为客户进行服务。
29.本实施例还提供一种基于时延神经网络的电力客服语音识别装置，包括：语音预处理模块，用于先由客户发起电话连线并接入客户语音，然后利用kaldi工具对客户语音进行预处理；音素提取模块，用于在语音预处理基础上，基于时延神经网络tdnn的声学模型，获得多段语音间的影响因子和关联特征，从而更好的识别出多段语音的音素；语音转文本模块，用于利用声学模型提取的音素组合，结合电网发音字典和tri-gram语言模型，将声学模型识别的音素转化成最优的文本序列，解决电网专有词汇和同音字词问题，进行音文转换，实现语音识别；
回复客服咨询模块，用于依据语言模型获得语音的文本信息，利用tf-idf算法计算同电网客服问答库中各咨询语句的相似度距离，获得最相似咨询语句对应的答案，并及时回复客户的咨询。
30.在本实施例中，所述语音预处理模块中的预处理具体包括：对语音信号的预加重、分帧、加窗以及端点检测进行预处理操作，消除语音采集设备的噪声、信号失真、高频因素对语音信号的影响，并利用kaldi工具对语音进行快速傅立叶变换、mel滤波器操作，提取fbank特征，作为声学模型的输入数据，输入基于时延神经网络tdnn的声学模型。
31.在本实施例中，所述音素提取模块中，基于时延神经网络tdnn的声学模型接收预处理后的数据作为输入数据，声学模型的深层网络获得广泛的时间域上的特征信息，接收当前语音特征和前后若干语音段的语音特征，对多段语音表达的关联性进行建模，引入用户意图的连贯性表达特征，为后续的语言模型提供更合理的音素组合。
32.在本实施例中，所述语音转文本模块中，假设句子s由词序列w1，w2,...wn组成，则句子s的概率通过所述tri-gram语言模型获得；tri-gram语言模型具体为：p(wn|w
n-1 w
n-2
)=c(w
n-2wn-1
wn)/c(w
n-2wn-1
)其中，c(wn)为词wn出现的频数。
33.在本实施例中，所述回复客服咨询模块中，将答案反馈给客户之后，判断客户是否满意，若客户不满意，建议客户再次表述或者转人工服为客户进行服务。
34.在本实施例中，一种基于时延神经网络的电力客服语音识别方法及装置，结合语音预处理、基于时延神经网络的声学模型、基于tri-gram的语言模型以及电网发音字典与客服问答库，利用kaldi工具构建出电网客服语音解码器，将多段语音转化文本，让机器理解用户连贯意图，及时且高准确的回复客户的咨询。对比已有方案具有以下优势，考虑同一会话语音信号的长时相关性，对多段语音表达的关联性进行建模，从而引入用户意图的连贯性因素，提升语音识别的准确性。
35.尽管上面结合附图对本发明的优选实例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，并不是局限性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可以作出很多形式，这些均属于本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨霞苟亮郑略省马倩王涛郭江涛迪力尼亚
技术所有人：福建亿榕信息技术有限公司
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！