一种面向电力业务场景的多意图识别方法及系统与流程

文档序号:34588625发布日期:2023-06-28 16:08阅读:84来源:国知局
一种面向电力业务场景的多意图识别方法及系统与流程

本发明涉及自然语言处理领域,涉及一种面向电力业务场景的多意图识别方法及系统。


背景技术:

1、目前,人机对话已经在多个领域广泛使用,人机对话是将运行情况及时地输出显示,供操作人员观察和了解。人通过输入装置(如键盘、麦克风)对计算机输入各种命令或数据,对计算机进行干预和控制的过程。

2、为了便于人机对话,计算机操作系统设置了对话功能,操作人员通过各种命令与计算机“对话”;一些高级语言也具有很好的“会话”功能,如ba-sic语言就是一种会话型算法语言。用户可以编制的应用软件,实现会话功能,还可以通过菜单引导如何操作。比如任务型对话系统逐渐被广泛应用于各行各业,例如预订机票,酒店和餐馆等。

3、而电力业务对话机器人就属于任务型对话系统在电力领域的典型应用,能帮助用户便捷处理复杂任务,减轻人工负担。因此,如何准确理解用户问题和意图是面向复杂业务场景下人机对话系统所要解决的问题。

4、在电力业务场景中,目前人机对话系统大多需通过结合领域知识图谱来提高专业领域问题的识别精度,然而用户经常需要在不同的电力专业领域及日常的办公领域切换,所以结合领域知识图谱的意图识别模型存在识别效率低等问题。而且,电力业务场景中,对话机器人设置在各个使用区域,对话机器人具有大量用户相关数据,而在与服务器进行通信时,容易造成数据泄露,影响电力数据的安全性,而在对话机器人本地完成人机对话,又不足以支撑模型训练,难以实现人机对话的需求。


技术实现思路

1、本发明提供一种面向电力业务场景的多意图识别方法,方法构建意图识别模型,利用两者在语义和逻辑关系提升模型性能,并且用户输入信息通过专业术语分词库完成词语分割,再通过联合模型完成用户意图识别及语义槽填充,可以提升通用场景和电力专业领域混合场景的多意图识别精度。

2、面向电力业务场景的多意图识别方法包括:

3、s1:基于电力术语,建立自定义词典,形成对话语料库;

4、s2:获取用户输入的信息,对用户输入的信息进行词语分割,提取输入信息中的词语,并用预设字符进行分隔;

5、s3:从分割后的词语中提取文本特征,并在每个句子末端添加分类token特征向量;

6、s4:构建transformer联合模型,对句子进行编码,通过crf模型在transformer联合模型输出序列上标记一个与编码对应的层来预测实体;

7、s5:将transformer联合模型输出的分类token特征向量与意图标签表示的语义向量空间,进行相似度比较,得到基于电力业务场景的用户意图信息。

8、进一步需要说明的是,步骤s2中通过jieba算法对用户输入的信息进行词语分割,并对词频进行统计;

9、预设字符采用空格,或采用字母,或采用运算符。

10、进一步需要说明的是,步骤s3中,对文本特征提取后,返回序列特征矩阵;

11、序列特征矩阵包含:句子中的token特征向量。

12、进一步需要说明的是,方法还包括:对每个token特征向量进行稀疏或稠密特征处理,处理后输入至全连接层;

13、其中,稠密特征处理表示使用bert预训练模型处理;

14、稀疏特征处理采取skip-gram模型处理。

15、进一步需要说明的是,步骤s5使用点积损失最大化与目标标签进行相似度比较,以及使用点积损失最小化与负样本进行相似度比较,具体如下述公式:

16、

17、其中分别为目标标签的相似度和负样本的相似度,为一组负样本。

18、进一步需要说明的是,用户输入的信息包括:语音、图片及文字信息,其中,图片转文字采用crnn神经网络模型、或ctpn神经网络模型、或layoutxlm神经网络模型进行多模态特征信息提取;

19、多模态特征信息提取同时引入了符合阅读顺序的文本行排序方法以及udml联合互学习蒸馏方法,识别电力业务场景信息。

20、进一步需要说明的是,得到的基于电力业务场景的用户意图信息包括:意图、实体字段及词槽信息;

21、其中,意图和实体字段均为列表信息,列表信息列举对话机器人需要处理的意图和实体字段,使对话机器人获悉下一步要执行的动作;

22、执行的动作包括回复消息或调用业务系统api动作。

23、本发明还提供一种面向电力业务场景的多意图识别系统,系统包括:服务器和多个对话机器人;每个对话机器人分别与服务器通信连接;

24、服务器包括:对话语料库建立模块、信息获取分割模块、特征处理模块、联合模型构建预测模块以及相似度比较模块;

25、对话语料库建立模块用于将用户日常使用的语料信息进行汇集,并建立自定义词典,形成基于电力术语的对话语料库;

26、信息获取分割模块用于基于对话机器人获取用户输入的信息,对用户输入的信息进行词语分割,提取输入信息中的词语,并用预设字符进行分隔;

27、特征处理模块用于从分割后的词语中提取文本特征,并在每个句子末端添加分类token特征向量;

28、联合模型构建预测模块用于构建transformer联合模型,对句子进行编码,通过crf模型在transformer联合模型输出序列上标记一个与编码对应的层来预测实体;

29、相似度比较模块用于将transformer联合模型输出的分类token特征向量与意图标签表示的语义向量空间,进行相似度比较,得到基于电力业务场景的用户意图信息。

30、进一步需要说明的是,对话机器人与服务器之间传输的信息进行加密传输,加密传输方式包括:

31、基于同态加密算法paillier完成本地模型参数至统一模型的传输,具体步骤如下:

32、第一步:服务器生成加密使用的公钥和私钥对;

33、随机选择2个素数p和q,p和q需长度相等,且pq,(p-1),(q-1)互质;

34、计算r=pq以及λ=lcm(p-1,q-1),

35、其中,lcm表示最小公倍数,令g=r+1;

36、,其中l(x)=(x-1)/r,得到公钥(r,q)和私钥(λ,);

37、第二步:加密并计算得到第u(1=<u<=n)个模型参数密文;

38、选择随机数s,0<=s<=r,对应的明文信息为,计算得到密文信息;

39、第三步:根据第一步和第二步得到n个模型参数密文,在密文域进行运算,得到模型参数密文。

40、进一步需要说明的是,服务器还对统一模型更新,针对传递过来的参数密文c,对统一模型进行解密,使用下述公式计算得明文:

41、。

42、从以上技术方案可以看出,本发明具有以下优点:

43、本发明提供的面向电力业务场景的多意图识别方法可以面向复杂业务场景,准确理解用户问题和多种意图,还可以解决用户在不同的电力专业领域和日常办公领域频繁切换所带来的识别效率低等问题,同时可以满足用户多意图识别需求。

44、基于本发明提供的面向电力业务场景的多意图识别系统,可以面向复杂业务场景时本方法可以准确理解用户问题和多种意图,系统还可以解决用户在不同的电力专业领域和日常办公领域频繁切换所带来的识别效率低等问题,同时可以满足用户多意图识别需求。而且本发明的系统也可以通过联邦学习训练模式所解决,各对话机器人参数使用同态加密传统算法传输,解决通信时,容易造成数据泄露,影响电力数据的安全性的问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1