一种基于NLP与热点词元分析的用电诉求辨析方法和系统与流程

文档序号:35699642发布日期:2023-10-11 23:07阅读:34来源:国知局
一种基于NLP与热点词元分析的用电诉求辨析方法和系统与流程

本发明属于电力工单数据意图识别,涉及一种基于nlp(自然语言处理)与热点词元分析的用电诉求辨析方法和系统。


背景技术:

1、目前,多意图识别领域的人工智能模型在现实世界的应用越来越广泛,为了达到更好的识别和预测效果,工程师们常常会组合运用多个实现原理不同的ai模型,来完成超高难度识别和预测工作。虽然现如今对单个ai模型的研究较为完善,但是对于多模型组合后的ai应用的整体效果至今还没有一个很好的评估方案和评估指标以全面、公平、客观地反映其识别和预测效果。

2、供电服务指挥中心在服务过程中收到的非抢修类诉求工单很多,由客服中心标记的工单类型为7大类、272小类,对用户用电诉求进行了初步分类。但是,以南京为例,从南京体量来看,数以百万计的用户,其用电环境和用电诉求五花八门;同时由于用户中有大量的老年人,在填写工单时经常会添加情感因素导致工单口语化严重,另外还存在由于填写人员疏忽导致工单上出现错别字的情况,导致工单意图无法被识别的问题。仅仅依靠客服中心的初步分辨来处理业务显然达不到精细化管理的要求。此外,由客服中心标记为客户侧用电需求配合的工单占总数的一半以上,此类工单多半由于用户诉求表达不清或尚无明确分类匹配而产生,对工单精细化处理的影响较大。


技术实现思路

1、为解决现有技术中存在的不足,本发明提供一种基于nlp与热点词元分析的用电诉求辨析方法和系统。

2、本发明采用如下的技术方案。

3、一种基于nlp与热点词元分析的用电诉求辨析方法,包括以下步骤:

4、s101、基于nlp提取用户用电诉求工单上的文字并对文字进行语义识别;

5、s102、通过上下文语义对工单上的文字进行基础词元的分割,将分割得到的基础词元与专业词元数据库中专业词元进行对比,合并专业基础词元;

6、s103、筛选基础词元中的热点词元,将筛选得到的热点词元与数据库中的多维热点词元进行相关度对比,得出若干关键词;

7、s104、将关键词按照不同语序拼接得到若干关键词拼接句,将关键词拼接句与诉求分类库中的诉求数据进行关联度计算,将关联度最高的诉求分类库中的诉求作为用电诉求辨析结果。

8、优选地,s103中,对基础词元中属于或意思表示热点词元的词元进行筛选,其中,热点词元根据本领域专家经验预选定。

9、优选地,s103中,所述数据库包括方言词汇数据库、词汇拼音数据库和热点词汇数据库;

10、所述方言词汇数据库,用于对本地区中含有热点词汇的方言词汇数据进行提取储存;

11、所述热点词汇数据库,用于将普通话中对于诉求的热点词汇数据进行提取储存;

12、所述词汇拼音数据库,用于对热点词汇数据的拼音相近词汇数据进行提取储存。

13、优选地,s103中,将筛选得到的热点词元与数据库中的多维热点词元进行相关度对比,得出若干关键词,具体包括:

14、1)将方言词汇数据库、热点词汇数据库和词汇拼音数据库在维度向量上进行组合,得到多维热点词元组合集合:

15、fn4=n(xk1,xk1(cks),xk1(okm))

16、其中,n为热点词元组合维度值;

17、xk1为热点词汇数据库中诉求的第k项热点词汇数据的普通话表示;

18、xk1(cks))表示词汇拼音数据库中诉求的第k项热点词汇数据的普通话表示拼音一样的s种相近词汇;

19、xk1(okm)表示方言词汇数据库方言词汇中用于表示第k项热点词汇的m种形式;

20、2)热点词元集合中依次提取单个词元,与多维热点词元组合集合中的单个维度向量之间进行单个词元相关度计算;

21、3)将求的单个词元相关度与相关度阈值对比,若单个词元相关度小于相关度阈值,则对应词元不设置为关键词,否则取最大相关值对应的集合(xk1,xk1(cks),xk1(okm))中的词元xk1作为关键词,依次代入热点词元组合集合中的元素和热点词元集合中的元素,得到若干个关键词。

22、优选地,单个词元相关度ixgd计算公式为:

23、

24、其中,ai为第i个词元在热点词元集合中出现的频率,值取1;

25、bi为第i个词元在多维热点词元组合集合(xk1,xk1(cks),xk1(okm))中出现的频率,n为词元数量。

26、优选地,s104中,所述诉求分类库储存以往用户得到处理的诉求工单数据;所述以往用户得到处理的诉求工单数据是指通过搜集用户诉求工单作为诉求分类库的原档案,提取其受理内容的自然文本段落,利用nlp自然语言进行词法、语法辨析,进而聚类得到的诉求关键词。

27、优选地,s104具体包括:

28、a)将若干个关键词拼接句导入,得到关键词拼接句集合并导入诉求分类库中的诉求数据向量集合;

29、b)将关键词拼接句集合和诉求数据向量集合二者中的单一向量逐一代入关联度计算公式计算二者中的单一向量之间的关联度;

30、c)将关联度降序排列,找出最大的关联度对应的诉求分类库中的单项诉求数据,即为用电诉求,完成诉求辨析。

31、优选地,单一向量之间的关联度计算公式为:

32、

33、其中,ai为第i个关键词在关键词拼接句集合中出现的频率;

34、bj为第j个关键词在诉求分类库中的单项诉求中诉求关键词中出现的频率。

35、一种基于nlp与热点词元分析的用电诉求辨析系统,包括诉求提取模块、文字识别模块,词元分割模块、词元识别模块、关键词提取模块、关键词拼接模块、数据库模块和诉求意图辨析模块;

36、所述诉求提取模块,用于对用户诉求工单上的文字进行提取,得到文字集合;

37、所述文字识别模块,用于对诉求工单上的文字进行含义识别并导入至词元分割模块中;

38、所述词元分割模块,用于根据上下文语义对工单上的文字进行基础词元的分割,得到基础词元集合;

39、所述词元识别模块,用于通过上下文语义对工单上的文字进行基础词元的分割,将分割得到的基础词元与专业词元数据库中专业词元进行对比,合并专业基础词元;

40、所述关键词提取模块,用于对基础词元中属于或意思表示热点词元的词元进行筛选,调取词元对比模块和相关度计算模块对筛选得到的热点词元,与数据库中的热点词汇进行相关度对比,得出其中若干个关键词;其中,热点词元根据本领域专家经验预选定。

41、所述关键词拼接模块,用于将关键词和不设为关键词的词元按照不同语序拼接,得到若干个关键词拼接句;

42、所述诉求意图辨析模块,用于调取关联度计算模块对关键词拼接句与诉求分类库中的诉求数据进行关联度计算,得到关联度并降序排列,以对诉求意图进行辨析;

43、所述数据库模块,用于对以往诉求数据、与热点词汇相关的方言词汇数据、词汇拼音数据和热点词汇数据进行分类储存。

44、优选地,所述数据库模块包括诉求分类库、方言词汇数据库、词汇拼音数据库和热点词汇数据库;

45、所述诉求分类库,用于储存以往用户得到处理的诉求工单数据;

46、所述以往用户得到处理的诉求工单数据是指通过搜集用户诉求工单作为诉求分类库的原档案,提取其受理内容的自然文本段落,利用nlp自然语言进行词法、语法辨析,进而聚类得到的诉求关键词;

47、所述方言词汇数据库,用于对本地区中含有热点词汇的方言词汇数据进行提取储存;

48、所述热点词汇数据库,用于将普通话中对于诉求的热点词汇数据进行提取储存;

49、所述词汇拼音数据库,用于对热点词汇数据的拼音相近词汇数据进行提取储存。

50、优选地,所述关键词提取单元的输入端连接词元对比模块,所述词元对比模块中包含相关度计算模块;

51、所述词元对比模块,用于将筛选得到的热点词元与数据库模块的词汇数据对比,并采用相关度计算模块进行相关度计算;

52、所述相关度计算模块中包含相关度计算策略,所述相关度计算策略包括:

53、1)将方言词汇数据库、热点词汇数据库和词汇拼音数据库在维度向量上进行组合,得到多维热点词元组合集合:

54、fn4=n(xk1,xk1(cks),xk1(okm))

55、其中,n为热点词元组合维度值;

56、2)热点词元集合中依次提取单个词元,与多维热点词元组合集合中的单个维度向量之间进行单个词元相关度计算;

57、单个词元相关度ixgd计算公式为:

58、

59、其中,ai为第i个词元在热点词元集合中出现的频率,值取1;

60、bi为第i个词元在多维热点词元组合集合(xk1,xk1(cks),xk1(okm))中出现的频率;

61、3)将求的单个词元相关度与相关度阈值对比,若单个词元相关度小于相关度阈值,则对应词元不设置为关键词,否则取最大相关值对应的集合(xk1,xk1(cks),xk1(okm))中的词元xk1作为关键词,依次代入热点词元组合集合中的元素和热点词元集合中的元素,得到若干个关键词。

62、优选地,所述诉求意图辨析模块中包括关联度计算模块,所述关联度计算模块用于计算诉求分类库中的诉求分类与关键词拼接句的关联度,从而找到对应的诉求,实现诉求意图辨析;

63、所述关联度计算模块中包括关联度计算策略,所述关联度计算策略包括:

64、a)将若干个关键词拼接句导入,得到关键词拼接句集合并导入诉求分类库中的诉求数据向量集合;

65、b)将关键词拼接句集合和诉求数据向量集合二者中的单一向量逐一代入关联度计算公式计算二者中的单一向量之间的关联度,单一向量之间的关联度计算公式为:

66、

67、其中,ai为第i个关键词在关键词拼接句集合中出现的频率;

68、bj为第j个关键词在诉求分类库中的单项诉求中诉求关键词中出现的频率;

69、c)将关联度降序排列,找出最大的关联度对应的诉求分类库中的单项诉求数据,即为用电诉求,完成诉求辨析。

70、本发明的有益效果在于,与现有技术相比:

71、1)搜集用户诉求工单作为诉求分类库的原档案,提取其受理内容的自然文本段落,利用nlp自然语言词法、语法辨析,聚类诉求较多的关键词,基于此可以快速实现用电诉求辨析,将工单下发至对应处理部门或人员,减少因界定不清晰造成的工单退回,有针对性地服务于用电用户,做到快速定位问题、处理问题、解决问题,积极响应,降低用户因情感因素造成的投诉风险;

72、2)考虑到语言不统一的地区,含由方言和同音字错误导致无法识别的词元,通过相关度计算单元将方言词汇数据库、热点词汇数据库和词汇拼音数据库与词元对比,计算词元与热点词汇的相关度,进行相关度排列,得出方言和同音字中隐含热点词汇的元素,以进一步提升对用户诉求的分析效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1