一种基于产品文档的筛选式采编方法、系统及电子设备与流程

文档序号：37599266发布日期：2024-04-18 12:39阅读：11来源：国知局

本发明涉及自然语言处理领域，尤其涉及一种基于产品文档的筛选式采编方法、系统及电子设备。

背景技术：

1、随着自然语言处理技术的飞速发展，利用对话生成模型根据产品文档生成问答对可有效帮助一线客服人员总结冗长复杂的产品文档中的关键信息。大语言模型是一种语言模型，由具有许多参数(通常数十亿个权重或更多)的人工神经网络组成，使用自监督学习或半监督学习对大量未标记文本进行训练，而随着技术的发展，大语言模型在各项领域中都展现了超越以往对话模型的性能表现，特别是在缺乏标注数据的低资源情景下。

2、现有的问答对生成模型大多是使用大量人工标注的数据在生成模型上进行微调，这样往往需要大量的人工成本对数据进行标注。然而，通过标注问答的方式对训练的问答对生成模型会导致生成质量不足，并且人工标注成本十分昂贵，无法面向多数专业领域。

技术实现思路

1、为了克服现有技术中相关产品的不足，本发明提出一种基于产品文档的筛选式采编方法、系统及电子设备。

2、第一方面，本发明提供了一种基于产品文档的筛选式采编方法，包括：s100、获取产品的文档数据，对所述文档数据进行切片处理后得到相应的切片语句数据，并存储到本地知识库中；

3、s200、根据本地知识库中的每个切片语句数据，给定chatglm2模型预定义的第一提示语句，提取出相应的产品关键信息作为问答对的回答，生成产品关键信息列表；

4、s300、给定大语言模型chatglm2预定义的第二提示语句，根据产品关键信息列表使所述chatglm2模型生成每条产品关键信息对应的提问，整理得到产品关键信息列表对应的文档基本问答对；

5、s400、基于筛选模型对文档基本问答对进行筛选，筛除掉其中质量不合格的问答对，得到最终的采编文件。

6、可选的，步骤s100具体包括：

7、s101、获取产品的文档数据，所述文档数据中仅包含文本语句；

8、s102、对文档数据中的语句根据标点符号及长度进行切分得到切片语句数据，首先根据句号切分，当语句的长度超过两百时，使用逗号进行切分，若无逗号则选择进行强制切分，切分出长度为两百的切片语句数据。

9、s103、将切分后得到的切片语句数据存入本地知识库中。

10、可选的，步骤s200具体包括:

11、s201、预定义第一提示语句，作为chatglm2模型提取出相应的产品关键信息的引导规则；

12、s202、将第一提示语句与至少一个切片语句数据相结合形成序列；

13、s203、将得到的序列输入chatglm2模型，得到相应的产品关键信息作为问答对的回答；

14、s204、将本地知识库中的每个切片语句数据分别进行产品关键信息的提取，生成产品关键信息列表。

15、可选的，步骤s300具体包括：

16、s301:预定义第二提示语句，作为chatglm2模型根据相应的产品关键信息提取出对应提问的引导规则；

17、s302:将产品关键信息列表中的至少一条产品关键信息与预定义的第二提示语句进行组合，输入chatglm2模型中，得到该条产品关键信息对应的提问；

18、s303:重复s302步骤，整理得到产品关键信息列表对应的文档基本问答对。

19、可选的，步骤s400具体包括：

20、s401、选择一个切片语句数据与文档基本问答对中的一个问答对进行拼接后得到三个序列s1、s2以及s3，序列s1用于判断提问是否对应于该切片语句数据，序列s2用于判断回答是否编造，序列s3用于判断提问与回答是否匹配；

21、s402、将得到的三个序列s1、s2以及s3输入编码模型，相应得到三个编码，将其拼接后经过一层全连接层和sigmoid后得到分数；

22、s403、对该切片语句数据得到的所有问答对都进行步骤s401、s402的筛选；

23、s404、对文档数据得到的所有切片语句数据都执行步骤s403，得到最终的采编文件。

24、可选的，所述方法还包括：

25、s500、根据获取的文档基本问答对进行整理，训练筛选模型。

26、可选的，步骤s500具体包括：

27、s510、通过步骤s100-s300获得基本文档问答对；

28、s520、通过预设的筛选规则将基本文档问答对内的全部问答对进行筛选，分别得到合格问答对以及不合格问答对，其中合格问答对作为正例，不合格问答对作为负例，根据正例和负例对筛选模型进行二分类训练。

29、可选的，步骤s520具体包括：

30、s521、将得到的合格问答对作为正例，所有不合格问答对作为负例；

31、s522、将获取的正例以及负例，按照8:1:1分别划分训练集、验证集以及测试集；

32、s523、使用训练集、验证集以及测试集进行筛选模型的训练，以及对训练后的筛选模型进行评估。

33、第二方面，本发明还提供了一种基于产品文档的筛选式采编系统，应用于上述任一项所述的基于产品文档的筛选式采编方法，包括：

34、存储单元，用于获取产品的文档数据，对所述文档数据进行切片处理后得到相应的切片语句数据，并存储到本地知识库中；

35、回答提取单元，用于根据本地知识库中的每个切片语句数据，给定chatglm2模型预定义的第一提示语句，提取出相应的产品关键信息作为问答对的回答，生成产品关键信息列表；

36、提问提取单元，用于给定大语言模型chatglm2预定义的第二提示语句，根据产品关键信息列表使所述chatglm2模型生成每条产品关键信息对应的提问，整理得到产品关键信息列表对应的全部问答对；

37、采编筛选单元，用于基于筛选模型对全部问答对进行筛选，筛除掉其中质量不合格的问答对，得到最终的采编文件。

38、第三方面，本发明还提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1-8中任一项所述的方法。

39、与现有技术相比，本发明有以下优点：

40、本发明实施例所述基于产品文档的筛选式采编方法通过获取的问答对训练筛选模型，同时基于该筛选模型通过输入切片语句数据与问题的拼接，切片语句数据与回答的拼接，问题与回答的拼接，捕捉了其局部关系特征，有效的解决判断是否存在编造事实，问题无关，问答不匹配等问题，并且使用该筛选模型对生成的问答对进行判断，提高了模型生成的问答对的质量，最终得到的采编文件可以供客服人员使用。

技术特征：

1.一种基于产品文档的筛选式采编方法，其特征在于，包括：

2.根据权利要求1所述的基于产品文档的筛选式采编方法，其特征在于，步骤s100具体包括：

3.根据权利要求1所述的基于产品文档的筛选式采编方法，其特征在于，步骤s200具体包括:

4.根据权利要求1所述的基于产品文档的筛选式采编方法，其特征在于，步骤s300具体包括：

5.根据权利要求1所述的基于产品文档的筛选式采编方法，其特征在于，步骤s400具体包括：

6.据权利要求1所述的基于产品文档的筛选式采编方法，其特征在于，所述方法还包括：

7.据权利要求6所述的基于产品文档的筛选式采编方法，其特征在于，步骤s500具体包括：

8.据权利要求7所述的基于产品文档的筛选式采编方法，其特征在于，步骤s520具体包括：

9.一种基于产品文档的筛选式采编系统，应用于权利要求1-8任一项所述的基于产品文档的筛选式采编方法，其特征在于，包括：

10.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1-8中任一项所述的方法。

技术总结
本发明公开了一种基于产品文档的筛选式采编方法、系统及电子设备，该方法包括：获取产品的文档数据，对所述文档数据进行切片处理后得到相应的切片语句数据，并存储到本地知识库中；根据本地知识库中的每个切片语句数据，给定ChatGLM2模型预定义的第一提示语句，提取出相应的产品关键信息作为问答对的回答，生成产品关键信息列表；给定大语言模型ChatGLM2预定义的第二提示语句，根据产品关键信息列表使所述ChatGLM2模型生成每条产品关键信息对应的提问，整理得到产品关键信息列表对应的文档基本问答对；基于筛选模型对文档基本问答对进行筛选，得到最终的采编文件。本发明提高了模型生成的问答对的质量，最终得到的采编文件可以供客服人员使用。

技术研发人员：陶靖枞,曾祥舸,陈明
受保护的技术使用者：湖北公众信息产业有限责任公司
技术研发日：
技术公布日：2024/4/17

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陶靖枞,曾祥舸,陈明
技术所有人：湖北公众信息产业有限责任公司
我是此专利的发明人

上一篇：一种银屑病细胞模型及其构建方法和应用
上一篇：一种阻燃尼龙材料及其制备方法和应用与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。