文本数据生成方法、装置、电子设备和存储介质与流程

文档序号:36639699发布日期:2024-01-06 23:25阅读:22来源:国知局
文本数据生成方法、装置、电子设备和存储介质与流程

本发明涉及电子设备,具体而言,涉及一种文本数据生成方法、装置、电子设备和存储介质。


背景技术:

1、对非结构化文本数据进行加工处理,人工方式耗时耗力,并且容易出错。

2、相关技术中,机器学习处理需要提供大量样本进行学习训练,才能满足特定场景下结构化数据提取工作,存在数据准备和模型训练成本高,适用场景受限的缺陷。

3、因此,如何克服上述技术缺陷,成为了亟待解决的技术问题。


技术实现思路

1、本发明旨在至少解决现有技术中存在的技术问题之一。

2、为此,本发明的第一方面提出了一种文本数据生成方法。

3、本发明的第二方面提出了一种文本数据生成装置。

4、本发明的第三方面提出了一种电子设备。

5、本发明的第四方面提出了一种可读存储介质。

6、有鉴于此,本发明的第一方面提供了一种文本数据生成方法,文本数据生成方法包括:

7、获取预设文本结构信息;

8、在获取到第一文本集合的情况下,根据预设文本摘要信息、预设文本结构信息和第一文本集合,生成模型输入数据;

9、将模型输入数据输入至预设模型中,以生成目标文本数据,目标文本数据为与预设文本结构信息相匹配的结构化文本数据。

10、本技术限定了一种文本数据生成方法,该方法可以基于文本集合生成用户所需的文本数据,以满足用户的文本处理需求,为用户处理文本信息提供便利条件。

11、具体地,在生成文本数据的过程中,先获取预设文本结构信息,预设文本结构信息与用户的文本结构化需求对应,即用户所期望的文本数据结构。在获取到预设文本结构信息且获取到用户所要处理的第一文本集合的情况下,根据预设文本摘要信息、预设文本结构信息和第一文本集合生成可以录入至大模型中的模型输入数据。最终,将模型输入数据录入至预设模型中,预设模型对模型输入数据进行处理后,输出目标文本数据,该目标文本数据满足用户所期望的数据结构,即第一文本集合不具备用户期望的数据结构,在完成模型输入数据的整合和预设模型的处理后,得到满足用户期望的数据结构的结构化文本数据,即目标文本数据。

12、由此可见,本技术通过将预设文本摘要信息、预设文本结构信息和第一文本集合整合成可直接录入大模型的模型输入数据,使预设模型可以在不经过大批量文本训练的情况下直接对模型输入数据中所包含的第一文本集合进行结构化处理,以直接输出满足用户期望的结构化文本数据,实现大模型的“开箱即用”,省去样本学习训练所耗费的时间成本和金钱成本。同时,采用预设模型的通用语言处理能力处理第一文本集合,可以生成准确且符合预期的结构化数据,避免了机器学习技术抗噪能力不足和训练过拟合的问题。并且,模型输入数据的预处理具有普适性,避免了机器学习技术受限于训练样本特征、使用场景受限的问题。从而解决相关技术中所存在的数据准备和模型训练成本高,适用场景受限的技术缺陷。

13、进而实现了优化非结构化文本数据的处理效率和处理精度,降低结构化文本处理成本,拓宽结构化文本处理场景,提升用户使用体验的技术效果。

14、另外,本发明提供的上述文本数据生成方法还可以具有如下附加技术特征:

15、在发明的一些技术方案中,可选地,将模型输入数据输入至预设模型中,以生成目标文本数据,包括:

16、通过预设模型,根据预设文本摘要信息提取第一文本集合中的第一文本数据,第一文本数据为非结构化文本数据;

17、通过预设模型,根据预设文本结构信息对第一文本数据进行结构化处理,得到目标文本数据。

18、在该技术方案中,对将模型输入数据输入至预设模型中,以生成目标文本数据这一步骤进行细化。具体地,在将模型输入数据录入预设模型后,预设模型根据预设文本摘要信息在第一文本集合中提取出第一文本数据,其中被提取出来的第一文本数据还不具备结构化属性,属于非结构化文本数据。其后,预设模型根据预设文本结构信息对非结构化的第一文本数据进行结构化处理,以得到满足用户预期结构化需求的目标文本数据。

19、通过限定第一文本数据的提取过程,可以借助大模型自动完成关键文本信息的筛选,省去用户主动辨别待筛选信息的操作,从而提升文本数据的处理效率和处理精度。基于预设文本结构直接通过预设模型对第一文本数据进行结构化处理,可以免去通过大量训练样本训练预设模型的步骤,以直接输出满足用户期望的结构化文本数据,实现大模型的“开箱即用”,省去样本学习训练所耗费的时间成本和金钱成本。从而解决相关技术中所存在的数据准备和模型训练成本高,适用场景受限的技术缺陷。

20、在发明的一些技术方案中,可选地,获取预设文本结构信息,包括:

21、提取目标文本模型中的文本信息;

22、基于目标文本模型中的文本信息,生成预设文本结构信息;

23、其中,目标文本模型包括以下任一项:领域文本模型、实体文本模型、数据文本模型。

24、在该技术方案中,对获取预设文本结构这一步骤进行细化。具体地,在获取到目标文本模型的情况下,对目标文本模型中的关键字段或属性进行筛选,以提取出文本信息。其后,根据目标文本模型中提取出的文本信息,生成对应的预设文本结构信息,并最终将其整合至模型输入数据。

25、其中,目标文本模型包括领域文本模型、实体文本模型、数据文本模型中的至少一者,领域文本模型、实体文本模型和数据文本模型可以直接从云端数据库中获取,用户可根据期望选择和下载对应的目标文本模型,从而省去了用户自行构建目标文本模型,或通过大量样本数据训练目标文本模型的步骤,进而实现了预设模型的“开箱即用”,实现优化非结构化文本数据的处理效率,降低结构化文本处理成本的技术效果。

26、在发明的一些技术方案中,可选地,目标文本模型中的文本信息中包括以下至少一项:关键字段信息、属性信息、附加约束信息。

27、在该技术方案中,目标文本模型中的文本信息包括关键字段信息、属性信息、附加约束信息中的至少一者。

28、关键字段信息可以保证第一文本数据的提取精度,降低提取出非用户期望数据和遗漏提取用户期望数据的可能性,从而提升结构化数据的处理精度。

29、属性信息对应于用户的结构化期望,通过限定属性数据可以确保最终得到的目标文本数据的结构化属性匹配用户期望。

30、附加约数需求对应于结构化期望以外的附加期望,用户可通过编辑附加约束信息来优化目标文本数据。

31、在发明的一些技术方案中,可选地,在获取到第一文本集合的情况下,根据预设文本摘要信息、预设文本结构信息和第一文本集合,生成模型输入数据,包括:

32、根据预设文本摘要信息,生成第一提取指令;

33、根据第一提取指令、预设文本结构信息和第一文本集合,生成模型输入数据。

34、在该技术方案中,对在获取到第一文本集合的情况下,根据预设文本摘要信息、预设文本结构信息和第一文本集合,生成模型输入数据这一步骤进行细化。在获取到预设文本摘要信息后,根据预设文本摘要信息确定出对应的第一提取指令。在确定出第一提取指令后,将第一提取指令、预设文本结构信息和第一文本集合整合为模型输入数据。

35、通过限定生成第一提取指令的步骤,使该文本数据生成方法可以基于预设文本摘要信息自动提炼出文本筛选规则和文本提取规则,从而确保从第一文本集合中提取出的文本数据匹配用户的文本提取需求,降低提取出非用户期望数据和遗漏提取用户期望数据的可能性。进而实现优化文本数据生成精度的技术效果。

36、在发明的一些技术方案中,可选地,根据预设文本摘要信息,生成第一提取指令,包括:

37、获取数据加工信息、异常处理信息和数据输出信息;

38、根据数据加工信息、异常处理信息、数据输出信息和预设文本摘要信息,生成第一提取指令。

39、在该技术方案中,对根据预设文本摘要信息,生成第一提取指令的步骤进行细化。具体地,在获取到预设文本摘要信息后,获取数据加工信息、异常处理信息和数据输出信息。其后根据数据加工信息确定出对应的数据加工子指令,根据异常处理信息确定出对应的异常处理子指令,根据数据输出信息确定出对应的数据返回子指令,根据预设文本摘要信息确定出对应的摘要提取子指令。最终,对数据加工子指令、异常处理子指令、数据返回子指令和摘要提取子指令进行整合,以得到满足用户期望的第一提取指令。

40、通过上述方法生成的第一提取指令能够满足用户的数据筛选期望和数据加工期望,从而确保加工出的结构化文本数据的内容准确无误,同时该第一提取指令还具备异常处理功能,可避免文本处理流程因异常中断。进而实现了提升文本数据生成可靠性的技术效果。

41、在发明的一些技术方案中,可选地,在获取到第一文本集合的情况下,根据预设文本摘要信息、预设文本结构信息和第一文本集合,生成模型输入数据,包括:

42、根据预设文本摘要信息和预设文本结构信息,生成第二提取指令;

43、根据第二提取指令和第一文本集合,生成模型输入数据。

44、在该技术方案中,同样对在获取到第一文本集合的情况下,根据预设文本摘要信息、预设文本结构信息和第一文本集合,生成模型输入数据这一步骤进行细化。具体地,在获取到预设文本结构信息和预设文本摘要信息后,根据预设文本结构信息和预设文本摘要信息确定出对应的第二提取指令。在确定出第二提取指令后,将第二提取指令、预设文本结构信息和第一文本集合整合为模型输入数据。

45、通过限定生成第二提取指令的步骤,使该文本数据生成方法可以基于预设文本结构信息自动提炼出文本结构处理规则,并基于预设文本摘要信息自动提炼出文本筛选规则和文本提取规则,从而确保模型输入数据中包含用户的结构化期望,确保从第一文本集合中提取出的文本数据匹配用户的文本提取需求。进而实现优化非结构化文本数据的处理效率和处理精度,降低结构化文本处理成本,拓宽结构化文本处理场景,提升用户使用体验的技术效果。

46、具体地,包含预设文本结构的第二提取指令属于文本摘要提取指令的一种特殊形式。

47、本发明的第二方面提供了一种文本数据生成装置,文本数据生成装置包括:获取模块,用于获取预设文本结构信息;生成模块,用于在获取到第一文本集合的情况下,根据预设文本摘要信息、预设文本结构信息和第一文本集合,生成模型输入数据;生成模块,用于将模型输入数据输入至预设模型中,以生成目标文本数据,目标文本数据为与预设文本结构信息相匹配的结构化文本数据。

48、本技术限定了一种文本数据生成装置,该装置可以基于文本集合生成用户所需的文本数据,以满足用户的文本处理需求,为用户处理文本信息提供便利条件。

49、具体地,在生成文本数据的过程中,获取模块先获取预设文本结构信息,预设文本结构信息与用户的文本结构化需求对应,即用户所期望的文本数据结构。在获取到预设文本结构信息且获取到用户所要处理的第一文本集合的情况下,生成模块根据预设文本摘要信息、预设文本结构信息和第一文本集合生成可以录入至大模型中的模型输入数据。最终,生成模块将模型输入数据录入至预设模型中,预设模型对模型输入数据进行处理后,输出目标文本数据,该目标文本数据满足用户所期望的数据结构,即第一文本集合不具备用户期望的数据结构,在完成模型输入数据的整合和预设模型的处理后,得到满足用户期望的数据结构的结构化文本数据,即目标文本数据。

50、由此可见,本技术通过将预设文本摘要信息、预设文本结构信息和第一文本集合整合成可直接录入大模型的模型输入数据,使预设模型可以在不经过大批量文本训练的情况下直接对模型输入数据中所包含的第一文本集合进行结构化处理,以直接输出满足用户期望的结构化文本数据,实现大模型的“开箱即用”,省去样本学习训练所耗费的时间成本和金钱成本。同时,采用预设模型的通用语言处理能力处理第一文本集合,可以生成准确且符合预期的结构化数据,避免了机器学习技术抗噪能力不足和训练过拟合的问题。并且,模型输入数据的预处理具有普适性,避免了机器学习技术受限于训练样本特征、使用场景受限的问题。从而解决相关技术中所存在的数据准备和模型训练成本高,适用场景受限的技术缺陷。

51、进而实现了优化非结构化文本数据的处理效率和处理精度,降低结构化文本处理成本,拓宽结构化文本处理场景,提升用户使用体验的技术效果。

52、本发明的第三方面提供了一种电子设备,电子设备包括:处理器和存储器,存储器存储可在处理器上运行的程序或指令,程序或指令被处理器执行时实现上述任一技术方案中的文本数据生成方法的步骤。

53、在该技术方案中,提供了一种能够实现上述任一技术方案中的电子设备,因此该电子设备具备上述任一技术方案中的文本数据生成方法的优点,能够实现上述任一技术方案中的文本数据生成方法的技术效果,为避免重复,此处不再赘述。

54、本发明的第四方面提供了一种读存储介质,其上存储有程序或指令,程序或指令被处理器执行时实现上述任一技术方案中的文本数据生成方法的步骤。

55、在该技术方案中,提供了一种在被处理器读取后能够实现上述任一技术方案中的文本数据生成方法的步骤的可读存储介质,因此该可读存储介质具备上述任一技术方案中的文本数据生成方法的优点,能够实现上述任一技术方案中的文本数据生成方法的技术效果,为避免重复,此处不再赘述。

56、本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1