基于自然语言的数据处理方法及处理平台与流程

文档序号:37434783发布日期:2024-03-25 19:31阅读:12来源:国知局
基于自然语言的数据处理方法及处理平台与流程

本发明涉及数据处理技术,尤其涉及一种基于自然语言的数据处理方法及处理平台。


背景技术:

1、自然语言通常是指一种随着文化演化的语言,随着信息技术的不断发展,大量的自然语言数据积累在各种文本库中,比如,企业之间的交易合同等,这些文本蕴含了丰富的信息。

2、现有技术中,需要用户依据自身需求使用复杂的检索语言从庞大的数据库中逐一检索出所需的数据并进行统计,比如,搜索企业之间交易合同的信息,无法依据与用户需求相关的自然语言自动化对合同数据库中的数据进行筛选并展示,并且无法对统计的数据进行验证,使得用户统计工作量较大,且无法进行验证,以确保数据的准确性。

3、因此,如何依据与用户需求相关的自然语言进行自动化筛选数据,以多维度的形式展示,并依据数据属性绑定图像的方式,方便后续用户进行验证和查看,成为亟待解决的问题。


技术实现思路

1、本发明实施例提供一种基于自然语言的数据处理方法及平台,可以依据与用户需求相关的自然语言进行自动化筛选数据,以多维度的形式展示,并依据数据属性绑定图像的方式,方便后续用户进行验证和查看。

2、本发明实施例的第一方面,提供一种基于自然语言的数据处理方法,包括:

3、接收需求端的需求语言,根据所述需求语言对文本库中的文本数据进行处理,得到需求表,所述需求表中包括与各目标文本对应的多个维度标题;

4、根据所述维度标题提取所述目标文本中的文本区域,获取所述文本区域的文本属性,基于所述文本属性对所述文本区域进行截取,得到与所述目标文本的维度标题对应的凭证图像;

5、接收所述需求端基于所述需求表生成的凭证需求,根据所述凭证需求确定凭证策略,所述凭证策略包括单一策略和汇总策略;

6、根据所述凭证策略对所述凭证图像进行处理生成凭证数据,将所述凭证数据发送至所述需求端。

7、可选地,在第一方面的一种可能实现方式中,所述接收需求端的需求语言,根据所述需求语言对文本库中的文本数据进行处理,得到需求表,包括:

8、接收需求端的需求语言,所述需求语言包括筛选需求语言和维度需求语言;

9、对所述筛选需求语言进行分词处理得到筛选维度,对所述维度需求语言进行分词处理得到需求维度;

10、基于所述筛选维度和所述需求维度对文本库中的文本数据进行处理,得到需求表。

11、可选地,在第一方面的一种可能实现方式中,所述基于所述筛选维度和所述需求维度对文本库中的文本数据进行处理,得到需求表,包括:

12、基于所述筛选维度对文本库中的文本数据进行筛选处理,得到目标文本,获取所述目标文本的标题作为文本标题,并将所述需求维度作为维度标题;

13、调取初始表,所述初始表包括文本填充列和维度填充行,依次填充所述文本标题至所述文本填充列,填充所述维度标题至维度填充行;

14、基于所述维度标题确定所述目标文本中的定位标题,以及所述定位标题所处的文本区域,提取所述文本区域内所述定位标题后方的识别数据,将所述识别数据填充至与所述目标文本的维度标题对应的需求单元格,得到需求表。

15、可选地,在第一方面的一种可能实现方式中,所述根据所述维度标题提取所述目标文本中的文本区域,获取所述文本区域的文本属性,基于所述文本属性对所述文本区域进行截取,得到与所述目标文本的维度标题对应的凭证图像,包括:

16、根据所述维度标题提取所述目标文本中的文本区域,获取所述文本区域内所有数据的像素值作为识别像素值;

17、确定存在所述识别像素值处于预设像素值区间内,将相应所述文本区域的文本属性作为截取文本属性;

18、根据所述截取文本属性将与所述目标文本的维度标题对应的需求单元格作为凭证单元格;

19、基于所述截取文本属性对相应所述文本区域进行截取,得到与所述凭证单元格对应的凭证图像。

20、可选地,在第一方面的一种可能实现方式中,所述基于所述截取文本属性对相应所述文本区域进行截取,得到与所述凭证单元格对应的凭证图像,包括:

21、基于所述截取文本属性调取预设截取框,所述调取预设截取框具有预设定位中线;

22、根据所述维度标题获取所述目标文本中的定位标题,所述定位标题具有对应的标题像素值,并基于所述标题像素值提取所述定位标题对应的标题像素点;

23、在各所述定位标题处构建定位坐标系,根据所述标题像素点在所述定位坐标系中确定最小纵坐标和最大纵坐标;

24、根据所述最小纵坐标和最大纵坐标,得到各所述定位标题对应的标题定位中线;

25、将所述预设定位中线与所述标题定位中线进行重叠,基于所述预设截取框对相应所述文本区域进行截取,得到与所述凭证单元格对应的凭证图像。

26、可选地,在第一方面的一种可能实现方式中,还包括:

27、获取各所述目标文本中位于同一页面的所述预设截取框作为待处理截取框,并获取多个所述待处理截取框之间横向边框线的相距距离;

28、确定所述相距距离小于等于预设距离,将相应所述待处理截取框作为相邻截取框;

29、获取相应所述相邻截取框中相邻的横向边框线作为横向相邻线,并将与所述横向相邻线连接的2个顶点作为纵向连接点;

30、删除所述横向相邻线,并连接位于多个所述相邻截取框同一侧的纵向连接点,得到合并截取框;

31、根据所述合并截取框对多个相应的所述文本区域进行截取,得到多个相应所述凭证单元格对应的合并凭证图像。

32、可选地,在第一方面的一种可能实现方式中,还包括:

33、基于所述预设像素值区间确定所述相邻截取框中所有的截取像素点,并在各所述相邻截取框中构建截取坐标系;

34、根据所述截取像素点在所述截取坐标系中确定最大横坐标作为截取坐标,根据所述截取坐标确定竖向截取线;

35、根据所述竖向截取线对相应所述相邻截取框进行截取,得到具有截取像素点的异形相邻框;

36、获取所述异形相邻框中相邻的横向边框线作为异形相邻线,并将与所述异形相邻线连接的2个顶点作为异形连接点;

37、删除所述异形相邻线,并连接位于多个所述异形相邻框同一侧的异形连接点,得到异形截取框;

38、根据所述异形截取框对多个相应的所述文本区域进行截取,得到多个相应所述凭证单元格对应的异形凭证图像。

39、可选地,在第一方面的一种可能实现方式中,所述接收所述需求端基于所述需求表生成的凭证需求,根据所述凭证需求确定凭证策略,包括:

40、接收所述需求端对所述需求表中所述凭证单元格的触发信息,生成单一凭证需求,根据所述单一凭证需求确定凭证策略为单一策略;

41、接收所述需求端对所述需求表中所述文本标题的触发信息,生成汇总凭证需求,根据所述汇总凭证需求确定凭证策略为汇总策略,所述凭证需求包括所述单一凭证需求和所述汇总凭证需求。

42、可选地,在第一方面的一种可能实现方式中,所述根据所述凭证策略对所述凭证图像进行处理生成凭证数据,将所述凭证数据发送至所述需求端,包括:

43、确定所述凭证策略为单一策略,将相应所述凭证单元格的凭证图像作为凭证数据,将所述凭证数据发送至所述需求端;

44、确定所述凭证策略为汇总策略,依次获取相应所述文本标题对应所述凭证单元格的凭证图像,得到图像序列;

45、基于所述图像序列中的凭证图像生成凭证视频帧,并组合所述凭证视频帧生成凭证数据发送至所述需求端。

46、本发明实施例的第二方面,提供一种基于自然语言的数据处理平台,包括:

47、处理模块,用于接收需求端的需求语言,根据所述需求语言对文本库中的文本数据进行处理,得到需求表,所述需求表中包括与各目标文本对应的多个维度标题;

48、提取模块,用于根据所述维度标题提取所述目标文本中的文本区域,获取所述文本区域的文本属性,基于所述文本属性对所述文本区域进行截取,得到与所述目标文本的维度标题对应的凭证图像;

49、生成模块,用于接收所述需求端基于所述需求表生成的凭证需求,根据所述凭证需求确定凭证策略,所述凭证策略包括单一策略和汇总策略;

50、发送模块,用于根据所述凭证策略对所述凭证图像进行处理生成凭证数据,将所述凭证数据发送至所述需求端。

51、本发明的有益效果如下:

52、1、本发明会依据用户的需求语言对文本库的数据进行自动化筛选,以表格形式对数据以多个维度进行展示,并且依据文本属性的不同绑定相应的凭证图像,可以依据用户的需求不同生成对应的凭证数据,方便用户进行查看,并且可以通过凭证数据进行验证所展示数据的准确性。本发明依据用户的需求语言对文本库中的文本数据进行筛选处理,从而生成与用户需求语言对应的需求表,通过多个需求维度对用户所需求的数据进行展示,方便用户查看提升了用户的体验,本发明还会对文本区域内的文本属性进行判断,如果为用户手写的数据,则会对文本区域进行图像截取,从而得到凭证图像,并且依据用户的凭证需求,可以生成相应的凭证图像或者汇总凭证图像得到的视频对需求端进行展示,方便用户直观查看,并且用户可以通过凭证数据对需求表的内容进行验证。

53、2、本发明会依据需求语言对文本库中的文本数据进行自动筛处理,从而得到需求表,通过需求表以多个需求维度展示与需求语言对应的数据,方便用户进行查看。本发明会对筛选需求语言和维度需求语言进行分词处理,即,通过自然语言处理,得到多个筛选维度和需求维度,通过筛选维度和需求维度对筛选维度和需求维度进行筛选得到与目标数据对应的识别数据,将该识别数据填充至相应目标文本处的需求维度下,从而得到需求表,使得本发明可以对用户需求的数据以多维度的形式进行展示,方便用户进行观察。

54、3、本发明会文本区域内的目标数据进行自动判断,如果是截取文本属性则会通过预设截取框对文本区域进行截取,从而得到凭证单元格对应的凭证图像。本发明会对目标数据的目标像素值与预设像素值区间进行判断,确定该文本区域内的目标数据是否为手写的数据,如果是手写的截取文本属性,则会对文本区域进行截取,得到凭证图像,方便后续用户通过凭证图像进行直观查看,本发明会依据坐标系确定维度标识的标识定位点,并将预设截取框的预设定位点与标识定位点重叠,随后通过预设截取框对文本区域进行截取,从而得到凭证图像。并且本发明可以依据需求端不同的凭证需求生成相应的凭证数据,如果用户仅对凭证单元格进行触发则会确定单一策略,通过单一策略获取被触发的凭证单元格对应的凭证图像,如果用户对文本标题进行触发,则确定汇总策略,依据汇总策略将与所有文本标题对应所述凭证单元格的凭证图像依次生成相应的视频帧,并进行组合生成凭证视频发送至需求端,本发明可以以多角度方式对用户进行展所需求的数据,方便用户进行观察的同时,可以通过图片和视频对相应凭证单元格的数据进行验证。

55、4、本发明可以对处于同一页面且相邻的预设截取框进行合并处理,进行共同截取,使得合并凭证图像对应多个凭证单元格,并且对多余的空白区域进行去除,从而减少数据存储量,减少了调取负担。本发明会将处于同一页面内的预设截取框作为待处理截取框,并依据多个待处理截取框边框线之间的相距距离小于等于预设距离,则将相应的待处理截取框作为相邻截取框,并依据不同的位置关系进行删除相邻的边框线和连接相应的连接点,使得边框进行合并,并且在处于纵向相邻关系下可以自动对截取框中空白的部分进行截取生成异形相邻框进行异形融合,从而去除了无关的空白区域,减少了数据存储量。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1