数据处理方法、表格处理方法、装置、设备和存储介质与流程

文档序号:33643216发布日期:2023-03-29 02:42阅读:60来源:国知局
1.本公开涉及人工智能
技术领域
:,尤其涉及深度学习以及nlp(naturallanguageprocessing,自然语言处理)领域。
背景技术
::2.在web(worldwideweb,全球广域网)网页及行业文档中,存在着形形色色的表格数据。表格数量庞大且结构多样,人工从这些表格中获取所需信息需要巨大的成本。为此,nlp领域定义了大量表格理解任务,例如单元格分类、单元格之间的关系分类、基于问答的单元格定位等。为了实现这些任务,可以先采用表格预训练模型对表格进行处理。表格预训练模型可以综合利用表格的结构信息以及表格内的文本信息获取相应的语义表示,从而有效提升下游表格理解任务的处理效果。3.由于表格预训练模型不能掌握在预训练阶段未学习到的模式与知识,因此,用于预训练的训练数据集对于表格预训练模型的泛化能力至关重要。实际应用中,表格预训练模型的训练数据一般是真实的简单表格。技术实现要素:4.本公开提供了一种数据处理方法、表格处理方法、装置、设备和存储介质。5.根据本公开的一方面,提供了一种数据处理方法,包括:6.获取多个实体关系数据;7.基于所述多个实体关系数据,构建多个第一表格;8.基于所述多个第一表格,得到训练数据集;其中,所述训练数据集用于训练得到表格预训练模型。9.根据本公开的另一方面,提供了一种表格处理方法,包括:10.利用表格预训练模型对目标表格进行处理,得到目标表格的语义表示;其中,表格预训练模型是基于本公开任一实施例的训练数据集得到的;11.基于语义表示执行表格理解任务,得到任务处理结果。12.根据本公开的一方面,提供了一种数据处理装置,包括:13.数据获取模块,用于获取多个实体关系数据;14.表格构建模块,用于基于所述多个实体关系数据,构建多个第一表格;15.数据集确定模块,用于基于所述多个第一表格,得到训练数据集;其中,所述训练数据集用于训练得到表格预训练模型。16.根据本公开的另一方面,提供了一种表格处理装置,包括:17.语义表示输出模块,用于利用表格预训练模型对目标表格进行处理,得到所述目标表格的语义表示;其中,所述表格预训练模型是基于本公开任一实施例中的训练数据集得到的;18.任务处理模块,用于基于所述语义表示执行表格理解任务,得到任务处理结果。19.根据本公开的另一方面,提供了一种电子设备,包括:20.至少一个处理器;以及21.与该至少一个处理器通信连接的存储器;其中,22.该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开实施例中任一的方法。23.根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行根据本公开实施例中任一的方法。24.根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据本公开实施例中任一的方法。25.本公开实施例的技术方案,可以提升表格预训练模型的训练数据的多样性,从而提升表格预训练模型的泛化能力。26.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明27.附图用于更好地理解本方案,不构成对本公开的限定。其中:28.图1是本公开一实施例提供的数据处理方法的流程示意图;29.图2是本公开实施例中各类表格的单元格数量的分位数分布情况的示意图;30.图3是是本公开实施例的一个应用示例的示意图。31.图4是本公开另一实施例提供的表格处理方法的流程示意图;32.图5是本公开一实施例提供的数据处理装置的示意性框图;33.图6是本公开另一实施例提供的数据处理装置的示意性框图;34.图7是本公开又一实施例提供的数据处理装置的示意性框图;35.图8是本公开一实施例提供的表格处理装置的示意性框图;36.图9是用来实现本公开实施例的方法的电子设备的框图。具体实施方式37.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。38.图1是本公开一实施例提供的数据处理方法的流程示意图。如图1所示,该方法可以包括:39.步骤s110、获取多个实体关系数据;40.步骤s120、基于多个实体关系数据,构建多个第一表格;41.步骤s130、基于多个第一表格,得到训练数据集,该训练数据集用于训练得到表格预训练模型。42.在本公开实施例中,实体关系数据用于表示两个实体之间的关系。示例性地,实体关系数据为三元组数据,该三元组数据的结构可以是(subject(主语),predicate(谓语),object(宾语)),也可以称为spo数据。例如,两个实体包括“李白”和“静夜思”,该两个实体之间的关系为“李白的代表作是静夜思”,则该关系可以采用spo数据(李白,代表作,静夜思)进行表示。43.在一些示例中,两个实体之间的关系往往是实体之间的属性关系。示例性地,上述spo数据的结构往往也可以理解为(实体,属性,属性值)。例如,spo数据(李白,代表作,静夜思)也可以理解为:实体“李白”的属性“代表作”的属性值为“静夜思”。因此,在一些示例中,实体关系数据也可以称为实体属性数据。44.示例性地,在本公开实施例中,第一表格为响应于表格预训练的需求构建的表格,即第一表格不是真实表格。可选地,可以根据预先配置的表格模板,将各个实体关系数据填充到表格模板中,从而构建得到第一表格。45.示例性地,预先在表格模板中设定用于填充spo数据中的主语信息的单元格区域、用于填充spo数据中的谓语信息的单元格区域以及用于填充spo数据中的宾语信息的单元格区域。实际应用中,将每个spo数据中的主语信息、谓语信息和宾语信息对应地填入相应的单元格区域,则可以得到第一表格。46.可选地,多个第一表格可以包括不同类型的表格,也可以包括同一类型的多个表格。这里,不同类型的表格可以指采用了不同的模板进行填充的表格。具体实施时,可以将多个实体关系数据中的至少部分数据填充到不同的表格模板中,从而得到不同类型的多个表格。还可以对多个实体关系数据中的至少部分数据进行分组,将每组数据分别填充到同一表格模板中,从而得到同一类型的多个表格,每个表格对应于一组数据。47.示例性地,在上述步骤s130中,可以将多个第一表格进行聚合,得到训练数据集。也可以将多个第一表格与多个真实表格进行聚合,得到训练数据集。基于此,在本公开实施例中的训练数据集至少包括多个第一表格。48.本公开实施例中的训练数据集用于训练得到表格预训练模型。示例性地,该表格预训练模型可以用于针对输入的表格,得到对应的语义表示。该语义表示用于完成表格理解任务。其中,表格理解任务可以包括自监督任务和有监督任务。有监督任务包括例如表格中的基于问答的单元格定位(cellretrieval)、问题解析(questionparsing)、表格定位(tableretrieval)、单元格分类(celltypeclassification)、单元格之间的关系分类(cellpairrelationclassification)、表格分类(tabletypeclassification)等。自监督任务包括例如单元格填空(cell-levelcloze)、单元格取值修复(cellvaluerecovery)、异常单元格检测(corruptcelldetection)等。49.可选地,在本公开实施例中,可以对构建得到的多个表格进行与不同的任务对应的不同处理操作,从而得到相应的训练数据子集,使表格预训练模型能够针对不同任务的模式与相关知识输出准确的语义表示。50.可以看到,本公开实施例提供的数据处理方法,利用实体关系数据构建表格,并基于构建得到的表格得到表格预训练模型的训练数据集。相比于仅采用真实表格构建表格预训练模型的训练数据集,本公开实施例的方法可以提升表格预训练模型的训练数据的多样性,从而提升表格预训练模型的泛化能力。51.在本公开的一些实施例中,还提供上述实体关系数据的获取方式。可选地,在上述步骤s110中,获取多个实体关系数据,包括:52.在实体描述信息中,提取多个键值对数据;53.基于实体描述信息所描述的实体以及多个键值对数据中的每个键值对数据,得到与每个键值对数据对应的实体关系数据。54.示例性地,实体描述信息可以包括任意用于描述实体的文档、页面等。例如,实体描述信息可以包括实体的网络百科页面,网络百科页面中包含大量的kv(key-value,键值对)数据,可转化为spo数据。55.举例而言,针对实体“知识图谱”的实体描述信息中,包含多个kv数据,具体如下:56.别名:科学知识图谱;57.外文名:knowledgegraph;58.应用:理论与方法与计量学引文分析。59.利用实体“知识图谱”以及以上kv数据,可以构建多个实体关系数据,具体如下:60.(知识图谱,别名,科学知识图谱);61.(知识图谱,外文名,knowledgegraph);62.(知识图谱,应用,理论与方法与计量学引文分析)。63.采用上述实体关系数据的获取方式,能够获取到高质量的实体关系数据,有利于构建符合真实情况的第一表格,从而在提升表格预训练模型的训练数据集的多样性的同时,提升该训练数据集的质量。64.可以理解,在一些实施例中,也可以结合其他方式提取用于构建实体关系数据的kv数据。例如,部分行业的网站中包含完善的行业kv页面,可以从该行业kv页面中提取kv数据。可选地,上述kv页面以及网络百科页面均可通过网页爬取得到。65.可选地,在一些实施例中,上述步骤s120、基于多个实体关系数据,构建多个第一表格,可以包括:66.基于多个实体关系数据,确定与m个主语信息分别对应的m个实体关系数据集合,m为大于或等于2的整数;67.基于m个实体关系数据集合,构建多个第一表格。68.具体地,可以汇总从各种渠道获取的多个实体关系数据,并按照各实体关系数据中的主语信息对多个实体关系数据进行划分,得到与多个主语信息分别对应的多个实体关系数据集合。其中,每个实体关系数据集合包括同一主语信息的多个实体关系数据,不同的实体关系数据集合中的实体关系数据对应于不同的主语信息。69.根据上述实施方式,将对应于同一主语信息的实体关系数据聚合在一起,有利于在构建表格的过程中,根据数据之间的关联性构建更符合真实情况的第一表格,从而提升训练数据集的质量。70.下面提供几种示例性的基于实体关系数据集合构建第一表格的方式。71.示例1:在本示例中,多个第一表格可以包括关系表,即sql(structuredquerylanguage,结构化查询语言)表。一个关系表中可以包含多个实体信息,且多个实体具有相同的一组属性,实体行与属性列交叉或实体列与属性行交叉填充实体的属性值。72.具体地,在本示例中,基于m个实体关系数据集合,构建多个第一表格,包括:73.在m个实体关系数据集合中,确定出具有至少n个相同的谓语信息的k个实体关系数据集合,其中,n为大于或等于1的整数,k为大于或等于2的整数且k小于或等于m;74.基于k个实体关系数据集合所对应的k个主语信息以及n个相同的谓语信息,填充表格模板中的表头信息;75.利用k个实体关系数据集合中的宾语信息,填充表格模板中的表值区域,得到k个主语信息的关系表。76.其中,主语信息即spo数据中的s数据,谓语信息即spo数据中的p数据,宾语信息即spo数据中的o数据。77.举例而言,设置n=5,并假设m个实体关系数据集合中包含主语信息为电视节目a的实体关系数据集合、主语信息为电视节目b的实体关系数据集合以及主语信息为连载小说c的实体关系数据集合。其中,电视节目a的实体关系数据集合中的多个实体关系数据的谓语信息包括最后一期时间、播出状态、类型、在线播放平台、首播时间以及导演;电视节目b的实体关系数据集合中的多个实体关系数据的谓语信息包括最后一期时间、播出状态、类型、在线播放平台、首播时间以及类型;连载小说c的实体关系数据集合中的多个实体关系数据的谓语信息包括最后一期时间、作者、连载平台以及作品性质。可以看到,电视节目a的实体关系数据集合以及电视节目b的实体关系数据集合具有5个相同的谓语信息(最后一期时间、播出状态、类型、在线播放平台、首播时间),则可以基于电视节目a的实体关系数据集合以及电视节目b的实体关系集合填充表格模板,得到的关系表如表1所示:[0078][0079]在该示例中,将至少共享n个相同的p的spo数据集合聚合在一起,再基于聚合的spo数据集合进行关系表构建。如此,可以构造符合真实情况的关系表,并且具有一定的复杂性。基于该方式构造的关系表训练得到的表格预训练模型,可以提升表格预训练模型处理复杂关系表的能力。[0080]示例2:在本示例中,多个第一表格可以包括横向堆叠表。横向堆叠表即一个表格的左右部分结构相同的表格,其中可以包含多个实体信息,且多个实体具有相同的一组属性。[0081]具体地,在本示例中,基于m个实体关系数据集合,构建多个第一表格,包括:[0082]在m个实体关系数据集合中,确定出具有至少n个相同的谓语信息的k个实体关系数据集合,其中,n为大于或等于1的整数,k为大于或等于2的整数且k小于或等于m;[0083]将k个实体关系数据集合分成l组实体关系数据集合;其中,l为大于或等于2的整数;[0084]基于l组实体关系数据集合中的每组实体关系数据集合,得到每组实体关系数据集合所对应的多个主语信息的关系表;[0085]基于每组实体关系数据集合所对应的关系表进行横向组合,得到横向堆叠表。[0086]本示例与示例1类似,将至少共享n个p的spo数据集合(实体关系数据集合)聚合在一起。不同之处在于,本示例中将这些spo数据集合划分为l组,每组包括至少一个spo数据集合。针对每组spo数据集合,可以按照示例1的方式构建关系表,进而将l个关系表横向组合得到横向堆叠表。其中,l的取值可以预先设置,也可以是随机从多个数值中选取,例如l可以随机取2或3,即横向堆叠2个或3个关系表。[0087]例如,若n=2,l=2,则构建的横向堆叠表的可以如表2所示:[0088][0089]在该示例中,对共享n个相同的p的spo数据集合进行分组,再分别构建关系表后进行横向组合,得到横向堆叠表。如此,可以构造符合真实情况的关系表,并且具有一定的复杂性。基于该方式构造的横向堆叠表训练得到的表格预训练模型,可以提升表格预训练模型处理复杂的横向堆叠表的能力。[0090]示例3:在本示例中,多个第一表格可以包括实体表。一个实体表用于描述一个实体的属性信息,其表头和表值通常成对出现。[0091]具体地,在本示例中,基于m个实体关系数据集合,构建多个第一表格,包括:基于与m个主语信息中的第i个主语信息对应的实体关系数据集合,构建与第i个主语信息对应的实体表,其中,i为小于或等于m的正整数。[0092]实际应用中,针对某个实体关系数据集合,可以将其中的每个实体关系数据中的谓语信息和宾语信息成对地填充到表格模板中,从而构建得到该实体关系数据集合对应的主语信息的实体表。[0093]举例而言,对于连载小说c,其对应的实体关系数据集合中包括连载小说c的多项属性,构建的实体表可以如表3所示:[0094][0095]表3[0096]示例性地,可以将实体关系数据集合中来源于实体描述信息的前y个实体关系数据填充在实体表中的前y行,以使关键信息位于实体表中的前y行,其中y为正整数,例如2或3等。其他实体关系数据可以随机填入。[0097]示例性地,如表3所示,在将每个实体关系数据中的谓语信息和宾语信息成对地填充到表格模板时,可以基于表头对齐和表头不对齐的方式填入。[0098]其中,表头对齐的方式指spo数据中的p数据均填入序号为单数的列,o数据可以填入p数据右侧的2n-1列,其中n为整数,即o数据占的列数为单数。例如,表3中的第1行至第3行,p数据均填入第1列,o数据占3列;表3中的第4、第5行,p数据填入第1、3、5列,o数据占1列或3列。[0099]表头不对齐的方式指spo数据中的p数据与o数据所在列以及列数不限。例如,表3中的第5行,p数据填入第1、4列,o数据占2列。[0100]实际应用中,可以设置概率p,基于概率p将实体关系数据以表头对齐的方式填入表格模板,基于概率(1-p)将实体关系数据以表头不对齐的方式填入表格模板。其中,p为小于1的正数,例如p为0.8。[0101]在该示例中,基于同一实体对应的实体关系数据集合,构建该实体的实体表。如此,可以构造符合真实情况的实体表。基于该方式构造的实体表训练得到的表格预训练模型,可以提升表格预训练模型处理复杂的实体表的能力。[0102]示例4:在本示例中,多个第一表格可以包括纵向堆叠表。纵向堆叠表即一个表格的上下部分结构相同的表格,其中可以包含多个实体信息。[0103]具体地,在本示例中,基于m个实体关系数据集合,构建多个第一表格,包括:基于与m个主语信息中的每个主语信息对应的实体表进行纵向组合,得到纵向堆叠表。[0104]也就是说,纵向堆叠表可以通过将多个实体表进行纵向组合得到。可选地,在纵向堆叠表中的每个实体表中,可以将实体名称作为一整行合并单元格并设置于实体表的第一行。[0105]例如,纵向堆叠表可以如下表4所示,其包含电视节目a的实体表和连载小说c的实体表:[0106][0107]表4[0108]在该示例中,基于不同实体的实体表,构建纵向堆叠表。如此,可以构造符合真实情况的纵向堆叠表,并且具有一定的复杂性。基于该方式构造的纵向堆叠表表训练得到的表格预训练模型,可以提升表格预训练模型处理复杂的纵向堆叠表的能力。[0109]以上示例1~示例4提供了基于实体关系数据集合构建第一表格的多种实施方式,可以理解,上述示例可以单独实施,也可以组合实施,从而使得表格预训练模型的训练数据集中包含多样化的表格。[0110]可选地,还可以基于实体关系数据中谓语信息之间的层级关系,构建层级表,以进一步提升训练数据集中的表格多样性。示例性地,上述步骤s120、基于多个实体关系数据,构建多个第一表格,可以包括:确定多个谓语信息之间的层级关系;基于多个谓语信息之间的层级关系,将多个谓语信息所对应的多个实体关系数据填充至表格模板,得到层级表。[0111]其中,多个谓语信息之间的层级关系,即多个属性之间的层级关系。例如,电影的属性“电影摄制组成员”一般包括子属性“摄影指导”、“编剧”等。[0112]示例性地,可以通过爬取网页的方式确定多个谓语信息的层级关系。例如,部分网络百科页面中的kv数据包含了多层级的k数据以及对应的v数据,则可以基于这类网络百科页面中的多层级的k数据得到多个谓语信息的层级关系。[0113]实际应用中,可以基于多个谓语信息之间的层级关系,将多个谓语信息作为表头,并将对应的多个实体关系数据中的宾语信息填充至表格模板中作为表值。例如,层级表可以如以下表5所示:[0114][0115]表5[0116]在该示例中,利用多个谓语信息之间的层级关系构建层级表,从而进一步提升了构建的第一表格的复杂性。采用该层级表得到训练数据集,基于该训练数据集训练得到的表格预训练模型,可以具备处理复杂层级表的能力,从而进一步提升表格预训练模型的泛化能力。[0117]可以看到,在上述构建第一表格的过程中,需要使用至少一个表格超参数明确构建的表格的规模。该表格超参数具体可以是数量参数,如关系表中包含的实体的数量、用于构建关系表的实体关系数据的共享属性的数量、横向堆叠表中横向组合的关系表的数量、纵向堆叠表中纵向组合的实体表的数量等。实际应用中,可以通过超参迭代,确定表格超参数。[0118]具体地,在基于多个实体关系数据,构建多个第一表格之前,上述方法还可以包括:[0119]基于多个实体关系数据进行x次迭代操作,确定表格超参数,该表格超参数包括用于构建多个第一表格的至少一个数量参数;其中,x为大于或等于2的整数。[0120]其中,x次迭代操作中的第j次迭代操作,包括:[0121]基于多个实体关系数据以及第j-1次更新的表格超参数,构建多个第三表格;[0122]基于多个第三表格中的每个第三表格的规模信息,确定多个第三表格的规模信息分布情况;[0123]基于规模信息分布情况,对表格超参数进行第j次更新;其中,j为大于或等于1的整数。[0124]需要说明的是,对于j=1的情况,第j-1次(即第0次)更新的表格超参数可以是预先设置的表格超参数初始值。[0125]可选地,迭代操作的次数x可以是预先确定的数值,也可以是由迭代处理情况确定的数值。当x为预先确定的数值时,当迭代次数达到x,即j=x时,最后更新的表格超参数为用于构建第一表格的表格超参数。当x由迭代处理情况确定时,当规模信息分布情况符合预设条件(例如接近真实表格的规模信息分布情况)时,最后更新的表格超参数为用于构建第一表格的表格超参数。[0126]实际应用中,可以通过比对构建出的多个第三表格的规模信息分布情况与真实表格的规模信息分布情况,确定表格超参数的更新策略。[0127]举例而言,表格的规模信息可以指表格中的单元格数量。图2示出了各类表格的单元格数量的分位数分布情况。其中曲线201为网络百科页面中的真实表格的单元格数量分布曲线,曲线202为行业标准文档中的真实表格的单元格数量分布曲线,曲线203为构建的关系表的单元格数量分布曲线,曲线204为构建的实体表的单元格数量分布曲线。可以看到,相比于曲线201和曲线202两个真实表格的分布曲线,曲线203的单元格数量分位数较大,说明构建的关系表中单元格数量偏多,不符合真实数据分布。曲线204的单元格数量分位数较小,说明单元格数量偏少,不符合真实数据分布。需要基于此结论,调整表格超参数,进行二次数据构建。[0128]上述实施方式通过分布控制机制,保证构建的第一表格的规模分布符合真实分布,从而提升了第一表格的真实性,相应地提升了训练数据集的质量和表格预训练模型输出的语义表示的准确性。[0129]可选地,在上述超参迭代的过程中,表格的规模信息包括单元格数量、行数、列数、单元格中的字符元素的数量、表格内的字符元素的数量中的至少之一。[0130]通过设置一种或多种规模信息控制表格超参数的迭代,可以进一步保证构建的第一表格的规模分布符合真实分布。[0131]以上通过多个示例展示本公开实施例中基于实体关系数据构建表格的实现方式。实际应用中,训练数据集中不限于包含构建的第一表格,还可以包含真实的第二表格。[0132]示例性地,上述数据处理方法还可以包括:获取目标行业的标准文档;在标准文档中提取多个第二表格。相应地,基于多个第一表格,得到训练数据集,包括:基于多个第一表格以及多个第二表格,得到训练数据集。[0133]可以理解,在本公开实施例中的第二表格为真实表格,该真实表格可以在特定行业的标准文档中提取。示例性地,可以将爬取的标准文档解析为结构化数据后提取结构化的第二表格。[0134]实际应用中,目标行业的数量可以是一个多个。示例性地,目标行业可以包括电力能源、金融、医疗和jg行业中的至少一个。在目标行业的数量为多个的情况下,可以基于每个目标行业,分别通过网页爬取得到对应的标准文档,从而在各标准文档中提取真实表格。[0135]由于标准文档是在特定范围内的统一技术要求,面向专业人员,行业语义强,表格数量多,结构丰富且复杂,因此,对于提升预训练模型对行业表格、复杂表格的理解能力非常重要。其次,标准文档中表格数据的出现大概率伴随着表格的解释/描述文本,引入标准文档作为数据源,能提升预训练模型对表格和文档的联合建模能力。[0136]可以理解,实际应用中,用于提取真实表格的文档不限于标准文档。示例性地,也可以从行业涉及的说明书、台账、合同、公告、方案等各种类型的文档中提取表格。[0137]示例性地,可以预先确定各类型的文档的优先级,并采用不同的采样比例从不同优先级的文档中的表格中采样得到多个第二表格。例如优先级越高则采样比例越高。从而使得训练数据集中的表格更加多样化。[0138]示例性地,将标准文档的优先级设为最高,其他类型的文档的优先级设置可参考以下内容确定。[0139]1、说明书:说明书是面向大众开放的,通过人工分析部分数据发现,说明书中的表格结构比较简单,且通用性强,故可以认为通过通用领域的数据学习,已经能够理解说明书类型文档中的表格,因此设置为低优先级。[0140]2、台账:台账指作业过程中的详细记录,面向专业人员,文档通篇都是表格,部分内容需要填写而留空,是非常典型的离散型表格;此外,台账表格基本不涉及文本交互,设置为中优先级。[0141]3、合同:合同指交易协议,面向大众(偏专业),根据标的物的不同会在表格中涉及其他行业的知识,表格结构比较简单,设置为中优先级。[0142]4、公告:与说明书类似,设置为低优先级。[0143]6、方案:方案指具体计划,与标准类似,设置为高优先级。[0144]根据上述示例性方式,训练数据集中可以包括基于通用领域的网络百科页面构建的第一表格,也可以包括基于目标行业的标准文档提取的第二表格,可见,训练数据集中的数据来源丰富,可以保证表格预训练模型的训练量充足,大幅提升表格预训练模型的泛化能力。[0145]从上述示例可以看到,训练数据集可以包括构建得到的多个表格,还可以包括通过其他方式获取的真实表格。利用该训练数据集训练得到的表格预训练模型,可以针对自监督任务的处理模式输出准确的语义表示。[0146]可选地,在本公开实施例中,还可以针对有监督任务,提供对训练数据集中的数据进行打标的方式。[0147]示例性地,针对真实的第二表格,在一些实施例中,上述数据处理方法还可以包括:[0148]针对训练数据集中的每个第二表格,在标准文档中检索与第二表格对应的引用文本;[0149]基于引用文本确定第二表格对应的监督标签信息;[0150]基于第二表格以及第二表格对应的监督标签信息,得到针对有监督任务的第一训练数据子集。[0151]其中,引用文本可以指标准文档中引用表格的序号对表格进行介绍的文本,例如语句“表1为灯具中各部件的说明”。通过该引用文本可以识别到第二表格的表名,将第二表格的表名作为第二表格的监督标签信息,可以提升表格预训练模型在表格检索任务中的语义表示能力。[0152]实际应用中,对于标准文档中提取到的结构化的第二表格,还可以通过提取表格的结构信息得到表格的表名、单元格类型、单元格关系等信息。[0153]例如,通过第二表格中的《caption》标记可以得到表名,将表名作为第二表格的监督标签信息,可以提升表格预训练模型在表格定位任务中的语义表示能力。[0154]又例如,通过第二表格中的《th》标记可以识别第二表格中的表头,从而确定表格中各单元格为表头或表值,即可识别各单元格的类型。将单元格的类型作为第二表格的监督标签信息,可以提升表格预训练模型在单元格类型分类任务中的语义表示能力。[0155]又例如,通过第二表格中的《th》标记可以识别第二表格中的表头,从而确定第二表格中表头与表值之间的成对关系,进一步地可通过规则扩展成一对单元格的关系标签,可以提升表格预训练模型在单元格关系分类任务中的语义表示能力。[0156]可选地,还可以通过表格cvt抽取的方式,在第二表格中识别表头和表值,从而针对不同的表格理解任务构造相应的监督标签信息。[0157]示例性地,针对构建的第二表格,在一些实施例中,上述数据处理方法还可以包括:[0158]针对训练数据集中的每个第一表格,获取对应的实体关系数据;[0159]基于实体关系数据,确定第一表格对应的监督标签信息;[0160]基于第一表格以及监督标签信息,得到针对有监督任务的第二训练数据子集。[0161]由于构建的第一表格是基于实体关系数据得到的,相应地对于第一表格可以获取其对应的实体关系数据,以利用实体关系数据中的s-p-o的结构化信息构造监督标签信息,从而提升监督标签信息的准确率,以及保证有监督任务的训练量充足。[0162]可选地,针对有文本交互的有监督的表格理解任务,基于实体关系数据,确定第一表格对应的监督标签信息,可以包括:[0163]基于实体关系数据以及预设的问答模板,构造第一表格对应的查询语句和答案;[0164]将答案作为第一表格和查询语句的监督标签信息。[0165]示例性地,问答模板可以包括如下几种模板:[0166](1)sp-o:即查询语句中包含s数据和p数据,答案中包含o数据。例如对于实体关系数据(李白,代表作,静夜思),可以构造查询语句为“李白的代表作是什么”,答案为“静夜思”。[0167](2)so-p:即查询语句中包含s数据和o数据,答案中包含p数据。例如对于实体关系数据(李白,代表作,静夜思),可以构造查询语句为“李白和静夜思的关系是什么”,答案为“李白的代表作是静夜思”。[0168](3)op-s:即查询语句中包含o数据和p数据,答案中包含s数据。例如对于实体关系数据(李白,代表作,静夜思),可以构造查询语句为“静夜思是谁的代表作”,答案为“李白”。[0169](4)s:即问题是关于该s数据的询问,例如问题为“李白的代表作是什么”、“李白的爱好是什么”等。[0170](5)p:即问题是关于该p数据的询问,例如问题为“唐朝各位诗人的代表作分别是什么”。[0171]此外,还可以构造一些与表格中单元格的布尔运算(boolean)、数值比较、数值计算、日期比较相关的查询语句,并在第一表格中标注对应的答案,以提升监督标签信息的多样性。[0172]根据上述问答模板,可以为各个第一表格构造多种形式的查询语句和答案,从而可以提升表格预训练模型在与问答相关的表格理解任务(例如单元格定位、问题解析、表格定位)中的语义表示能力。[0173]可选地,针对无文本交互的有监督的表格理解任务,基于实体关系数据,确定第一表格对应的监督标签信息,包括:[0174]基于实体关系数据中多个信息的信息类型,确定第一表格中的多个单元格的单元格类型和/或多个单元格之间的关系;[0175]将多个单元格的单元格类型和/或多个单元格之间的关系作为第一表格的监督标签信息。[0176]示例性地,对于实体关系数据中的s数据和p数据,可以确定对应的单元格类型为表头。对于实体关系数据中的o数据,可以确定对应的单元格类型为表值。对于同一实体关系数据中的s数据和p数据,或s数据和o数据,或p数据和o数据,可以将其对应的一对单元格标记为相关。对于不同实体关系数据中的信息,可以将其对应的一对单元格标记为无关。[0177]可见,根据上述方式,可以为各个第一表格中的多个单元格或多对单元格构造类型标签和关系标签,从而可以提升表格预训练模型在与分类相关的任务(例如单元格类型分类、单元格关系分类和表格类型分类)中的语义表示能力。[0178]为了便于理解上述数据处理方法,图3示出了一个应用示例的示意图。如图3所示,在应用示例中,数据处理方法包括以下步骤:[0179]1、明确领域:数据构建需要覆盖的领域,包括通用领域和多个目标行业。[0180]2、明确数据源:确定各个领域内数据的质量和获取难度,综合选定构建数据源。例如选定通用领域web网页和行业标准文档作为数据源,其中通用领域web网页中可以提取到结构化数据(例如键值对数据)以及半结构化数据,行业标准文档中可以提取到结构化数据(例如完整表格)以及无结构化数据。[0181]3、数据构建:确定各个数据源的挖掘方案及策略方案。[0182]4、打标:根据数据源类型不同,按不同的方式进行有监督任务打标签。[0183]5、分布控制:在关键参数上,控制策略构建数据和真实数据分布趋近。[0184]6、输出:产出数据及标签结果,用于表格预训练。其中产出的数据包括简单表和复杂表,简单表包括关系表,复杂表包括实体表、堆叠表和层级表等。[0185]图4示出了本公开另一实施例提供的表格处理方法的流程示意图。如图4所示,该方法可以包括:[0186]步骤s410、利用表格预训练模型对目标表格进行处理,得到目标表格的语义表示;其中,表格预训练模型是基于本公开任一实施例获取的训练数据集得到的;[0187]步骤s420、基于语义表示执行表格理解任务,得到任务处理结果。[0188]其中,目标表格为待处理的表格。针对目标表格理解任务可以包括自监督任务和有监督任务。有监督任务包括例如表格中的基于问答的单元格定位(cellretrieval)、问题解析(questionparsing)、表格定位(tableretrieval)、单元格分类(celltypeclassification)、单元格之间的关系分类(cellpairrelationclassification)、表格分类(tabletypeclassification)等。自监督任务包括例如单元格填空(cell-levelcloze)、单元格取值修复(cellvaluerecovery)、异常单元格检测(corruptcelldetection)等。[0189]由于执行表格理解任务所依赖的语义表示,是基于表格预训练模型得到的,而该表格预训练模型是基于本公开前述实施例获取的训练数据集训练得到的,因此,该表格预训练模型具有较强的泛化处理能力,针对多种类型的表格理解任务均能准确输出语义表示,从而提升了表格理解任务的处理效果。[0190]根据本公开的实施例,本公开还提供了一种数据处理装置。图5示出了本公开一实施例提供的数据处理装置的示意性框图。如图5所示,该数据处理装置可以包括:[0191]数据获取模块510,用于获取多个实体关系数据;[0192]表格构建模块520,用于基于多个实体关系数据,构建多个第一表格;[0193]数据集确定模块530,用于基于多个第一表格,得到训练数据集;其中,训练数据集用于训练得到表格预训练模型。[0194]图6示出了本公开另一实施例提供的数据处理装置的示意性框图。如图6所示,在本公开的一些实施例中,数据处理装置的数据获取模块可以包括:[0195]键值对提取单元611,用于在实体描述信息中,提取多个键值对数据;[0196]数据构造单元612,用于基于实体描述信息所描述的实体以及多个键值对数据中的每个键值对数据,得到与每个键值对数据对应的实体关系数据。[0197]可选地,如图6所示,在本公开的一些实施例中,数据处理装置的表格构建模块可以包括:[0198]集合确定单元621,用于基于多个实体关系数据,确定与m个主语信息分别对应的m个实体关系数据集合,m为大于或等于2的整数;[0199]表格获取单元622,用于基于m个实体关系数据集合,构建多个第一表格。[0200]可选地,表格获取单元622具体用于:[0201]在m个实体关系数据集合中,确定出具有至少n个相同的谓语信息的k个实体关系数据集合,其中,n为大于或等于1的整数,k为大于或等于2的整数;[0202]基于k个实体关系数据集合所对应的k个主语信息以及n个相同的谓语信息,填充表格模板中的表头信息;[0203]利用k个实体关系数据集合中的宾语信息,填充表格模板中的表值区域,得到k个主语信息的关系表。[0204]可选地,表格获取单元622具体用于:[0205]将k个实体关系数据集合分成l组实体关系数据集合;其中,l为大于或等于2的整数;[0206]基于l组实体关系数据集合中的每组实体关系数据集合,得到每组实体关系数据集合所对应的多个主语信息的关系表;[0207]基于每组实体关系数据集合所对应的关系表进行横向组合,得到横向堆叠表。[0208]可选地,表格获取单元622具体用于:[0209]基于与m个主语信息中的第i个主语信息对应的实体关系数据集合,构建与第i个主语信息对应的实体表;其中,i为小于或等于m的正整数。[0210]可选地,表格获取单元622具体用于:[0211]基于与m个主语信息中的每个主语信息对应的实体表进行纵向组合,得到纵向堆叠表。[0212]图7示出了本公开另一实施例提供的数据处理装置的示意性框图。如图7所示,在该实施例中,表格构建模块包括:[0213]关系确定单元711,用于确定多个谓语信息之间的层级关系;[0214]表格填充单元712,用于基于多个谓语信息之间的层级关系,将多个谓语信息所对应的多个实体关系数据填充至表格模板,得到层级表。[0215]可选地,如图7所示,数据处理装置还可以包括:[0216]超参迭代模块720,用于基于多个实体关系数据进行x次迭代操作,确定表格超参数,表格超参数包括用于构建多个第一表格的至少一个数量参数;其中,x为大于或等于2的整数;[0217]其中,x次迭代操作中的第j次迭代操作,包括:[0218]基于多个实体关系数据以及第j-1次更新的表格超参数,构建多个第三表格;[0219]基于多个第三表格中的每个第三表格的规模信息,确定多个第三表格的规模信息分布情况;[0220]基于规模信息分布情况,对表格超参数进行第j次更新;其中,j为大于或等于1的整数。[0221]可选地,规模信息包括单元格数量、行数、列数、单元格中的字符元素的数量、表格内的字符元素的数量中的至少之一。[0222]可选地,如图7所示,数据处理装置还可以包括:[0223]标准获取模块730,用于获取目标行业的标准文档;[0224]表格提取模块740,用于在标准文档中提取多个第二表格;[0225]其中,数据处理装置中的数据集确定模块具体可以用于:[0226]基于多个第一表格以及多个第二表格,得到训练数据集。[0227]可选地,如图7所示,数据处理装置还可以包括打标模块750。[0228]在一个示例中,打标模块750用于:[0229]针对训练数据集中的每个第二表格,在标准文档中检索与第二表格对应的引用文本;[0230]基于引用文本确定第二表格对应的监督标签信息;[0231]基于第二表格以及第二表格对应的监督标签信息,得到针对有监督任务的第一训练数据子集。[0232]在另一个示例中,打标模块750用于:[0233]针对训练数据集中的每个第一表格,获取对应的实体关系数据;[0234]基于实体关系数据,确定第一表格对应的监督标签信息;[0235]基于第一表格以及监督标签信息,得到针对有监督任务的第二训练数据子集。[0236]示例性地,打标模块750用于:[0237]基于实体关系数据以及预设的问答模板,构造第一表格对应的查询语句和答案;[0238]将答案作为第一表格和查询语句的监督标签信息。[0239]示例性地,打标模块750用于:[0240]基于实体关系数据中多个信息的信息类型,确定第一表格中的多个单元格的单元格类型和/或多个单元格之间的关系;[0241]将多个单元格的单元格类型和/或多个单元格之间的关系作为第一表格的监督标签信息。[0242]根据本公开的实施例,本公开还提供了一种表格处理装置。图8示出了本公开一实施例提供的表格处理装置的示意性框图。如图8所示,该表格处理装置可以包括:[0243]语义表示输出模块810,用于利用表格预训练模型对目标表格进行处理,得到目标表格的语义表示;其中,表格预训练模型是基于本公开任一实施例中的训练数据集得到的;[0244]任务处理模块820,用于基于语义表示执行表格理解任务,得到任务处理结果。[0245]本公开实施例的装置的各模块、子模块的具体功能和示例的描述,可以参见上述方法实施例中对应步骤的相关描述,在此不再赘述。[0246]本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。[0247]根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。[0248]图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。[0249]如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(rom)902中的计算机程序或者从存储单元908加载到随机访问存储器(ram)903中的计算机程序,来执行各种适当的动作和处理。在ram903中,还可存储设备900操作所需的各种程序和数据。计算单元901、rom902以及ram903通过总线904彼此相连。输入/输出(i/o)接口905也连接至总线904。[0250]设备900中的多个部件连接至i/o接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。[0251]计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如数据处理方法或表格处理方法。例如,在一些实施例中,数据处理方法或表格处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由rom902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到ram903并由计算单元901执行时,可以执行上文描述的数据处理方法或表格处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据处理方法或表格处理方法。[0252]本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。[0253]用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。[0254]在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。[0255]为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。[0256]可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。[0257]计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。[0258]应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。[0259]上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1