报告纠错系统和方法与流程

文档序号:25423700发布日期:2021-06-11 21:36阅读:99来源:国知局
报告纠错系统和方法与流程

本申请涉及报告智能分析技术领域,更具体地,本申请涉及一种报告纠错系统。本申请还涉及一种报告纠错方法。



背景技术:

评估报告是由评估机构根据特定的目的,遵循公共的法则和标准,按照法定的程序,运用科学的方法,对资产、项目等进行评定和估算而作出的书面报告。除了通常的土地、房地产、矿业、资产、保险的评估报告,还有许多不同类型的评估报告,如项目评估报告、质量监督评估报告、投资环境评估报告、供应商评估报告等。

评估报告的撰写和审核通常由人工来执行,由于评估报告中具有大量标准化或固定化的内容,因此评估报告的编制、审核等方面会耗费大量人力与时间。为此本领域有些技术人员可能通过自然语言处理(naturallanguageprocessing,nlp)技术利用计算机对评估报告中出现的错误进行纠错,这极大地节省了人力和时间。然而,在通过nlp进行纠错时,本领域技术人员只考虑到报告中出现的内容性错误而忽略了报告中可能出现的知识性错误。

因此,如何提供一种既能够纠正报告中出现的内容性错误又能够纠正报告中出现的知识性错误的报告纠错系统是本领域技术人员亟待解决的问题。



技术实现要素:

有鉴于此,本申请提供了一种报告纠错系统,该系统不仅对报告中出现的内容性错误进行纠错,还对报告中出现的知识性错误进行纠错。本申请还提供了一种应用于上述系统的报告纠错方法。

为达上述目的,本申请提供了一种报告纠错系统,包括:输入模块,用于输入原始报告;纠错模块,用于对原始报告进行纠错;以及输出模块,用于输出纠错后的结果报告;其中纠错模块包括第一纠错模块和第二纠错模块,第一纠错模块用于对原始报告中的内容性错误进行纠错,第二纠错模块用于对原始报告中的知识性错误进行纠错。

可选地,内容性错误包括格式错误,第一纠错模块配置有格式标准库,第一纠错模块用于根据格式标准库对格式错误进行纠错。

可选地,内容性错误还包括语义错误,第一纠错模块还配置有语言模型,第一纠错模块还用于根据语言模型对语义错误进行纠错。

可选地,知识性错误包括法律法规和标准规范的引用与有效性错误以及相关条款漏评,第二纠错模块配置有规范引用库,第二纠错模块用于根据规范引用库对法律法规和标准规范的引用与有效性错误以及相关条款漏评进行纠错。

可选地,知识性错误还包括原始报告中出现的无关单位、项目或地点的文字错误、关键内容遗漏或漏评的错误、前后不一致的错误以及关键附件缺失的错误。

可选地,格式错误包括封面、标题、段落的缩进和行间距、字体的字号、单位和上下角标、页眉、页脚以及页码的错误。

可选地,语义错误包括错别字、词语重复或缺失以及同音字的错误。

可选地,纠错模块还包括错误统计模块,错误统计模块用于统计原始报告中出现的内容性错误和知识性错误的位置和总数n并生成错误统计报告,输出模块还用于输出错误统计报告。

可选地,所述系统还包括陈述性章节生成模块,陈述性章节生成模块用于生成陈述性章节;输入模块还用于输入陈述性章节的标题和模板;输出模块还用于输出陈述性章节;其中陈述性章节包括评价说明、自然条件、安全检查表和附件。

可选地,所述系统还包括在线编辑模块,在线编辑模块用于对原始报告和结果报告进行在线编辑。

本申请还提供了一种应用于上述报告纠错系统的报告纠错方法,包括以下步骤:s1,通过输入模块输入原始报告;s2,通过第一纠错模块对原始报告中的内容性错误进行纠错;s3,通过第二纠错模块对原始报告中的知识性错误进行纠错;s4,通过输出模块输出纠错后的结果报告。

可选地,内容性错误包括格式错误和语义错误,步骤s2具体包括步骤:s21,建立格式标准库,根据格式标准库对格式错误进行纠错;s22,配置语言模型,根据语言模型对语义错误进行纠错。

可选地,知识性错误包括法律法规和标准规范的引用与有效性错误以及相关条款漏评,步骤s3具体包括:建立规范引用库,根据规范引用库对法律法规和标准规范的引用与有效性错误以及相关条款漏评进行纠错。

可选地,在步骤s3和s4之间还包括步骤:s5,统计原始报告中出现的内容性错误和知识性错误的位置和总数n并生成错误统计报告;步骤s4还包括通过输出模块输出错误统计报告。

可选地,步骤s5具体包括分别统计原始报告中出现的内容性错误的数量n1、知识性错误的数量n2和总数n并生成错误统计报告;如果满足以下条件中的一项或多项,则步骤s4还包括通过输出模块输出审核预警:数量n1≥阈值t1,数量n2≥阈值t2,总数n≥阈值t。

可选地,步骤s1还包括通过输入模块输入陈述性章节的标题和模板;在步骤s1与s4之间还包括步骤:s6,根据陈述性章节的标题和模板生成陈述性章节;步骤s4还包括通过输出模块输出陈述性章节。

本申请所提供的报告纠错系统包括输入模块,用于输入原始报告;纠错模块,用于对原始报告进行纠错;以及输出模块,用于输出纠错后的结果报告;其中纠错模块包括第一纠错模块和第二纠错模块,第一纠错模块用于对原始报告中的内容性错误进行纠错,第二纠错模块用于对原始报告中的知识性错误进行纠错。

评估报告的撰写和审核通常由人工来执行,计算机应用较少。为了节省人力物力,可以利用nlp技术对评估报告进行计算机纠错,然而常规的nlp技术仅能针对报告中出现的内容性错误进行纠错而忽略了报告中可能出现的知识性错误,导致纠错后的结果报告中仍存在大量需要人工审核纠错的部分,并且审核人员可能倾向于重点关注计算机纠错中已经发现的错误,从而难以发现计算机未能纠正的错误,这对于报告的审核反而是不利的。本文所提供的报告纠错系统包括第一纠错模块和第二纠错模块,第一纠错模块对原始报告中的内容性错误进行纠错,第二纠错模块对原始报告中的知识性错误进行纠错,更大程度地对报告中可能存在的错误进行纠正,从而进一步减轻报告撰写和审核人员的工作负担。

附图说明

为了更清楚地说明本申请的技术方案,将根据以下附图进一步说明和描述本申请的实施例,这些附图仅用于更方便和具体地描述本申请的实施例而不是对本申请的限制。

图1是本申请所提供的报告纠错系统的一个具体实施例的示意图;

图2是本申请所提供的报告纠错方法的一个具体实施例的流程图;

图3是本申请所提供的报告纠错方法的一个具体实施例中输出审核预警的条件的逻辑示意图。

上图中:1是输入模块,2是纠错模块,3是输出模块;21是第一纠错模块,22是第二纠错模块。

具体实施方式

本申请提供了一种报告纠错系统,其既能够对评估报告中的内容性错误进行纠错又能够对评估报告中的知识性错误进行纠错。本申请还提供了一种应用于上述报告纠错系统的报告纠错方法。应当注意的是,安全报告包括“评估报告”和“评价报告”,职业危害一般采用“评价报告”,而环境影响和能源技术多采用“评估报告”。在本文上下文中,为简单起见均使用“评估报告”,本文中的“评估报告”应理解为“评估报告”和“评价报告”的总称。

下面将结合附图对本申请的具体实施例进行清楚、完整的描述。这些实施例仅以示例的方式提供,本领域技术人员在没有做出创造性劳动的条件下所获得的所有其他实施例也处于本申请所要求保护的范围内。

参考图1,图1是本申请所提供的报告纠错系统的一个具体实施例的示意图,该报告纠错系统包括:输入模块1,用于输入原始报告;纠错模块2,用于对原始报告进行纠错;以及输出模块3,用于输出纠错后的结果报告;其中纠错模块2包括第一纠错模块21和第二纠错模块22,第一纠错模块21用于对原始报告中的内容性错误进行纠错,第二纠错模块22用于对原始报告中的知识性错误进行纠错。诸如报告撰写人员或报告审核人员等用户可以通过输入模块1将已撰写完成或部分撰写完成的评估报告输入到本申请提供的报告纠错系统中,纠错模块2随即对原始报告中的内容性错误和知识性错误进行纠错,并通过输出模块3将纠错后的结果报告反馈给用户以供参考。用户可以根据结果报告对原始报告中出现的错误进行进一步修改或调整,如果检查到结果报告中已经没有问题,也可以直接将所输出的结果报告作为最终报告提交至请求制作报告的客户。

上述中,“内容性错误”和“知识性错误”的具体说明如下:撰写人员在撰写评估报告中可能出现各种各样的错误,一些错误可能是由于撰写人员粗心大意而产生的容易识别的显著错误,撰写人员在自我审查过程中容易意识到自己所犯的这种低级错误;另一些错误可能是由于撰写人员对于某些依赖于外界的知识不了解而产生的难以发现的错误,这种错误很难被撰写人员自己发现;也就是说,与外界的知识不相关而只与报告本身的内容相关的错误称为“内容性错误”,而需要结合外界知识才能发现和确定的错误称为“知识性错误”。例如,内容性错误可以包括报告中出现的格式错误(诸如段落、字体的设置错误)和语义错误(诸如错别字、同音字)等,知识性错误可以包括报告中所引用的法律法规名称或颁布时间错误等。

在本申请一具体实施例中,内容性错误包括格式错误,第一纠错模块21配置有格式标准库,第一纠错模块21用于根据格式标准库对格式错误进行纠错。标准格式库中储存有各种预先设定好的标准格式,这些标准格式针对不同类型、不同行业的报告可以有所不同,但对于相同类型的报告应当相同。本领域技术人员可以根据行业习惯制定特定行业的报告格式标准。或者,报告制定方可以根据其规定制定报告格式标准。在一些情况下,可以由审核人员或总工建立格式标准库并将制定好的格式标准输入到格式标准库中,报告撰写人员再将其撰写完成或部分撰写完成的原始报告通过输入模块1输入到本申请提供的报告纠错系统并获得结果报告。

在本申请一具体实施例中,内容性错误还包括语义错误,第一纠错模块21还配置有语言模型,第一纠错模块21还用于根据语言模型对语义错误进行纠错。语言模型可以是本领域已知的任何语言模型,例如包括但不限于lm(languagemodel)、kenlm、bert(bidirectionalencoderrepresentationfromtransformers)、ernie(enhancedlanguagerepresentationwithinformativeentities)、elmo(embeddingsfromlanguagemodels)语言模型。在训练语言模型之前,需要准备大量的数据源,这些数据源尽可能地以错误与正确成对出现,例如错误与正确的单词、句子、段落、文档等不同级别的数据。尽可能多地收集此类标准数据。在本申请一具体实施例中,语言模型的程序实现需要分布式运行,即需要大数据的存储环境,需要gpu(graphicsprocessingunit,图形处理器)服务器的支持。经调研发现本领域中目前支持的文本纠错是基于1-2编辑距离的,对于评估报告中的复杂错误难以解决,因此在本申请一具体实施例中,将序列到序列(seq2seq)模型作为基线(baseline)进行训练,并参考grammarly的语义纠错以及基于维基百科的gec(grammaticalerrorcorrection,语法错误纠正)的训练方式。此外,考虑到平行语料的不足,可以进行数据增强用以增加训练数据。

在本申请一具体实施例中,知识性错误包括法律法规和标准规范的引用与有效性错误以及相关条款漏评,第二纠错模块22配置有规范引用库,第二纠错模块22用于根据规范引用库对法律法规和标准规范的引用与有效性错误以及相关条款漏评进行纠错。具体地,这些法律法规和标准规范的引用与有效性错误可以包括法律法规和标准规范的名称、支持的扩展名称、文本内容、颁布时间、失效时间等详细信息。与标准格式库类似地,可以事先建立规范引用库,规范引用库中储存有法律法规和标准规范的上述相关内容,并且应适时地对规范引用库进行更新以确保其中的法律法规和标准规范满足时间相关需求。报告制作方可以根据需要将公司资源库中的法律法规和标准规范整合到规范引用库中,也可以参考本领域现有的一些法律法规和标准规范制定规范引用库,例如国家信息中心所提供的中国法律法规数据库。第二纠错模块22也涉及到相应的模型和算法,例如对文本内容进行分词可以利用bert+crf(conditionalrandomfield,条件随机场)模型,实体识别可以使用bert+bilstm(bidirectionallongshorttermmemory)+crf模型。在本申请一具体实施例中,知识性错误还包括原始报告中出现的无关单位、项目或地点的文字错误、关键内容遗漏或漏评的错误、前后不一致的错误以及关键附件缺失的错误。可以通过ner(namedentityrecognition,命名实体识别)技术对原始报告中出现的无关单位(项目)或地点等文字错误进行纠错;利用文本匹配算法对原始报告中出现的关键内容遗漏或漏评的错误(例如评估范围与评估内容不一致)进行纠错;利用db(differentiablebinarization,可微二值化)+tac(textangleclassification)+crnn(convolutionrecurrentneuralnetwork,卷积递归神经网络)模型对原始报告中出现的前后不一致的错误(例如图文不一致、文字内容前后不对应、逻辑错误等)和关键附件缺失的错误进行纠错。此外,本文所述的知识性错误还可以包括常识型知识性错误,例如“青海湖是淡水湖”就是一种常识型知识性错误,青海湖实际上是咸水湖。为此,可以利用过去在审核过程中出现的常识型知识性错误建立常识型知识性错误数据库,并通过该常识型知识性错误数据库对原始报告中出现的常识型知识性错误进行纠错。

在本申请一具体实施例中,格式错误包括封面、标题、段落的缩进和行间距、字体的字号、单位和上下角标、页眉、页脚以及页码的错误。格式错误还可以包括上述错误的任意组合或者任何其他具体的格式错误。

在本申请一具体实施例中,语义错误包括错别字、词语重复或缺失以及同音字的错误。语义错误还可以包括上述错误的任意组合或者可通过语言模型识别并纠正的任何其他语义错误。

在本申请一具体实施例中,纠错模块2还包括错误统计模块,错误统计模块用于统计原始报告中出现的内容性错误和知识性错误的位置和总数n并生成错误统计报告,输出模块3还用于输出错误统计报告。通过审查错误统计报告,撰写人员能够方便地发现自己所撰写的报告发生错误的类型、位置和数量,有助于撰写人员发现自身撰写方面的不足并提高撰写能力,例如,如果原始报告中出现的内容性错误比较多,则说明撰写人员在撰写过程中比较粗心大意,撰写人员应更细心地撰写并多次检查报告;又例如,如果原始报告中出现的知识性错误比较多,则说明撰写人员对于本领域相关知识的了解程度较薄弱,撰写人员需要更多地查阅相关知识。生成错误统计报告还可以减轻审核人员的负担,便于审核人员确认、查找和纠正原始报告中出现的错误。通过审查错误统计报告,审核人员也能够对报告撰写人员的撰写水平进行粗略的评估,以便后续对撰写人员的教学和督导。此外,也可以将错误统计报告整合在纠错报告中,生成在错误位置处带有批注的结果报告,并将这些错误的说明、总数n等相关信息整合在批注中。

在本申请一具体实施例中,报告审核系统还包括陈述性章节生成模块,陈述性章节生成模块用于生成陈述性章节;输入模块1还用于输入陈述性章节的标题和模板;输出模块3还用于输出陈述性章节;其中陈述性章节包括评价说明、自然条件、安全检查表和附件。上述中,“陈述性章节”是指内容相对固定的章节。在相同类型的报告中,陈述性章节的内容一致性较强,可以事先建立陈述性章节库,当需要在报告中生成陈述性章节时只需输入章节标题和模板即可从库中调出相应的一致性内容。

在本申请一具体实施例中,报告纠错系统还包括在线编辑模块,在线编辑模块用于对原始报告和结果报告进行在线编辑。如果撰写人员或审核人员对于原始报告或结果报告中的内容存疑则可以手动编辑原始报告和结果报告。例如,当撰写人员发现原始报告中有部分内容缺失或易位时,可以在生成结果报告之前或期间手动地修改原始报告,然后将修改后的原始报告输入报告纠错系统进行机器纠错以用于后续用途。又例如,当撰写人员或审核人员认为结果报告中纠正的错误不满足要求时,可以手动地修改这些错误并生成经人工修改后的结果报告。

本申请还提供一种应用于上述报告纠错系统的报告纠错方法,参考图2,图2是图2是本申请所提供的报告纠错方法的一个具体实施例的流程图,该报告纠错方法包括以下步骤:s1,通过输入模块1输入原始报告;s2,通过第一纠错模块21对原始报告中的内容性错误进行纠错;s3,通过第二纠错模块22对原始报告中的知识性错误进行纠错;s4,通过输出模块3输出纠错后的结果报告。应当注意的是,本申请所提供的报告纠错方法中的步骤s1-s4应当串联执行,即按照执行顺序分别为执行s1,执行s2,执行s3和执行s4。尤其应当注意的是,步骤s2应当在步骤s3之前执行而不应当在步骤s3之后执行。也就是说,本申请所提供的报告纠错方法中首先对原始报告中出现的内容性错误进行纠错,然后再对原始报告中出现的知识性错误进行纠错,这两个步骤应当显著区分并严格按照上述顺序执行。这是因为原始报告中出现的内容性错误可能会对知识性错误有影响,如果不首先对原始报告中的内容性错误进行纠正则知识性错误的纠正可能遗漏或出错。内容性错误对知识性错误的影响主要体现在格式错误的一部分(诸如字体的单位和角标)以及语义错误。在一个示例中,假设原始报告中同时出现内容性错误和知识性错误,并且该内容性错误是语义错误中的同音字错误,知识性错误是法律法规和标准规范的引用错误,例如,原始报告中需要引用《中华人民共和国消防法》,并需要标注其施行日期2009年5月1日,如果报告撰写人员将原始报告中的《中华人民共和国消防法》错写成《中华人民共和国效仿法》,并且施行日期错写成了2019年5月1日,则根据上述报告纠错方法应当先对内容性错误进行纠错再对知识性错误进行纠错,即先将《中华人民共和国效仿法》纠正为《中华人民共和国消防法》,再识别所引用的《中华人民共和国消防法》的施行日期并将其从2019年5月1日纠正为2009年5月1日。如果在上述示例中先通过第二纠错模块22对知识性错误进行纠错,则第二纠错模块22可能无法识别《中华人民共和国效仿法》并进一步对其施行日期进行纠错,随后通过第一纠错模块21对内容错误进行纠错,则第一纠错模块21将《中华人民共和国效仿法》纠正为《中华人民共和国消防法》,这样执行步骤的结果可能是《中华人民共和国消防法》的名称虽然正确,但是其施行日期仍然有误。因此,按照本申请所提供的顺序执行报告纠错方法的步骤是至关重要的,在既进行内容性纠错又进行知识性纠错的情况下,采用上述方法能够进一步降低结果报告中仍存在的错误的概率。

在本申请一具体实施例中,内容性错误包括格式错误和语义错误,步骤s2具体包括步骤:s21,建立格式标准库,根据格式标准库对格式错误进行纠错;s22,配置语言模型,根据语言模型对语义错误进行纠错。在本申请一具体实施中,知识性错误包括法律法规和标准规范的引用与有效性错误以及相关条款漏评,步骤s3具体包括:建立规范引用库,根据规范引用库对法律法规和标准规范的引用与有效性错误以及相关条款漏评进行纠错。这些步骤的有益效果如以上关于报告纠错系统所述,此处不再赘述。

在本申请一具体实施例中,报告纠错方法在步骤s3和s4之间还包括步骤:s5,统计原始报告中出现的内容性错误和知识性错误的位置和总数n并生成错误统计报告;步骤s4还包括通过输出模块3输出错误统计报告。进一步地,步骤s5具体包括分别统计原始报告中出现的内容性错误的数量n1、知识性错误的数量n2和总数n并生成错误统计报告;如果满足以下条件中的一项或多项,则步骤s4还包括通过输出模块3输出审核预警:数量n1≥阈值t1,数量n2≥阈值t2,总数n≥阈值t。上述中,阈值t1、阈值t2和阈值t2可以由报告制作方的审核人员规定。参照图3,图3是本申请所提供的报告纠错方法的一个具体实施例中输出审核预警的条件的逻辑示意图,先判断数量n1是否大于等于阈值t1,再判断数量n2是否大于等于阈值t2,最后判断总数n是否大于等于阈值t,当报告纠错过程中发现的内容性错误数量n1、知识性错误n2和总数n中任一项超过其相应阈值时,说明原始报告中出现的错误比较多,在这种情况下则通过输出模块3发送审核预警,告知撰写人员或审核人员该报告中出现的错误较多,可能需要更严格的审核程序。应当注意的是,图3中的示意性逻辑图仅用于方便说明本实施例,而不是对本申请的限制。例如,判断数量n1是否大于等于阈值t1,数量n2是否大于等于阈值t2,总数n是否大于等于阈值t的逻辑顺序可以与图3中描绘的不同,例如可以先对数量n2进行判断或者先对总数n进行判断,也可以分别独立地判断这三者与其阈值之间的大小关系。这些阈值可以由报告制作方规定,作为原始报告的审核标准,例如报告撰写人员在将其撰写的原始报告提交至审核人员之前首先需要利用本文所述的报告纠错方法和系统进行纠错,如果原始报告中出现的错误较多,则输出模块3将输出审核预警,撰写人员可以对原始报告或输出的结果报告自行修改并再次利用本文所述的报告纠错方法和系统进行纠错,直至其中出现的错误低于一定阈值,再将原始报告和/或结果报告提交至审核人员进行人工审核。在一些情况下,如果发现经机器纠错后的报告中出现的错误数量较多,可以进一步审查纠错的内容是否真正正确,如果机器纠错中出现的错误比较多则考虑优化报告纠错系统中所利用的算法和模型。此外,在报告审核系统的准确较高的情况下,对于不同的评估报告撰写人员,可以统计其在一定周期内所提交的多个原始报告中出现的内容性错误的数量n1、知识性错误的数量n2和总数n各自的平均值,将这些平均值作为评估撰写人员撰写水平的一项指标并依据该指标对犯错误较少的撰写人员进行褒奖或者对犯错误较多的撰写人员进行相关训练和督导。

在本申请一具体实施例中,报告纠错方法的步骤s1还包括通过输入模块1输入陈述性章节的标题和模板;在步骤s1与s4之间还包括步骤:s6,根据陈述性章节的标题和模板生成陈述性章节;步骤s4还包括通过输出模块3输出陈述性章节。应当注意的是,步骤s6只需要在步骤s1与步骤s4之间执行,即,步骤s6可以穿插在上述步骤s2、s3和s5头尾或之间,或者可以是完全独立于步骤s2、s3和s5的步骤。步骤s6的执行与步骤s2、s3和s5互相不会产生影响。

应当理解,可以将本申请中所提供的各个实施例中的系统和/或方法进行组合、修改和/或变更以形成新的技术方案。在没有创造性劳动的情况下,这些技术方案也应当包含在本申请所要求保护的范围之内。

在本文所提供的实施例中提供了大量具体示例,应当理解这些示例仅是为了对本申请的实施例进行详细的阐述而并非对本申请的限制。本申请中的实施例可以在没有这些具体示例的情况下实践。在一些实施例中并未详细示出本领域技术人员所公知的方法、结构和/或技术,以便不模糊对本申请的理解。

尽管本文中已经示出并描述了本申请的优选实施方案,但对于本领域技术人员显而易见的是,这些实施方案仅以示例的方式提供。本领域技术人员在不脱离本申请的情况下现将会想到多种变化、改变和替代。应当理解,本文中描述的本申请实施方案的各种替代方案任选地用于实施本申请。旨在以下述权利要求限定本申请的范围,并由此涵盖这些权利要求范围内的方法和结构及其等同物。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1