基于自然语言处理的文档校验方法、装置和电子设备与流程

文档序号:19376551发布日期:2019-12-10 23:55阅读:272来源:国知局
基于自然语言处理的文档校验方法、装置和电子设备与流程

本申请总的来说涉及数据处理领域,特别是涉及基于自然语言处理的文档校验方法、文档校验装置和电子设备。



背景技术:

财务数据对于企业而言是非常重要的数据,财务管理(包括财务数据统计、财务数据分析、财务报表呈现、债券市场募集说明书的呈现等)是企业管理的中心。相较于其他数据,财务数据(由于数据维度庞杂,计量单位不统一等原因)更容易出错,且出错之后造成的影响较大。因此,财务数据校验成为非常重要的工作。目前,这项工作具有较高的人工依赖性,不仅效率低下,而且容易出错。

例如,在债券市场中,企业需要将债券市场募集说明书上传至相关金融交易平台上。在上传过程中或上传之后,企业相关人员或平台相关人员需对上传的债券市场募集说明书进行校验,尤其是对其中财务数据部分进行校验,以确保文档中的财务数据不存在冲突或错误等问题。

当下自然语言处理技术蓬勃发展,如果能够将自然语言处理技术应用于传统行业以解决传统行业所存在的痛点问题,对于传统行业具有重要意义。



技术实现要素:

为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于自然语言处理的文档校验方法、文档校验装置和电子设备,其通过自然语言处理技术对包含财务数据的文档进行处理,以智能化且自动化地对所述文档中所包含的财务数据进行验证,这样,降低了市场参与机构的工作量、提高了工作效率。

根据本申请的一方面,提供了一种基于自然语言处理的文档校验方法,其包括:

对获取的包含财务数据的文档进行预处理;

以预设自然语言处理模型对经过预处理之后的所述文档进行处理,以从所述文档中抽取出财务数据;以及

对所述财务数据进行处理,以获得所述财务数据中的错误和/或冲突。

在上述文档校验方法中,对所述财务数据进行处理,以获得所述财务数据中的错误和/或冲突,包括:对所述财务数据进行关联性分析,以验证所述财务数据中财务指标数据之间的关系准确性。

在上述文档校验方法中,对所述财务数据进行处理,以获得所述财务数据中的错误和/或冲突,进一步包括:对所述财务数据进行关联性分析,以验证财务报表上下文内容的一致性。

在上述文档校验方法中,对所述财务数据进行处理,以获得所述财务数据中的错误和/或冲突,进一步包括:提取所述财务数据中的财务指标计算公式和对应的第一财务指标数据;基于财务指标计算公式,获得第二财务指标数据;以及,对比所述第一财务指标数据和所述第二财务指标数据,以验证所述财务指标计算公式和对应财务指标数据之间的准确性。

在上述文档校验方法中,对所述财务数据进行处理,以获得所述财务数据中的错误和/或冲突,进一步包括:对所述财务数据进行语感甄别处理,以验证相关财务数据是否为输入错误。

在上述文档校验方法中,所述方法,进一步包括:获取日期确认指令;以及,响应于获取日期确认指令,提取满足日期阈值范围内的所述包含财务数据的文档。

在上述文档校验方法中,所述包含财务数据的文档为债券募集说明书,其中,所述预设自然语言处理模型基于带标注的债券说明书训练集训练而成。

根据本申请另一方面,提供一种基于自然语言处理的文档校验装置,包括:

预处理单元,用于对获取的包含财务数据的文档进行预处理;

数据提取单元,用于以预设自然语言处理模型对经过预处理之后的所述文档进行处理,以从所述文档中抽取出财务数据;以及

校验单元,用于对所述财务数据进行处理,以获得所述财务数据中的错误和/或冲突。

在上述文档校验装置中,所述校验单元用于:对所述财务数据进行关联性分析,以验证所述财务数据中财务指标数据之间的关系准确性。

在上述文档校验装置中,所述校验单元用于:对所述财务数据进行关联性分析,以验证财务报表上下文内容的一致性。

在上述文档校验装置中,所述校验单元用于:提取所述财务数据中的财务指标计算公式和对应的第一财务指标数据;基于财务指标计算公式,获得第二财务指标数据;以及,对比所述第一财务指标数据和所述第二财务指标数据,以验证所述财务指标计算公式和对应财务指标数据之间的准确性。

在上述文档校验装置中,所述校验单元用于:对所述财务数据进行语感甄别处理,以验证相关财务数据是否为输入错误。

在上述文档校验装置中,所述装置,还包括:日期获取单元,用于获取日期确认指令;以及,文档提取单元,用于响应于获取日期确认指令,提取满足日期阈值范围内的所述包含财务数据的文档。

在上述文档校验装置中,所述文档为债券募集说明书,其中,所述预设自然语言处理模型基于带标注的债券说明书训练集训练而成。

根据本申请的又一方面,还提供一种电子设备,包括:处理器和存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的基于自然语言处理的文档校验方法。

根据本申请的再一方面,还提供一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被计算装置执行时,可操作来执行如上所述的基于自然语言处理的文档校验方法。

本申请提供的基于自然语言处理的文档校验方法、文档校验装置和电子设备,可以有效地通过自然语言处理技术对包含财务数据的文档进行处理,以智能化和自动化地对所述文档中所包含的财务数据进行验证(验证内容,包括但不限于财务报表上下文一致性、财务指标数据关系准确性、财务指标计算公式和结果的准确性,以及,输入错误等)。

通过这样的方式,将自然语言处理技术应用于传统的财务数据校验工作中,以降低市场参与机构的工作量、提高工作效率,并且,对实现未来数据深度挖掘和建立知识图谱进行了铺垫

附图说明

通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的文档校验方法的流程图。

图2图示了根据本申请实施例的对所述财务数据进行处理,以获得所述财务数据中的错误和/或冲突的第一示例的流程图。

图3图示了根据本申请实施例的文档校验方法中的深度关联匹配的示例的示意图。

图4图示了根据本申请实施例的文档校验方法中的财务指标计算的示例的示意图。

图5图示了根据本申请实施例的对所述财务数据进行处理,以获得所述财务数据中的错误和/或冲突的第二示例的流程图。

图6图示了根据本申请实施例的文档校验装置的框图示意图。

图7图示了根据本申请实施例的电子设备的框图示意图。

具体实施方式

下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。

示意性方法

图1图示了根据本申请实施例的文档校验方法的流程图。如图1所示,根据本申请实施例的文档校验方法包括:s110,对获取的包含财务数据的文档进行预处理;s120,以预设自然语言处理模型对经过预处理之后的所述文档进行处理,以从所述文档中抽取出财务数据;以及,s130,对所述财务数据进行处理,以获得所述财务数据中的错误和/或冲突。

在步骤s110中,对获取的包含财务数据的文档进行预处理。这里,在本申请实施例中,所述包含财务数据的文档为包含财务数据的说明性文档,包括但不限于财务报表、企业发布于金融平台的债券市场募集说明书等。并且,所述财务数据在所述说明性文档中的数据形式并不为本申请局限,例如,所述财务数据可以以表格、表单、文本、公式等形式出现。

相应地,在本申请的一种可能的实现方式中,对获取的包含财务数据的文档进行预处理的过程首先包括对获取的文档进行数据清洗处理;进而,对经过数据清洗处理之后的所述文档进行词向量转化处理,以获得所述文档的词向量表示。

具体来说,在本申请一种可能的实现方式中,该数据清洗处理过程包括:首先将文档中的内容拆分成单独的句子;进而,对每个句子进行词汇标记化处理;接着,预测每个标记的词性(在本申请一种可能的实现方式中,可以将每个词和它周围的一些额外的上下文信息,输入预先训练的词性分类模型中,以获得每个标记词的词性);继而,识别停止词并将停止词过滤掉;接着,为了弄清楚词与词之间的关联,对句子中的所有词进行依赖解析,目的是构建一颗树,其中,基于该树可以获得每个词对应的父词,以及,两个词之间存在的关系类型;进而,寻找名词短语,即词语片语;然而进行命名实体识别(ner)来确定句子中哪些名词是真实存在的,即命名实体识别的目标是用它们所代表的真实世界的概念来检测和标记这些名词;接着,由于句子中存在人称代词(他、她、他们、她们)和物主代词(它、它们),通过共指解析以将共指信息与解析树和命名实体信息相结合,从文档中提取大量信息。

由于文档中存在一些噪音和无效数据,因此,在本申请一种可能的实现方式中,所述数据清洗过程,还包括:删除不相关的字符;删除不相关的词;将所有字符转换成小写形式;以及,对部分词的词性进行还原等。

为了充分利用语意信息,可对经过数据清洗处理之后的所述文档进行词向量转化处理,以获得所述文档的词向量表示。例如,利用word2vec对经过数据清洗处理之后的所述文档进行处理,以获得所述文档的词向量表示。本领域技术人员应之下,word2vec是寻找词语连续表示的embedding技术,它可以从阅读大量的文本中学习,并记住在类似语境中出现的单词。在对足够的数据进行训练之后,它会在词汇表中为每个单词生成一个300维的向量,而词语之间的意思相近。当然,还可以使用其他工具来挖掘和使用语意信息,对此,并不为本申请所局限。

值得一提的是,在本申请实施例中,所述数据清洗过程可一次性处理一份文档或一次性处理多份文档,对此并不为本申请所局限(也就是说,在本申请实施例中,所述文档校验方法可一次性校验一份文档或一次性校验多份文档,对此并不为本申请所局限)。例如,在一种可能的实现方式中,用户可一次性选择输入多份文档(例如,以时间为阈值,将所有满足时间范围内的文档都进行数据清洗处理)。也就是说,在本申请实施例中,所述文档校验方法,可包括步骤:获取日期确认指令;以及,响应于获取日期确认指令,提取满足日期阈值范围内的所述包含财务数据的文档。

在步骤s120中,以预设自然语言处理模型对经过预处理之后的所述文档进行处理,以从所述文档中抽取出财务数据。这里,在本申请实施例中,对于所述自然语言处理模型的类型并不为本申请所局限,其包括但不限于统计语言模型、n-gram语言模型、神经概率语言模型(基于循环神经网络)。特别地,在本申请实施例中,所述自然语言处理模型基于待标记的训练样本训练而成。例如,当数据处理对象为企业发布的债券市场募集说明书,所述自然语言处理模型基于带标注的债券说明书训练集训练而成。

在步骤s130,对所述财务数据进行处理,以获得所述财务数据中的错误和/或冲突。在经过自然语言处理之后,财务数据从所述包含财务数据的文档中提取出来,即,从相关段落和表格中自动抽取出需要关注的财务数据内容。相应地,可选择输出并显示所述财务数据,以供用户进行结果审阅。当然,在提取出所述财务数据之后,最重要的工作在于对所述财务数据进行校验,以自动识别和/或校正所述财务数据中的错误和/或冲突。

具体来说,在本申请实施例中能够自动甄别的错误和/或冲突覆盖以下几类:中文语感甄别、数据解析复核、深度关联匹配、财务指标计算。具体地,在本申请实施例中,中文语感甄别可以通过人工智能网络模型和语言模型实现,且人工智能网络模型例如可以为guru-doc模型。通过中文语感甄别,可以查找出金融文档中存在的金融类错别字、同音类音字、中英文标点符号混用等错误。例如,在“对董事、高级管理人员执行职务的行为进行监督,对违反法律、行政法规、公司章程的董事、高级管理人员剔除罢免的建议”中,甄别出“剔除”为“提出”的同音异字。又例如,在“如果出现经济增长速度放缓、停止或衰退,将可能使发行人的经济效益下降,现金流相对减少,从而影响本期债务的兑付”中,甄别出“停止”为“停滞”的同音异字。

数据解析复核指的是在同一文档中,查找校验财务指标和金融财务类数据在上下文中的一致性。也就是,在本申请实施例中,如图2所示,财务数据校验过程的第一示例包括:对所述财务数据进行关联性分析,以验证所述财务数据中财务指标数据之间的关系准确性;对所述财务数据进行关联性分析,以验证财务报表上下文内容的一致性;对所述财务数据进行语感甄别处理,以验证相关财务数据是否为输入错误。这里,图2图示了根据本申请实施例的对所述财务数据进行处理,以获得所述财务数据中的错误和/或冲突的第一示例的流程图。

深度关联匹配指的是针对金融文档中描述的财务数据之间的变动、比例关系等描述,锁定相关联的数值,根据数据关系(可以自动将其转化为数学公式)计算结果,与文档中相关联上下文描述的结果进行对比,自动甄别潜在冲突。图3图示了根据本申请实施例的文档校验方法中的深度关联匹配的示例的示意图。

另外,财务指标计算指的是通过自动集成,运用系统内嵌的常用金融财务公式、常用数学计算公式以及文档中直接列明的各类计算公式为基础,从文档中自动提取相对应的支持数据、自动计算,然后,将计算结果与文中的直接写明的相关数值进行比较,自动甄别潜在冲突。图4图示了根据本申请实施例的文档校验方法中的财务指标计算的示例的示意图。

也就是,如图5所示,财务数据校验过程的第二示例还包括:提取所述财务数据中的财务指标计算公式和对应的第一财务指标数据;基于财务指标计算公式,获得第二财务指标数据;以及,对比所述第一财务指标数据和所述第二财务指标数据,以验证所述财务指标计算公式和对应财务指标数据之间的准确性。也就是说,在本申请实施例中,所述文档校验方法能够对财务报表上下文一致性、财务指标数据关系准确性、财务指标公式和结果的准确性;以及,输入失误进行校验。这里,图5图示了根据本申请实施例的对所述财务数据进行处理,以获得所述财务数据中的错误和/或冲突的第二示例的流程图。

相应地,在完成财务数据校验之后,可生成文档校验报告,以方便用户查阅。并且,用户也可以将自动识别出的错误和冲突,添加入文档中,以获得带批注的新文档。

应可以理解,本申请所提供的所述基于自然语言处理的文档校验方法可基于软件平台来实施。相应地,用户可基于如下步骤进行操作:

首先,用户上传包含财务数据的文档(例如,word格式的文档);

进而,通过所述软件平台的智能深度分析,从相关段落或表格中自动抽取出需要关注的财务数据,并逐一罗列在显示页面中供用户进行结果查阅。

接着,文档关联对比,查找数据错误和/或冲突。即,所述软件平台自动识别、关联并对比文档中所包含的财务数据,寻找财务数据间可能存在的错误和/或冲突。现阶段,智能软件可以自动甄别识别的错误和/或冲突覆盖以下几大类:中文语感甄别、数据解析复核、深度关联匹配和财务指标计算。

然后,所述智能平台生成文档校验报告并传输给用户。相应地,用户可将智能软件已识别的错误和/或冲突,添加入上传的文档,以获取带有批注的新文档。

以下,以所述文档为债券市场说明书为示例,阐述用户可能的操作过程:

第一步:用户打开相关金融交易平台的网址(例如,打开北京金融资产交易所cfae平台官网)。

第二步:进入交易专区-文档校验(需账号密码登陆);

第三步:上传债券募集说明书文档;

第四步:确定日期(最近一年、最近一期、报告期数等),即,确定待校验的债券募集说明书的明确时间范围;

第五步:点击文档校验选项,后台便基于自然语言处理模型进行智能分析,以进行文档校验;

第六步:用户可选择查看校验结果;

第七步:用户可选择生成并下载待批注文档。

以上,虽然以所述文档为债券市场说明书为示例,阐述了一种可能用户交互形式,但本领域技术人员应可以理解,所述文档还可以被实施为其他含财务数据的说明性文档,以及,用户交互方式可设计为其他类型,对此并不为本申请所局限。

综上,描述了基于本申请实施例的文档校验方法,其通过自然语言处理技术对包含财务数据的文档进行处理,以智能化地且自动化地对所述文档中所包含的财务数据进行验证(验证内容,包括但不限于财务报表上下文一致性、财务指标数据关系准确性、财务指标计算公式和结果的准确性,以及,输入错误等)。通过这样的方式,将自然语言处理技术应用于传统的财务数据校验工作中,以降低市场参与机构的工作量、提高工作效率,并且,对实现未来数据深度挖掘和建立知识图谱进行了铺垫。

示意性装置

图6图示了根据本申请实施例的文档校验装置的框图示意图。

如图6所示,根据本申请实施例的文档校验装置400包括:包括:预处理单元410,用于对获取的包含财务数据的文档进行预处理;数据提取单元420,用于以预设自然语言处理模型对经过所述预处理单元410的预处理之后的所述文档进行处理,以从所述文档中抽取出财务数据;以及,校验单元430,用于对所述数据提取单元420抽取出的所述财务数据进行处理,以获得所述财务数据中的错误和/或冲突。

在一个示例中,在上述文档校验装置400中,所述校验单元430用于:对所述财务数据进行关联性分析,以验证所述财务数据中财务指标数据之间的关系准确性。

在一个示例中,在上述文档校验装置400中,所述校验单元430用于:对所述财务数据进行关联性分析,以验证财务报表上下文内容的一致性。

在一个示例中,在上述文档校验装置400中,所述校验单元430用于:提取所述财务数据中的财务指标计算公式和对应的第一财务指标数据;基于财务指标计算公式,获得第二财务指标数据;以及,对比所述第一财务指标数据和所述第二财务指标数据,以验证所述财务指标计算公式和对应财务指标数据之间的准确性。

在一个示例中,在上述文档校验装置400中,所述校验单元430用于:对所述财务数据进行语感甄别处理,以验证相关财务数据是否为输入错误。

在一个示例中,在上述文档校验装置400中,所述文档校验装置400,还包括:日期获取单元440,用于获取日期确认指令;以及,文档提取单元450,用于响应于获取日期确认指令,提取满足日期阈值范围内的所述包含财务数据的文档。

在一个示例中,在上述文档校验装置400中,所述文档为债券募集说明书,其中,所述预设模型基于带标注的债券说明书训练集训练而成。

这里,本领域技术人员可以理解,上述基于自然语言处理的文档校验装置400中的各个单元和模块的具体功能和操作已经在上面参考图1到图5描述的基于自然语言处理的文档校验方法中详细介绍,并因此,将省略其重复描述。

如上所述,根据本申请实施例的基于自然语言处理的文档校验装置可以实现在各种终端设备中,例如金融服务平台的服务器中。在一个示例中,根据本申请实施例的基于自然语言处理的文档校验装置可以作为一个软件模块和/或硬件模块而集成到所述终端设备中。例如,该基于自然语言处理的文档校验装置可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该基于自然语言处理的文档校验装置同样可以是该终端设备的众多硬件模块之一。

替换地,在另一示例中,该基于自然语言处理的文档校验装置与该终端设备也可以是分立的终端设备,并且该基于自然语言处理的文档校验装置可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。

示意性电子设备

下面,参考图7来描述根据本申请实施例的电子设备。

图7图示了根据本申请实施例的电子设备的框图。

如图7所示,电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的基于自然语言处理的文档校验方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储包含财务数据的文档等各种内容。

在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如,该输入装置13可以是例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息,包括文档校验报告等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然,为了简化,图7中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。

示意性计算机程序产品

除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于自然语言处理的文档校验方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、c++等,还包括常规的过程式程序设计语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于自然语言处理的文档校验方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。

还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1