解析估值表的方法、设备和计算机可读存储介质与流程

文档序号:35974089发布日期:2023-11-09 15:51阅读:54来源:国知局
解析估值表的方法、设备和计算机可读存储介质与流程

本公开总体上涉及信息处理领域,并且更具体地,涉及用于解析估值表的方法、设备和计算机可读存储介质。


背景技术:

1、基金类产品(包括公募基金、私募基金等),按照相关政策法规,会定期出具估值表。估值表涵盖基金的各项财务、投资品类明细信息等,是基金的核心机密文档之一,对于机构投资者或合格投资者而言,具备很高的价值。估值表的出具周期包括日频、周频、不定期等。由于存在大量不同的基金,对于同一基金在不同的日期又会出具不同的估值表,从而会存在大量的估值表。如何解析估值表以便于生成关于估值表的结构化数据,对投资者系统化、全市场化的分析评估各种基金而言,是一种刚性需求。

2、传统的解析估值表的技术方案,通常需要人工参与,自动化程度低。例如,在对估值表进行自动解析之前,需要人工对估值表进行预处理;在对估值表进行自动解析时,需要人工确认自动解析的部分过程;在对估值表进行自动解析之后,需要人工对解析出的数据进行校验。另外,在传统的解析估值表的技术方案中,自动解析估值表时未能充分考虑估值表的布局,从而准确率低,

3、综上,传统的解析估值表的技术方案的不足之处在于:自动化程度低,准确率低。


技术实现思路

1、针对上述问题,本公开提供了一种用于解析估值表的方法、设备和计算机可读存储介质,能够全自动化地、高准确率地解析估值表。

2、根据本公开的第一方面,提供了一种用于解析估值表的方法,包括:获取估值表文件所包括的电子表格格式的估值表;获取估值表中的每个单元格的单元格信息;基于单元格信息和估值表的布局,分别确定估值表的标题部分、明细部分和统计部分;以及基于单元格信息和估值表的布局,分别解析估值表的标题部分、明细部分和统计部分,以便生成关于估值表的结构化数据。

3、在一些实施例中,单元格信息包括单元格行坐标、单元格列坐标、单元格内容和单元格合并关系;以及估值表的布局包括:估值表的标题部分包括跨列合并的单元格,跨列合并的单元格呈现估值表的标题部分中的至少部分;估值表的明细部分包括表头和明细主体,估值表的明细部分中的至少部分行所包括的单元格的数量等于估值表的宽度;以及估值表的统计部分包括第一统计部分和第二统计部分,第一统计部分共用估值表的明细部分所包括的表头,第二统计部分不共用估值表的明细部分所包括的表头。

4、在一些实施例中,分别确定估值表的标题部分、明细部分和统计部分包括:搜索估值表中的第一个非全空行,并将搜索到的第一个非全空行确定为标题部分的起始行;以及搜索估值表中在标题部分的起始行之后的第一个满足标题部分终止行确定条件的行,并将第一个满足标题部分终止行确定条件的行确定为标题部分的终止行,其中标题部分终止行确定条件为:下一行所包括的完整单元格的数量与估值表的宽度的比值大于或者等于阈值。

5、在一些实施例中,分别解析估值表的标题部分、明细部分和统计部分包括:将估值表的标题部分所包括的所有完整单元格所对应的内容拼接为字符串;以及基于自然语义神经网络模型,从字符串解析出标题信息。

6、在一些实施例中,方法还包括:判断解析出的标题信息是否包括基金名称和估值表日期;如果解析出的标题信息不包括基金名称和估值表日期中的至少一项,则确定估值表解析失败;如果解析出的标题信息包括基金名称和估值表日期,则判断解析出的标题信息所包括的任一信息是否被多次提取到数据;以及如果解析出的标题信息所包括的任一信息被多次提取到数据,则对多次提取到的数据进行校验。

7、在一些实施例中,分别确定估值表的标题部分、明细部分和统计部分包括:将标题部分的终止行的下一行确定为明细部分的起始行;以及搜索估值表中在明细部分的起始行之后的第一个满足明细部分终止行确定条件的行,并将第一个满足明细部分终止行确定条件的行确定为明细部分的终止行,其中明细部分终止行确定条件为:所包括的第一列单元格的单元格内容所对应的字符串长度小于一级科目编码信息长度。

8、在一些实施例中,分别确定估值表的标题部分、明细部分和统计部分还包括:将明细部分的起始行确定为明细部分所包括的表头的起始行;判断明细部分所包括的表头是否以跨行合并的单元格呈现;如果明细部分所包括的表头不以跨行合并的单元格呈现,则将明细部分的起始行确定为表头的终止行;如果明细部分所包括的表头以跨行合并的单元格呈现,则将跨行合并的单元格的终止行确定为表头的终止行;将表头的终止行的下一行确定为明细部分所包括的明细主体的起始行;以及将明细部分的终止行确定为明细主体的终止行。

9、在一些实施例中,分别解析估值表的标题部分、明细部分和统计部分包括进行以下步骤以解析明细部分所包括的表头:确定表头的每一列单元格所对应的明细名称;以及基于明细名称映射表,将所确定的明细名称映射为标准明细名称。

10、在一些实施例中,确定表头的每一列单元格所对应的明细名称包括:如果表头中不存在合并的单元格,则将表头中每列单元格的单元格内容确定为相应列的明细名称;如果表头中存在跨行不跨列合并的单元格,则将跨行不跨列合并的单元格所对应的内容确定为跨行不跨列合并的单元格的相应列的明细名称;以及如果表头中存在跨列合并的单元格,则将跨列合并的单元格所对应的内容与跨列合并的单元格所对应的、下方的未跨列合并的单元格的单元格内容的组合,确定为跨列合并的单元格所对应的、下方的未跨列合并的单元格的相应列的明细名称。

11、在一些实施例中,分别解析估值表的标题部分、明细部分和统计部分包括进行以下步骤以解析明细部分所包括的明细主体:将明细部分所包括的明细主体的起始行的科目层级确定为一级;基于明细部分所包括的表头所对应的标准明细名称,解析明细主体的起始行的其余列的单元格内容;以及按照从上到下的顺序,将明细主体中的其余行分别作为当前解析行,并进行以下步骤以解析当前解析行:基于当前解析行的第一列单元格的单元格内容,确定当前解析行的科目层级;以及基于明细部分所包括的表头所对应的标准明细名称,解析当前解析行的其余列的单元格内容。

12、在一些实施例中,确定当前解析行的科目层级包括:如果lvself= lb,则将当前解析行的科目层级确定为一级;如果lvself>lb且lvself>lvup,则将当前解析行的科目层级确定为当前解析行的上一行的科目层级加1;如果lvself>lb且lvself= lvup,则将当前解析行的科目层级确定为当前解析行的上一行的科目层级;以及如果lvself>lb且lvself<lvup,则将当前解析行的科目层级确定为当前解析行的上一行的科目层级减1;其中,lvself为当前解析行的第一列单元格的单元格内容所对应的字符串长度,lb为明细主体的起始行的第一列单元格的单元格内容所对应的字符串长度,lvup为当前解析行的上一行的第一列单元格的单元格内容所对应的字符串长度。

13、在一些实施例中,方法还包括:如果lvself>lb,则对vself执行科目编码信息合法性检查;以及如果vself未通过科目编码信息合法性检查,则确定估值表解析失败;其中,vself为当前解析行的第一列单元格的单元格内容。

14、在一些实施例中,方法还包括:基于明细部分所包括的明细主体中的各行的科目层级之间的关系,对各行所解析出的明细信息进行校验。

15、在一些实施例中,分别确定估值表的标题部分、明细部分和统计部分包括:将明细部分的终止行的下一行确定为第一统计部分的起始行;搜索估值表中在第一统计部分的起始行之后的第一个满足第一统计部分终止行确定条件的行,并将第一个满足第一统计部分终止行确定条件的行确定为第一统计部分的终止行,其中第一统计部分终止行确定条件为下一行所包括的第二列单元格的单元格内容非空;将第一统计部分的终止行的下一行确定为第二统计部分的起始行;以及搜索估值表中在第二统计部分的起始行之后的第一个满足第二统计部分终止行确定条件的行,并将第一个满足第二统计部分终止行确定条件的行确定为第二统计部分的终止行,其中第二统计部分终止行确定条件为下两行均为空行。

16、在一些实施例中,分别解析估值表的标题部分、明细部分和统计部分包括进行以下步骤以解析统计部分所包括的第一统计部分:将第一统计部分中的当前解析行的第一列单元格的单元格内容确定为科目名称;以及基于明细部分所包括的表头所对应的标准明细名称,解析第一统计部分中的当前解析行的其余列的单元格内容。

17、在一些实施例中,方法还包括:基于第一统计部分中的至少一行的科目名称与明细部分所包括的明细主体中的至少部分行的统计关系,对第一统计部分中的至少一行的解析出的统计信息进行校验。

18、在一些实施例中,分别解析估值表的标题部分、明细部分和统计部分包括进行以下步骤以解析统计部分所包括的第二统计部分:将第二统计部分中的当前解析行的第一列单元格的单元格内容确定为科目名称;以及将第二统计部分中的当前解析行的第二列单元格的单元格内容确定为科目名称所对应的数值信息。

19、在一些实施例中,方法还包括:判断第二统计部分中解析出的单位净值所对应的数值信息与标题部分中解析出的单位净值所对应的数值信息是否相同,以对第二统计部分中解析出的统计信息进行校验。

20、根据本公开的第二方面,提供了一种计算设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开的第一方面的方法。

21、根据本公开的第三方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中计算机指令用于使计算机执行本公开的第一方面的方法。

22、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1