一种基于xbrl技术从非结构化财务报告抓取数据的方法_2

文档序号:8412608阅读:来源:国知局
型的匹配,根据匹配的相似度高低选择最优匹配结果,提高表格数据到分类标准报告模型对应关系映射的准确性。
[0020]针对报告主体、时间两个特殊的维度,根据财务报告特点,一般在企业报告的页眉或首页包含报告主体的名称和具体时间,通过相关的特殊关键字进行匹配。
[0021]财务报告中具体报表数据中的时间维度,通过强标识的关建字进行标识,关键字包括:期末*余额、期初*余额、本期*金额、上期*金额、期末数、期初数、上年同期金额、年初*余额、年末*余额,其中*表示通配。
[0022]根据表格方式表不一张财务报表的特点,区分出表格数据上的维度和量度后,根据财务报告一般采用千分位形式表示具体数据的特征,进一步区分出表格数据上的具体金额数据,对于非金额数据,可以按照表格展现的8种形式进行区分。
[0023]优选地,根据具体财务报表对应的XBRL分类标准的建模方式,可以按照维度、非维度两种不同建模方式来进一步筛选表格展现形式,更准确的识别具体数据。
[0024]在表格数据上区分出的维度、量度和具体数据基础之上,根据表格数据的行列坐标,对具体数据按照所在行列位置由右向左、由下到上的顺序逐个推算对应的维度和量度,形成具体数据与维度、量度的对应关系。
[0025]根据表格数据中的维度、量度到XBRL分类标准报告模型的对应关系和具体数据与维度、量度的对应关系,按照XBRL分类标准形成XBRL事实值,实现到XBRL数据的自动转换。
[0026]本发明的方法是基于对财务报告按照XBRL技术标准进行建模的基础之上进行的,对于我们国家的企业财务报告来讲,一般都是按照企业会计准则编制,因此收集我国企业的非结构化财务报告,必须选择由我国财政部制定的企业会计准则通用分类标准作为基础,可以最大程度的保证数据自动标识转换的适用性,能够实现快速的从现有的大量的非结构化的财务报告转化为XBRL格式的,为企业分析应用提供数据支撑,推动XBRL技术在企业的应用。
[0027]本发明以我国现行企业会计准则通用分类标准为基础,按照本发明所述方法对企业财务报告进行收集,具体实施步骤如附图2所示,具体如下:
I)准备工作:准备企业会计准则通用分类标准、企业财务报告。
[0028]2)模型配置:设置分类标准元素标签、ELR关键字、报告主体、时间维度关键字,形成基于分类标准的报告数据采集模型配置文件。
[0029]3)确定采集范围:选择要收集的报表范围,根据依赖的分类标准选择要收集的报表范围,先选择分类标准,再选择要收集的报表对应的ELR ;选择收集的企业财务报告,财务报告支持多选,对一批财务报告进行批量处理,此处选择指定企业Word格式的财务报生口 ο
[0030]4)报告采集过程:根据上述的内容开始报告采集,具体细化为如下过程:
根据报告页眉或首页识别报告主体和时间;
根据分类标准ELR设置的关键字确定财务报告中具体表格;
根据分类标准ELR建模方式和表格展现形式识别维度、量度;
根据财务报告表格数据获取具体数据和与维度、量度的关系;
根据上述关系形成XBRL事实值。
[0031]5)数据校验:根据分类标准计算、公式链接库校验数据的正确性,根据校验结果确定进入步骤6),还是返回步骤2)进行模型的调整,调整后进行重新采集。
[0032]6)数据存储:利用XBRL数据结构化存储的特点,采用数据仓库的存储收集的XBRL数据,方便基于XBRL财务数据库进行数据的分析。
[0033]上述【具体实施方式】仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述【具体实施方式】,任何符合本发明的一种基于XBRL技术从非结构化财务报告抓取数据的方法的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。
【主权项】
1.一种基于XBRL技术从非结构化财务报告抓取数据的方法,其特征在于,其具体实现过程为: 一、以XBRL分类标准为财务报告模型,对分类标准元素和扩展链接角色ELR进行扩展标识; 二、使用Word或Excel的非结构化格式的财务报告,预置对采用表格方式表示财务报表进行解析的规则,实现表格数据到XBRL分类标准报告模型的对应关系映射; 三、针对报告主体、时间两个特殊的维度,通过特殊关键字匹配财务报告,在对应关系的基础之上实现表格数据到XBRL数据的自动转换。
2.根据权利要求1所述的一种基于XBRL技术从非结构化财务报告抓取数据的方法,其特征在于,所述对分类标准元素和ELR进行扩展标识,是指通过设置多种类型的元素与财务报告具体数据对应,通过ELR设置关键字实现与财务报告具体报表的对应。
3.根据权利要求2所述的一种基于XBRL技术从非结构化财务报告抓取数据的方法,其特征在于,对分类标准元素进行扩展标识的具体过程为,同一元素可以设置多种类型的标签,参照元素不同种类的标签对表格数据进行多种类型的匹配,根据匹配的相似度高低选择最优匹配结果,从而提高表格数据到分类标准报告模型对应关系映射的准确性。
4.根据权利要求2所述的一种基于XBRL技术从非结构化财务报告抓取数据的方法,其特征在于,对ELR进行扩展标识的具体过程为,将关键字分为标题关键字、内容关键字两类,每类包括若干个,标题关键字根据内嵌表格对象表示的报表标题名称来定义,标题关键字支持多个优先级设置;内容关键字根据内嵌表格对象具体的表格数据的特征来设置,支持多个关键字设置。
5.根据权利要求1所述的一种基于XBRL技术从非结构化财务报告抓取数据的方法,其特征在于,所述使用Word或Excel的非结构化格式的财务报告是指采用表格方式表示一张财务报表,对表格展现形式进行归类,按照非维度与维度建模方式划分为2大类,其中非维度的建模对应的报表只包含时间维和财务概念;维度建模对应的报表包括时间维、财务概念。
6.根据权利要求5所述的一种基于XBRL技术从非结构化财务报告抓取数据的方法,其特征在于,所述非维度的建模方式中包括双期间双项目列、单期间单项目列、双期间单项目列、单期间双项目列;维度建模方式包括单期间行项目列维度、单期间行维度列项目、双期间行项目列维度、双期间行维度列项目;然后对该表格数据解析抽取出维度、量度,实现与分类标准模型的对应。
7.根据权利要求1所述的一种基于XBRL技术从非结构化财务报告抓取数据的方法,其特征在于,所述步骤三中,财务报告中具体报表数据中的时间维度通过强标识的关建字进行标识,关键字包括:期末*余额、期初*余额、本期*金额、上期*金额、期末数、期初数、上年同期金额、年初*余额、年末*余额,其中*表示通配。
【专利摘要】本发明公开了一种基于XBRL技术从非结构化财务报告抓取数据的方法,其具体实现过程为:以XBRL分类标准为财务报告模型,对分类标准元素和扩展链接角色ELR进行扩展标识;使用Word或Excel的非结构化格式的财务报告,预置对采用表格方式表示财务报表进行解析的规则,实现表格数据到XBRL分类标准报告模型的对应关系映射;针对报告主体、时间两个特殊的维度,通过特殊关键字匹配财务报告,在对应关系的基础之上实现表格数据到XBRL数据的自动转换。该一种基于XBRL技术从非结构化财务报告抓取数据的方法与现有技术相比,实现快速的把现有大量的非结构化财务报告转化为XBRL格式进行存储,为企业分析应用提供数据支撑,推动XBRL技术在企业的应用。
【IPC分类】G06F17-30
【公开号】CN104731941
【申请号】CN201510146654
【发明人】国文峰
【申请人】浪潮集团有限公司
【公开日】2015年6月24日
【申请日】2015年3月31日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1