基于机器学习的上市公司财务异常分析方法与流程

文档序号:30974018发布日期:2022-08-02 22:45阅读:212来源:国知局
基于机器学习的上市公司财务异常分析方法与流程

1.本发明涉及金融数据处理技术领域,尤其涉及基于机器学习的上市公司财务异常分析方法。


背景技术:

2.传统的上市公司财务异常分析一般从财务会计科目及企业经营着手分析,由专业会计人员,基于业务领域知识,通过对各种会计科目同级比较,发现财务异常风险点。传统的基于财会业务分析方法需要诸多专业人员的深度参与,耗费大量的时间和精力。近年来出现了很多基于机器学习的财务异常分析方法,即借助数据挖掘、机器学习等方法,对大量的样本及特征数据进行大数据分析,发现个体的异常。这种方法分析快速、成本较低,能够预测上市公司的财务异常程度。基于机器学习的财务异常分析方法虽然可以在一定程度上辅助监管人员发现上市公司财务异常程度,但是存在解释性较差的缺陷,即无法较为准确的指出公司具体在什么方面以及在哪些指标存在异常。


技术实现要素:

3.本发明的主要目的在于提供一种基于机器学习的上市公司财务异常分析方法,旨在达成简化提升上市公司财务异常解释的效果。
4.为实现上述目的,本发明提供一种基于机器学习的上市公司财务异常分析方法,所述基于机器学习的上市公司财务异常分析方法包括以下步骤:
5.获取用于训练的财务数据和非财务数据,并对所述财务数据和所述非财务数据进行预处理,得到财务特征数据和非财务特征数据;
6.根据所述财务特征数据构建衍生指标,并进行重要特征筛选,获取输入特征;
7.基于所述非财务特征数据和所述输入特征训练财务异常分析模型,并基于训练后的所述财务异常分析模型对未知样本进行异常等级预测;
8.获取历史异常样本和预测为异常的未知样本对应的模型结果向量,并基于所述模型结果向量,通过k近邻算法判断所述未知样本的财务异常类别,并进行指标分析。
9.可选地,所述财务数据包括受到证监会行政处罚、自律监管和提醒关注函的高危异常上市公司财务数据、带有退市风险警示和其它风险警示标识的中等异常上市公司财务数据,除所述高危异常上市公司和所述中等异常上市公司之外,信息披露等级为c级或d级的异常上市公司财务数据,以及除所述高危异常上市公司财务数据、所述中等异常上市公司财务数据以及异常上市公司财务数据之外的,无明显异常的上市公司财务数据。
10.可选地,所述获取历史异常样本和预测为异常的未知样本对应的模型结果向量,并基于所述模型结果向量,通过k近邻算法判断所述未知样本的财务异常类别,并进行指标分析的步骤包括:
11.标记历史异常样本对应的异常类别;
12.对所述历史异常样本对应的财务异常分析模型分析结果进行向量化处理;
13.通过所述财务异常分析模型获取所述未知样本特征数据对应的模型结果向量;
14.将所述历史异常样本对应的模型结果向量以及未知样本对应的模型结果向量作为k近邻算法输入,通过k近邻算法判别所述未知样本的异常类别;以及
15.基于历史样本,确定不同行业下各项指标的正常区间与异常区间;
16.基于指标解释库进行指标分析。
17.可选地,所述获取用于训练的财务数据和非财务数据,并对所述财务数据和所述非财务数据进行预处理,得到财务特征数据和非财务特征数据的步骤包括:
18.获取用于训练的所述财务数据和所述非财务数据;
19.确定财务指标和非财务指标;
20.根据所述财务指标和非财务指标,对所述财务数据和所述非财务数据进行清洗和重构,得到所述财务特征数据和所述非财务特征数据。
21.可选地,所述根据所述财务特征数据构建衍生指标,并进行重要特征筛选,获取输入特征的步骤包括:
22.对所述财务特征数据中待确定是否存在隐含关联关系的财务指标进行分组;
23.基于所述财务特征数据以及财务指标分组结果获取回归方程;
24.基于所述回归方程构建衍生指标;
25.进行重要特征筛选,获取输入特征。
26.本发明实施例提出一种基于机器学习的上市公司财务异常分析方法,首先获取用于训练的财务数据和重要的非财务数据,构建财务特征和非财务特征。然后通过线性回归方法挖掘财务指标和财务指标之间的隐含关联关系,构建衍生类财务特征。接下来采用lightgbm算法进行特征筛选、模型训练,得到一套财务异常分析模型,通过该模型对未知样本进行异常等级预测,同时可以获取历史异常样本和未知样本的模型输出向量结果。最后采用k近邻算法判断未知样本异常类别,并进行指标分析,从而增强了上市公司财务异常分析结果的可解释性。
附图说明
27.图1为本发明基于机器学习的上市公司财务异常分析方法一实施例的流程示意图。
28.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
29.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
30.传统的上市公司财务异常分析一般从财务会计科目及企业经营着手分析,由专业会计人员,基于业务领域知识,通过对各种会计科目同级比较,发现财务异常风险点。传统的基于财会业务分析方法需要诸多专业人员的深度参与,耗费大量的时间和精力。近年来出现了很多基于机器学习的财务异常分析方法,即借助数据挖掘、机器学习等方法,对大量的样本及特征数据进行大数据分析,发现个体的异常。这种方法分析快速、成本较低,能够预测上市公司的财务异常程度。基于机器学习的财务异常分析方法虽然可以在一定程度上辅助监管人员发现上市公司财务异常程度,但是存在解释性较差的缺陷,即无法较为准确
的指出公司具体在什么方面以及在哪些指标存在异常。
31.为解决上述缺陷,本发明基于机器学习的上市公司财务异常分析方法的实施例的主要解决方案是:
32.获取用于训练的财务数据和非财务数据,并对所述财务数据和所述非财务数据进行预处理,得到财务特征数据和非财务特征数据;
33.根据所述财务特征数据构建衍生指标,并进行重要特征筛选,获取输入特征;
34.基于所述非财务特征数据和所述输入特征训练财务异常分析模型,并基于训练后的所述财务异常分析模型对未知样本进行异常等级预测;
35.获取历史异常样本和预测为异常的未知样本对应的模型结果向量,并基于所述模型结果向量,通过k近邻算法判断所述未知样本的财务异常类别,并进行指标分析。
36.本方法主要基于财务三大报表数据围绕盈利质量、资产质量、现金流质量等方面构建财务特征,并提取重要的非财务数据如会计事务所异常变更情况等构建非财务特征。然后通过线性回归方法挖掘财务指标和财务指标之间的隐含关联关系,获取回归方程,并基于回归方程构建衍生类财务特征。接下来采用lightgbm算法进行特征筛选、模型训练,得到一套财务异常分析模型,通过该模型对未知样本进行异常等级预测,同时可以获取历史异常样本和未知样本的模型输出向量结果。最后采用k近邻算法判断未知样本异常类别,并进行指标分析,从而增强了上市公司财务异常分析结果的可解释性。
37.参照图1,在本发明基于机器学习的上市公司财务异常分析方法的一实施例中,所述基于机器学习的上市公司财务异常分析方法包括的步骤具体如下:
38.步骤s10,获取用于训练的财务数据和非财务数据,并对所述财务数据和所述非财务数据进行预处理,得到财务特征数据和非财务特征数据;
39.在本实施例中,所述财务数据包括受到证监会行政处罚、自律监管和提醒关注函的高危异常上市公司财务数据、带有退市风险警示和其它风险警示标识的中等异常上市公司财务数据,除所述高危异常上市公司和所述中等异常上市公司之外,信息披露等级为c级或d级的异常上市公司财务数据,以及除所述高危异常上市公司财务数据、所述中等异常上市公司财务数据以及异常上市公司财务数据之外的,无明显异常的上市公司财务数据。例如,可以将所述高危异常上市公司财务数据的标签设置为1、所述中等异常上市公司财务数据的标签设置为2,异常上市公司财务数据的标签设置为3,无明显异常的上市公司财务数据的标签设置为0。
40.具体地,所述财务数据可以包括一企业的《资产负债表》、《利润表》、《现金流量表》及财务附注数据,所述非财务数据可以包括一企业的诉讼公告、违规行为公告、会计事务所异常变更、会计审计机构排名(例如可使用中国注册会计师协会对各事务所排名或证券系统会计事务所画像系统排名)、仲裁败诉、讼诉败诉等数据。当获取到所述财务数据和非财务数据后,对所述财务与非财务数据进行预处理。例如,可以先确定所需的财务指标和非财务指标。
41.具体地,为提高财务异常分析结果的准确性和可靠性,所述财务指标可以围绕盈利质量、资产质量、现金流质量等方面构建。例如,可以将所述财务指标设置为利润增长率、货币资金占总资产比重、经营活动所产生的现金流量额等。可以理解的是,本实施例并不限定所述财务指标对应的包括的具体子项目,用户可以根据实际需求自定义设定,在此,不再
枚举。对于非财务指标,可设置为会计事务所异常变更次数、败诉数量等。接下来,对所述财务数据和非财务数据进行清洗和重构计算,根据公司代码和报告年度将财务指标数据和非财务指标数据进行合并,得到完整的财务特征和非财务特征。
42.步骤s20,根据所述财务特征数据构建衍生指标,并进行重要特征筛选,获取输入特征;
43.在本实施例中,可根据所述财务特征数据构建衍生指标,利用线性回归探寻财务指标和财务指标之间的隐含关联关系。首先,对待确定是否存在隐含关联关系的财务指标进行分组,比如将营业收入、营业成本、销售费用、经营活动现金流量净额等与企业经营活动相关的财务科目指标划分为一组。
44.针对每个分组,遍历所有指标组合的情况(考虑遍历时间开销和回归方程复杂程度,设定回归方程中自变量最多不超过五个指标)。具体步骤为首先在分组内选取某指标作为因变量,在剩余的指标中选取二至五个指标作为自变量,随后基于财务指标数据进行二元至五元回归,并计算回归方程拟合度(拟合度可评判回归效果)。通过设定拟合度r_square阈值,如设置其下限范围为0.7,上限范围为0.95,筛选出计算结果在阈值范围内的回归方程。假设通过计算筛选出某回归方程为:销售费用≈k1*货币资金+k2*营业成本,即证明大量样本满足这样的关联关系,而如果某家公司的财务指标数据不符合该关系,且偏离程度越大,可认为这个公司的财务状况存在异常的可能性越大,因此可将回归方程预测值(即回归方程中右侧部分的计算值)与财务指标实际值(回归方程中左侧部分即因变量实际值)相减的残差值作为新生成的衍生指标用于模型训练,以提升模型识别效果。
45.进一步地,获取衍生指标后,考虑到时间开销、可解释性、样本容量、模型效果等因素,选用lightgbm模型筛选重要指标。将衍生特征和财务特征数据作为算法输入进行多次训练,获取每次训练当中模型实际使用的特征集,由于决策树在构造时使用信息增益最大的特征,筛选出使用次数相对较多的特征作为模型输入特征。
46.步骤s30,基于所述非财务特征数据和所述输入特征训练财务异常分析模型,并基于训练后的所述财务异常分析模型对未知样本进行异常等级预测;
47.在本实施例中,基于所述非财务特征数据和所述输入特征采用lightgbm算法训练财务异常分析多分类模型,通过grid search调参方法和五折交叉验证保留效果最佳的模型。对未知样本进行和训练样本相同的处理后,得到未知样本的特征数据,进而输入到所述财务异常分析模型进行预测,以获取未知样本的异常等级,其中分类结果为1、2、3的样本视为异常。
48.步骤s40,获取历史异常样本和预测为异常的未知样本对应的模型结果向量,并基于所述模型结果向量,通过k近邻算法判断所述未知样本的财务异常类别,并进行指标分析。
49.具体而言,为了提高上市公司财务异常分析结果的解释性,可以通过计算公司之间的财务异常相似性、构建指标异常解释库进行指标分析等方法来辅助解释,从而让分析结果更具有可信度、辅助用户理解和分析。
50.在财务异常相似性计算方面,我们利用财务异常分析模型输出公司所经过决策树的路径向量计算公司之间的财务异常相似性。首先对历史异常样本进行异常类别的标记,包括收入异常、成本费用异常、现金流异常、负债异常、资产异常以及关联方利益输送六大
类别。然后将异常样本在训练得到的财务异常分析模型中经过的路径转化为向量,每个异常样本均会形成特定维度的向量从而作为未知公司异常类型判断的依据。
51.可选地,也可通过所述财务异常分析模型获取未知样本特征数据的路径向量,然后采用k近邻算法判断未知样本财务异常类别,即在已知异常类别的异常样本中找到与未知实例最邻近的k个实例,这k个实例的多数属于某个类,就将未知样本的异常类别预测为哪一类。其中邻近度量的方法可选取距离算法将未知样本向量与已知异常样本向量分别进行相似度计算。以计算二维空间下的曼哈顿距离为例,坐标(x1,y1)的i点与坐标(x2,y2)的j点的曼哈顿距离为:
52.d(i,j)=|x1-x2|+|y1-y2|
53.还可以采用余弦相似度、欧式距离等方法度量。对于k值的选取,可以基于已知异常类别样本采用交叉验证方法选取最优的k值。
54.在指标分析方面,基于输入特征数据,以区分异常、非异常样本最佳效果为标准,求解不同行业下各项指标的正常区间与异常区间。以行业a,指标x为例,首先筛选行业a的历史样本数据,根据x指标值进行升序排序,可以选取25%-75%行业分位数为初始正常区间,以5%、10%或其他分位数为滑动间距向左、向右扩展,并将该滑动窗口作为正常区间,不在该范围内则视为异常区间,以样本指标实际值是否在异常区间范围内作为判定样本是否异常的标准,求解此条件下的异常样本的召回率和精确率,最终结合召回率和精确率求解f1值,经过多次计算,找出最大的f1值所对应的正常区间和异常区间。如第一次计算可以将行业25%-75%分位数作为正常区间,小于行业25%和大于75%分位数视为异常区间,首先计算以此为条件下的将异常样本预测为异常样本的数量tp、将无异常样本预测为无异常样本的数量tn、将无异常样本预测为异常样本的数量fp、将异常样本预测为无异常样本的数量fn,计算精确率和召回率,其中精确率precision计算方式为:
[0055][0056]
召回率recall计算方式为:
[0057][0058]
由精确率和召回率计算f1值:
[0059][0060]
第二次计算可以将20%-80%分位数作为正常区间,小于行业20%和大于80%分位数视为异常区间,再次计算f1值,以此类推,最终找出最大的f1值对应的正常区间和异常区间作为a行业x指标的正常区间与异常区间。
[0061]
基于指标解释库进行指标分析。将指标实际值大于正常区间右边界的视为在行业内偏大,实际值处于小于正常区间左边界的视为在行业内偏小,其余视为正常,进行偏大偏小提示。如指标财务费用率偏大,则提示该公司负担相对于行业内其他公司可能存在异常。建议业务人员重点关注该公司资产负债表借款项目,其他应付款有无筹资等额外支出利息,以及回款政策改变,增加现金折扣的情况;另一方面进行异常路径匹配,将财务专家的财务经验固化为异常路径,路径的规则可定义为“xx特征偏大-xx特征偏小xx特征偏大”。如
果企业其财务数据满足该异常路径,则该异常路径将作为其可能发生某方面异常的业务解释。如路径“管理费用偏小-管理费用增长率偏小-营业外支出偏大”可解释为:该公司当期管理费用占比偏小,且管理费用增长率也偏小,而同时营业外支出占比偏大,则该公司可能通过将期间费用不合理作为营业外支出,以达到粉饰营业利润的目的。
[0062]
在本实施例公开的技术方案中,首先获取用于训练的财务数据和非财务数据,围绕盈利质量、资产质量、现金流质量等方面构建财务特征,并提取重要的非财务数据如会计事务所异常变更情况等构建非财务特征。然后通过线性回归方法挖掘财务指标和财务指标之间的隐含关联关系,获取回归方程,并基于回归方程构建衍生类财务特征。接下来采用lightgbm算法进行特征筛选、模型训练,得到一套财务异常分析模型,通过该模型对未知样本进行异常等级预测,同时可以获取历史异常样本和未知样本的模型输出向量结果。最后采用k近邻算法判断未知样本异常类别,并进行指标分析,从而增强了上市公司财务异常分析结果的可解释性。
[0063]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0064]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0065]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是计算机或者服务器等)执行本发明各个实施例所述的方法。
[0066]
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1