一种财务数据造假识别方法与流程

文档序号：30370202发布日期：2022-06-11 00:23阅读：296来源：国知局

一种财务数据造假识别方法
【技术领域】
1.本发明涉及智能设备技术领域，尤其涉及一种财务数据造假识别方法。

背景技术：

2.在投资过程中，经常需要根据各企业财报进行分析。虽然可以让企业提供财报，但是有可能有些数据有造假的成分，不能完全信任财报。其实不同类型的企业，对造假项的偏向会不同，例如教育类企业经常是可以先拿到客户的钱再开始教学，因此他们对应收款的造假概率底，而有些销售型企业，则是先试用产品再收款，对应收款的造假概率大。因此如果通过应收款来判断一家企业的短期潜力，则销售型企业更有造假动机，因此如何根据不同行业和领域，判断哪些财务信息更容易被造假是一个难题，另一方面，企业会故意以空值来掩盖真实情况，有些企业则提供虚假数值来获得更多投资信任，这往往让没有经验的投资者受害。因此不能完全信任企业的财报数据，但是，很多时候造假信息并不是空穴来风，企业宁愿冒风险提供虚假信息，有时候，也是因为他们有期待和能力去达到这个目标，只是暂时达不到，因此造假。一般的投资者遇到造假都是嗤之以鼻，立刻离开，而这不一定是最科学的方式，如果有系统能根据系统预测的实际情况与企业财报提供情况做对比，获得造假可能和幅度，对应有能力的企业，即使出现小部分造假数据，也能发现其潜力，并调整投资的比例，则能减少很多错误的投资。

技术实现要素：

3.本发明提供了一种财务数据造假识别方法，主要包括：
4.对企业进行分类，获得企业类别；根据企业类别，采用关联挖掘算法挖掘出企业经常出现财务造假的财务类别；根据财务造假的财务类别和财务报表缺失值异常值，通过逻辑回归算法预测造假概率；所述结合财务造假类别和企业财报预测企业造假概率，具体包括：利用差值进行缺失值处理，利用箱型图处理异常值，通过逻辑回归算法计算出企业整体造假概率；对拟投资但财务数据造假可能性超过预设阈值的企业，进行基于网上销售业绩的预测验证；根据验证结果提供投资决策；根据企业未来可弥补的造假程度和投后真实的获益率，调整投资比例。
5.进一步可选地，所述对企业进行分类，获得企业类别，包括:
6.建立企业类别数据库，获取企业的基本信息，通过基本信息判断行业类别中是否包含预设的行业类别关键字，得到所述待判断企业的企业类别，若企业类别具有多行业融合的性质，则给予所述企业多个分类标注值，获得第一维度企业分类；除了行业分类之外，再按照经济类型对企业进行分类，获得第二维度企业分类。
7.进一步可选地，所述采用关联挖掘算法挖掘出企业经常出现财务造假的财务类别，包括:
8.建立财务类别数据库，包括应收票据、长期股权投资、预付款项、应交税费、资产总计、销售费用、流动资产合计、应付职工薪资、持续经营净利润、在建工程、无形资产和盈余
公积；将企业类别与财务造假类别通过关联挖掘算法进行计算，获得关联项，做为关联结果，并根据企业类别获得该类别下最常出现财务造假的财务类别；
9.进一步可选地，所述根据财务造假的财务类别和财务报表缺失值异常值，通过逻辑回归算法预测造假概率，包括:
10.根据企业类别数据库和财务类别数据库获取企业及关联财务信息，判断所述企业类别最可能出现造假的财务类别项；获取企业财务报表，进行缺失值处理和异常值处理；所述缺失值处理，主要包括判断财报项目缺失比例是否大于预设的阈值，如果是，则说明财报数据缺失过大，判断该财报为缺失类型；对于缺失比例小于预设阈值％的财报数据，则根据财报的历史数据对该缺失值进行插值填充；所谓插值是采用插值法，根据数值过往和未来的数据，插值计算出最适合的值；
11.所述异常值处理，利用箱形图观察极大和极小值，观察财报异常数据与平均值的偏差是否远超过标准差；最后利用逻辑回归算法算出企业造假概率；
12.所述利用箱型图处理异常值，还包括：
13.上四分位数，中位数，下四分位数，下边缘，还有异常值的统计，高效获得异常值；并进行多组数据分布特征的比较，其将上下界作为数据分布的边界，高于上界或低于下界的数据点均视为离群点或异常值；
14.所述通过逻辑回归算法计算出企业整体造假概率，还包括：
15.获取财务数据，包括企业类型、应收款、预付款项、应交税费、资产总计、销售费用、流动资产合计、应付职工薪资、持续经营净利润、在建工程，将这些项目中缺失值通过插值法补全后，通过逻辑回归算法，预测企业财报的总体造假概率。
16.进一步可选地，所述对拟投资但财务数据造假可能性超过预设阈值的企业，进行基于网上销售业绩的预测验证，包括:
17.在获取企业财务数据造假可能性概率后，对所述企业进行进一步的验证来确定是否真实存在造假，并确定具体造假幅度是否能在未来进行弥补；针对具有网上电子商务销售的企业，通过爬虫获取包括企业官网、京东、淘宝、天猫、阿里巴巴上的所述企业的销售信息，针对不同的企业类别，爬取不同的销售数据；
18.所述爬取具体包括，根据配置预设的企业入口地址，将所述网址超链接加入下载队列中，所述下载队列，根据财务类别优先级进行顺序排序，优先抓取涉及财务数据多的页面，排除无财务信息相关的页面；
19.结合销售数据与造假数据的差距，预测未来预设时间段内，所述企业弥补造假空缺的可能性和时间周期；通过比较网上数据趋势与财务数据的差距，判断出现的财务造假数据是否能够在未来预设时间内，填补造假额。
20.进一步可选地，所述根据验证结果提供投资决策，包括:
21.根据企业营收，利用贴现指标和非贴现指标来对投资方案进行评价，主要包括净现值、现值指数、内含报酬率，判断回收期，通过观察净现值曲线中净现值与贴现率的关系并通过mirr函数来修正内部收益率的计算，比较不同经济年限之间的差距，最后结合企业造假的概率来决定该企业是否值得进行投资。
22.进一步可选地，所述根据投资决策预测投资额，包括:
23.判断企业未来的生产能力，并根据财务造假概率进行折算；利用单位生产能力估
算法预测投资额，根据同类项目的单位生产能力投资额和拟建项目的生产能力来估算投资额，其中生产能力是指投资项目建成投产后每年达到的产量；采用下面公式根据折算后的投资决策预测投资额：项目投资总额＝同类企业单位生产能力投资额
×
拟建项目生产能力
×
财务造假概率。
24.进一步可选地，所述根据企业未来可弥补的造假程度和投后真实的获益率，调整投资比例，包括：
25.获取企业造假数据和幅度、获取企业的网上销售数据、获取针对企业的拟投资额；并将造假额与销售额作为特征输入，将历史投资过程中，投后的真实回报率作为标注值，采用支持向量机分类器作为训练模型，训练二元分类器，预测投资回报率，根据预测结果并根据支持向量机中，对二个分类的置信度值乘以投资额，作为最终投资额度。
26.本发明实施例提供的技术方案可以包括以下有益效果：
27.通过对财报造假数据的预测，使投资决策更加精准，包括能够针对不同行业不同的作假项，有区别性的区分财务造假这件事，同时还可以根据企业真实情况，避免一刀切的只要造假就不投资，而是更加精确的预测出是否应该投资以及投资额，使投资者的利益不会受损，并使投资回报得到更大的保障和收益最大。
【附图说明】
28.图1为本发明的一种财务数据造假识别方法的流程图。
【具体实施方式】
29.为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。
30.图1为本发明的一种财务数据造假识别方法流程图。如图1所示，本实施例一种财务数据造假识别方法具体可以包括：
31.对企业进行分类；根据企业类别分析企业出现财务造假的财务类别；结合财务造假类别和企业财报预测企业造假概率；对财务数据造假可能性超过预设阈值的企业，进行基于网上销售业绩的预测验证；根据验证结果提供投资决策；结合投资额和企业财务造假类别与程度，调整投资比例。
32.步骤101，区别不同企业的分类，包括:
33.建立企业类别数据库，获取企业的基本信息，通过基本信息判断行业类别中是否包含预设的行业类别关键字，得到所述待判断企业的企业类别，包括制造业、建筑业、房地产业、金融业、教育和技术服务业；若企业具有多行业融合的性质，则给予所述企业多个标签；除了行业分类之外，再按照经济类型对企业进行分类，包括否属于国有、私营或集体所有制企业，是否属于股份制、个人独资或合伙企业，是大型还是小型企业，是否符合上市标准。因为对企业的分类有利于判断不同企业对造假类别的需求，后面用于分析这些不同企业，对财务造假类型的不同需求，根据企业类型来预测最大概率的造假类型。
34.步骤102，根据企业类别判断不同企业出现财务造假的财务类别，包括:
35.建立财务类别数据库，包括应收款、长期股权投资、预付款项、应交税费、资产总计、销售费用、流动资产合计、应付职工薪资、持续经营净利润、在建工程、无形资产和盈余
公积；将企业类别与财务造假类别，通过关联挖掘算法计算做关联，根据企业类别获得该类别下出现的财务造假类别。所述关联是指通过获取历史的财务造假数据，统计各行业中，最可能出现财务造假的类别，将行业对应的最可能的财务造假项进行关联，关联算法可以采用apriori关联挖掘算法进行计算。关联规则是形如x
→
y的蕴含表达式，其中x和y是不相交的项集，即
36.关联规则的强度可以用它的支持度(support)和置信度(confidence)来度量；支持度确定规则可以用于给定数据集的频繁程度，而置信度确定y在包含x的事务中出现的频繁程度；支持度(s)和置信度(c)采用下面两种度量的形式：
37.s(x
→
y)＝σ(x∪y)/n
38.c(x
→
y)＝σ(x∪y)/σ(x)
39.其中，σ(x∪y)是(x∪y)的支持度计数，n为事务总数，σ(x)是x的支持度计数。
40.例如，在企业类别数据库中搜索出房地产业，通过经常出现财务造假的企业类型与其造假类型作为一项，通过apriori计算多家企业，多个财务项之间的关联。其中财务数据造假相关的财务项，包括但不限于应收票据、预付款项和货币资金等，将这些财务指标与一个行业例如私人的房地产租赁中介进行计算得到关联项，于是便能知道私人的房地产租赁中介是否经常会在应收款上作假，因为apriori能计算出置信度值，因此还能通过该值，判断该项出现数据造假的可能性。
41.步骤103，结合财务造假类别和企业财报缺失值预测企业造假概率，包括:
42.首先获取企业基本信息，根据企业类别数据库和财务类别数据库判断企业类别和可能造假的财务类别；获取企业财报，进行缺失值处理和异常值处理；所述缺失值处理主要判断缺失值是正常产生的还是造假的手段之一。所述缺失值处理，主要包括判断财报项目缺失比例是否大于0.5％，如果是，则说明财报数据缺失过大，因此无论是正常缺失还是为了隐藏不想让人知道的财务数据，他们都是不合格的。因此可以确定该财报为无参考价值，或者未合格；对于缺失比例小于0.5％，对该数据进行插值填充；所谓插值是采用插值法，根据该数值过往和未来的数据，插值计算出可能适合的值。在离散数据的基础上补插连续函数，使得这条连续曲线通过全部给定的离散数据点。插值是离散函数逼近的重要方法，利用它可通过函数在有限个点处的取值状况，估算出函数在其他点处的近似值。
43.另一方面，对于异常值处理，利用箱形图观察极大/小值，观察财报异常数据与平均值的偏差是否远超过标准差；最后利用逻辑回归算法算出企业造假概率；
44.所述利用箱型图处理异常值，还包括：
45.上四分位数，中位数，下四分位数，下边缘，还有异常值的统计，高效获得异常值；并进行多组数据分布特征的比较，将上下界作为数据分布的边界，高于上界或低于下界的数据点均视为离群点或异常值；
46.最终，通过逻辑回归算法计算出企业整体造假概率，还包括：
47.获取财务数据，包括企业类型、应收款、预付款项、应交税费、资产总计、销售费用、流动资产合计、应付职工薪资、持续经营净利润、在建工程等等，将这些项目中缺失值通过插值法补全后，通过逻辑回归算法，通过sigmoid函数计算预测值，判定造假概率，最后利用损失函数，预测企业财报的总体造假概率。
48.步骤104，对财务数据造假可能性超过预设阈值的企业，进行基于网上销售业绩的
预测验证，包括:
49.在获取企业财务数据造假可能性概率后，对所述企业进行进一步的验证来确定是否真实存在造假并确定具体造假幅度是否能在未来进行弥补；针对具有网上电子商务销售的企业，通过爬虫获取包括企业官网、京东、淘宝、天猫、阿里巴巴上的所述企业的销售信息，针对不同的企业类别，爬取销售数据；
50.所述爬取还包括，根据配置预设的企业入口地址，将所述网址超链接加入下载队列中，所述下载队列，根据财务类别优先级进行顺序排序，优先抓取涉及财务数据多的页面，排除无财务信息相关的页面；
51.结合销售数据与造假数据的差距，预测未来预设时间段内，所述企业弥补造假空缺的可能性和时间周期；通过比较网上数据趋势与财务数据的差距，判断出现的财务造假数据是否可能在未来预设时间内，填补造假额。例如，对于一家做房屋租赁的企业，应收账款，财务报表显示的是100万元应收款。如果根据当前年度实际签约的公司不足100万元，但企业提供的佐证数据缺失值较多，并且根据企业类型、应收款、预付款项、应交税费、资产总计、销售费用、流动资产合计、应付职工薪资、持续经营净利润、在建工程等，通过逻辑回归分类算法计算后，发现该企业造假概率较大。因此获取该企业的网上销售数据，例如，当发现网上的销售额，包括单价和销售量，相乘总价大于100万时，可以判断该企业其实，有能力弥补财务造假风险。也就是说，即使当前的财务出现造假，也可以在未来的发展中，迅速获得弥补。因此是值得投资的。但是判断可投资后，这个投资决策还可以进一步细化。
52.步骤105，根据验证结果提供投资决策，包括:
53.根据企业营收，利用贴现指标和非贴现指标来对投资方案进行评价，主要包括净现值、现值指数、内含报酬率，判断回收期，通过观察净现值曲线中净现值与贴现率的关系并通过mirr函数来修正内部收益率的计算，比较不同经济年限之间的差距，最后结合企业造假的概率来决定该企业是否值得进行投资。例如，对a企业提供投资决策方案，通过净现值法计算未来资金流入现值与未来资金流出现值的差额，若预测未来多年收入远大于支出则说明该企业盈利率很高，接着计算企业的投资回报率来看投资与未来回报的比例有多大，投资回报率(roi)＝(期末财产-期初财产)/期初财产
×
100％，最后结合财务数据造假结果来给出最终的投资方案，投资回报率高，造假可能性低，则评为a级，即十分值得投资的企业，投资回报率低造假可能性低评为b级，即较为值得投资的企业，投资回报率低造假可能性高评为c级即不值得投资的企业。
54.步骤106，根据投资决策预测投资额，包括:
55.判断企业未来的生产能力，并根据财务造假概率进行折算；利用单位生产能力估算法预测投资额，根据同类项目的单位生产能力投资额和拟建项目的生产能力来估算投资额，其中生产能力是指投资项目建成投产后每年达到的产量；采用下面公式根据折算后的投资决策预测投资额：项目投资总额＝同类企业单位生产能力投资额
×
拟建项目生产能力
×
财务造假概率。通过所述企业类型、应收款、预付款项、应交税费、资产总计、销售费用、流动资产合计、应付职工薪资、持续经营净利润、在建工程等，再通过逻辑回归分类算法计算后得到的财务造假概率影响投资总额。能够让出现大量造假的公司，得到制止，避免造假后也可以大量获得投资的可能。
56.步骤107，根据企业未来可弥补的造假程度和投后真实的获益率，调整投资比例，
包括：
57.获取企业造假数据和幅度、获取企业的网上销售数据、获取针对企业的拟投资额；并将造假额与销售额作为特征输入，将历史投资过程中，投后的真实回报率作为标注值，采用支持向量机分类器作为训练模型，训练二元分类器，预测投资回报率，根据预测结果并根据支持向量机中，对二个分类的置信度值乘以投资额，作为最终投资额度。因为投资过程中，涉及多个不确定的变量，包括财务真实性，未来销售可能性，投资额，企业自身发展等，因此投资额的确定，需要根据真实的投资回报率来获得。因此可以将这些不确定的量作为特征值，并根据最终的投资回报，训练机器学习模型。可以采用支持向量机来分类，因为它不但效率高而且能够获得一个分类的权重概率，即置信度。将二元分类的结果作为最终投资比例的预测值。能够很好的预测出应该投资的额度。
58.以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。
59.用于实现本发明进行信息控制的程序，可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、python、c++，还包括常规的过程式程序设计语言—诸如c语言或类似的程序设计语言。
60.程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
61.在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。
62.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
63.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。
64.上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。
65.而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张良均王宏刚施兴张敏张尚佳刘名军
技术所有人：广东泰迪智能科技股份有限公司
我是此专利的发明人

上一篇：一种黏性流动态高熵非晶合金增强铝基复合材料及其制备方法
上一篇：一种旧墙体上用挂管结构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。