一种基于多元回归分析在税务决策上的应用的制作方法

文档序号:6627425阅读:255来源:国知局
一种基于多元回归分析在税务决策上的应用的制作方法
【专利摘要】本发明提出了一种基于多元回归分析在税务决策上的应用,通过对影响税务决策的因素进行分析,收集、整理有关数据,利用回归分析模型,做出决策或建议,帮助税务部门解决在决策过程中感性影响大、缺少数据支撑等问题。由于影响税务决策的因素具有复杂性、动态性和有限性等特征,在采集基础数据过程中会遇到类型多样、更新频度高等问题,本发明采用的分析方法的优势有:对基础数据没有特别的要求,可以是离散变量也可以是连续变量;分析结果为事件发生的概率,更加科学合理,且预测精度高、结果稳定。
【专利说明】—种基于多元回归分析在税务决策上的应用

【技术领域】
[0001]本发明涉及税务决策领域和数据统计分析领域,通过信息采集,对数据进行分析和挖掘,根据税收业务和政策环境对税务决策进行量化评测,满足客户的需求,具体地说是一种基于多元回归分析在税务决策上的应用。

【背景技术】
[0002]在税务决策领域,目前主要的决策方法有感性地主观决策和利用统计学手段进行的层次分析法。
[0003]主观决策方法往往会受到决策主体素质、利害关系等因素的影响,导致决策方向错误、质量低下等问题。决策主体个人素质的差异直接影响到决策者的政治能力、理解水平、法律观念、对问题和决策方案的判断力、对信息的过滤能力和敏感性等。决策主体一般是税务部门的高层领导,是税务政策和发展战略的制订者,他们的品德、学识、能力、魄力、方法等在很大程度上决定着决策和战略质量的高低。另外,决策主体往往具有“自利性”,能合乎理性地利用一切机会来实现利益的最大化。在决策过程中,决策主体出于自身利益的考虑,往往会选择对自己有利的决策方案,而不是最优的方案,从而导致决策的次优化。
[0004]层次分析法,由于算法本身的原因,存在以下的缺点:第一,不能为决策者提供解决问题的新方案,只是从备选方案中选择较优者。第二,利用模拟人脑的决策方法,带有较多的定性色彩,定量数据较少,定性成分多,不易令人信服。第三,指标的增加意味着构造层次更深、数量更多、规模更庞大的判断矩阵,数据统计量大,且指标之间重要程度的判断难度增加。第四,在判断矩阵的特征值和特征向量求解过程中,精确求法复杂。
[0005]随着经济的发展进步,税务决策环境也由简单系统转变为复杂系统,不仅要考虑内部业务的发展需求,同时也要了解外部政策环境的变化趋势。决策环境的变动使得决策过程具有动态化的特征。现有的税务决策方法,只是凭借着个人的知识经验或传统算法,没有科学的数据支撑,在决策过程中缺乏灵活变动机制,阻碍了当前税务业务的发展。
[0006]回归分析模型可以用于分析多个自变量与一个因变量的关系,目的是矫正混杂因素、筛选自变量和更精确地对因变量进行预测,回归分析模型的应用领域主要在医学研究方面,在其他领域的应用较少,本发明首次利用回归分析模型进行税务决策。


【发明内容】

[0007]本发明的目的是提供一种基于多元回归分析在税务决策上的应用。
[0008]本发明的目的是按以下方式实现的,是在利用回归模型进行决策前对数据进行预处理,包括正向化和无量纲化处理,其中:
Cl)正向化处理
根据因变量与自变量的内在联系和逻辑关系,有些自变量与因变量正相关,有些是负相关,需要经过处理使得所有自变量的变动方向与因变量的变动方向一致;
对于与因变量正相关的指标数据不做处理,而对负相关的指标数据通过如下公式进行正向化处理:
Xs =—其中,X'为负相关指标的原始数值,X*为正向化后的指标值;
X■
经过正向化处理,所有指标数据都能够体现指标数值越大,反映因变量数据越大;
(2)无量纲化处理
正向化处理以后,各自变量指标数据的离散程度发生很大变化,另外,由于自变量各指标的单位不同,指标之间数值的大小缺乏可变性,为了使自变量在数值上具有可比性,需要进行无量纲化处理,通过如下公式进行无量纲化处理:
I;-.=—-



CFi
其中,f和&分别为指标JCf的均值和标准差。标准化处理后,指标乃的均值为O,方差为1,消除了指标数据量纲和数量级的影响。
[0009]利用回归模型进行税务决策
假设某一社会现象发生的概率为P,由于.0SiJSl,自变量与P难以利用一般线性模型来描述,并且当P值接近于O或者I时,其微小变化很难用普通方法发现和处理。通过引入一个严格的单调函数0 = go?),使得在P=O或P=I附近时,对P的微小变化反应敏感,可令
? 1-P
将P转换成Q的过程称为Logit变换,当P从O变化到I时,Q值也相应的从变化到,通过Logit变换,解决线性回归模型的局限性;
假设一个连续变量Vli代表事件发生的概率,值域为+3C ,当该变量跨越一个临
B.-.1J
界值C,假设C=O时,就会导致事件的发生;
当夂 >0时..>'* =1;
当时,^ =0-
其中,$是实际变量值,>.?=1表示事件发生,^ 表示事件不发生。若<与自变量^存在线性关系时,即
)'■ = £?十+ Si
由以上公式得 = l\xt) = P[(a + βχ, + ε=) > O] = Ffsi > (-a-β,)} 若误差项P为分布,则P(vf = ψ?)=巧巧?.0 二βχ,)] = -~
上面公式称为函数,具备S型曲线分布的特点;
II产承
D ~~_____

1 ~ e~£- — I + e-(a-m=) — J + g,ia-A;/
式中,是第i个案例发生的概率,是由变量构成的非线性函数;

(z+A';)I
定义第i个案例不发生的概率为:I —= ^



I ? ^ K.CX~rfjX r,.Ji j
第i个案例发生的概率与不发生的概率之比为:= e(c^A)


1-E
将这个比称为案例的发生比Odds,根据以上公式可知,odds为正值,且没有上限;

P

ln(-~―) = Cf + 麻

_ P ,* 1




i
通过Logit变换,可将非线性函数转换为线性函数;
当自变量为k时,公式兔.)可扩展为:^i^
P.— --
1 I + ^(?+&..)I^e 一-
PI
对应的多元回归模型形式为:Hj^) = ZA^u
当搜集到各案例自变量X1到Xk构成的样本,且得到事件发生的概率时,通过这些信息分析并计算在特定条件下事件的发生比和发生的概率。
[0010]本发明的目的有益效果如下:利用回归模型进行税务决策,能够很好地解决以下问题:
1、在进行回归判别分析时,对数据的正态性和相等协方差阵的假设要求不严,得到的结果却很稳定,利用模型分析,能够识别潜在风险,可以提前采取有效防范措施;
2、回归类似于回归分析,都有直接的统计检验,包含非线性效果和大范围的诊断,利用现有信息和数据,预测在不同情况下事件发生的概率,推算未来一段时间内的趋势变化,提iu感知风险和机遇;
3、回归对自变量没有特别的要求,自变量可以是离散变量也可以是连续变量,回归的因变量是分类变量,预测得到的结果是事件发生的概率,且预测精度高;
4、利用大数据技术,从互联网中采集影响税务决策的相关信息,作为数据分析的数据源;
5、利用主成分分析方法,在尽可能保持原有信息基础上,将基础数据删除重复的信息,建立尽可能少的新数据,能够有效降低算法的复杂性;
6、多元回归分析是研究因变量取某个值的概率与自变量之间的关系的方法,分析得出的结果是事件发生的概率,当概率值接近于O或者I时,能够对微小的变化反应敏感,预测精度高且结果稳定。

【专利附图】

【附图说明】
[0011]图1是多元回归分析处理总体流程图。

【具体实施方式】
[0012]参照说明书附图对本发明的作以下详细地说明。
[0013]实施方式
采用一种改进的多元回归分析模型进行税务决策,实现方案如下:
(1)确定因变量
因变量就是需要税务决策的对象或事件。因变量为多分类变量,分别代表一组事物性质、规定事物类别的文字表述型数据;
(2)选择自变量
能够反映税务决策的因素就是自变量,在选择自变量时通常要考虑以下几个因素:自变量要与因变量密切相关;自变量的数据指标科学全面;数据获取难易程度具有可操作性;
(3)数据预处理
由于搜集到的基础数据单位不统一,数据值差异大,不能直接运用,需要进一步优化处理。主要包括指标数据的正向化和无量纲化处理;
(4)模型分析
第一,将搜集到的数据分割为分析样品和保留样品。分析样品是用来估计函数,保留样品是用来检验模型的判别精度;
第二,检查模型的假设条件。检查模型中自变量之间是否相关,因变量的发生概率是否符合模型;
第三,模型的估计。利用回归估计的方法对回归参数进行估计,检验回归参数的显著性,并且检验模型的拟合度;
(5)结果分析与验证
通过回归参数解释自变量对因变量的意义,并利用保留样本对模型结果进行验证。根据分析结果解释因变量各分类数据的意义,为税务决策提供数据支撑。
[0014]除说明书所述的技术特征外,均为本专业技术人员的已知技术。
【权利要求】
1.一种基于多元回归分析在税务决策上的应用,其特征在于是在利用回归模型进行决策前对数据进行预处理,包括正向化和无量纲化处理,其中: (1)正向化处理 根据因变量与自变量的内在联系和逻辑关系,有些自变量与因变量正相关,有些是负相关,需要经过处理使得所有自变量的变动方向与因变量的变动方向一致; 对于与因变量正相关的指标数据不做处理,而对负相关的指标数据通过如下公式进行正向化处理: X*其中,X1为负相关指标的原始数值,X*为正向化后的指标值; X' 经过正向化处理,所有指标数据都能够体现指标数值越大,反映因变量数据越大; (2)无量纲化处理 正向化处理以后,各自变量指标数据的离散程度发生很大变化,另外,由于自变量各指标的单位不同,指标之间数值的大小缺乏可变性,为了使自变量在数值上具有可比性,需要进行无量纲化处理,通过如下公式进行无量纲化处理:x#—PV = -- 其中,Z和CJ.分别为指标Xi的均值和标准差,标准化处理后,指标&的均值为O,方 J'差为1,消除了指标数据量纲和数量级的影响; 利用回归模型进行税务决策,具体步骤如下: 假设某一社会现象发生的概率为P,由于'O <|7<1 -自变量与P难以利用一般线性模型来描述,并且当P值接近于O或者I时,其微小变化很难用普通方法发现和处理,通过引入一个严格的单调函数,使得iKjp)在P=O或P=I附近时,对P的微小变化反应敏感,可令O=In ^1-J7 将P转换成Q的过程称为Logit变换,当P从O变化到I时,Q值也相应的从变化到,通过Logit变换,解决线性回归模型的局限性; 假设一个连续变量I.*代表事件发生的概率,值域为-OC +OC ,当该变量跨越一个临 ‘I?界值C,假设C=O时,就会导致事件的发生;当只>0时,=1;当夂亦 其中,>.是实际变量值,Vi =1表示事件发生,Ji =0表示事件不发生,若J*;*与自变量.Xi存在线性关系时,即 rJ = a 十 βχ; + ε;
^ ?*J.1 由以上公式得戶Oi = %) = P[{a + ftxt+st)>0} = Ff&:> (—a — β?))] 若误差项 f 为分布,则 Ρ(ν= = I Ι-v,) = P[si ^ (a 二 βχ-)] = -~- 上面公式称为函数,具备S型曲线分布的特点;
—1 — 1 — W ^ I + 它—6 I 4_> I + ^--?-Α;/ 式中,是第i个案例发生的概率,是由变量构成的非线性函数;

《2+秦)I 纖i个案例碰的概率为:-J77iw 第i个案例发生的概率与不发生的概率之比为:= &(峡)

1-E 将这个比称为案例的发生比Odds,根据以上公式可知,odds为正值,且没有上限;

P

ln(——-—)=α + β?,


P, 通过Logit变换,可将非线性函数转换为线性函数; 当自变量为k时,公式可扩展为:巧=一^I^
P.=Z ___?-TA-1
1 I + ^ατ+&..)1-^e k~'-jPk 对应的多元回归模型形式为:= 当搜集到各案例自变量X1到Xk构成的样本,且得到事件发生的概率时,通过这些信息分析并计算在特定条件下事件的发生比和发生的概率。
【文档编号】G06Q40/00GK104200383SQ201410477265
【公开日】2014年12月10日 申请日期:2014年9月18日 优先权日:2014年9月18日
【发明者】黄兴柱, 徐宏伟, 刘丽娜 申请人:浪潮软件集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1