一种税收优惠政策推送方法及系统与流程

文档序号:16362640发布日期:2018-12-22 08:15阅读:659来源:国知局
一种税收优惠政策推送方法及系统与流程

本发明涉及税务大数据融合计算领域,特别是涉及一种税收优惠政策推送方法及系统。

背景技术

互联网发展带来的纳税人类型多元化、业务多样化、办税方式多元化,必然导致纳税服务需求的多元化,“互联网+信息定制”行动内容迫切需要“一对一”的个性化精准服务。同时营改增工作的成功试点,迫切需要税务机关进行全面分析阶段,立足于“聚焦分析,精准服务”,一方面充分利用税收大数据,梳理分析纳税人在政策适用等方面的运行情况,另一方面积极运用分析结果服务纳税人。如何对纳税人的税收优惠政策推广更具有针对性、引导性,使能享受税收优惠政策的纳税人及时充分享受税收优惠政策的红利,是税务机关精准服务的难点之一。

现有的税收优惠政策宣传主要通过纳税学堂辅导、专题讲座、网站政策公告等传统的方式,传统方式一方面时效性较差,另一方面对纳税人没有针对性,使很多满足要求的纳税人无法及时享受优惠政策的红利。



技术实现要素:

本发明的目的是提供一种税收优惠政策推送方法及系统,用于精准的推送税收优惠政策。

为实现上述目的,本发明提供了如下方案:

一种税收优惠政策推送方法,所述方法包括:

获取纳税人的基本信息,所述基本信息包括行业类型、经营范围、资格类型、企业类型、组织机构类型、缴税信息、职工信息以及税收优惠政策信息;

对所述基本信息进行数据提取转换,得到基本信息特征向量;

获取纳税人当前享受的税收优惠政策;

对所述税收优惠政策进行数据提取,得到税收优惠政策特征向量;

计算所述基本信息特征向量与所述税收优惠政策特征向量之间的相似度;

根据所述相似度以及设定阈值,获取第一目标纳税人集合;

通过协同过滤算法,根据所述相似度,获取第二目标纳税人集合;

根据所述第一目标纳税人集合以及所述第二目标纳税人集合,确定最终目标纳税人;

通过消息推送框架向所述最终目标纳税人推送税收优惠政策。

可选的,所述对所述基本信息进行数据提取转换,得到基本信息特征向量,具体包括:

对所述基本信息进行分词,得到多个第一关键词;

计算多个所述第一关键词的词频;所述词频表示所述第一关键词出现的频率;

根据所述基本信息以及所述第一关键词出现的次数,计算逆文档频率;

根据所述词频以及所述逆文档频率,确定基本信息特征向量。

可选的,所述对所述税收优惠政策进行数据提取,得到税收优惠政策特征向量,具体包括:

对所述税收优惠政策进行分词,得到多个第二关键词;

对多个所述第二关键词进行优化,得到优化后的第二关键词;

根据所述优化后的第二关键词,确定税收优惠政策特征向量。

可选的,所述基本信息特征向量与所述税收优惠政策特征向量之间的相似度的计算公式为:

其中ai为第i个税收优惠政策的n维特征向量,bi为第i个纳税人的n维特征向量,θ为两特征向量的夹角。

可选的,所述通过协同过滤算法,根据所述相似度,确定第二目标纳税人集合,具体包括:

根据所述相似度,获取初始目标纳税人;

通过协同过滤算法对所述初始目标纳税人进行筛选,得到第二目标纳税人集合。

一种税收优惠政策推送系统,所述系统包括:

第一获取模块,用于获取纳税人的基本信息,所述基本信息包括行业类型、经营范围、资格类型、企业类型、组织机构类型、缴税信息、职工信息以及税收优惠政策信息;

第一提取模块,对所述基本信息进行数据提取转换,得到基本信息特征向量;

第二获取模块,用于获取纳税人当前享受的税收优惠政策;

第二提取模块,用于对所述税收优惠政策进行数据提取,得到税收优惠政策特征向量;

计算模块,用于计算所述基本信息特征向量与所述税收优惠政策特征向量之间的相似度;

第一确定模块,用于根据所述相似度以及设定阈值,确定第一目标纳税人集合;

第二确定模块,用于通过协同过滤算法,根据所述相似度,确定第二目标纳税人集合;

第三确定模块,用于根据所述第一目标纳税人集合以及所述第二目标纳税人集合,确定最终目标纳税人;

推送模块,用于通过消息推送框架向所述最终目标纳税人推送税收优惠政策。

可选的,所述第一提取模块包括:

第一分词单元,用于对所述基本信息进行分词,得到多个第一关键词;

词频计算单元,用于计算多个所述第一关键词的词频;所述词频表示所述第一关键词出现的频率;

逆文档频率计算单元,用于根据所述基本信息以及所述第一关键词出现的次数,计算逆文档频率;

第一确定单元,用于根据所述词频以及所述逆文档频率,确定基本信息特征向量。

可选的,所述第二提取模块包括

第二分词单元,用于对所述税收优惠政策进行分词,得到多个第二关键词;

优化单元,用于对多个所述第二关键词进行优化,得到优化后的第二关键词;

第二确定单元,用于根据所述优化后的第二关键词,确定税收优惠政策特征向量。

可选的,所述第二确定模块包括:

初始目标纳税人获取单元,用于根据所述相似度,获取初始目标纳税人;

筛选单元,用于通过协同过滤算法对所述初始目标纳税人进行筛选,得到第二目标纳税人集合。

与现有技术相比,本发明具有以下技术效果:本发明首先计算所述基本信息特征向量与所述税收优惠政策特征向量之间的相似度;根据所述相似度以及设定阈值,获取第一目标纳税人集合;然后通过协同过滤算法,根据所述相似度,获取第二目标纳税人集合根据所述第一目标纳税人集合以及所述第二目标纳税人集合,确定最终目标纳税人;避免传统的无针对性的广撒网模式,精准找到目标纳税人;再通过消息推送框架向所述最终目标纳税人推送税收优惠政策,实现税收优惠政策的精准服务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例税收优惠政策推送方法的流程图;

图2为本发明实施例税收优惠政策推送系统的结构框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例税收优惠政策推送方法的流程图。如图1所示,一种税收优惠政策推送方法,其特征在于,所述方法包括:

步骤101:获取纳税人的基本信息,所述基本信息包括行业类型、经营范围、资格类型、企业类型、组织机构类型、缴税信息、职工信息以及税收优惠政策信息。其中税收优惠政策信息为12366咨询税收优惠政策信息,需利用语音转文字技术将语音转换为文字后进行信息提取根据纳税人咨询情况获取纳税人关心的税收优惠政策信息。

步骤102:对所述基本信息进行数据提取转换,得到基本信息特征向量。对所述基本信息进行分词,得到多个第一关键词;计算多个所述第一关键词的词频;所述词频表示所述第一关键词出现的频率;根据所述基本信息以及所述第一关键词出现的次数,计算逆文档频率;根据所述词频以及所述逆文档频率,确定基本信息特征向量。

step1:分词。收集整合纳税人基本信息包括行业类型、经营范围、资格类型、企业类型、组织机构类型等信息,缴税信息,职工信息,12366咨询税收优惠政策信息等数据信息,将纳税人所有提取信息借助中文分词工具来实现分词,12366咨询税收优惠政策的语音需先转换为文字然后实现分词;

step2:计算词频tf。词频tf(t,d)是词语t在文档d中出现的次数。spark计算词频使用了类似nlp(naturallanguageprocessing自然语言处理)中词向量常用的一种表示方式:one-hotrepresentaion即把每个单词按顺序编号,每个词就是一个很长的向量,向量的长度等于词表的大小,只有对应位置上的数字编号为1,其余位置为0。不同的sparkml计算tf使用hashingtrick将集合转换成固定长度的特征向量,原始特征通过应用哈希函数映射到索引中,然后根据映射的索引计算词频;

step3:计算逆文档频率idf。获取语料库d中文档总数和出现词语t的文档总数df(t,d),通过对(d+1)/(df(t,d)+1)取自然对数,计算得出idf逆文档频率数值;

step4:计算tf-idf。通过词频乘以逆文档频率获得。得到的即为纳税人特征向量。

步骤103:获取纳税人当前享受的税收优惠政策。

步骤104:对所述税收优惠政策进行数据提取,得到税收优惠政策特征向量。对所述税收优惠政策进行分词,得到多个第二关键词;对多个所述第二关键词进行优化,得到优化后的第二关键词;根据所述优化后的第二关键词,确定税收优惠政策特征向量。

step1:生成税收优惠政策关键词。获取正在享受的所有税收优惠政策的文件,根据文件内容结合已享受纳税人信息,通过分词生成税收优惠政策的关键词;

step2:利用步骤102中的step2、step3、step4计算税收优惠政策特征向量,计算与已享受纳税人的相似度,针对与已享受纳税人相似度较低的税收优惠政策进行关键词优化;

step3:重复step2直至60%以上的税收优惠政策与已享受纳税人的相似度均不为0,确定最终关键词并形成税收优惠政策特征向量。

步骤105:计算所述基本信息特征向量与所述税收优惠政策特征向量之间的相似度。

相似度s计算如下:

其中ai为第i个税收优惠政策的n维特征向量,bi为第i个纳税人的n维特征向量,θ为两特征向量的夹角。

由于tf-idf计算的特征向量均为正向量,所以相似度s在[0,1]区间内,且相似度s越大说明相似度越高。

步骤106:根据所述相似度以及设定阈值,获取第一目标纳税人集合。通过设定相似度s大于阈值t获取目标纳税人;阈值t根据税收优惠政策不同而不同,设定为某一税收优惠政策与已享受纳税人的相似度的最小值。基于内容利用nlp分析获取的目标纳税人集合u1={u1(i),i=1,2,...,n},其中u1(i)为nlp获取的税收优惠政策i的第一目标纳税人集合。

步骤107:通过协同过滤算法,根据所述相似度,获取第二目标纳税人集合。

step1:计算纳税人同现相似度,找出与目标纳税人相似的纳税人集合。纳税人同现相似度为改进的余弦相似度,计算如下:

其中wuv表示纳税人u和纳税人v的相似度,n(u)表示纳税人u享受的税收优惠政策集合,n(v)表示纳税人v享受的税收优惠政策集合,m(i)是享受税收优惠政策i的纳税人集合,分子中的倒数惩罚了纳税人u和纳税人v共同享受的税收优惠政策中热门税收优惠政策对他们的相似度影响。

通过计算相似度得到相似纳税人集合,表示和纳税人最接近的纳税人集合。

step2:找出纳税人集合中相似纳税人享受的、但目标纳税人没有享受的税收优惠政策推荐给目标纳税人。纳税人对税收优惠政策的兴趣度计算如下:

其中p(u,i)表示纳税人u对税收优惠政策i的兴趣度,rvi表示纳税人v对税收优惠政策i的兴趣,此处等于纳税人v享受税收优惠政策i的次数。基于行为利用改进的基于用户的协同过滤算法获取的目标纳税人集合u2={u2(i),i=1,2,...,n},其中u2(i)为改进的基于用户的协同过滤算法获取的税收优惠政策i的第二目标纳税人集合。

步骤108:根据所述第一目标纳税人集合以及所述第二目标纳税人集合,确定最终目标纳税人。以获取最终目标纳税人遵循“精准”的原则,利用两种方法得到的集合并集来获取。享受税收优惠政策i的纳税人集合u(i)=u1(i)∪u2(i),最终目标纳税人u={u(i),i=1,2,...,n}。

步骤109:通过消息推送框架向所述最终目标纳税人推送税收优惠政策。

根据本发明提供的具体实施例,本发明公开了以下技术效果:

(1)基于税收优惠政策内容与已享受的纳税人信息的关联性,利用nlp不断训练税收优惠政策关键词,建立“税收优惠政策词库”;

(2)改进的基于用户的协同过滤算法,纳税人相似度计算中消除了热门税收优惠政策对纳税人的相似度影响,使算法得到的结果更具有现实意义;

(3)将nlp与协同过滤算法相结合,遵循“精准”原则,取两种模型获取的纳税人集合并集作为最终目标纳税人,实现税收优惠政策的精准服务,避免传统的无针对性的广撒网模式,精准找到目标纳税人;

(4)融合模型会根据实时数据的导入不断训练优化模型,且技术上集成消息推送框架实现税务端与纳税人端互通,寓征管与服务之中,在给税务干部提供管理决策支撑的同时,为纳税人推送个性化服务,为税务行业的精准服务提供便捷。

图2为本发明实施例税收优惠政策推送系统的结构框图。如图2所示,一种税收优惠政策推送系统包括:

第一获取模块201,用于获取纳税人的基本信息,所述基本信息包括行业类型、经营范围、资格类型、企业类型、组织机构类型、缴税信息、职工信息以及税收优惠政策信息。

第一提取模块202,对所述基本信息进行数据提取转换,得到基本信息特征向量。

所述第一提取模块202包括:

第一分词单元,用于对所述基本信息进行分词,得到多个第一关键词;

词频计算单元,用于计算多个所述第一关键词的词频;所述词频表示所述第一关键词出现的频率;

逆文档频率计算单元,用于根据所述基本信息以及所述第一关键词出现的次数,计算逆文档频率;

第一确定单元,用于根据所述词频以及所述逆文档频率,确定基本信息特征向量。

第二获取模块203,用于获取纳税人当前享受的税收优惠政策。

第二提取模块204,用于对所述税收优惠政策进行数据提取,得到税收优惠政策特征向量。

所述第二提取模块204包括:

第二分词单元,用于对所述税收优惠政策进行分词,得到多个第二关键词;

优化单元,用于对多个所述第二关键词进行优化,得到优化后的第二关键词;

第二确定单元,用于根据所述优化后的第二关键词,确定税收优惠政策特征向量。

计算模块205,用于计算所述基本信息特征向量与所述税收优惠政策特征向量之间的相似度。

第一确定模块206,用于根据所述相似度以及设定阈值,确定第一目标纳税人集合。

第二确定模块207,用于通过协同过滤算法,根据所述相似度,确定第二目标纳税人集合。

所述第二确定模块包括:

初始目标纳税人获取单元,用于根据所述相似度,获取初始目标纳税人;

筛选单元,用于通过协同过滤算法对所述初始目标纳税人进行筛选,得到第二目标纳税人集合。

第三确定模块208,用于根据所述第一目标纳税人集合以及所述第二目标纳税人集合,确定最终目标纳税人。

推送模块209,用于通过消息推送框架向所述最终目标纳税人推送税收优惠政策。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1