一种基于Sorl的问税系统的制作方法

文档序号:12667343阅读:181来源:国知局

本发明涉及税务系统技术领域,特别涉及一种基于Sorl的问税系统。



背景技术:

“12366纳税服务热线”是国家税务总局为适应加强和改进纳税服务工作的需要,于2001年向国家信息产业部申请核批的全国税务机关特服电话。它具有统一呼叫中心代号,即:国税局为12366-1,地税局为12366-2,人工与自动语音相结合,全天侯多功能优质化地提供语音服务。

“12366纳税服务热线”的主要服务功能包括:纳税咨询服务,主要是为纳税人提供税收法律法规和政策、征管规定、涉税信息等咨询查询服务;办税指南服务,主要是为纳税人办理税务登记、发票购领、申报纳税等涉税事项的程序、手续提供咨询服务;涉税举报服务,主要是为纳税人举报税收违法行为等提供服务;投诉监督服务,主要是为纳税人对税务机关行风、服务质量及税务人员违法违纪行为的监督投诉提供服务。

目前,全国有36个省市(国税21个、地税15个)税务系统开通了“12366纳税服务热线”,并有14个省级税务机关在部分辖区内开通。“12366纳税服务热线”已成为税务机关向纳税人提供纳税服务的重要手段和税务机关与纳税人、社会各界相互沟通的桥梁。

为推进税收现代化总体目标,以纳税人需求为导向,以12366热线为基础,以云计算、大数据、移动互联等信息技术为支撑,运用“互联网+”思维,整合服务资源,拓展服务功能,完善服务渠道,打造服务品牌,构建起和谐税收征纳的“空中桥梁”,更好的服务纳税人。本发明提出了一种基于Sorl的问税系统,以引导、培养办税人员形成以自助、互助为主,人工咨询为辅的咨询新习惯,从而减少人工咨询需求量的产生和增长。同时利用现有的12366业务知识库的庞大资源,实现常见涉税问题和已经解决的涉税问题的自动识别和应答,并引入互联网众包协作模式,充分利用社会资源(特别是中介资源),实现涉税问题的互问互答、办税经验分享,更好的培养纳税人的纳税意识。



技术实现要素:

本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于Sorl的问税系统。

本发明是通过如下技术方案实现的:

一种基于Sorl的问税系统,其特征在于:采用基于Lucene(全文搜索引擎)的企业级搜索应用服务器Solr,并对其进行扩展,从而建立的高性能全文搜索服务器;所述高性能全文搜索服务器能够提供更为丰富的查询语言和完善的功能管理界面,并与12366知识库和12366机器人进行对接,进而实现词组分词,数据索引和信息检索等可配置功能,以及权重配置优化,分词器定制和检索词预测等可扩展功能。

所述高性能全文搜索服务器是以云计算、大数据、移动互联等信息技术为支撑,嵌于电子税务局中的一个查询功能系统,其技术主要是创建索引和搜索索引;所述查询功能系统的搜索引擎包括核心模块,缓存管理模块,权重配置模块和分词器模块。

所述缓存管理模块包括索引组件,依据分词结果建立索引库,并自动更新索引库;所述分词器模块包括分词组件,语言处理组件,分词词库和分词模型,对资料库及搜索词组进行分词;所述查询功能系统通过关键词检索索引库,并根据权重配置得到检索结果。

所述查询功能系统的索引创建过程,包括以下步骤:

(1)把接收的原始文档交给分词器组件,分词器组件将文档分成一个个单独的单词,去除标点符号,去除停词,最终得到词汇单元;

(2)词汇单元传给语言处理组件,语言处理组件将词汇单元变为小写,并将单词缩减或者转变为词根形式;

(3)将步骤(2)得到的词传递给索引组件,利用得到的词创建一个字典,并将字典按字母顺序排序,合并相同的词成为文档倒排链表。

所述查询功能系统的索引搜索过程,包括以下步骤:

(1)对查询内容进行词法分析,语法分析和语言处理,区分查询内容中单词和关键字,并根据查询语法的语法规则形成一棵树;

(2)搜索索引,得到符合语法树的文档集合;

(3)根据查询语句与文档的相关性,对结果进行排序即可。

本发明的有益效果是:该基于Sorl的问税系统,以引导、培养办税人员形成以自助、互助为主,人工咨询为辅的咨询新习惯,从而减少人工咨询需求量的产生和增长。同时利用现有的12366业务知识库的庞大资源,实现常见涉税问题和已经解决的涉税问题的自动识别和应答,并引入互联网众包协作模式,充分利用社会资源(特别是中介资源),实现涉税问题的互问互答、办税经验分享,更好的培养纳税人的纳税意识。

附图说明

附图1为本发明基于Sorl的问税系统的索引创建流程示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图和实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

该基于Sorl的问税系统,采用基于Lucene(全文搜索引擎)的企业级搜索应用服务器Solr,并对其进行扩展,从而建立的高性能全文搜索服务器;所述高性能全文搜索服务器能够提供更为丰富的查询语言和完善的功能管理界面,并与12366知识库和12366机器人进行对接,进而实现词组分词,数据索引和信息检索等可配置功能,以及权重配置优化,分词器定制和检索词预测等可扩展功能。

所述高性能全文搜索服务器是以云计算、大数据、移动互联等信息技术为支撑,嵌于电子税务局中的一个查询功能系统,其技术主要是创建索引和搜索索引;所述查询功能系统的搜索引擎包括核心模块,缓存管理模块,权重配置模块和分词器模块。

所述缓存管理模块包括索引组件,依据分词结果建立索引库,并自动更新索引库;所述分词器模块包括分词组件,语言处理组件,分词词库和分词模型,对资料库及搜索词组进行分词;所述查询功能系统通过关键词检索索引库,并根据权重配置得到检索结果。

假设有如下两个原始文档:

文档一:Students should be allowed to go out with their friends, but not allowed to drink beer.

文档二:My friend Jerry went to school to see his students but found them drunk which is not allowed.

如附图1所示,所述查询功能系统的索引创建过程,包括以下步骤:

(1)把接收的原始文档交给分词器组件(Tokenizer),分词器组件(Tokenizer)将文档分成一个个单独的单词,去除标点符号,去除停词(stop word),最终得到词汇单元(Token);

(2)词汇单元(Token)传给语言处理组件(linguistic processor),语言处理组件(linguistic processor)将词汇单元变为小写(Lowercase),并将单词缩减或者转变为词根形式;

例如“cars”缩减为“car”,这种操作称为:stemming;如“drove”转变为“drive”,这种操作称为:lemmatization。

(3)将步骤(2)得到的词(Term)传递给索引组件(Indexer),利用得到的词(Term)创建一个字典,并将字典按字母顺序排序,合并相同的词(Term)成为文档倒排(Posting List)链表。

所述查询功能系统的索引搜索过程,包括以下步骤:

(1)对查询内容进行词法分析,语法分析和语言处理,区分查询内容中单词和关键字,并根据查询语法的语法规则形成一棵树;

(2)搜索索引,得到符合语法树的文档集合;

(3)根据查询语句与文档的相关性,对结果进行排序即可。

该基于Sorl的问税系统,通过对接12366知识库,充分利用和发挥12366汇总统计得到的精华知识。“税务百度”咨询系统自动定期与12366知识库进行同步,并将同步数据合并到搜索引擎数据库中,作为“税务百度”用户检索时的数据来源之一。

同时,该基于Sorl的问税系统,通过对接12366机器人(智能客服),在“税务百度”用户未能检索到合适满意内容时,适时引导用户咨询智能客服,并将用户咨询内容自动对接给智能客服,能够提高用户体验。

该基于Sorl的问税系统,以引导、培养办税人员形成以自助、互助为主,人工咨询为辅的咨询新习惯,从而减少人工咨询需求量的产生和增长。同时利用现有的12366业务知识库的庞大资源,实现常见涉税问题和已经解决的涉税问题的自动识别和应答,并引入互联网众包协作模式,充分利用社会资源(特别是中介资源),实现涉税问题的互问互答、办税经验分享,更好的培养纳税人的纳税意识。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1