一种基于深度学习的税务商品编码分类方法和系统与流程

文档序号:16628816发布日期:2019-01-16 06:22阅读:235来源:国知局
一种基于深度学习的税务商品编码分类方法和系统与流程

本发明涉及文本分类技术领域,特别是涉及一种基于深度学习的税务商品编码分类方法和系统。



背景技术:

国家税务总局相关规定,个人和企业在开具增值税发票时,必须为商品指定类别编码,否则发票可作无效处理。而目前商品类别编码中包含了十级目录共4000多类,类别数量庞大且某些类目不易区分,如果人工选择商品编码,则费时费力且极易产生错误。

此外,商品名数量庞大,长短不一,且处于不断的变化发展之中。再者,即使商品名相似,商品的类别也可能存在较大的差异,如:(1)“喷枪水”的类别为“合成洗涤剂”,而“水喷枪”的类别为“喷枪”;(2)“epe隔板”的类别为“泡沫塑料”,而“pe隔板”的类别为“塑料板、片”,此类例子极其常见。传统的文本分类方法难以处理此类问题。

目前涉及商品编码分类的方法较少,且不能有效的提取语义信息,而语义信息对于新增加商品的分类起着重要作用。因此,如何实现准确高效的商品编码自动分类,是本领域技术人员目前需要解决的技术问题。



技术实现要素:

本发明的目的是提供一种基于深度学习的税务商品编码分类方法和系统,可以实现准确高效的商品编码自动分类。

为解决上述技术问题,本发明提供了如下技术方案:

一种基于深度学习的税务商品编码分类方法,包括:

预先建立包含商品名和对应商品编码的验证数据库,并制作训练集和测试集;

对所述验证数据库中的商品名进行预处理,获取相应的商品名分词;

对所述商品名分词进行向量化,并进行卷积网络搭建;

对目标商品名进行预处理,获取相应的目标商品名分词;

通过所述卷积网络对所述目标商品名分词进行分类,确定所述目标商品名的类别。

优选地,所述对所述验证数据库中的商品名进行预处理,获取相应的商品名分词,包括:

对所述验证数据库中的商品名进行字符解析;

剔除所述验证数据库中的非汉字、数字、和英文的字符,并进行商品名繁简体转换和英文字符大小写转换,得到预处理商品名;

对所述预处理商品名进行分词,并提取相应的商品名分词。

优选地,所述剔除所述验证数据库中的非汉字、数字、和英文的字符,并进行商品名繁简体转换和英文字符大小写转换,得到预处理商品名,包括:

通过预设的繁简体映射表对所述验证数据库中的商品名进行繁简体转换;

通过unicode编码范围对所述验证数据库中的商品名进行英文字符的大小写转换以及非汉字、数字、和英文的字符的过滤。

优选地,所述对所述商品名分词进行向量化,并进行卷积网络搭建,包括:

采集历史数据中所有的商品名,经商品名预处理和分词后,根据词频建立字典;

通过预设的词向量模型对所有的商品名进行训练,获取相应的词向量;

设定一个商品名分词的最大数目,对商品名分词进行补全,并根据所述字典查找相应的词向量,构建卷积网络的嵌入层;

根据所述词向量分别构建卷积网络的卷积层、pooling层和softmax层。

优选地,所述通过所述卷积网络对所述目标商品名分词进行分类,确定所述目标商品名的类别,包括:

通过所述卷积网络对所述目标商品名分词进行分类,得到对应的分类结果;

将所述分类结果按照概率进行降序排列;

选取概率最大的类别作为所述目标商品名的类别。

优选地,在所述将所述分类结果按照概率进行降序排列之后,还包括:

获取前n个候选类别,其中,在通过测试样本进行测试时,分类结果的前n个候选类别中,测试样本的分类结果正确率大于预设的阈值;

根据所述验证数据库和预设的商品分类编码表,对所述目标商品名分词按照tf-idf特征进行相似度计算,获取相似度最高的文本集合及相应的类别;

计算所述文本集中每一个文本与所述目标商品名的编辑距离相似度,获取编辑距离相似度最高的目标文本及所述目标文本的类别;

判断所述目标文本的类别是否在所述前n个候选类别中,且所述目标文本和所述目标商品名的编辑距离相似度是否大于预设的阈值;

若是,则确定所述目标文本的类别为所述目标商品名的类别;

若否,则执行步骤:选取概率最大的类别作为所述目标商品名的类别。

一种基于深度学习的税务商品编码分类系统,包括:

建库模块,用于预先建立包含商品名和对应商品编码的验证数据库,并制作训练集和测试集;

第一分词模块,用于对所述验证数据库中的商品名进行预处理,获取相应的商品名分词;

卷积网络搭建模块,用于对所述商品名分词进行向量化,并进行卷积网络搭建;

第二分词模块,用于对目标商品名进行预处理,获取相应的目标商品名分词;

分类模块,用于通过所述卷积网络对所述目标商品名分词进行分类,确定所述目标商品名的类别。

优选地,所述第一分词模块包括:

解析单元,用于对所述验证数据库中的商品名进行字符解析;

预处理单元,用于剔除所述验证数据库中的非汉字、数字、和英文的字符,并进行商品名繁简体转换和英文字符大小写转换,得到预处理商品名;

分词单元,用于对所述预处理商品名进行分词,并提取相应的商品名分词。

优选地,所述预处理单元包括:

第一预处理子单元,用于通过预设的繁简体映射表对所述验证数据库中的商品名进行繁简体转换;

第二预处理子单元,用于通过unicode编码范围对所述验证数据库中的商品名进行英文字符的大小写转换以及非汉字、数字、和英文的字符的过滤。

优选地,所述卷积网络搭建模块包括:

字典建立单元,用于采集历史数据中所有的商品名,经商品名预处理和分词后,根据词频建立字典;

训练单元,用于通过预设的词向量模型对所有的商品名进行训练,获取相应的词向量;

第一构建单元,用于设定一个商品名分词的最大数目,对商品名分词进行补全,并根据所述字典查找相应的词向量,构建卷积网络的嵌入层;

第二构建单元,用于根据所述词向量分别构建卷积网络的卷积层、pooling层和softmax层。

优选地,所述分类模块包括:

分类单元,用于通过所述卷积网络对所述目标商品名分词进行分类,得到对应的分类结果;

排序单元,用于将所述分类结果按照概率进行降序排列;

选取单元,用于选取概率最大的类别作为所述目标商品名的类别。

优选地,所述分类模块还包括:

获取单元,用于获取前n个候选类别,其中,在通过测试样本进行测试时,分类结果的前n个候选类别中,测试样本的分类结果正确率大于预设的阈值;

相似度计算单元,用于根据所述验证数据库和预设的商品分类编码表,对所述目标商品名分词按照tf-idf特征进行相似度计算,获取相似度最高的文本集合及相应的类别;

编辑距离计算单元,用于计算所述文本集中每一个文本与所述目标商品名的编辑距离相似度,获取编辑距离相似度最高的目标文本及所述目标文本的类别;

判断单元,用于判断所述目标文本的类别是否在所述前n个候选类别中,且所述目标文本和所述目标商品名的编辑距离相似度是否大于预设的阈值;

类别确定单元,用于在判定所述目标文本的类别在所述前n个候选类别中,且所述目标文本和所述目标商品名的编辑距离相似度大于预设的阈值时,确定所述目标文本的类别为所述目标商品名的类别;

其中,所述选取单元用于在判定所述目标文本的类别不在所述前n个候选类别中,和/或,所述目标文本和所述目标商品名的编辑距离相似度不大于预设的阈值时,选取概率最大的类别作为所述目标商品名的类别。

与现有技术相比,上述技术方案具有以下优点:

本发明实施例所提供的一种基于深度学习的税务商品编码分类方法,包括:预先建立包含商品名和对应商品编码的验证数据库,并制作训练集和测试集;对验证数据库中的商品名进行预处理,获取相应的商品名分词;对商品名分词进行向量化,并进行卷积网络搭建;对目标商品名进行预处理,获取相应的目标商品名分词;通过卷积网络对目标商品名分词进行分类,确定目标商品名的类别。通过建立验证数据库,并将验证数据库中的商品名和对应的商品编码划分为训练集和测试集,通过对各商品名进行分词和向量化,从而建立相应的卷积网络,并对待处理目标商品名进行和验证数据库中的商品名相同的预处理和分词过程,并通过该卷积网络对目标商品名分词进行分类处理,通过对商品名进行分词以及建立卷积网络进行分类能够有效提取文本词语的语义的关联性,实现了准确高效的商品编码自动分类。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一种具体实施方式所提供的基于深度学习的税务商品编码分类方法流程图;

图2为本发明一种具体实施方式所提供的卷积网络示意图;

图3为本发明一种具体实施方式所提供的基于深度学习的税务商品编码分类系统示意图。

具体实施方式

本发明的核心是提供一种基于深度学习的税务商品编码分类方法和系统,可以实现准确高效的商品编码自动分类。

为了使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。

在以下描述中阐述了具体细节以便于充分理解本发明。但是本发明能够以多种不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广。因此本发明不受下面公开的具体实施的限制。

请参考图1,图1为本发明一种具体实施方式所提供的基于深度学习的税务商品编码分类方法流程图。

本发明的一种具体实施方式提供了一种基于深度学习的税务商品编码分类方法,包括:

s11:预先建立包含商品名和对应商品编码的验证数据库,并制作训练集和测试集。

在建立验证数据库时,可以采集包含商品名和商品编码的经由人工标注的验证库数据,并将这些数据划分为卷积网络的训练集和测试集。

s12:对验证数据库中的商品名进行预处理,获取相应的商品名分词。

在本发明的一种实施方式中,对验证数据库中的商品名进行预处理,获取相应的商品名分词,包括:对验证数据库中的商品名进行字符解析,解析出商品名的字符类别,如商品名为汉字、英文、数字或者其他字符;剔除验证数据库中的非汉字、数字、和英文的字符,并进行商品名繁简体转换和英文字符大小写转换,得到预处理商品名;并通过结巴分词等分词方法对预处理商品名进行分词,并提取相应的商品名分词。

进一步地,剔除验证数据库中的非汉字、数字、和英文的字符,并进行商品名繁简体转换和英文字符大小写转换,得到预处理商品名,包括:通过预设的繁简体映射表对验证数据库中的商品名进行繁简体转换;通过unicode编码范围对验证数据库中的商品名进行英文字符的大小写转换以及非汉字、数字、和英文的字符的过滤。

通过预处理,可有效降低字典的大小,增加模型的鲁棒性,提高分类精度,比如商品名中含有标点符号、日文等特殊字符,标点符号通常不具有商品名的语义信息,同时含有日文等特殊符号的商品名数量极少,这些特殊符号如不去掉将增大字典的大小,影响模型的分类效果。

s13:对商品名分词进行向量化,并进行卷积网络搭建。

在本发明的一种实施方式中,对商品名分词进行向量化,并进行卷积网络搭建,包括两部分,其一即是先对商品名分词进行向量化,构建卷积网络的embedding层,即嵌入层;其二即是训练卷积网络,通过训练集和测试集进行卷积网络模型的训练,并保存训练好的卷积网络模型。

其中,先对商品名分词进行向量化,构建卷积网络的embedding层,包括:离线词向量训练,采集历史数据中所有的商品名,经商品名繁简体转换、英文字符的大小写转换以及非汉字、数字、和英文的字符的过滤等预处理和分词后,根据词频建立字典d;并通过预设的词向量模型对所有的商品名进行训练,保存训练好的词向量;设定一个商品名分词的最大数目为t,对商品名分词进行补全,并根据字典d查找相应的词向量,构建卷积网络的嵌入层。其中,所谓的历史数据指的是线上数据库中的所有商品名,一个单独的数据库只包含商品名。

然后即训练卷积网络,并保存训练好的卷积网络模型。其中,卷积网络模型包括:

embedding层,即将商品名分词补全和向量化,并按顺序排列组成矩阵,并可训练;

卷积层,卷积核的宽为一系列的整数,如2至11的连续整数,长度为词向量的维度,每个卷积核有c个通道,则卷积后共有10c个通道,每个通道为一列向量,卷积层的激活函数为relu;

pooling层,对每个通道单独采用最大池化方法(chunkmaxpooling)进行池化(pooling),pooling后每个通道变为一个或者几个特征点,即将某一通道分段,在每个分段内各自计算最大的特征值;

softmax层,将pooling后的结果平铺成一维向量,并进行softmax分类计算,即建立带dropout的连接层,并计算softmax分类概率。

在本实施方式中,优选预设的词向量模型为cbow模型,即根据周围的词来预测当前词,从而实现无监督的词向量训练。

如图2所示,图2示出了一种具体实施方式所提供的卷积网络,以商品名为“喷枪水”为例,进行分词后得到“喷枪”和“水”两个分词,如图所示,每行方格表示一个分词。其中,embedding层中商品名分词的最大数目为t=5,即如图所示包括5列方格,词向量维度为4,即一行包括4个方格;由于“喷枪水”只分出了两个词,因此,需要对其进行补全,其中,进行卷积操作,卷积核宽分别为2和3,长为词向量的维度4。

s14:对目标商品名进行预处理,获取相应的目标商品名分词。

本步骤中对于待测的目标商品名的预处理方式和步骤s12中对验证数据库中的商品名所进行的预处理的方式相同。

s15:通过卷积网络对目标商品名分词进行分类,确定目标商品名的类别。

通过卷积网络对目标商品名分词进行分类,得到对应的分类结果,通常情况下会得到若干的分类结果;将分类结果按照概率进行降序排列;选取概率最大的类别作为目标商品名的类别。

通过建立验证数据库,并将验证数据库中的商品名和对应的商品编码划分为训练集和测试集,通过对各商品名进行分词和向量化,从而建立相应的卷积网络,并对待处理目标商品名进行和验证数据库中的商品名相同的预处理和分词过程,并通过该卷积网络对目标商品名分词进行分类处理,通过对商品名进行分词以及建立卷积网络进行分类能够有效提取文本词语的语义的关联性,实现了准确高效的商品编码自动分类。

在实际操作中,一些商品不能仅仅通过语义进行判别,比如背景技术提到的“epe隔板”与“pe隔板”,只能通过其它方法来解决此类问题。

在上述任一实施方式的基础上,本发明的一种实施方式所提供的基于深度学习的税务商品编码分类方法,在将分类结果按照概率进行降序排列之后,还包括:

获取前n个候选类别,其中,n的值可以由卷积网络的测试集的测试样本决定,即在进行测试时,需要保证测试得到的分类结果的前n个候选类别中,测试样本的准确率大于预设的阈值th1;

根据验证数据库和预设的商品分类编码表,该预设的商品分类编码表通常为标准商品分类编码表,对目标商品名分词按照tf-idf特征进行相似度计算,获取相似度最高的文本集合m及相应的类别;

计算文本集m中每一个文本与目标商品名的编辑距离相似度,取编辑距离相似度最高的目标文本t及目标文本t的类别;

如果目标文本的类别在前n个候选类别中,且目标文本和目标商品名的编辑距离相似度大于预设的阈值th2,则确定目标文本对应的类别为目标商品名的类别;

若否,才会选取前n个候选类别中概率最大的类别作为目标商品名的类别。

在本实施方式中,采用卷积网络对商品名进行一次分类,并保留前n个候选结果,能有效提取文本中词语的语义关联性,提高一次分类时包含正确商品名类别的概率,且较小的n即可保证高精度的正确类别包含率。而采用tf-idf和本文编辑距离进行二次分类,一方面利用tf-idf特征保证了文本相似度的计算速度,另一方面,采用文本编辑距离相似度对tf-idf的结果进行筛选,能够解决文本相似而编码分类差距较大的问题,提高了分类的精度。

通过兼具卷积网络语义分类和文本相似度查找,无论是对于现有商品还是新增商品都有良好的分类预测效果,且只要不断的更新验证库,商品的编码分类精度就会不断提高。

请参考图3,图3为本发明一种具体实施方式所提供的基于深度学习的税务商品编码分类系统示意图。

相应地,本发明一种实施方式还提供了一种基于深度学习的税务商品编码分类系统,包括:

建库模块31,用于预先建立包含商品名和对应商品编码的验证数据库,并制作训练集和测试集;

第一分词模块32,用于对验证数据库中的商品名进行预处理,获取相应的商品名分词;

卷积网络搭建模块33,用于对商品名分词进行向量化,并进行卷积网络搭建;

第二分词模块34,用于对目标商品名进行预处理,获取相应的目标商品名分词;

分类模块35,用于通过卷积网络对目标商品名分词进行分类,确定目标商品名的类别。

进一步地,第一分词模块包括:解析单元,用于对验证数据库中的商品名进行字符解析;预处理单元,用于剔除验证数据库中的非汉字、数字、和英文的字符,并进行商品名繁简体转换和英文字符大小写转换,得到预处理商品名;分词单元,用于对预处理商品名进行分词,并提取相应的商品名分词。

更进一步地,预处理单元包括:第一预处理子单元,用于通过预设的繁简体映射表对验证数据库中的商品名进行繁简体转换;第二预处理子单元,用于通过unicode编码范围对验证数据库中的商品名进行英文字符的大小写转换以及非汉字、数字、和英文的字符的过滤。

在上述实施方式的基础上,本发明一种实施方式中,卷积网络搭建模块包括:字典建立单元,用于采集历史数据中所有的商品名,经商品名预处理和分词后,根据词频建立字典;训练单元,用于通过预设的词向量模型对所有的商品名进行训练,获取相应的词向量;第一构建单元,用于设定一个商品名分词的最大数目,对商品名分词进行补全,并根据字典查找相应的词向量,构建卷积网络的嵌入层;第二构建单元,用于根据词向量分别构建卷积网络的卷积层、pooling层和softmax层。

分类模块包括:分类单元,用于通过卷积网络对目标商品名分词进行分类,得到对应的分类结果;排序单元,用于将分类结果按照概率进行降序排列;选取单元,用于选取概率最大的类别作为目标商品名的类别。

在上述任一实施方式的基础上,本发明一种实施方式所提供的基于深度学习的税务商品编码分类系统,其分类模块还包括:获取单元,用于获取前n个候选类别,其中,在通过测试样本进行测试时,分类结果的前n个候选类别中,测试样本的分类结果正确率大于预设的阈值;相似度计算单元,用于根据验证数据库和预设的商品分类编码表,对目标商品名分词按照tf-idf特征进行相似度计算,获取相似度最高的文本集合及相应的类别;编辑距离计算单元,用于计算文本集中每一个文本与目标商品名的编辑距离相似度,获取编辑距离相似度最高的目标文本及目标文本的类别;判断单元,用于判断目标文本的类别是否在前n个候选类别中,且目标文本和目标商品名的编辑距离相似度是否大于预设的阈值;类别确定单元,用于在判定目标文本的类别在前n个候选类别中,且目标文本和目标商品名的编辑距离相似度大于预设的阈值时,确定目标文本的类别为目标商品名的类别;其中,选取单元用于在判定目标文本的类别不在前n个候选类别中,和/或,目标文本和目标商品名的编辑距离相似度不大于预设的阈值时,选取概率最大的类别作为目标商品名的类别。

采用卷积网络对商品名进行一次分类,并保留前n个候选结果,能有效提取文本中词语的语义关联性,提高一次分类时包含正确商品名类别的概率,且较小的n即可保证高精度的正确类别包含率。而采用tf-idf和本文编辑距离进行二次分类,一方面利用tf-idf特征保证了文本相似度的计算速度,另一方面,采用文本编辑距离相似度对tf-idf的结果进行筛选,能够解决文本相似而编码分类差距较大的问题,提高了分类的精度。

通过兼具卷积网络语义分类和文本相似度查找,无论是对于现有商品还是新增商品都有良好的分类预测效果,且只要不断的更新验证库,商品的编码分类精度就会不断提高。

以上对本发明所提供的一种基于深度学习的税务商品编码分类方法和系统进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1