物料数据长描述对应小类名称分类方法与流程

文档序号:19529577发布日期:2019-12-27 15:15阅读:538来源:国知局
物料数据长描述对应小类名称分类方法与流程
本发明涉及物料数据分类
技术领域
,尤其涉及物料数据长描述对应小类名称分类方法。
背景技术
:物料主数据包含了对所有企业所采购、生产和存储在库存中物料的描述。它是企业中有关物料信息(例如,库存水平)的物料数据代码库。将所有的物料数据集成在单一的物料数据库中,消除了数据冗余的问题,而且不仅允许采购部门使用这些数据,而且其它应用部门(例如,库存管理、物料计划及控制、发票校验等)也可以使用这些数据。物料分类是指按照一定的排列次序和组合方式,对具有相同自然属性的物料进行分类。物料分类过程中应尽量遵循以自然属性分类的基本准则,现有的物料分类效率低下,而且容易出现分类错误的现象。技术实现要素:本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提出物料数据长描述对应小类名称分类方法,本发明可以实现对物料快速、准确的分类,提高了企业在物料存取的工作效率。根据本发明实施例的一种物料数据长描述对应小类名称分类方法,方法步骤如下:s1:原始物料数据:对原始物料的数据进行读入;s2:数据预处理:对读入的原始物料数据进行预处理,将数据规范化、标准化;s3:类别转数字:将原始物料数据类别列编码成数字;s4:样本集划分:将样本集划分为训练集和测试集;s5:特征向量化:将物料长描述转换为特征向量形式;s6:分类:通过学习得到一个目标函数,把每个特征集映射到一个预先定义的类标号;s7:分类结果评估:通过准确率、召回率和f1值来评估分类结果。所述s2包括如下步骤:s21:对原始物料数据单位和连接符统一;s22:去掉括号和斜杠;s23:中文分词后进行文字转拼音;s24:大写转小写和全角转半角。s3中所述原始物料数据包含物料数据长描述、小类名称。s4中样本集的划分比例为训练集样本量与测试集样本量比例为7:3。s5中所述特征向量化方法为tf-idf算法。s5中所述物料长描述为物料文本数据。s6中所述分类方法有logistic回归、朴素贝叶斯、决策树、支持向量机、k近邻、随机森林、gbdt、xgboost、神经网络等。s7中评估分类结果的度量有准确率、召回率和f1值。本发明中的有益效果是:本发明物料数据的小类类别的分类,首先能准确分析数据中存在的问题,如大小写/全半角、连接符、单位不统一,读音相似问题,进行合理的数据预处理过程,将数据规范化、标准化,然后转化成特征向量的形式,采用logistic回归+l2正则化+l-bfgs优化的方法对其进行分类,本发明可以实现对物料快速、准确的分类,提高了企业在物料存取的工作效率。附图说明附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:图1为本发明提出的物料数据长描述对应小类名称分类方法的流程图;图2为本发明提出的物料数据长描述对应小类名称分类方法中数据预处理的流程图;图3为本发明提出的物料数据长描述对应小类名称分类方法中数据预处理的实例流程图。具体实施方式现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。参照图1-2,一种物料数据长描述对应小类名称分类方法,方法步骤如下:s1:原始物料数据:对原始物料的数据进行读入;s2:数据预处理:对读入的原始物料数据进行预处理,将数据规范化、标准化;s3:类别转数字:将原始物料数据类别列编码成数字;s4:样本集划分:将样本集划分为训练集和测试集;s5:特征向量化:将物料长描述转换为特征向量形式;s6:分类:通过学习得到一个目标函数,把每个特征集映射到一个预先定义的类标号;s7:分类结果评估:通过准确率、召回率和f1值来评估分类结果。s2包括如下步骤:s21:对原始物料数据单位和连接符统一;s22:去掉括号和斜杠;s23:中文分词后进行文字转拼音;s24:大写转小写和全角转半角。s3中原始物料数据为物料数据长描述、小类名称。s4中样本集的划分比例为训练集样本量与测试集样本量比例为7:3。s5中特征向量化方法为tf-idf算法。s5中物料长描述为物料文本数据。s6中分类方法为logistic回归、朴素贝叶斯、决策树、支持向量机、k近邻、随机森林、gbdt、xgboost、神经网络。s7中评估分类结果的方法为logistic回归、朴素贝叶斯、决策树、支持向量机、k近邻、随机森林、xgboost方法。数据预处理:由于物料数据存在如英文/希腊字母大小写不统一、全半角不统一、乘号/空格/下划线/斜横杠不统一、计量单位不统一、输入语序不统一、读音相似等问题,在转化成特征向量前先进行数据的预处理操作,将数据规范化、标准化。实施例2.1:物料数据长描述径向轴承\n40/50/20t6540可倾瓦,预处理流程的结果如下:实施例2.2:原始物料数据长描述及小类名称如下:经过预处理后的物料数据长描述为:kebiandanhuangzhijiadf07kfa1162327n2747n9↑q321002jdazuhejianshimianxiangjiaodianpiancl300dn25xb350gafsh3401wufengsantongdn50*dn50sch120sch120sht340815crmogb9948shourongredianouredianouwrp–1310–1600sxingl=900shourongruhuabengyeyaguan32*5m类别转数字:为方便分类任务,将类别列全部编码成数字。实施例3.1:原始物料数据的小类名称编码成数字:样本集划分:通常需要一个测试样本集来评估分类器的泛化误差。为此,需要将样本集划分为训练集和测试集,用训练样本集训练出分类器后,以测试样本集上的测试误差作为泛化误差的近似。本发明中样本集的划分比例为训练集样本量:测试集样本量=7:3。特征向量化:分类任务的自变量是连续实值向量,因此要把物料长描述(文本数据)转换为特征向量形式。文本向量化的方法主要有词袋模型和tf-idf算法。考虑到物料数据的特点,本发明采用tf-idf算法进行特征向量化。tf-idf算法是一种用于评估一个词语对于一个文件集或语料库中的一个文件的重要程度的统计方法。主要思想是:如果某个词语在一篇文章中出现的频率(tf)高,并且在其他文章中很少出现,则认为该词语具有很好的类别区分能力,适合用来分类。tf-idf算法在搜索引擎、关键词提取、文本相似性及文本摘要等方面有广泛应用。(1)词频(tf)表示词语在文本中出现的频率,计算公式为:即其中ni,j是该词在文件dj中出现的次数,是文件dj中所有词出现次数的总和。(2)逆文档频率(idf)是包含总文件数目与某一特定词语的文件数目之比的对数。计算公式为:即其中|d|是语料库中的文件总数,|{j:w∈dj}|是包含词w的文件数目。分母加一是为了防止词w不在语料库中导致分母为0的情况。包含词语w的文件数越多,idf值越大,则说明该词语具有很好的类别区分能力。(3)tf-idf=tf×idf某一特定文件中的高频词语,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的tf-idf。tf-idf倾向于过滤掉常见的词语,保留重要词语。实施例5.1:经过预处理后的物料数据kebiandanhuangzhijiadf07kfa1162327n2747n9↑q321002jdazuhejianshimianxiangjiaodianpiancl300dn25xb350gafsh3401wufengsantongdn50*dn50sch120sch120sht340815crmogb9948shourongredianouredianouwrp–1310–1600sxingl=900shourongruhuabengyeyaguan32*5m表示成特征向量形式:[000000000000.35355339000.3535533900.35355339000000.3535533900000000.353553390.3535533900000.353553390.353553390000][0.28115060.28115060.0.28115060000000.2811506000000000000.2811506000.562301200.2811506000000.2268305300.28115060000.2811506000][0000000.3877566600.38775666000.3877566600000000.387756660000000.387756660000000.312839630000000.3877566600][000.2672612400000000000000.5345224800.267261240000000000.267261240.534522480.267261240000.2672612400.26726124000000][00000.301511340.3015113400.3015113400.301511340000.301511340.30151134000000.301511340.30151134000.3015113400000000000000000.301511340.30151134]分类:分类任务是通过学习得到一个目标函数,把每个特征集x映射到一个预先定义的类标号yi。目前主流的分类方法有logistic回归、朴素贝叶斯、决策树、支持向量机、k近邻、随机森林、gbdt、xgboost、神经网络等方法,在充分考虑物料数据特征后,本发明采用的是加入l2正则项的logistic回归方法,使用l-bfgs算法迭代求解。分类结果评估:评估分类结果的主要度量有:准确率、召回率和f1值。(1)准确率准确率顾名思义即正确分类的样本数占总样本数的比例。计算公式为:(2)召回率召回率又叫查全率,它表示的是被正确分类的正例样本数与正例样本总数的比例,计算公式为:其中tp表示被正确分类的正例样本数,fn表示被错误分类的正例样本数。(3)f1值f1值是精确率和召回率的调和平均,即精确率其中fp表示被错误分类的负例样本数。实施例7.1:为了评估和比较分类方法在物料数据集上的分类效果,分别使用logistic回归、朴素贝叶斯、决策树、支持向量机、k近邻、随机森林、xgboost方法在50000条物料数据集(共1995个小类类别)和20564条物料数据集(共1213个小类类别)上进行分类,测试集上的分类结果度量如下表所示。准确率召回率f1值logistic回归0.880.900.89朴素贝叶斯0.600.650.57决策树0.840.820.82支持向量机0.060.130.17k近邻0.840.820.82随机森林0.890.890.88xgboost0.670.730.69上表为50000条物料数据集上不同分类方法的结果对比。准确率召回率f1值logistic回归0.880.900.89朴素贝叶斯0.640.730.65决策树0.870.890.87支持向量机0.180.220.18k近邻0.820.820.80随机森林0.860.840.84xgboost0.690.730.71上表为20564条物料数据集上不同分类方法的结果对比。从以上两表可以看出,本发明所采用的logistic回归+l2正则化+l-bfgs方法的平均分类效果都优于其他几种分类方法。logistic回归模型时利用概率估计来进行分类。假设用潜变量y表示待研究的某事件发生的可能性,它的值域为全体实数,其值越大表示该事件发生的可能性越大。logistic回归模型广泛应用于经济预测、灾害气象预测、辅助医疗诊断中。对于物料数据分类问题,待研究的事件为一条物料数据长描述被分到某个小类类别中。利用logistic回归分析物料数据特征(即长描述中的词语)和小类类别之间的内在关联,从而预测物料数据所属小类类别。若为二分类情况,设自变量为x表示长描述的特征,yi表示该条长描述属于小类类别i的可能性,yi=1表示属于该类别,yi=0表示不属于该类别。假设预测值是特征的线性组合,那么线性回归模型产生的预测值z与自变量x之间的关系如下:z=wtx+b为将实值z转换为0/1值,假设z服从logistic分布,即则长描述属于该类别的概率为上式可变化为显然有logistic回归的目标函数为可以通过极大似然法估计模型中的w和b。logistic回归的似然函数为为方便计算,取似然函数的对数最大化似然函数等价于最小化极大似然估计容易过拟合,因此可以在目标函数中加入正则项。常用的正则项有l1正则和l2正则。根据物料数据的先验特征,加入l2正则项这是一个无约束凸优化问题。根据凸优化理论,一般采用newton-raphson方法求解。由上式可以看出,求解该问题需要用到所有训练样本,newton-raphson方法优化时每次迭代都需要矩阵求逆运算。考虑到文本特征的高维性,为减小计算量,可以采用近似算法求解,如l-bfgs算法、newton-cg等算法。本发明采用l-bfgs算法求解。l-bfgs算法是求解无约束非线性规划问题最常用的方法,具有收敛速度快、内存开销少等优点,适合大规模计算。假设无约束问题的定义为minf(x),x∈rnf(x)在x(k)处的二阶泰勒展开式为由于f(x)的极值点满足忽略最后的余项并求导,可得因此牛顿法的迭代公式为由上式可以看出,牛顿法每次迭代都需要计算x(k)处hessian矩阵的逆,同时hessian矩阵不一定正定,因此使用不包含二阶导数的矩阵来近似hessian矩阵的逆,也就是拟牛顿法,近似矩阵的不同构造方法决定了不同的拟牛顿法。bfgs算法则是采用矩阵bk+1来近似hessian矩阵计算公式为其中p(k)=x(k+1)-x(k),令可以得到bfgs公式令yk=qk,sk=pk,上式可改写为令则l-bfgs每次只取最近的m组数据构造近似计算公式,即l-bfgs算法的伪代码如下:本发明物料数据的小类类别的分类,首先能准确分析数据中存在的问题,如大小写/全半角、连接符、单位不统一,读音相似等问题,进行合理的数据预处理过程,将数据规范化、标准化,然后转化成特征向量的形式,采用logistic回归+l2正则化+l-bfgs优化的方法对其进行分类,本发明可以实现对物料快速、准确的分类,提高了企业在物料存取的工作效率。以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本
技术领域
的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1