一种实现货币类数据智能转换方法、系统及终端机与流程

文档序号:31598552发布日期:2022-09-21 07:52阅读:189来源:国知局
一种实现货币类数据智能转换方法、系统及终端机与流程

1.本发明涉及货币类数据识别领域,尤其涉及一种基于分类决策树实现货币类数据智能转换方法、系统及终端机。


背景技术:

2.目前的数据预处理是使用数据进行一系列操作的前提,不管是在数据分析还是数据挖掘方面,对数据处理的结果是否一致、完整、规范都直接影响分析和实验的结果。现有技术中常用的数据预处理方法有缺失值插补、噪音处理、特征选择、空间变换、离散化、欠采样和过采样等方法,这些方法主要适用于处理具有不完整、冗余、实例减少等特征的数据,然而对于不规范数据,除将其作为噪声数据删除或人工改正之外,对其处理技术的研究却寥寥无几。实现数据的智能化转换,将有效提升数据预处理的效率,降低数据预处理的难度,是促进数据预处理技术发展的一个重要方向,也是促使数据分析和挖掘获得更有价值的信息的坚实基础。
3.目前在对处理过的数据忽略了对源数据的处理方式。也就是数据预处理主要存在以下几点问题:第一,当前数据预处理还存在数据量大而繁琐、数据存在冗余、数据形式杂乱无章等问题,所以在利用一定算法进行处理的基础上,在整个环节中,数据预处理往往花费更多人工处理数据的时间;第二,目前的数据预处理方法,存在一定的局限性,受所处理的数据种类和形式等内容的限制,数据预处理算法的研究还存在很大的发展空间;第三,直接将分类决策树应用于货币类数据与非货币类数据的分类容易出现过拟合或拟合不足等问题。


技术实现要素:

4.本发明首先通过训练bp神经网络实现对特定数据的识别,其次将训练好的bp神经网络融入分类决策树中,通过决策树实现对货币类字符的筛选,并将非货币类字符存入非货币数据库中,最后将货币类字符传入ics(init-computing-select)计算模型中,实现数据的转换。
5.具体方法包括:步骤一、创建bp神经网络模型,实现数据识别;创建的bp神经网络模型包括:输入层、隐层以及输出层;其中,隐层的输入用simgoid函数激活,输出层用线性函数激活;bp神经网络模型对预设字符进行识别,在融合神经网络的分类决策树模型中,融合两个bp神经网络模型,依次通过初始化图像、二值化处理、训练网络、识别完成对预设字符的识别;步骤二、基于融合bp神经网络的分类决策树模型,对货币数据和非货币数据进行分类筛选;步骤三、创建ics模型,对货币数据进行智能化转换。
6.本发明还提供一种基于分类决策树实现货币类数据智能转换系统,系统包括:网络模型创建识别模块、分类筛选模块以及货币数据转换模块;网络模型创建识别模块,用于创建bp神经网络模型,实现数据识别;创建的bp神经网络模型包括:输入层、隐层以及输出层;其中,隐层的输入用simgoid函数激活,输出层用线性函数激活;bp神经网络模型对预设字符进行识别,在融合神经网络的分类决策树模型中,融合两个bp神经网络模型,依次通过初始化图像、二值化处理、训练网络、识别完成对预设字符的识别;分类筛选模块基于融合bp神经网络的分类决策树模型,对货币数据和非货币数据进行分类筛选;货币数据转换模块创建ics模型,对货币数据进行智能化转换。
7.本发明还提供一种终端机,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现基于分类决策树实现货币类数据智能转换方法的步骤。
8.从以上技术方案可以看出,本发明具有以下优点:本发明提供的基于分类决策树实现货币类数据智能转换方法及系统实现不同形式、不同单位、不同内容的数据筛选与转换,为数据预处理、数据分析等提供了便利快捷的方法,节省了人工处理时间,提升了数据处理的效率;为数据分析和挖掘获得更有价值的信息奠定了基础,促进了算法模型的实际应用与发展,提高了其他有需求领域在进行货币数据单位转换时的效率,为生产生活提供便利,提高效率。
9.本发明提供的基于分类决策树实现货币类数据智能转换方法从技术角度来讲,将神经网络与分类决策树融合,为成熟算法的发展提供了思路;解决数据预处理过程中数据智能化转换的难题,尤其对货币类数据的智能化转换,提高数据预处理的效率,为数据分析和挖掘获得更有价值的信息奠定基础,促进算法模型的实际应用与发展,提高其他需求领域在进行货币数据单位转换时的效率,为生产生活提供便利,提高效率;另一方面,提出算法融合的思想,促进神经网络和分类树等成熟的机器算法的发展,为算法发展提供融合的新思想。
附图说明
10.为了更清楚地说明本发明的技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
11.图1为基于分类决策树实现货币类数据智能转换方法流程图;图2为融合神经网络的分类决策流程图;图3为ics模型对货币数据进行智能化转换流程图;图4为非货币数据类型示意图;图5为基于分类决策树实现货币类数据智能转换系统示意图。
具体实施方式
12.如图1所示,本发明提供一种基于分类决策树实现货币类数据智能转换方法中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的模块数目,其实际实施时各模块的型态、数量及功能可为一种根据本发明中对源数据处理方式而改变,且其模块布局型态也可能更为复杂。
13.本发明中的bp(back propagation)神经网络:是一种按误差反向传播训练的多层前馈网络,其算法称为bp算法,它的基本思想是梯度下降法,利用梯度搜索技术,以期使网络的实际输出值和期望输出值的误差均方差为最小。基本bp算法包括信号的前向传播和误差的反向传播两个过程。
14.本发明中的分类决策树(decision tree):分类决策树是一种常用的机器学习方法,通常用来做分类和回归任务。它是一种监督学习,通过给定的样本数据集以及确定的特征对其进行训练,训练完成后,决策树可以对于新输入的样本给出正确的分类。
15.本发明实施例涉及的基于分类决策树实现货币类数据智能转换方法可以基于人工智能技术对关联的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,完成对特定字符的识别,实现数据的转换获得最佳结果的方法。
16.如图1示出了本发明的基于分类决策树实现货币类数据智能转换方法的较佳实施例的流程图。基于分类决策树实现货币类数据智能转换方法应用于一个或者多个终端机中,所述终端机是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit,asic)、可编程门阵列(field-programmable gate array,fpga)、数字处理器(digital signal processor,dsp)、嵌入式设备等。
17.终端机可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(personal digital assistant, pda)、交互式网络电视(internet protocol television,iptv)、智能式穿戴式设备等。
18.终端机还可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(cloud computing)的由大量主机或网络服务器构成的云。
19.终端机所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(virtual private network,vpn)等。
20.下面将结合图1至4来详细阐述本发明的基于分类决策树实现货币类数据智能转换方法,本发明通过训练bp神经网络实现对特定数据的识别,其次将训练好的bp神经网络融入分类决策树中,通过决策树实现对货币类字符的筛选,并将非货币类字符存入“非货币数据”库中,最后将货币类字符传入ics(init-computing-select)计算模型中,实现数据的转换。
21.请参阅图1至4所示是一具体实施例中基于分类决策树实现货币类数据智能转换方法的流程图,方法包括:步骤一、创建bp神经网络模型,实现数据识别;本发明的实施例,通过融入可以实现特定字符识别的bp神经网络,来提升某些特
征的等级。bp神经网络是一个由输入层、隐层、输出层构成的前馈神经网络,其中隐层的输入用simgoid函数激活,输出层用线性函数激活。共有n个样本,每个样本分成4096个输入节点,用表示,隐层设置了70个节点,用表示,输入层到隐层的权重用 表示,隐层到输出层的权重用表示。
22.bp神经网络主要完成对特定字符的识别,在融合神经网络的分类决策树模型中,融合了两个bp神经网络,其中两个bp神经网络的原理相同,但对其训练识别的特定字符不同。通过初始化图像、二值化处理、训练网络、识别等步骤完成对特定字符的识别。
23.(1)为了实现对图像的识别,本发明给定n个训练集首先对每个样本进行预处理,初始化为一个二值图像,并进行反色处理,以得到数值为0或1的图像像素值,所以第i个样本的初始矩阵为:公式(b)根据0,1构成的图像矩阵可以形成一个输入向量,即:公式(c)因此根据每个样本形成的大小为的样本向量,进行组合形成大小为 的输入向量,其中p的第一列全置为0,其他列为样本向量即:公式(d)公式(e)公式(f)定义目标向量t为:公式(g)。
24.(2)根据输入向量和目标向量对bp神经网络进行构建,训练、仿真。
25.其中,根据公式确定隐层节点数,其中n是隐层节点数,是输入节点数,是输出节点数,a是1到10之间的任意常数;在隐层使用sigmoid激活函数作为传输函数公式为:公式(h)在输出层使用线性函数作为传输函数,以提高识别的准确率和字符间的匹配性。
26.根据神经网络的输出和目标向量可以求得均方误差为:
公式(i)当bp神经网络迭代次时,使用公式(j)对每层的权值和阈值进行修改:公式(j)。
27.其中为第k次迭代各层之间的连接权向量或阈值向量,为学习率,;因为在训练之间定义最佳学习率是不现实的,所以使用自适应调整学习率的梯度下降算法,使用公式(k)使学习率根据局部误差曲面做出相应的调整:公式(k)其中为增量因子,为减量因子;当误差以减小的方式趋于目标时,说明修正方向正确,可使步长增加,因此学习率乘以增量因子,使学习率增加;而当误差超过事先设定值时,说明修正过头,应减小步长,因此学习率乘以减量因子,使学习率减小,同时舍去使误差增加的前一步修正过程。
28.步骤二、基于融合bp神经网络的分类决策树模型,对货币数据和非货币数据进行分类筛选;具体来讲,通过步骤一中训练好的对特定字符具有识别功能的bp神经网络融入分类决策树模型对货币数据和非货币数据的分类,其中主要包括以下三个步骤:step1:判断数据值是否不存在无关字符的情况,例如“,”、“:”等,如果决策树结点返回“0”,则直接判定为“非货币数据”,如果返回“1”,则传入下一个结点继续判断即执行step2。
29.step2:对于传入的数据对其最后一个字符判断是否是特定字符,其中对于特定字符的判断识别通过融入的bp神经网络来完成,如果不是特定字符,则bp神经网络会返回0到结点中,如果是则会返回1到决策树结点中;分类决策树根据bp神经网络返回的结果进行决策。如果此节点返回0,则判定为非货币数据,如果返回1则传入下一个节点继续判断即执行step3。
30.step3:判断传入数据的第一个字符是否是数字,同样通过融入一个bp神经网络来完成识别,根据bp神经网络返回的结果进行判断从而得到最终的分类结果。
31.融合神经网络的优点是借助神经网络强大的计算和识别功能提升了分类决策树中特征的等级,从而解决了分类决策树容易产生过拟合和欠拟合的问题。
32.最终分类决策树由3个特征训练而成,分别是数据值中是否不存在其他无关标点符号、最后一个字符是否是特定字符、第一个字符是否是数字。为了选择最优的划分属性,首先根据公式(l)计算每个类别标签的信息熵:
根据公式(l)计算每个类别标签的信息熵:公式(l)根据公式(m)计算出的信息增益选择最优特性:公式(m)本发明使用m个数据集 选择货币数据的3个特征构成属性集。
33.其中选择数据集中80%的数据作为训练集,选择20%的数据作为测试集;根据bp神经网络对训练集进行改进形成输入集,其中a表示由bp神经网络形成的特征值。
34.步骤三、创建ics模型,对货币数据进行智能化转换。
35.为实现数据转换,本发明提出了一种ics(init-computing-select)计算模型,可根据数据形式以及转换需求自定义参数,默认转换为万元形式。此模型主要分为三个步骤,分别是初始化阶段、计算阶段、选择阶段:(1)初始化阶段。对输入数据的货币形式进行判断,根据存在的货币形式对其对应的权重赋值,用w表示权重。若其形式存在事先定义的货币单位形式中的某一种,则对其相应的权重赋值为1,其他不存在的权重赋值为0。从而实现将输入的货币数据按形式分配到对应货币形式中,m表示货币形式,n为自定义参数;公式(n)公式(o)。
36.(2)计算阶段。通过设置由汇率转换、单位转换组成的权重矩阵f,f的大小由参数n决定,对f的定义如公式(p)所示:公式(p)
公式(q)公式(q)是对常用货币形式以及未来可能使用的形式进行了统计分类,其中包括元、万元、美元、欧元、韩元、日元、亿元等转换形式,即参数n为7时根据权重矩阵实现货币形式的任意统一转换。其中人民币用y表示,美元用d表示,欧元用e表示,韩元用w表示,日元用h表示,例如:yd表示1元人民币兑换成美元的实时汇率,而dy表示1美元兑换成人民币的实时汇率,we表示1韩元兑换成欧元的实时汇率。
37.根据得到的权重赋值后的货币表达式 以及实时权重矩阵 通过矩阵计算,可以通过公式(q)计算得到转换后的数据:公式(r)。
38.表示事先自定义转换形式的一种,通过改变i的值进行多次计算,得到一种或多种转换形式。
39.(3)选择输出阶段。首先根据转换需求,选择输出形式,为选择权重矩阵赋值,公式如下所示:公式(s)其次根据选择权重矩阵b的值为步骤(2)中i赋值,将公式(r)的计算结果作为转换结果输出,同时存入转换结果库中。
40.通过以上三个阶段即可实现数据的转换,其算法实现的伪代码如表1所示。
41.表1 ics计算模型伪代码
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
42.本发明对中标数据的成交金额数据进行转换,成交金额数据一般存在形式各异、单位不一等问题。以下实例描述取20个典型数据以及7个较为常用的转换单位,从数据传入、数据筛选、模型选择、数据转换四个方面进行详细描述。
43.数据传入首先获取招投标数据中成交金额一列的数据值,并将其依次传入融合神经网络的分类决策树模型中,事先定义的非货币数据类型如图4所示:部分代表性数据形式如下表所示:表2部分代表性数据
448万元9512欧元+1250$+117250元7456570.7710600欧元+490000¥综合折扣率90%25000元/课时460000人民币+37700美元480000美元监理费费率3.00%839800元98%46.7253万元,设计费率5.79%0.078元/片11206元+155碗120元/人民币详见附件工时单价:10元/小时,配件加价率:10%50%,49%,50%综合单价65000.00元45万元+141美元
(一)数据筛选取80%的数据作为训练集,将20%的数据作为测试集,具体流程如下:s1.将数据传入模型中,首先判断数据中是否不存在其他无关符号(无关符号指除“.”和“+”之外的标点符号,例如“,”、“%”等符号),如果返回yes,则执行s3,否则,执行s2;s2.将数据存入非货币数据库中;s3.临时存储数据值,并获取数据的最后一个字符;
s4.判断数据的最后一个字符是否是特定字符(特定字符包括:表示货币单位的字符(例如:元,万等);各国货币的表示符号(例如:¥、$、€等);常写错的货币单位字符(例如:万写成碗的情况等)),如果返回yes,则执行s5,否则,执行s2;s5.临时存储数据值,并获取数据的第一个字符;s6.判断数据的第一个字符是否是特定字符(特定字符包括:从“0”到“9”的数字),如果返回yes,则执行s7,否则,执行s2;(特定字符的识别通过bp神经网络实现);s7.输出货币类型数据,传入ics计算模型中。
44.部分代表性数据判断结果如下表所示。
45.表3代表性数据分类结果
编号数据集other charlast charfirst char货币数据1448万元111yes298%011no37456570.77101no410600欧元+490000¥111yes5综合折扣率90%000no625000元/课时001no7460000人民币+37700美元111yes8480000美元111yes9监理费费率3.00%000no10839800元111yes119512欧元+1250$+117250元111yes1246.7253万元,设计费率5.79%001no130.078元/片001no1411206元+155碗111yes15120元/人民币111yes16详见附件100no17工时单价:10元/小时,配件加价率:10%000no18综合单价65000.00元110no1950%,49%,50%001no2045万元+141美元111yes
(二)模型选择如果是非货币数据类型则存入数据库中,如果是货币数据类型,则将数据传入ics计算模型中,代表性数据模型选择结果如下表所示。
46.表4代表性数据模型选择结果编号数据集“非货币数据”库ics模型1448万元noyes298%yesno37456570.77yesno410600欧元+490000¥noyes5综合折扣率90%yesno625000元/课时yesno
7460000人民币+37700美元noyes8480000美元noyes9监理费费率3.00%yesno10839800元noyes119512欧元+1250$+117250元noyes1246.7253万元,设计费率5.79%yesno130.078元/片yesno1411206元+155碗noyes15120元/人民币noyes16详见附件yesno17工时单价:10元/小时,配件加价率:10%yesno18综合单价65000.00元yesno1950%,49%,50%yesno2045万元+141美元noyes(三)数据转换;s1.将货币数据传入ics模型中,首先初始化模型的权重w;s2.实时更新汇率、转换的权重矩阵f;s3.根据实时权重矩阵进行数据转换(可转换元、万元、亿元、美元、欧元、日元、韩元等7种形式);根据权重矩阵转换的结果如下表所示:表5代表性数据转换结果
编号数据集元万元美元欧元韩元日元亿元1448万元4480000448668796.46641025.6486692480090866681.540.0448410600欧元+490000¥564081.2856.4184208.8380712.1894963254.6811441114.740.00567460000人民币+37700美元712537.2271.25106371.07101954.1689503284.7714452208.180.00718480000美元3215328321.53480000460068.686221981.2165215666.390.03210839800元83980083.98125369.48120163.6916250969817033446.240.0083119512欧元+1250$+117250元192100.7219.2128677.7427486.9422833891.123896329.140.00191411206元+155碗1561206156.12233064.52223386.85302108973.0631665537.590.015615120元/人民币1200.0117.9117.1723221.22433.930.02045万元+141美元450944.545.0967319.2264523.8887081327.719146390.740.0045
(四)输出结果根据需求智能选择转换结果数据,默认选择万元进行转换;最后将转换结果存入转换结果库中。
47.这样,本发明提供的基于分类决策树实现货币类数据智能转换方法实现不同形式、不同单位、不同内容的数据筛选与转换,为数据预处理、数据分析等提供了便利快捷的方法,节省了人工处理时间,提升了数据处理的效率;为数据分析和挖掘获得更有价值的信息奠定了基础,促进了算法模型的实际应用与发展,提高了其他有需求领域在进行货币数据单位转换时的效率,为生产生活提供便利,提高效率。
48.基于上述方法本发明还提供一种基于分类决策树实现货币类数据智能转换系统,如图5所示,系统包括:网络模型创建识别模块、分类筛选模块以及货币数据转换模块;网络模型创建识别模块,用于创建bp神经网络模型,实现数据识别;
创建的bp神经网络模型包括:输入层、隐层以及输出层;其中,隐层的输入用simgoid函数激活,输出层用线性函数激活;bp神经网络模型对预设字符进行识别,在融合神经网络的分类决策树模型中,融合两个bp神经网络模型,依次通过初始化图像、二值化处理、训练网络、识别完成对预设字符的识别;分类筛选模块基于融合bp神经网络的分类决策树模型,对货币数据和非货币数据进行分类筛选;货币数据转换模块创建ics模型,对货币数据进行智能化转换。
49.本发明提供的基于分类决策树实现货币类数据智能转换系统将神经网络与分类决策树融合,为成熟算法的发展提供了思路;解决数据预处理过程中数据智能化转换的难题,尤其对货币类数据的智能化转换,提高数据预处理的效率,为数据分析和挖掘获得更有价值的信息奠定基础,促进算法模型的实际应用与发展,提高其他需求领域在进行货币数据单位转换时的效率,为生产生活提供便利,提高效率。
50.本发明提供的基于分类决策树实现货币类数据智能转换系统中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
51.本发明提供的基于分类决策树实现货币类数据智能转换方法及系统是结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
52.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1