本发明涉及机器学习中的特征值调优,特别是涉及一种基于表格问答的表格数据预测优化方法及其决策方法。
背景技术:
:1、xgboost等是机器学习中的数据建模和预测建模工具,传统机器学习进行数据预测的调优方案中,需要人工调整选择特征值,构建预测模型并进行预测后,再根据预测集和测试集的数据拟合度来修改特征值的选择,多次反复后选取最优特征值,即特征值工程。这个过程需要消耗大量的人力和时间资源。2、因此,提供一种基于表格问答的表格数据预测优化方法以克服现有技术不足甚为必要。技术实现思路1、本发明的目的在于避免现有技术的不足之处而提供一种基于表格问答的表格数据预测优化方法,能够得到预测所需的最佳特征值。2、本发明的目的通过以下技术措施实现。3、提供一种基于表格问答的表格数据预测优化方法,通过如下步骤进行:4、步骤1,表格问答模型根据用户的输入描述,输出表格中的预测维度、特征值和数据集,提取得到数据集与特征集;5、步骤2,把生成的特征集和数据集,根据预测维度,将数据集d与特征集t组合为训练集d-train与测试集d-test;建模并计算拟合度;6、步骤3,组装微调数据集并进行模型微调,具体是:将预测维度和最优特征集作为微调数据集,反过来对表格问答模型进行模型微调,生成新的特征值提取模型m-sn。7、表格问答是深度学习中的一个功能,可以通过自然语言的方式,将给定表格中的内容进行查询、抽取和整合。8、优选的,上述的基于表格问答的表格数据预测优化方法,还包括步骤4,调用微调模型,具体是:9、当相同预测维度的预测任务再次出现时,通过预测维度在模型库中查找到对应的模型m-sn;10、同时再次生成的最大拟合度与对应特征集再组装成新的微调数据集,继续对模型进行进一步的微调,微调后的模型更新到模型库中作为新的特征值提取模型m-sn。11、优选的,上述的基于表格问答的表格数据预测优化方法,步骤1具体包括:12、步骤1.1,数据预处理,即对输入的表格文件,通过转换程序,把文件内的表格数据进行预处理,把表格数据转换为json数据;13、具体的转换逻辑为把表格根据顺序进行标记,生成标记代号,记录到table_id项中;把表格名字记录到table_name项中;把表格中的列名字按照列顺序,记录到header_name项中;将表格中的每一行的内容作为一个数组,多行组成二维数组记录到row项中;14、步骤1.2,分别通过自然语言描述需要的特征值名字、数据项、预测维度,把描述的语言和json数据同时输入到表格问答模型,表格问答模型通过自然语言处理能力text-to-sql,创建问题对应的sql查询语句,通过sql查询语句,对输入的数据表格或数据库进行查询;15、步骤1.3,模型查询得到的json数据结果,通过转换生成保存有特征数据的特征集t和需要预测数据的数据集d。16、优选的,上述的基于表格问答的表格数据预测优化方法,步骤1.3中具体的转换逻辑为:提取header_name作为列名,再把row中的数组映射到表格的每一行中,生成新的结果表格。17、优选的,上述的基于表格问答的表格数据预测优化方法,步骤2具体包括:18、步骤2.1,把数据集按照预测维度排序,排序方式按照预测方向的正序排列,选取前面的数据块为数据集d-sub,后面的数据块为测试集d-test,按照切割比例切割。19、步骤2.2,数据集d-sub与特征集t列合并,合并以数据集d-sub的预测维度项为基准,选取相同预测维度相同的特征值,组合成训练集d-train;20、其中训练集作为模型训练的原始数据,测试集作为模型训练并进行预测后,作为性能对照的测试数据,以评估模型的性能;21、步骤2.3,选取训练集d-train的部分特征值,除了保留预测维度tt和数据dd外,按照列顺序选取1个或多个列,组合生成子训练集d-train-sub;通过xgboost库的xgbregressor函数,生成一个基于决策树的模型,再使用fit函数导入子训练集,对模型进行训练,并生成预测模型m;22、步骤2.4,根据本次循环的子训练集d-train-sub中选取的特征项,再根据测试集d-test的预测维度,查询特征集t中相同预测维度的特征项的值,构建子测试集d-test-sub;23、使用xgboost库的predict函数,将预测模型m对子测试集d-test-sub计算预测数据,生成预测集d-fore;24、步骤2.5,对测试集d-test和预测集d-fore进行拟合度计算,计算两个数据集中预测值df与dd的均方根误差rmse,得到拟合度de;25、步骤2.6,循环选取不同的特征值组合,重复步骤2.3至步骤2.5,针对不同特征值进行训练,计算和拟合,对比得到最大拟合度de-max,其对应的特征集t-max。26、优选的,上述的基于表格问答的表格数据预测优化方法,步骤3具体包括:27、步骤3.1,将预测维度,最大拟合度de-max和对应特征集t-max,组装成微调数据集d-stf;28、步骤3.2,使用微调数据集d-stf对表格问答模型m进行微调,微调行为使用transformers框架的trainer训练器完成,在训练器中加载表格问答模型m,并循环加载微调数据集d-stf,微调后生成新的模型文件m-s。29、步骤3.3,将新模型文件与预测维度合并记录。30、优选的,上述的基于表格问答的表格数据预测优化方法,步骤1中的表格问答模型为space-t或者berta。31、优选的,上述的基于表格问答的表格数据预测优化方法,机器学习中的数据预测还可以使用lightgbm库。32、本发明基于表格问答的表格数据预测优化方法,通过表格问答能力来进行特征值工程,调优xgboost数据预测模型的系统。结合深度学习中的自然语言处理优势和机器学习的数据预测能力。通过深度学习中的表格问答能力,根据用户的自然语言,将表格中的数据进行提取和整合,转化为机器学习xgboost模型中特征值,根据特征值进行数据建模和数据预测。33、本发明的技术方案具有以下创新点:34、创新点1:使用自然语言的方式,通过深度学习模型,将原始表格中的数据整合为特征值,并循环进行预测模型的拟合度计算,得到预测所需的最佳特征值。35、创新点2:通过持续在线学习的方式,将最优特征值和预测维度组装为微调数据集,使用微调数据集对深度学习模型进行微调,快速迭代微调版本。当再次进行相似维度的预测时,可以通过经过调优的模型,调整整合特征值的方向及优先级,更快输出在符合自然语言输入规则下的最佳预测模型和预测值。当前第1页12