一种鸢尾花的种类分析方法与流程

文档序号:18900018发布日期:2019-10-18 21:48阅读:1647来源:国知局
一种鸢尾花的种类分析方法与流程

本发明创造属于数据分析领域,尤其是涉及一种鸢尾花的种类分析方法。



背景技术:

花卉是被子植物(被子植物门植物,又称有花植物)的繁殖器官,其生物学功能是结合雄性精细胞与雌性卵细胞以产生种子。这一进程始于传粉,然后是受精,受精过后,从而形成种子并加以传播。对于高等植物而言,种子便是其下一代,种子又长成花卉,又传粉、受精,从而延续这个品种的花的生命。而且是各物种在自然界分布的主要手段。同一植物上着生的花的组合称为花序。广义的花卉可指一切具有观赏价值的植物繁殖器官,而狭义上则单指所有的开花植物。除了作为被子植物的繁殖器官,花卉还一直广受人们的喜爱和使用,主要用于美化环境、人际交往,而且还作为一种食物来源。花由花冠、花萼、花托、花蕊组成,有各种颜色,有的长得很艳丽,有香味。

花卉种类繁多,现有的对花卉资源的管理方式多为传统的图册或电子图册进行管理,收集到的信息资源不齐全,而且花卉信息更新周期长,不能全面的对花卉进行介绍,尤其是鸢尾花,更是难以在现有的管理方式对鸢尾花的信息进行采集和查找,不利于鸢尾花信息的管理。



技术实现要素:

有鉴于此,本发明创造旨在提出一种使用id3回归算法,在测试集上准确率高达90以上的鸢尾花的种类分析方法。

为达到上述目的,本发明创造的技术方案是这样实现的:

一种鸢尾花的种类分析方法,其特征在于,包括以下步骤:

(1)将鸢尾花的数据集导入hive数据仓库中;

(2)对步骤(1)所述的数据进行清洗;

(3)将步骤(2)清洗后与任务相关的数据存入数据库中;

(4)利用机器学习算法建立决策树模型,根据决策树模型进行分类;

(5)输出步骤(4)数据分类数据,生成系统,并进行数据可视化;

进一步的,步骤(1)所述的导入hive数据仓库包括以下步骤:

(11)将鸢尾花数据文件导入分布式文件系统hdfs;

(12)在hive数据仓库上创建数据库及外部表,将分布式文件系统hdfs目录中的鸢尾花数据加载到数据仓库hive中,创建临时表,数据仓库hive会自动在hdfs文件系统中创建对应的数据文件。

进一步的,步骤(3)所述的存入数据库包括如下步骤:

(31)将清洗后的数据从数据仓库hive导入到mysql;

(32)创建数据库及数据表。

进一步的,步骤(31)所述的导入为利用sqoop将数据从数据仓库导入至mysql。

进一步的,步骤(4)所述的机器学习算法为id3算法。通过id3算法,首先找出最有判别力的因素,然后把数据分成多个子集,每个子集又选择最有判别力的因素进一步划分,一直进行到所有子集仅包含同一类的数据为止。最后得到一棵决策树,可以用它来对新的样例进行分类。

进一步的,步骤(4)所述的分类类型包括花萼长度,花萼宽度,花瓣长度,花瓣宽度。

进一步的,步骤(5)所述的数据可视化为利用echarts中散点图进行数据可视化。

相对于现有技术,本发明创造所述的一种鸢尾花的种类分析方法具有以下优势:

1.本发明主要在于应用id3决策树算法对花卉进行识别分析,最后筛选分类,进一步提高了效率;

2.本发明使用数据挖掘与大数据知识,在数据清洗后准确度更高。

附图说明

构成本发明创造的一部分的附图用来提供对本发明创造的进一步理解,本发明创造的示意性实施例及其说明用于解释本发明创造,并不构成对本发明创造的不当限定。在附图中:

图1为本发明创造实施例所述的结构示意图;

图2为本发明创造实施例所述的实验效果示意图;

图3为本发明创造实施例所述的可视化数据示意图。

具体实施方式

需要说明的是,在不冲突的情况下,本发明创造中的实施例及实施例中的特征可以相互组合。

在本发明创造的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明创造和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明创造的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明创造的描述中,除非另有说明,“多个”的含义是两个或两个以上。

在本发明创造的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明创造中的具体含义。

下面将参考附图并结合实施例来详细说明本发明创造。

一种鸢尾花的种类分析方法,其特征在于,包括以下步骤:

(1)将鸢尾花的数据集导入hive数据仓库中;

(2)对步骤(1)所述的数据进行清洗;

(3)将步骤(2)清洗后与任务相关的数据存入数据库中;

(4)利用机器学习算法建立决策树模型,根据决策树模型进行分类;

(5)输出步骤(4)数据分类数据,生成系统,并进行数据可视化;

作为优选,步骤(1)所述的导入hive数据仓库包括以下步骤:

(11)将鸢尾花数据文件导入分布式文件系统hdfs:启动hadoop,把linux本地文件系统中的irisdata.log上传到分布式文件系统hdfs。

(12)首先启动mysql数据库,在hive上创建数据库,创建外部表,hdfs中的目录下的irisdata.log数据加载到了数据仓库hive中,创建临时表,hive会自动在hdfs文件系统中创建对应的数据文件

,步骤(3)所述的存入数据库包括如下步骤:

(31)将清洗后的数据从数据仓库hive导入到mysql;

(32)创建数据库及数据表。

作为优选,步骤(31)所述的导入为将数据从hive导入到mysql:登陆mysql,创建数据库,表,利用sqoop导入数据。

作为优选,步骤(4)所述的机器学习算法为id3算法。

作为优选,步骤(4)所述的分类类型包括花萼长度,花萼宽度,花瓣长度,花瓣宽度。

作为优选,步骤(5)所述的数据可视化为利用echarts中散点图进行数据可视化。

本发明解决了鸢尾花卉分类的难题,人工分类不仅效率低下,准确性也较低,本系统使用id3回归算法,能够在输入花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性值之后,准确分类,在测试集上准确率高达90以上。

以上所述仅为本发明创造的较佳实施例而已,并不用以限制本发明创造,凡在本发明创造的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明创造的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1