0


机器学习:iris数据集

目录

一、iris数据集简介

iris数据集的中文名是安德森鸢尾花卉数据集,英文全称是Anderson`s Iris data set。iris包含150个样本,对应数据集的每行数据。每行数据包含每个样本的四个特征,所以iris数据集是一个150行4列的二维表。

通俗地说,iris数据集是用来给花做分类的数据集,每个样本包含了花萼长度、花萼宽度、花瓣长度、花瓣宽度四个特征,我们需要建立一个分类器,分类器可以通过样本的四个特征来判断样本属于山鸢尾(setosa)、变色鸢尾(versicolor)、维吉尼亚鸢尾(virginica)这三个品种中的哪一个。
iris常用于监督式学习中分类模型:根据花的四个特征预测鸢尾花卉属于(iris-setosa,iris-versicolour,iris-virginica)中的哪一品种。

二、基本数据操作

# iris数据集加载from sklearn import datasets
iris = datasets.load_iris()#展示数据#print(iris.data)#展示每列的属性名print(iris.feature_names)#展示输出目标结果以及结果的含义print(iris.target)print(iris.target_names)#查看输入和输出数据类型print(type(iris.data))print(type(iris.target))#确认行列维度print(iris.data.shape)print(iris.target.shape)

[‘sepal length (cm)’, ‘sepal width (cm)’, ‘petal length (cm)’, ‘petal width (cm)’]
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2]
[‘setosa’ ‘versicolor’ ‘virginica’]
<class ‘numpy.ndarray’>
<class ‘numpy.ndarray’>
(150, 4)
(150,)

import pandas  as pd
from sklearn import datasets
iris = datasets.load_iris()
df =pd.DataFrame(data =iris.data,columns = iris.feature_names)
df['class']=iris.target
df['class']=df['class'].map({0: iris.target_names[0],1: iris.target_names[1],2: iris.target_names[2]})print(df.head(10))#print(df.describe())

在这里插入图片描述


本文转载自: https://blog.csdn.net/weixin_43597208/article/details/130608989
版权归原作者 浊酒南街 所有, 如有侵权,请联系我们删除。

“机器学习:iris数据集”的评论:

还没有评论