0


[Python] 散点图(二维散点图、三维散点图、散点图矩阵)

以python自带数据鸢尾花数据为例,导入需要用到的包和数据。
注:除此步骤外,以下每张图对于的代码段可单独使用,可直接跳转至需要的图。

  1. #下载和导入需要的库
  2. pip install numpy
  3. pip install scipy
  4. import os
  5. import pandas as pd
  6. import numpy as np
  7. import matplotlib.pyplot as plt

1 两主特征:二维散点图

1.1 二维散点图

以python自带数据鸢尾花数据为例。

  1. #导入鸢尾花数据,并重构数据框
  2. from sklearn.datasets import load_iris
  3. iris = load_iris()
  4. df = pd.DataFrame(iris.data[:],columns=iris.feature_names[:])
  5. #绘制前两个特征的二维散点图
  6. plt.scatter(df['sepal length (cm)'], df['sepal width (cm)'], alpha=0.8)
  7. plt.xlabel('sepal length (cm)') # 横坐标轴标题
  8. plt.ylabel('sepal width (cm)') # 纵坐标轴标题
  9. plt.show()

1.2 二维分类散点图

根据鸢尾花数据集前两个特征进行K-means聚类,聚成4类后在上述基础上在散点图中区分这四类。

  1. #导入鸢尾花数据,并重构数据框
  2. from sklearn.datasets import load_iris
  3. iris = load_iris()
  4. df = pd.DataFrame(iris.data[:],columns=iris.feature_names[:])
  5. #在二维散点图之上,区别某些特征
  6. #根据前两个特征:利用K-means聚类将数据聚成四类
  7. pip install sklearn
  8. from sklearn.cluster import KMeans
  9. estimator = KMeans(n_clusters=4) #构造聚类器
  10. estimator.fit(df.iloc[:,0:2]) #聚类
  11. label_pred = estimator.labels_ #获取聚类标签
  12. df['label'] = label_pred #在原数据表显示聚类标签
  13. #绘制k-means结果
  14. x0 = df[label_pred == 0]
  15. x1 = df[label_pred == 1]
  16. x2 = df[label_pred == 2]
  17. x3 = df[label_pred == 3]
  18. plt.scatter(x0.iloc[:, 0], x0.iloc[:, 1], c = "red", marker='o', label='label0')
  19. plt.scatter(x1.iloc[:, 0], x1.iloc[:, 1], c = "green", marker='*', label='label1')
  20. plt.scatter(x2.iloc[:, 0], x2.iloc[:, 1], c = "blue", marker='+', label='label2')
  21. plt.scatter(x3.iloc[:, 0], x3.iloc[:, 1], c = "yellow", marker='^', label='label3')
  22. plt.xlabel('sepal length (cm)')
  23. plt.ylabel('sepal width (cm)')
  24. plt.legend(loc=2)
  25. plt.show()

1.3 气泡图

二维分类散点图是在两个主特征的基础上,叠加一个分类特征

若在两个主特征的基础上,还要展示另外一个连续特征,可以使用气泡图。

这里假设iris的第三个为需要展示的另一个连续特征(仅做方法展示用,实践中iris的第三个特征与前两个特征是同类别的,不适合用气泡图,用下文所述的三维散点图或者散点图矩阵更合适。)

  1. #导入鸢尾花数据,并重构数据框
  2. from sklearn.datasets import load_iris
  3. iris = load_iris()
  4. df = pd.DataFrame(iris.data[:],columns=iris.feature_names[:])
  5. #假设iris的第三个特征展示为为气泡大小
  6. fea = df['petal length (cm)']
  7. plt.scatter(df['sepal length (cm)'], df['sepal width (cm)'], s=fea*100, c='purple', alpha=0.4, edgecolors="grey", linewidth=2)
  8. plt.xlabel('sepal length (cm)') # 横坐标轴标题
  9. plt.ylabel('sepal width (cm)') # 纵坐标轴标题
  10. plt.title('s=fea*100, c=purple',verticalalignment='bottom')
  11. plt.show()
  12. #参数说明
  13. # s:表征气泡大小的变量
  14. # c:颜色,若想要彩色气泡,可以给c赋值,如c=fea
  15. # alpha:不透明度
  16. # edgecolors:气泡描边的颜色
  17. # linewidth:气泡描边大小

2 三主特征:三维散点图

2.1 三维散点图

考虑鸢尾花数据集前三个特征,绘制三维散点图。

  1. #导入鸢尾花数据,并重构数据框
  2. from sklearn.datasets import load_iris
  3. iris = load_iris()
  4. df = pd.DataFrame(iris.data[:],columns=iris.feature_names[:])
  5. #根据鸢尾花数据前三个特征,绘制三维散点图
  6. import matplotlib.pyplot as plt
  7. from mpl_toolkits.mplot3d import Axes3D # 空间三维画图
  8. #设置x、y、z轴
  9. x=df['sepal length (cm)']
  10. y=df['sepal width (cm)']
  11. z=df['petal length (cm)']
  12. #绘图
  13. fig = plt.figure()
  14. ax = Axes3D(fig)
  15. ax.scatter(x, y, z)
  16. # 添加坐标轴
  17. ax.set_xlabel('sepal length (cm)', fontdict={'size': 10, 'color': 'black'})
  18. ax.set_ylabel('sepal width (cm)', fontdict={'size': 10, 'color': 'black'})
  19. ax.set_zlabel('petal length (cm)', fontdict={'size': 10, 'color': 'black'})
  20. plt.show()

2.2 三维分类散点图

根据鸢尾花数据集前三个特征进行K-means聚类,聚成4类后在上述基础上在散点图中区分这四类。

  1. #导入鸢尾花数据,并重构数据框
  2. from sklearn.datasets import load_iris
  3. iris = load_iris()
  4. df = pd.DataFrame(iris.data[:],columns=iris.feature_names[:])
  5. #根据前三个特征:利用K-means聚类将数据聚成四类
  6. pip install sklearn
  7. from sklearn.cluster import KMeans
  8. estimator = KMeans(n_clusters=4) #构造聚类器
  9. estimator.fit(df.iloc[:,0:3]) #聚类
  10. label_pred = estimator.labels_ #获取聚类标签
  11. df['label'] = label_pred #在原数据表显示聚类标签
  12. #根据鸢尾花数据前三个特征,绘制三维分类散点图
  13. import matplotlib.pyplot as plt
  14. from mpl_toolkits.mplot3d import Axes3D # 空间三维画图
  15. #设置x、y、z轴
  16. x=df['sepal length (cm)']
  17. y=df['sepal width (cm)']
  18. z=df['petal length (cm)']
  19. #绘图
  20. fig = plt.figure()
  21. ax = Axes3D(fig)
  22. ax.scatter(x, y, z, c=label_pred) #c指颜色,c=label_pred刚好四个分类四个颜色。相比普通三维散点图只改了这里!!!
  23. # 添加坐标轴
  24. ax.set_xlabel('sepal length (cm)', fontdict={'size': 10, 'color': 'black'})
  25. ax.set_ylabel('sepal width (cm)', fontdict={'size': 10, 'color': 'black'})
  26. ax.set_zlabel('petal length (cm)', fontdict={'size': 10, 'color': 'black'})
  27. plt.show()

3 多主特征:二维散点图矩阵

3.1 二维散点图矩阵

如果有多个特征需要绘图,比如鸢尾花有4个特征,可以绘制二维散点图矩阵。

  1. #导入鸢尾花数据,并重构数据框
  2. from sklearn.datasets import load_iris
  3. iris = load_iris()
  4. df = pd.DataFrame(iris.data[:],columns=iris.feature_names[:])
  5. #散点图矩阵
  6. import seaborn as sns
  7. fig = plt.figure(figsize=(15, 25))
  8. sns.pairplot(data=df, vars=df.iloc[:,0:4], diag_kind="kde", markers="+")
  9. plt.show()
  10. # 参数说明:
  11. # data指定pairplot()要用到的数据源
  12. # hue指定将data中的数据区分显示的依据
  13. # vars指定data中要绘制成散点矩阵图的数据
  14. # diag_kind指对角线图的类型{'auto', 'hist', 'kde'}

3.2 二维分类散点图矩阵

如果进一步进行分类,可绘制二维分类散点图矩阵。

  1. #导入鸢尾花数据,并重构数据框
  2. from sklearn.datasets import load_iris
  3. iris = load_iris()
  4. df = pd.DataFrame(iris.data[:],columns=iris.feature_names[:])
  5. #根据前四个特征:利用K-means聚类将数据聚成四类
  6. pip install sklearn
  7. from sklearn.cluster import KMeans
  8. estimator = KMeans(n_clusters=4) #构造聚类器
  9. estimator.fit(df.iloc[:,0:4]) #聚类
  10. label_pred = estimator.labels_ #获取聚类标签
  11. df['label'] = label_pred #在原数据表显示聚类标签
  12. #绘制二维分类散点图矩阵
  13. import seaborn as sns
  14. fig = plt.figure(figsize=(15, 25))
  15. sns.pairplot(data=df, hue='label', vars=df.iloc[:,0:4])
  16. plt.show()
  17. # 参数说明:
  18. # data指定pairplot()要用到的数据源,hue指定将data中的数据区分显示的依据
  19. # vars指定data中要绘制成散点矩阵图的数据"

标签: python 聚类 大数据

本文转载自: https://blog.csdn.net/qq_42281663/article/details/121381757
版权归原作者 禾木页 所有, 如有侵权,请联系我们删除。

“[Python] 散点图(二维散点图、三维散点图、散点图矩阵)”的评论:

还没有评论