0


matplotlib绘制直方图之基本配置——万能模板案例

直方图介绍

直方图(Histogram),又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。 一般用横轴表示数据类型,纵轴表示分布情况。

直方图是数值数据分布的精确图形表示。 这是一个连续变量(定量变量)的概率分布的估计,并且被卡尔·皮尔逊(Karl Pearson)首先引入。它是一种条形图。

为了构建直方图,第一步是将值的范围分段,即将整个值的范围分成一系列间隔,然后计算每个间隔中有多少值。 这些值通常被指定为连续的,不重叠的变量间隔。 间隔必须相邻,并且通常是(但不是必须的)相等的大小。

直方图也可以被归一化以显示“相对”频率。 然后,它显示了属于几个类别中的每个案例的比例,其高度等于1。

绘制直方图的参数(plt.hist())

通常而言,绘制直方图有很多种方法,比如采用matplotlib里面的模块进行绘制,也可以是pandas里面的图形进行绘制,也可以使用Python里面其他的统计绘图模块进行绘制图形,总而言之,想要图形展示的美观,那么就需要自己配置,也就是说模板固然重要,但是如果不懂原理的进行搬运和借用,反而效果不是很好!

连接数据库进行直方图绘制案例

  1. # -*- coding: utf-8 -*-
  2. import numpy as np
  3. import matplotlib as mpl
  4. import matplotlib.pyplot as plt
  5. from matplotlib.font_manager import FontProperties
  6. mpl.rcParams['font.sans-serif']=['SimHei'] #显示中文
  7. plt.rcParams['axes.unicode_minus']=False #正常显示负号
  8. import pymysql
  9. #连接MySQL数据库
  10. v1 = []
  11. v2 = []
  12. db = pymysql.connect(host='127.0.0.1', port=3306, database='mydb',user='root',password='root')
  13. cursor = db.cursor()
  14. #读取订单表数据,统计每日利润额
  15. sql_str = "SELECT order_date,ROUND(SUM(profit)/10000,2) FROM orders WHERE FY=2019 GROUP BY order_date"
  16. cursor.execute(sql_str)
  17. result = cursor.fetchall()
  18. for res in result:
  19. v1.append(res[0]) # order_date
  20. v2.append(res[1]) # sum_profit_by_order_date 每日利润额
  21. plt.figure(figsize=(10,5)) #设置图形大小
  22. cs,bs,bars = plt.hist(v2, bins=20, density=False, facecolor="cyan", edgecolor="black", alpha=0.7)
  23. width = bs[1]-bs[0]
  24. for i,c in enumerate(cs):
  25. plt.text(bs[i]+width/3,c,round(c))
  26. # 返回一个counts数组,一个bins数组和一个图形对象
  27. # 显示横轴标签
  28. plt.xlabel("区间",fontdict={'family':'Fangsong','fontsize':15})
  29. # 显示纵轴标签
  30. plt.ylabel("频数",fontdict={'family':'Fangsong','fontsize':15})
  31. # 显示图标题
  32. plt.title("利润额分布直方图",fontdict={'family':'Fangsong','fontsize':20})
  33. plt.show()

使用dataframe里面的plot函数进行绘制(万能模板)

一般而言,我们导入数据的时候,大概率都是基于表数据进行可视化的,很少使用那些自主独立的数据进行绘制,如果是那种数据,很多人都会去使用origin这个绘图软件了,程序绘图最大的好处就是不需要对数据结果进行输出,输入,这样在很大程度上减少了我们的时间,提高了我们的工作效率。

  1. # 使用DataFrame的plot函数画图
  2. import numpy as np
  3. import matplotlib as mpl
  4. import matplotlib.pyplot as plt
  5. from matplotlib.font_manager import FontProperties
  6. mpl.rcParams['font.sans-serif']=['SimHei'] #显示中文
  7. plt.rcParams['font.sans-serif'] = 'KaiTi' # 设置全局字体为中文 楷体
  8. plt.rcParams['axes.unicode_minus']=False #正常显示负号
  9. plt.figure(dpi=130)
  10. datafile = r'../data/orders.csv'
  11. data = pd.read_csv(datafile).query("FY==2019").groupby('ORDER_DATE')[['PROFIT']].sum()
  12. data.plot(kind='hist',bins=20,figsize=(15,5),color='y',alpha=0.5,edgecolor='c',histtype='bar')
  13. plt.xlabel("区间",fontdict={'family':'Fangsong','fontsize':15})
  14. plt.ylabel("频数",fontdict={'family':'Fangsong','fontsize':15})
  15. plt.title("利润额分布直方图",fontdict={'family':'Fangsong','fontsize':20},y=1.03)
  16. # 设置图形上的各类主题值
  17. plt.suptitle('直方图案例',size=22,y=1.05)
  18. plt.title("绘制日期:2022年 昵称:王小王-123", loc='right',size=12,y=1.03)
  19. plt.title("主页:https://blog.csdn.net/weixin_47723732", loc='left',size=12,y=1.03)
  20. plt.show()

绘制多个子图(多子图直方图案例模板)

plt.tight_layout() # 自动紧凑布局,避免遮挡

是很重要的一个参数,一般是在结尾出添加这个参数

  1. import pandas as pd
  2. datafile = r'../data/orders.csv'
  3. data = pd.read_csv(datafile).query("FY==2019").groupby('ORDER_DATE')[['PROFIT']].sum()
  4. fig = plt.figure(figsize=(10,5),dpi=130) # 生成画布
  5. # 生成子图1
  6. ax1 = plt.subplot(121) # 1行2列中的第1个
  7. plt.title("CSDN博客专家", loc='left',size=12,y=1.03) #添加备注
  8. # 生成子图2
  9. ax2 = plt.subplot(122) # 1行2列中的第2个
  10. # 设置图形上的各类主题值
  11. plt.title("王小王-123", loc='right',size=12,y=1.03)#添加备注
  12. #df.plot使figure级别的绘图函数,默认会生成新的figure,可以通过ax参数指定绘图的坐标子图
  13. data.plot(kind='hist',bins=20,color='c',alpha=0.5,edgecolor='c',histtype='bar',ax=ax1,figure=fig) # 指定这个图画到ax1中
  14. #plt.xlabel("区间",fontdict={'family':'Fangsong','fontsize':15})
  15. ax1.set_xlabel("区间",fontdict={'family':'Fangsong','fontsize':15})
  16. #plt.ylabel("频数",fontdict={'family':'Fangsong','fontsize':15})
  17. ax1.set_ylabel("频数",fontdict={'family':'Fangsong','fontsize':15})
  18. ax1.set_title("cyan")
  19. #print(ax1.get_xticks())
  20. data.plot(kind='hist',bins=20,color='y',alpha=0.5,edgecolor='y',histtype='bar',ax=ax2,figure=fig) # 指定这个图画到ax2中
  21. # plt.xlabel = plt.gca().set_xlabel() plt. 获取“当前”的坐标子图,需要小心执行的位置
  22. plt.xlabel("区间",fontdict={'family':'Fangsong','fontsize':15})
  23. plt.ylabel("频数",fontdict={'family':'Fangsong','fontsize':15})
  24. plt.title("yellow") # subplot的标题
  25. plt.suptitle("利润额分布直方图",fontdict={'family':'Fangsong','size':22}) # figure的标题
  26. plt.tight_layout() # 自动紧凑布局,避免遮挡
  27. plt.show()

概率分布直方图(统计图形)

  1. # -*- coding:utf-8 -*-
  2. import numpy as np
  3. import matplotlib.pyplot as plt
  4. #概率分布直方图
  5. #高斯分布
  6. #均值为0
  7. mean = 0
  8. #标准差为1,反应数据集中还是分散的值
  9. sigma = 1
  10. x=mean+sigma*np.random.randn(10000)
  11. fig,(ax0,ax1) = plt.subplots(nrows=2,figsize=(9,6))
  12. #第二个参数是柱子宽一些还是窄一些,越大越窄越密
  13. ax0.hist(x,40,density=1,histtype='bar',facecolor='yellowgreen',alpha=0.75) # histtype返回一组bar的数组
  14. ##pdf概率分布图,一万个数落在某个区间内的数有多少个
  15. ax0.set_title('pdf')
  16. ax1.hist(x,20,density=1,histtype='stepfilled',facecolor='pink',alpha=0.75,cumulative=True,rwidth=0.8) # 返回的一条step线,cumulative=True数值的累积的
  17. #cdf累计概率函数,cumulative累计。比如需要统计小于5的数的概率
  18. ax1.set_title("cdf")
  19. fig.subplots_adjust(hspace=0.4)
  20. plt.show()

直方图内显示折线图分布

  1. import matplotlib.mlab as mlab
  2. import matplotlib.pyplot as plt
  3. mpl.rcParams['font.sans-serif']=['SimHei'] #显示中文
  4. plt.rcParams['font.sans-serif'] = 'KaiTi' # 设置全局字体为中文 楷体
  5. plt.rcParams['axes.unicode_minus']=False #正常显示负号
  6. plt.figure(figsize=(17,8),dpi=120)
  7. import numpy as np
  8. from scipy.stats import norm
  9. np.random.seed(10680801)
  10. mu=100
  11. sigma=15
  12. x=mu+sigma*np.random.randn(500)
  13. num_bins=60
  14. fig,ax=plt.subplots()
  15. #fig,ax=plt.subplots(ncols=2)
  16. #ax1 = ax[0]
  17. #ax2 = ax[1]
  18. n,bins,patches=ax.hist(x,num_bins,density=True)
  19. y=norm.pdf(bins,mu,sigma)
  20. ax.plot(bins,y,'--')
  21. ax.set_xlabel('IQ')
  22. ax.set_ylabel('概率密度')
  23. ax.set_title(r'智商分布情况直方图')
  24. fig.tight_layout()

堆叠面积直方图

  1. import numpy as np
  2. import pandas as pd
  3. from matplotlib import pyplot as plt
  4. crime=pd.read_csv(r"http://datasets.flowingdata.com/crimeRatesByState2005.csv")
  5. fig,ax=plt.subplots()
  6. ax.hist(crime["robbery"],bins=12,histtype="bar",alpha=0.6,label="robbery",stacked=True)
  7. ax.hist(crime["aggravated_assault"],bins=12,histtype="bar",alpha=0.6,label="aggravated_assault",stacked=True)
  8. ax.legend()
  9. ax.set_xticks(np.arange(0,721,60))
  10. ax.set_xlim(0,720)
  11. ax.set_yticks(np.arange(0,21,4))
  12. plt.show()

在不同的子图中绘制各种类犯罪数据的数值分布

  1. import numpy as np
  2. import pandas as pd
  3. from matplotlib import pyplot as plt
  4. crime=pd.read_csv(r"http://datasets.flowingdata.com/crimeRatesByState2005.csv")
  5. crime = crime.query("state!='United States'").query("state!='District of Columbia'")
  6. plt.figure(figsize=(10,5),dpi=120)
  7. nrows=2
  8. ncols=4
  9. n = np.arange(nrows*ncols)+1
  10. for i in n:
  11. ax = plt.subplot(nrows,ncols,i)
  12. ax.hist(crime.iloc[:,i])
  13. ax.set_title(crime.columns[i])
  14. plt.suptitle("各种类犯罪数据的数值分布",y=1.02)
  15. plt.tight_layout()

其他案例

乘客年龄分布频数直方图

  1. # 导入第三方库
  2. import pandas as pd
  3. import matplotlib.pyplot as plt
  4. # 设置中文
  5. plt.rcParams['font.sans-serif'] = ['SimHei']
  6. # 创建图形
  7. plt.figure(figsize=(20,8),dpi=80)
  8. # 准备数据(读取Titanic数据集)
  9. titanic = pd.read_csv(r'E:\PythonData\exercise_data\train.csv')
  10. # 检查年龄是否有缺失
  11. any(titanic.Age.isnull())
  12. # 删除含有缺失年龄的观察
  13. titanic.dropna(subset=['Age'], inplace=True)
  14. # 绘图:乘客年龄的频数直方图
  15. plt.hist(titanic.Age, # 绘图数据
  16. bins = 20, # 指定直方图的条形数为20个
  17. color = 'steelblue', # 指定填充色
  18. edgecolor = 'k', # 设置直方图边界颜色
  19. label = '直方图'
  20. )# 为直方图呈现标签
  21. # 刻度设置
  22. plt.xticks(fontsize=15)
  23. plt.yticks(fontsize=15)
  24. # 添加描述信息
  25. plt.xlabel('年龄:岁',fontsize=20)
  26. plt.ylabel('人数:个',fontsize=20)
  27. plt.title('乘客年龄分布',fontsize=20)
  28. # 显示图形
  29. plt.show()

男女乘客直方图(二维数据)

设置了组距和其他的参数

  1. # 导入库
  2. import matplotlib.pyplot as plt
  3. import numpy as np
  4. # 设置字体
  5. plt.rcParams['font.sans-serif'] = ['SimHei']
  6. # 创建图形
  7. plt.figure(figsize=(20,8),dpi=80)
  8. # 提取不同性别的年龄数据
  9. age_female = titanic.Age[titanic.Sex == 'female']
  10. age_male = titanic.Age[titanic.Sex == 'male']
  11. # 设置直方图的组距
  12. bins = np.arange(titanic.Age.min(), titanic.Age.max(), 2)
  13. # 男性乘客年龄直方图
  14. plt.hist(age_male, bins = bins, label = '男性',edgecolor = 'k', color = 'steelblue', alpha = 0.7)
  15. # 女性乘客年龄直方图
  16. plt.hist(age_female, bins = bins, label = '女性',edgecolor = 'k', alpha = 0.6,color='r')
  17. # 调整刻度
  18. plt.xticks(fontsize=15)
  19. plt.yticks(fontsize=15)
  20. # 设置坐标轴标签和标题
  21. plt.title('男女乘客年龄直方图',fontsize=20)
  22. plt.xlabel('年龄',fontsize=20)
  23. plt.ylabel('人数',fontsize=20)
  24. # 去除图形顶部边界和右边界的刻度
  25. plt.tick_params(top='off', right='off')
  26. # 显示图例
  27. plt.legend(loc='best',fontsize=20)
  28. # 显示图形
  29. plt.show()

电影时长分布直方图

  1. # 导入库
  2. import matplotlib.pyplot as plt
  3. # 设置字体
  4. plt.rcParams['font.sans-serif'] = ['SimHei']
  5. # 创建图形
  6. plt.figure(figsize=(20,8),dpi=80)
  7. # 准备数据
  8. time=[131,98,125,131,124,139,131,117,128,108,135,138,131,102,107,114,119,128,121,142,127,130,124,101,110,116,117,110,128,128,115,99,136,126,
  9. 134,95,138,117,111,78,132,124,113,150,110,117,86,95,144,105,126,130,126,130,126,116,123,106,112,138,123,86,101,99,136,123,117,119,105,
  10. 137,123,128,125,104,109,134,125,127,105,120,107,129,116,108,132,103,136,118,102,120,114,105,115,132,145,119,121,112,139,125,138,109,
  11. 132,134,156,106,117,127,144,139,139,119,140,83,110,102,123,107,143,115,136,118,139,123,112,118,125,109,119,133,112,114,122,109,106,
  12. 123,116,131,127,115,118,112,135,115,146,137,116,103,144,83,123,111,110,111, 100,154,136,100,118,119,133,134,106,129,126,110,111,109,
  13. 141,120,117,106,149,122,122,110,118,127,121,114,125,126,114,140,103,130,141,117,106,114,121,114,133,137,92,121,112,146,97,137,105,98,
  14. 117,112,81,97,139,113,134,106,144,110,137,137,111,104,117,100,111,101,110,105,129,137,112,120,113,133,112,83,94,146, 133,101,131,116,
  15. 111, 84,137,115,122,106,144,109,123,116,111,111,133,150]
  16. # 设置组距
  17. bins=2
  18. groups = int((max(time)-min(time))/bins)
  19. # 绘制直方图
  20. plt.hist(time,groups,color='b',
  21. edgecolor = 'k',
  22. density = True) # 指定直方从图的边界色)
  23. # 调整刻度
  24. plt.xticks(list(range(min(time),max(time)))[::2],fontsize=15)
  25. plt.yticks(fontsize=15)
  26. # 添加描述信息
  27. plt.xlabel('电影时长:分钟',fontsize=20)
  28. plt.ylabel('电影数量占比',fontsize=20)
  29. # 增加网格
  30. plt.grid(True,linestyle='--',alpha=1)
  31. # 添加标题
  32. plt.title('电影时长分布直方图',fontsize=20)
  33. plt.show()

每文一语

坚持下去的动力来源于不断地发现新的事物!


本文转载自: https://blog.csdn.net/weixin_47723732/article/details/124059826
版权归原作者 王小王-123 所有, 如有侵权,请联系我们删除。

“matplotlib绘制直方图之基本配置——万能模板案例”的评论:

还没有评论