0


人工智能原理实验4(2)——贝叶斯、决策求解汽车评估数据集

🧡🧡实验内容🧡🧡

汽车数据集
车子具有 buying,maint,doors,persons,lug_boot and safety六种属性,而车子的好坏分为uncc,ucc,good and vgood四种。
在这里插入图片描述

🧡🧡贝叶斯求解🧡🧡

数据预处理

1.转为数字编码
将数据集中的中文分类编码转为数字编码,以便更好地训练。这里采用sklearn的LabelEncoder库进行快速转换。

2.拆分数据集
按7:3的比例拆出训练集和测试集,这里也采用sklearn的train_test_split快速拆分,比手动拆分能更具随机性

3.将dataframe对象转为array
在手动实现的贝叶斯算法类中,通过numpy可以很方便的操纵和计算矩阵格式的数据,因此通过dataframe对象导入数据后,通过df.values将其转为array

朴素贝叶斯原理

  • 核心公式:在这里插入图片描述 对于二分类问题,在已知样本特征的情况下,分别求出两个分类的后验概率:P(类别1 | 特征集),P(类别2 | 特征集),选择后验概率最大的分类作为最终预测结果。
  • 为何需要等式右边? 对于某一特定样本,很难直接计算它的后验概率(左边部分),而根据贝叶斯公式即可转为等式右边的先验概率(P(特征)、P(类别))和条件概率(P(特征 | 类别)),这些可以直接从原有训练样本中求得,其次,由于最后只比较相对大小,因此分母P(特征)在计算过程中可以忽略。
  • 右边P(特征 | 类别)和P(特征)如何求? 例如,对于car-evalution这个数据集,假设特征只有doors、persons、safety,目标为class。 对于某个样本,它的特征是doors=2、persons=3、safety=low。 则它是unacc的概率是 P(unacc | doors=2、persons=3、safety=low) = P(doors=2、persons=3、safety=low | unacc) * P(unacc) / P(doors=2、persons=3、safety=low)**对于P(unacc),即原训练样本集中的unacc的频率。对于P(doors=2、persons=3、safety=low | unacc),并不是直接求原训练样本集中满足unacc条件下,同时为doors=2、persons=3、safety=low的概率,这样由于数据的稀疏性,很容易导致统计频率为0, 因此朴素贝叶斯算法就假设各个特征直接相互独立,即 P(doors=2、persons=3、safety=low | >unacc) = P(doors=2 | unacc)*P(persons=3 |unacc)*P(safety=low | unacc),朴素一词由此而来。**对于P(doors=2、persons=3、safety=low) ,同上述,其等于P(doors=2)*P(persons=3)*P(safety=low)

代码

  1. import pandas as pd
  2. df=pd.read_excel("data/car_data1.xlsx")# ==================数据预处理==================from sklearn.preprocessing import LabelEncoder
  3. from sklearn.model_selection import train_test_split
  4. le=LabelEncoder()for i in df.columns:
  5. df[i]=le.fit_transform(df[i])# df
  6. X=df[df.columns[:-1]]
  7. y=df['class']
  8. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=10)#三七开
  9. X_train=X_train.values
  10. X_test=X_test.values
  11. y_train=y_train.values
  12. y_test=y_test.values
  13. # ==================朴素贝叶斯==================import numpy as np
  14. from sklearn.metrics import accuracy_score
  15. classNaiveBayes:deffit(self, X, y):
  16. self.X = X
  17. self.y = y
  18. self.classes = np.unique(y)# 目标分类名称集:(0 1),ex:嫁、不嫁
  19. self.prior_probs ={}# 先验概率
  20. self.cond_probs ={}# 条件概率# 计算先验概率——分子项 P(类别), exP(嫁)、P(不嫁)for c in self.classes:
  21. self.prior_probs[c]= np.sum(y == c)/len(y)# 计算条件概率——分子项 P(特征/类别), exP(帅、性格好、身高矮、上进 | 嫁)for feature_idx inrange(X.shape[1]):# 0....featureNum 表示每一列特征索引,ex:是否帅、是否性格好、身高程度、上不上进
  22. self.cond_probs[feature_idx]={}for c in self.classes:
  23. feature_values = np.unique(X[:, feature_idx])# featureValue1featureValue2、...ex:帅、不帅
  24. self.cond_probs[feature_idx][c]={}for value in feature_values:
  25. idx =(X[:, feature_idx]== value)&(y == c)# [0,1,0,0,0.......]
  26. self.cond_probs[feature_idx][c][value]= np.sum(idx)/ np.sum(y == c)# exP[是否帅][嫁][帅]defpredict(self, X_test):
  27. pred_label =[]
  28. pred_scores =[]# 对每个测试样本进行预测for x in X_test:
  29. posterior_probs ={}# 计算后验概率——P(嫁|帅、性格好、身高矮、上进) P(不嫁|帅、性格好、身高矮、上进)for c in self.classes:
  30. posterior_probs[c]= self.prior_probs[c]for feature_idx, value inenumerate(x):if value in self.cond_probs[feature_idx][c]:
  31. posterior_probs[c]*= self.cond_probs[feature_idx][c][value]# 选择后验概率最大的类别作为预测结果
  32. predicted_class =max(posterior_probs, key=posterior_probs.get)# 获得最大的value对应的key
  33. pred_score = posterior_probs[predicted_class]# 获得最大的value
  34. pred_label.append(predicted_class)
  35. pred_scores.append(pred_score)return pred_label, pred_scores
  36. # ==================训练+预测==================
  37. nb = NaiveBayes()
  38. nb.fit(X_train, y_train)
  39. y_pred, y_scores = nb.predict(X_test)# ==================评估==================import matplotlib.pyplot as plt
  40. import seaborn as sns
  41. # 混淆矩阵defcal_ConfusialMatrix(y_true_labels, y_pred_labels):
  42. cm = np.zeros((4,4))for i inrange(len(y_true_labels)):
  43. cm[ y_true_labels[i], y_pred_labels[i]]+=1
  44. plt.figure(figsize=(8,6))
  45. sns.heatmap(cm, annot=True, fmt='g', cmap='Blues', xticklabels=['acc','good','unacc','vgood'], yticklabels=['acc','good','unacc','vgood'])
  46. plt.xlabel('Predicted label')
  47. plt.ylabel('True label')
  48. plt.title('Confusion Matrix')
  49. plt.show()# 计算准确率
  50. accuracy = accuracy_score(y_test, y_pred)print("准确率:", accuracy)
  51. y_pred=[int(x)for x in y_pred]
  52. cal_ConfusialMatrix(y_test, y_pred)

结果

在这里插入图片描述

🧡🧡决策树算法求解🧡🧡

数据预处理:

和上述贝叶斯算法中的数据预处理基本一致,这里因为计算信息熵时,要根据信息熵的收敛精度才决定是否跳出递归,经过几次尝试,选择将训练集和测试集8:2的比例拆分,并且random_state=10,避免随机性导致程序死循环。

决策树原理

决策树的决策流程就是从所有输入特征中选择一个特征做为决策的依据,找出一个阈值来决定将其划分到哪一类。
也就是说,创建一个决策树的主要问题在于:
1.决策树中每个节点在哪个维度的特征上面进行划分?
2.被选中的维度的特征具体在哪个值上进行划分?
信息熵的计算公式:在这里插入图片描述
其中n是指数据中一共有n类信息,pi就是指第i类数据所占的比例。
信息熵简单的来说就是表示随机变量不确定度的度量。
熵越大,数据的不确定性就越大。
熵越小,数据的不确定性就越小,也就是越确定。

举个例子
假设我们的数据中一共有三类。每一类所占比例为1/3,那么信息熵就是:
假设我们数据一共有三类,每类所占比例是0,0,1,那么信息熵就是:
(实际上log(0)是不能计算的,定义上不允许,程序中直接置为inf即可)
很显然第二组数据比第一组数据信息熵小,也就是不确定性要少,换句话讲就是更为确定。
我们希望决策树每次划分数据都能让信息熵降低,当划分到最后一个叶子节点里面只有一类数据的时候,信息熵就自然的降为了0,所属的类别就完全确定了。
那么怎样找到一个这样的划分使得划分后的信息熵会降低?对着所有维度的特征来一次搜索就行了。

代码

  1. import pandas as pd
  2. import numpy as np
  3. from collections import Counter
  4. from math import log
  5. df=pd.read_excel("data/car_data1.xlsx")# ==================数据预处理==================from sklearn.preprocessing import LabelEncoder
  6. from sklearn.model_selection import train_test_split
  7. le=LabelEncoder()for i in df.columns:
  8. df[i]=le.fit_transform(df[i])# df
  9. X=df[df.columns[:-1]]
  10. y=df['class']
  11. X = X.astype(float)
  12. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=10)#二八开
  13. X_train=X_train.values
  14. X_test=X_test.values
  15. y_train=y_train.values
  16. y_test=y_test.values
  17. # ==================决策树==================classNode:def__init__(self,x_data, y_label, dimension, value):
  18. self.x_data = x_data
  19. self.y_label = y_label
  20. self.dimension = dimension
  21. self.value = value
  22. self.left =None
  23. self.right =NoneclassDTree:def__init__(self):
  24. self.root =Nonedeffit(self,x_train, y_train):defentropy(y_label):
  25. counter = Counter(y_label)
  26. ent =0.0for num in counter.values():
  27. p = num /len(y_label)
  28. ent +=-p * log(p)return ent
  29. defone_split(x_data, y_label):
  30. best_entropy =float('inf')
  31. best_dimension =-1
  32. best_value =-1for d inrange(x_data.shape[1]):
  33. sorted_index = np.argsort(x_data[:, d])for i inrange(1,len(x_data)):if x_data[sorted_index[i], d]!= x_data[sorted_index[i -1], d]:
  34. value =(x_data[sorted_index[i], d]+ x_data[sorted_index[i-1], d])/2
  35. x_left, x_right, y_left, y_right = split(x_data, y_label, d, value)
  36. p_left =len(x_left)/len(x_data)
  37. p_right =len(x_right)/len(x_data)
  38. ent = p_left * entropy(y_left)+ p_right * entropy(y_right)if ent < best_entropy:
  39. best_entropy = ent
  40. best_dimension = d
  41. best_value = value
  42. return best_entropy, best_dimension, best_value
  43. defsplit(x_data, y_label, dimension, value):"""
  44. x_data:输入特征
  45. y_label:输入标签类别
  46. dimension:选取输入特征的维度索引
  47. value:划分特征的数值
  48. return 左子树特征,右子树特征,左子树标签,右子树标签
  49. """
  50. index_left =(x_data[:,dimension]<= value)
  51. index_right =(x_data[:,dimension]> value)return x_data[index_left], x_data[index_right], y_label[index_left], y_label[index_right]defcreate_tree(x_data, y_label):
  52. ent, dim, value = one_split(x_data, y_label)
  53. x_left, x_right, y_left, y_right = split(x_data, y_label, dim, value)
  54. node = Node(x_data, y_label, dim, value)if ent <0.3:return node
  55. node.left = create_tree(x_left, y_left)
  56. node.right = create_tree(x_right, y_right)return node
  57. self.root = create_tree(x_train, y_train)return self
  58. defpredict(self,x_predict):deftravel(x_data, node):
  59. p = node
  60. if x_data[p.dimension]<= p.value and p.left:
  61. pred = travel(x_data, p.left)elif x_data[p.dimension]> p.value and p.right:
  62. pred = travel(x_data, p.right)else:
  63. counter = Counter(p.y_label)
  64. pred = counter.most_common(1)[0][0]return pred
  65. y_predict =[]for data in x_predict:
  66. y_pred = travel(data, self.root)
  67. y_predict.append(y_pred)return np.array(y_predict)defscore(self,x_test,y_test):
  68. y_predict = self.predict(x_test)return np.sum(y_predict == y_test)/len(y_predict), y_predict
  69. def__repr__(self):return"DTree(criterion='entropy')"# =================训练=================
  70. dt = DTree()
  71. dt.fit(X_train, y_train)# ==================评估==================import matplotlib.pyplot as plt
  72. import seaborn as sns
  73. # 混淆矩阵defcal_ConfusialMatrix(y_true_labels, y_pred_labels):
  74. cm = np.zeros((4,4))for i inrange(len(y_true_labels)):
  75. cm[ y_true_labels[i], y_pred_labels[i]]+=1
  76. plt.figure(figsize=(8,6))
  77. sns.heatmap(cm, annot=True, fmt='g', cmap='Blues', xticklabels=['acc','good','unacc','vgood'], yticklabels=['acc','good','unacc','vgood'])
  78. plt.xlabel('Predicted label')
  79. plt.ylabel('True label')
  80. plt.title('Confusion Matrix')
  81. plt.show()
  82. accuracy, y_pred = dt.score(X_test,y_test)print("准确率:", accuracy)
  83. y_pred=[int(x)for x in y_pred]
  84. cal_ConfusialMatrix(y_test, y_pred)

结果

在这里插入图片描述
在这里插入图片描述


本文转载自: https://blog.csdn.net/luohaojia123/article/details/135756024
版权归原作者 在半岛铁盒里 所有, 如有侵权,请联系我们删除。

“人工智能原理实验4(2)——贝叶斯、决策求解汽车评估数据集”的评论:

还没有评论