Pandas数据分析教程(1)-Series和DataFrame

前言

最近自己也在进行Python数据分析的学习，故在此写下本文作为笔记使用，本文是笔记系列的的第一篇，不定期更新。写的博客如有错误或者疏忽的地方，还望各位大佬指点，在此表示感激不尽。

Pandas是建立在

Numpy模组

和

matplotlib模组

之上的，其代码风格与Numpy非常接近，但最大的不同是，Pandas针对的是表格型数据或异质型数据，而Numpy则更适合处理同质型数据，也就是数据类型相同的数据。

在开始之前，本文默认读者们都初步了解了Python的基础知识，有
Numpy模块
有一定了解。

正因为Pandas是在Numpy基础上实现，其核心数据结构与Numpy的ndarray十分相似。二者之间主要区别是：

🌎从数据结构上看：

numpy的核心数据结构是ndarray，支持任意维数的数组，但要求单个数组内所有数据是同质的，即类型必须相同；而pandas的核心数据结构是Series和Dataframe，仅支持一维和二维数据，但数据内部可以是异构数据，仅要求同列数据类型一致即可
numpy的数据结构仅支持数字索引，而pandas数据结构则同时支持数字索引和标签索引

🌎从功能定位上看：

numpy虽然也支持字符串等其他数据类型，但仍然主要是用于数值计算，尤其是内部集成了大量矩阵计算模块，例如基本的矩阵运算、线性代数、fft、生成随机数等
pandas主要用于数据处理与分析，支持包括数据读写、数值计算、数据处理、数据分析和数据可视化全套流程操作

万物之始，引入pandas包：

import pandas as pd

Pandas有两个相当常用的数据结构(类)：Series和DataFram，本文主要学习这两类数据结构。

Series.

Series由一组数据以及一组与之相关的数据标签(即索引)组成，类似表格中的一个列（column），包含index和values两种属性，可以通过索引的方式选取Series中的单个或一组值。

Series创建

任何Python中的序列(sequence)都可以传入Series的生成函数。序列是是Python中最基本的数据结构，包括列表、元组、字符串、Unicode字符串、buffer对象和xrange对象。如下：

pd.Series(list,index=[])

list为传入序列，index为指定索引，默认为空。见下例：

>> obj = pd.Series([2,3,4,5])>> obj
02132435
dtype: int64

Series是一种有序的数据类型，在这个例子中，索引在左，值在右。我们传入了一个列表（当然也可以传入数组(ndarray)，字典，元组等），如果没有指定索引，索引值就从 0 开始，我们可以根据索引值读取数据。当然我们也可以自行指定索引，例如：

>> obj = pd.Series([2,3,4,5],index =['a','b','c','a'])>> obj
a    2
b    3
c    4
a    5
dtype: int64

🔺注意！由上面的例子可以看出，Series中的索引是可以重复的！并且哪怕指定了索引，我们仍可利用从0开始的下标索引去读取，如obj[1] = 3

Series属性

访问Series的几种属性，这些属性可以用赋值的方法改变：

In: obj.index    #获取索引
    obj.values   #获取值
    obj.dtype    #获取数据类型
    obj.name ='text'#给obj起名字
    obj.index.name ='INDEX'#给obj的索引起名字

Out:Index(['a','b','a','d'], dtype='object')
    array([2,3,4,5], dtype=int64)
    dtype('int64')

Pandas基于Numpy开发，故其中很多操作有共通之处。比如说除了使用下标索引来进行读取外，还可以利用布尔索引进行读取，同时可以进行科学计算。

#下标索引>> obj[1:3]
b    3
a    4
dtype: int64

#布尔索引>> obj[[True,False,False,True]]
a    2
d    5
dtype: int64
    
>> obj[obj>=3]
b    3
a    4
d    5
dtype: int64

DataFrame

DataFrame有点像Excel中的数据表，既有行索引又有列索引，每一列的值类型可以不同(数值，字符串等)，是一种二维的数据类型。

DataFrame创建

pandas.DataFrame(data, index, columns, dtype, copy)

以下列例子说明DataFrame的创建函数：

data =[#也可以传入二维的ndarray、序列等[1,2,3],[2,3,4],[3,1,0],[4,7,9]]#第二个参数为行索引，第三个为列索引
frame = pd.DataFrame(data,range(1，5),['a','b','c'])>> frame                             #当然未指定索引则默认从0开始
   a  b  c
1123223433104479

获取DataFrame的属性：

In: frame.index    #获取索引
    frame.columns  #获取列名
    frame.values   #获取值
    frame.shape    #获取行列数
    frame.dtypes    #获取数据类型,注意为复数
    frame.name ='text'#给frame起名字
    frame.index.name ='INDEX'#给frame的索引起名字

Out:RangeIndex(start=1, stop=5, step=1)
    Index(['a','b','c'], dtype='object')
    array([[1,2,3],[2,3,4],[3,1,0],[4,7,9]], dtype=int64)(4,3)
    a    int64
    b    int64
    c    int64
    dtype:object

DataFrame操作

🔺注意！以下操作均是在数据的视图，而不是拷贝上进行的，因此对DataFrame的操作会改变数据内容

访问前n行：

>> frame.head(3)#只能输入整数
   a  b  c
112322343310

利用索引访问列：

>> frame[['b','c']]#访问单列为frame['b']
   b  c
123234310479#或者>> frame.b   #效果同上

修改一整列所有的值，若列名不存在，则生成一个新的列：

>> frame['d']=(frame.c >0)
frame
   a  b  c      d
1123True2234True3310False4479True

删除某几行/列：

new_frame = frame.drop([2,3],axis =0)#原frame不变，返回新的数据,第二个参数为0代表操作行，为1代表操作列

删除某几列：

del frame['d']

删除某几行/列：

new_frame = frame.drop([2,3],axis =0)#原frame不变，返回新的数据,第二个参数为0代表操作行，为1代表操作列

删除某几列：

del frame['d']

下面是一些关于索引的操作：

在这里插入图片描述
下次应该会写Pandas的数据读取啥的，但更新又不知道是什么时候了hhh.

转载请标注作者和出处链接

标签： python pandas 数据分析

本文转载自: https://blog.csdn.net/weixin_51972995/article/details/122675392
版权归原作者 少喝凉水G 所有，如有侵权，请联系我们删除。

Pandas数据分析教程(1)-Series和DataFrame

前言

Series.

Series创建

Series属性

DataFrame

DataFrame创建

DataFrame操作

发表评论

“Pandas数据分析教程(1)-Series和DataFrame”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航