pandas读取文件参数

pd.read_csv(
    filepath_or_buffer: Union[str, pathlib.Path, IO[~AnyStr]],#文件路径或网址连接
    sep=',',#分隔符            
    header='infer',#是否包含列头，指定第几行位表头
    names=None,#设置列名称
    columns=None,#获取想要的列数据
    skiprows=None,#跳过前几行数据【重点】，跳过不需要的行索引
    nrows=None,#只取前几行数据【重点】
    na_values=None，                        #将值填充为NAN
    keep_default_na=True,#True将空值填充为NaN,False不填充空值，为空字符串
    na_filter=True,#True将空值填充为NaN,False不填充空值【可以提高读取速率】
    dtype=None,#修改数据类型，dtype={'positionId': str,'companyId':str}
    usecols=None，                    #根据指定列号读取，读第 1、3、5 列，第一列索引为0，usecols=[0,2,4]
    index_col=None,#指定索引列，默认为None的时候，pandas会自动将第一列作为索引，并额外添加一列.大多数使用index_col=0,直接将第一列作为索引，不额外添加列【重点】
    na_values=None,#将NULL识别为空值，将值识别为空值
    parse_dates=False,#指定某列读取为日期格式
    chunksize=None,#文件块的大小，每一次读几行，返回一个迭代对象，文件大时使用，读取的每一块用for循环获得【重点】
    error_bad_lines=True,#当某行数据有问题，不报错，直接跳过，处理脏数据时使用)

set_option:修改显示设置

pd.set_option()#参数#pd.set_option是pandas中的参数
pd.set_option('display.max_columns',None)# 显示所有列
pd.set_option('display.max_columns',5)#最多显示5列

pd.set_option('display.max_rows',None)# 显示所有行
pd.set_option('display.max_rows',10)#最多显示10行#显示小数位数
pd.set_option('display.float_format',lambda x:'%.2f'%x)#两位#显示宽度
pd.set_option('display.width',100)
pd.set_option('precision',1)# 设置显示数值的精度
pd.set_option('display.max_colwidth',10)# 设置每列的最大宽度
pd.set_option('mode.chained_assignment',None)#忽略警告
pd.set_option('chop_threshold',20)#设置数值显示条件，小于20，显示0
pd.set_option('display.html.use_mathjax',True)#让dataframe中内容支持Latex显示(需要使用$$包住)
pd.set_option('plotting.backend','plotly')#修改pandas默认绘图引擎为plotly（需要提前安装好plotly）
pd.reset_option('all')#还原所有option设置

pd.reset_option('max_rows')#还原默认显示的行
pd.reset_option('max_columns')#还原默认显示的列
pd.reset_option('display')#还原全部显示设置

style:基于style个性化设置

data.style.hide_index()#隐藏索引列
data.style.set_precision(2)#将带有小数点的列精度调整为小数点后2位
data.style.set_na_rep('数据缺失')#标记缺失值，将缺失值标记为‘数据缺失’
data.style.highlight_null(null_color='skyblue')#将缺失值背景颜色高亮
data.style.highlight_max()#将 数值格式列的最大值进行高亮
data.style.highlight_min()#将 数值格式列的最小值进行高亮
data.style.highlight_max(color='#F77802').highlight_min(color='#26BE49')#同时高量最大值最小值import seaborn as sns
cm=sns.light_palette('green',as_cmap=True)
data.style.background_gradient(cmap=cm)#渐变显示数值列，将数值格式的列使用渐变色（绿色）进行显示，以突出趋势

data.style.set_properties(subset=['salary'],**{'color':'red'})#修改字体颜色
data.style.set_properties(**{'fontsize':'13px','background-color':'#F8F8FF','text-align':'center'})#修改背景颜色、对齐方式、字体大小
data.style.bar(subset=['salary'],color='skyblue')#指定列条形图
data.style.format({'createTime':lambda t:t.strftime('%Y年%m月%d日')})#日期格式化

pd.tO_csv(
    na_rep，                            #填充缺失值
    index=False,#取消索引)

标签： python pandas read_csv

本文转载自: https://blog.csdn.net/m0_46926492/article/details/124316610
版权归原作者 荼靡， 所有，如有侵权，请联系我们删除。

pandas读取文件参数

pandas读取文件参数

发表评论

“pandas读取文件参数”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航