《Python数据分析》课程大作业要求
大作业要求
评分标准
一、评分规范基本要求
1、按时上交纸质文档和电子文档… 10分
2、数据分析方法及分析步骤…20分
3、代码…50分
3.1 算法描述正确(10分)
3.2 算法分析(20分)
3.3 代码截图(20分)
4、个人总结…20分
4.1 对数据分析的理解(10分)
4.2 学习数据分析课程的体会(10分)
考核目标
1、掌握Pandas的读写操作
2、正确使用预处理技术过滤数据
3、熟悉Matplotlib库绘制各种图表
4、会基于数据进行独立分析
数据分析基本步骤
1、明确任务目的
2、明确数据来源及数据收集
3、数据处理/清洗
4、数据分析
5、数据展示
实际操作
一、掌握Pandas的读写操作
- 直接讲需要分析的数据写入程序中,会显得代码臃肿,而且可用率很低 。
- 常用的方法是讲需要分析的数据存储到本地中,之后再将存储数据进行读写
- 针对不同的存储文件 ,Pandas读取数据不同的:
读写数据操作:
- csv文件是一种纯文本文件,可以使用任何文本编辑器进行编辑
- 它支持追加模式,节省 内存开销。因为c s v 文件具有诸多的优点,所以在很多时候会将数据保存到C S V 文件中。
- 将DataFrame对象中的数据写入到C S V 文件中,具体代码如下。
读取文本文件
- 接下来,使用read_csv0 函数将存储在D盘 目 录 下 “itcast.csv” 文件的内容读取出来,示 例代码如下
正确使用预处理技术过滤数据
- 前期采集到的数据,或多或少都存在一些瑕疵和不足,比如数据缺失、极端值、数据格式 不统一等问题。
- 因此,在分析数据之前需要对数据进行预处理, 包括数据的清洗、合并、重塑 与转换。
- Pandas中专门提供了用于数据预处理的很多函数与方法,用于替换异常数据、合并数据、 重塑数据等
数据清洗:
- 数据清洗是一项复杂且烦琐的工作,同时也是整个数据分析过程中最为重要的环节。
- 数据 清洗的目的在于提高数据质量,将脏数据(这里指的是对数据分析没有实际意义、格式非法、 不在指定范围内的数据)清洗干净。
- 使原数据具有完整性、唯一性、权威性、合法性、一致性 等特点
空值缺失值处理
- 空值一般表示数据未知、不适用或将在以后添加数据。
- 缺失值是指数据集中某个或某些属 性的值是不完整的,产生的原因主要有人为原因和机械原因两种,
- 其中机械原因是由于机器故 障造成数据未能收集或存储失败,
- 人为原因是由主观失误或有意隐瞒造成的数据缺失。
- 示例:上述函数中只有一个参数o b j,表示检查空值的对象。一旦发现数据中存在NaN或 None, 则就将这个位置标记为T rue,否则就标记为Falseo
填充空值/缺失值
填充缺失值和空值的方式有Pandas中 的fillnaO方法可以实现填充空值或缺失值,其语法格式如下:
熟悉Matplotlib库绘制各种图表
- Matplotlib是一个Python 2 D 绘图库
- 作图风格接近Matlab,它已经成为Python中公认的数 据可视化工具
- 适用于各种平台上(包括Python脚本、Python和 IPython shell、Jupyter Notebook 等 )
- 能够以各种硬拷贝格式和交互式环境生成出版品质图形Matplotlib具有以下特点: (1) 使用极其简单。可以轻松地画一些简单或复杂的图形,仅仅用几行代码就能生成直 方图、折线图、散点图等。 (2) 以渐进、交互的方式实现数据可视化。 (3) 对图形元素控制能力更强。 (4) 可输出P N G 、P D F 等多种格式。
创建一个画布
指数曲线
直方图
饼状图
箱型图
散点图
会基于数据进行独立分析
海拔高度与登顶人数分析:
明确任务目的:
显示海报高度与登顶人物数目关系
明确数据来源及数据收集
数据来源来自网络数据统计
数据梳理和清洗:
数据分析:
1.登顶次数和年份
2.高峰vs海拔
3.首次登顶
数据展示
个人对于数据分析理解:
在大数据时代下,用程序语言写出的数据报告可以轻松做出分析,利用我们分析的结论,进行阐述和说明,利用可视化和有逻辑的数据展示来达到更好的说服力。
学习数据分析课程:
除了课程上理论知识外,要多敲代码,多看案例,才能事半功倍
版权归原作者 -ATAO---- 所有, 如有侵权,请联系我们删除。