0


使用Dataprep进行自动化的探索性数据分析

数据分析帮助我们识别数据集中的模式,分析不同变量之间的相关性和关联。借助不同的可视化,我们可以确定数据是否试图讲述任何特定的故事。有不同类型的图表和绘图可用于分析和可视化数据。

创建不同类型的图和图表会消耗大量时间,因为我们需要根据列的数据类型确定有用的图形类型,并且我们还需要编写大量代码来创建这些图形。但是,如果我告诉您可以在一行代码中完成所有这些操作呢?

Dataprep 是一个开源 Python 库,有助于自动化探索性数据分析过程。它在创建数据分析报告时很有用,它还具有 3 个用于绘制图形、绘制缺失数字和数据相关性的功能。

在本文中,我们将探讨 Dataprep 提供的一些功能。

让我们开始吧…

安装所需的库

我们将首先使用 pip 安装 Dataprep 库。下面给出的命令将执行此操作。

 pip install -U dataprep

导入所需的库

在这一步中,我们将导入加载数据集和执行 EDA 操作所需的库。

 from dataprep.datasets import load_dataset
 from dataprep.eda import create_report
 from dataprep.eda import plot, plot_correlation, plot_missing

加载数据集

对于本文,我们将使用Dataprep中预定义的著名的收入数据集。

 df = load_dataset("adult")

创建EDA报告

现在我们将创建一个EDA报告,其中包含所有的可视化,相关性,缺失的图表等,这有助于分析数据集。

 create_report(df).show_browser()

这是报告的首页,在这里你可以看到我们正在使用的数据的概述。同样,让我们看看如何创造不同的章节。

创建图表

在这个步骤中,我们将创建由Dataprep提供的不同的图。

1、Plot

该图表创建了所有数据变量的可视化。

 plot(df)

2、plot_correlation

这张图创建了不同类型的相关图,显示了不同数据变量之间的相关性。

 plot_correlation(df)

3、plot_missing

这是帮助创建显示缺失数据的表格和图表的最后一个图。

 plot_missing(df)

在这里,我们探索了由Dataprep创建的报告,它对EDA非常有帮助,还创建了不同的图来理解数据和分析它的属性。

我们可以将这几个方法使用在不同的数据集上创建EDA报告和图来执行数据分析。

作者:Himanshu Sharma

标签:

“使用Dataprep进行自动化的探索性数据分析”的评论:

还没有评论