可视化是一种使用不同的图形和图来可视化数据的技术。在数据科学中,我们通常使用数据可视化技术来理解数据集,找到数据之间的关系。可视化还可以帮助找到用于进一步分析的数据集中的模式。
python中有不同的技术/库用于数据可视化,如Matplotlib, Seaborn, Plotly等。但是在使用所有这些库的同时,我们需要定义我们想要可视化的图的类型和我们需要可视化的参数。
在本文中,我们将学习一个python库AutoViz,它可以用一行代码自动完成数据可视化的整个过程。
AutoViz只需一行代码就可以自动显示任何数据集。AutoViz可以找到最重要的功能,并只使用那些自动选择的功能绘制有影响力的可视化。此外,AutoViz的速度非常快,几秒钟内就能实现可视化。
让我们在一些数据集的帮助下开始探索AutoViz。在使用AutoViz之前,我们需要安装它。
像任何其他python库一样,我们可以使用下面给出的pip install命令来安装AutoViz。
pip install autoviz
加载数据集和分析
在这里,我将使用不同的数据集来可视化/探索AutoViz可以生成的不同类型的图表/图。你可以从Github仓库中下载所有的数据集。https://github.com/hmix13/AutoViz
这个数据集包含不同汽车制造商的不同属性。让我们使用AutoViz来可视化这个数据集。
AutoViz可以通过以下3个简单步骤实现。
#importing Autoviz class
from autoviz.AutoViz_Class import AutoViz_Class#Instantiate the AutoViz class
AV = AutoViz_Class()
这些步骤将导入AutoViz类并实例化它。最后一步是创建可视化。仅仅这一行代码就可以创建所有的可视化,其中包含计数中的所有属性。
df = AV.AutoViz('car_design.csv')
直方图(KDE图)
连续变量的小提琴图
连续变量的热图
正如您在上面所看到的,这些是使用AutoViz在一行代码中生成的不同绘图。
让我们再分析一个数据集,在这个数据集中,有4个属性描述了一个公司的广告支出和销售。我们将通过创建上面使用的修改数据集的步骤来分析这个问题。
在这里,我们将传递另一个参数depVar,它是因变量,以便AutoViz相应地创建可视化。在这个数据集中,我们知道“销售”是因变量。
df = AV.AutoViz('Advrtising.csv', depVar='Sales')
销售变量散点图
同样地,您将看到它将创建直方图、小提琴图、热图等,并将“销售”作为一个因变量。
我们在调用AutoViz时可以传递的其他参数有:
Sep 分隔数据的分隔符,默认为','。
target 它是数据集中的目标变量。
Chart_format 显示的图表格式。
Max_row_analyzed 用于定义要分析的行数
Max_cols_analyzed用于定义要分析的列的数量。
在本文中,我们看到只需一行代码就可以可视化数据集,并且可以相应地找到数据集中的模式。
AutoViz能够适应任何数量的不同数据上下文,如回归、分类,甚至时间序列数据。继续使用不同的数据集探索这个库,并在响应部分分享您的经验。
作者:Himanshu Sharma
原文地址:https://hmix13.medium.com/autoviz-automatically-visualize-any-dataset-75876a4eede4
deephub翻译组