本文以分析公共数据集的数据示例,为您展示如何使用DataWorks进行简单数据分析工作。本教程以申请免费资源为例为您展示详细操作步骤,您也可以使用付费资源,操作类似。
教程简介
阿里云DataWorks基于多种大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。
本教程通过DataWorks,联合云原生大数据计算服务MaxCompute,使用大数据AI公共数据集(淘宝、飞猪、阿里音乐、Github、TPC等公共数据),指导您如何快速进行大数据分析,快速熟悉DataWorks的操作界面与最基础的数据分析能力。DataWorks的更多建模、集成、开发、治理等全链路的数据能力可前往官方文档进行查看。
我能学到什么
- 熟悉DataWorks的基础操作界面,如登录控制台、创建数据源、进入子功能模块页面。
- 学习如何在DataWorks进行简单的大数据分析操作,了解DataWorks的数据分析能力。
操作难度
低
所需时间
30分钟
使用的阿里云产品
- DataWorks:一站式大数据开发与治理平台,创建数据源并在数据开发绑定数据源后可在DataWorks上开发调度对应引擎的数据开发治理任务。
- MaxCompute:适用于数据分析场景的企业级SaaS模式云数据仓库,为海量数据提供丰富的计算和存储能力。
所需费用
- DataWorks:- 产品版本:阿里云为您提供了免费的基础版DataWorks。- 增强分析:阿里云为您提供了免费的使用额度,超出额度后将收取相应费用。计费详情请参见增强分析计费说明。
- MaxCompute:阿里云免费试用为您提供一定额度的免费MaxCompute资源包,您可使用该资源包免费试用本教程。如果您的操作超出了免费资源包的额度,则需收取相应的费用。计费详情请参见MaxCompute计费概述。
准备环境和资源
- 开通大数据开发治理平台DataWorks。1. 访问阿里云免费试用。单击页面右上方的登录/注册按钮,并根据页面提示完成账号登录(已有阿里云账号)、账号注册(尚无阿里云账号)或实名认证(根据试用产品要求完成个人实名认证或企业实名认证)。2. 成功登录后,即可进入申请免费试用DataWorks页面,单击大数据开发治理平台 DataWorks产品的立即试用。3. 在弹出的购买试用DataWorks产品的面板上选择开通地域为华东2(上海),勾选服务协议后单击确认订单并支付。
- 准备MaxCompute环境。- 本教程还需使用MaxCompute产品,您也可以在免费试用中申请免费额度的MaxCompute资源包进行本教程的操作,申请操作请前往申请免费试用MaxCompute页面,MaxCompute免费资源包的支持地域及免费额度介绍请参见MaxCompute新用户免费试用额度。【说明】:如果您此前已申请过MaxCompute的免费试用,可登录MaxCompute控制台后,查看华东2(上海)地域是否已开通,如果界面提示上海地域还未开通,您可单击欢迎界面的立即开通MaxCompute进行开通。- 如果您不符合免费使用MaxCompute规则,您可以开通按量计费版本的MaxCompute,计费详情请参见MaxCompute计费概述。
创建MaxCompute项目
- 登录MaxCompute控制台,在左上角选择地域,本教程使用的地域为华东2(上海)。单击左侧导航项目管理,在项目管理列表页面单击新建项目。
- 在弹出的新建项目配置页面中配置项目信息,核心配置参数如表所示。参数****说明项目名称自定义项目名称。本教程设置为doc_test_000。说明 项目名称需全局唯一,如果界面提示您项目名称已存在,您可根据提示修改项目名称。计算资源付费类型本教程选择:按量付费。重要 您通过免费试用选购的资源抵扣包仅可用于抵扣后付费资源消耗,本教程选择“按量付费”。默认Quota用于实现计算资源分配。本教程选择:默认后付费Quota。单SQL消费限制本教程不设置。本参数为单SQL消费的最高阈值。单位:扫描量(GB)*复杂度。非必填项,当选择按量付费计费类型时建议设置,可以避免非预期的单SQL消费过高。同时也建议配置实时消费监控告警,多方位监控限制消费超出预期,详情请参见消费监控告警。数据类型MaxCompute数据类型包含1.0数据类型、2.0数据类型和Hive兼容类型。本教程选择:2.0数据类型。是否加密指定创建的MaxCompute项目是否需要开启数据加密功能。更多数据加密信息,请参见存储加密。本教程选择:不加密。
- 完成配置后单击确定,完成项目创建。
新增MaxCompute数据源
本教程使用的地域为华东2(上海)默认工作空间。
- 进入管理中心页面。登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的更多 > 管理中心,在下拉框中选择对应工作空间后单击进入管理中心。
- 在管理中心页面,单击左侧导航数据源 > 数据源列表后,在页面上单击新增数据源,然后在弹窗内选择MaxCompute数据源,配置MaxCompute数据源详情请参见创建MaxCompute数据源。
- 完成配置后单击完成创建,完成数据源的增加。
数据查询体验
本教程中使用阿里电商数据集(bigdata_public_dataset.commerce.commerce_ali_e_commerce),该数据集来源于天池阿里移动推荐算法挑战赛,拥有100万条脱敏后的行为数据(包括点击、购买、加购、喜欢)。
**说明 **
DataWorks为您准备了丰富的数据集,可直接体验DataWorks的开发与分析能力,简单的SQL查询操作界面、轻松上手数据分析,还可以生成分析结果并分享给同事。
- 登录并进入DataWorks控制台,在左上角选择地域,本教程使用的地域为华东2(上海)。
- 单击左侧导航栏的大数据体验 > 公共数据集,单击阿里电商数据集,进入阿里电商数据集详情页。
- 单击右上角的开始分析,选择您需要体验的引擎类型。本教程使用的是MaxCompute。
- 在新打开的DataWorks SQL查询页面中,会创建一个新的SQL查询页面,并显示公共数据集的默认显示SQL。单击SQL查询文件右上角的,在弹框中设置工作空间及引擎信息。
- 完成设置后,您即可在SQL文件中进行数据查询命令开发,完成后可单击SQL查询文件操作栏中的运行按钮,运行成功后,在SQL文件下方会显示查询结果。本教程为您提供了一些查询示例SQL命令,您可参见下文的附录:数据查询SQL示例,进行数据查询分析。
增强分析-创建卡片
- 单击查询结果区域左侧栏的,DataWorks会默认为您生成一个可视化的图表,将表格展现的SQL查询结果数据通过可视化的方式展现出来。说明 首次操作时你需要先单击我要体验,并根据界面提示开启增强分析对应的功能。
- 如系统默认生成的可视化图表,不符合您对于数据可视化的预期,您可单击图表右上方的,进入图表编辑页面。本教程以修改图表横纵坐标标题为例,为您示例编辑图表展示的操作。
- 单击图表右上方的,即可将该结果持久化保存下来并分享。保存卡片后,您可以单击数据分析页面最左侧导航栏中的,查看当前已保存的所有卡片。
增强分析-创建报告
数据分析结果保存在DataWorks-卡片中后,您可以通过增强分析-报告的功能,将卡片组织为有图表、有描述、有逻辑的分析报告,便于一键将分析报告分享给伙伴、同事。
- 单击数据分析页面左侧导航栏中的,进入报告页面。
- 单击右上角的创建报告,根据界面提示选择需要生成报告的数据分析结果卡片。
- 配置数据分析报告页面内容与主题风格,完成后单击右上角的创建,完成报告创建。
- 返回报告列表页面后,您可以将鼠标悬浮到需要分享给其他人的报告上,单击右上角的分享按钮,根据界面提示即可获得分享链接。后续可将分享链接发送给分享对象。您可单击此处查看分析报告分享链接示例。
附录:数据查询SQL示例
- 用户购物行为时间趋势
SET odps.namespace.schema = TRUE;SELECT CAST(SUBSTR(behavior_time,12) AS BIGINT) AS 时间段 ,CASE WHEN behavior_type = '1' THEN '商品页浏览' WHEN behavior_type = '3' THEN '加入购物车' WHEN behavior_type = '4' THEN '购买成功' ELSE behavior_type END AS 用户操作 ,COUNT(DISTINCT user_id) AS 用户数FROM bigdata_public_dataset.commerce.commerce_ali_e_commerceWHERE behavior_type IN ('1','3','4')GROUP BY 时间段 ,用户操作order by 时间段 asc;
- 不同时间段的页面访问次数
SET odps.namespace.schema = true;set odps.task.sql.sqa.enable=false;SELECT CASE WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 0 AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 3 THEN '00点-03点' WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 4 AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 7 THEN '04点-07点' WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 8 AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 11 THEN '08点-11点' WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 12 AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 15 THEN '12点-15点' WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 16 AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 19 THEN '16点-19点' WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 20 AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 23 THEN '20点-23点' END AS 时间段 ,COUNT(1) AS 页面访问次数FROM bigdata_public_dataset.commerce.commerce_ali_e_commerceWHERE behavior_type = '1'GROUP BY 时间段ORDER BY 时间段 ASCLIMIT 100;
- TOP10热销商品品类
SET odps.namespace.schema = true;SELECT item_category as 商品品类ID,COUNT(DISTINCT item_id) AS 商品数量FROM bigdata_public_dataset.commerce.commerce_ali_e_commerceWHERE behavior_type = '4'group by item_categoryorder by 商品数量 desclimit 10;
清理
完成教程后,请及时清理测试数据和试用资源。
- MaxCompute资源清理。本教程使用了MaxCompute计算引擎,在体验完成本教程后,如果后续您不再使用的话,请及时将MaxCompute资源释放,否则MaxCompute会继续计费。释放操作请参见资源释放。
- DataWorks资源清理。本教程使用了免费的基础版DataWorks的SQL分析模块,基础版DataWorks的SQL分析任务运行结束后不会收取其他费用,如果您使用了DataWorks的其他功能模块,使用了DataWorks的资源组运行了其他周期任务,请及时将DataWorks周期任务暂停,避免造成资源组的浪费。
版权归原作者 soso1968 所有, 如有侵权,请联系我们删除。