ODPS开发大全:进阶篇
本文旨在收集整理ODPS开发中入门及进阶级知识,尽可能涵盖大多数ODPS开发问题,成为一本mini百科全书,后续也会持续更新。希望通过笔者的梳理和理解,帮助刚接触ODPS开发的同学快速上手。本系列分为两部分:入门篇和进阶篇。ODPS开发大全:入门篇常用参数设置常用的调整无外乎调整map、join、r
Spark 读取阿里云 MaxCompute数据源写阿里云OSS和华为云OBS
前情提要:当前Spark 版本为2.4.5写数据到阿里云OSS1、编写Spark 代码 - 写OSSpublic class SparkODPS2OSS4 { public static void main(String[] args) { SparkSession spark
涤生大数据实战:基于Flink+ODPS历史累计计算项目分析与优化(下)
计算链路较短,但如果发生Flink任务重启的情况,需要离线和实时两条线一起修复数据:离线补一次T-1数据到hbase + 离线初始化hbase中当日新用户数据为0 + Flink重启回拉消息位点到T日00:00,共计三步。非T日新增的老用户的数据在ODPS表里已存在,odps2hbase时会覆盖掉
涤生大数据实战:基于Flink+ODPS历史累计计算项目分析与优化(上)
当一个用户在T日实时上传了自己的跑步记录,Flink节点1会计算出其 [当日0点起至此刻] 的跑步累计数据data1,Flink节点2会根据该用户id取hbase维表里查询其 [历史~T-1日] 的累计数据 data2 (hbase表里数据由odps每日更新,即T-1日的存量累计汇总数据),将dat
ODPS是什么,阿里云ODPS前世今生
ODPS(OpenDataPlatformandService)是阿里云自研的一体化大数据智能计算平台,10余年来持续迭代,提供了实时离线一体、流批一体、湖仓一体、大数据+AI一体的多场景能力,是业界少有的完全自主研发,支持10万级服务器并行计算、百万级CPU可扩展大数据智能计算平台。
SQL实现一行数据分组后转多行多列
通过聚合拆分再聚合的方式实现一行数据变分组的多行多列
阿里云-ODPS SQL-日常开发日期、字符、数学运算、聚合函数函数使用技巧
数据仓库,是一个面向主题的、集成的、随时间变化的、信息本身相对稳定的数据集合。数据仓库从Oracle(单机、RAC),到MPP(Green plum),到Hadoop(Hive、Tez、Sprak),再到批流一体Flink/Blink、数据湖等,SQL都是其主流的数据处理工具。海量数据下的高效数据流
阿里云-DataWorks- ODPS SQL开发
阿里云 数据仓库这一系列断断续续也有很久没有更新了,新年新气象,赶紧赶上开写。ODPS;是由阿里云自主研发,提供针对TB/PB级数据、实时性要求不高的分布式处理能力,应用于数据分析、挖掘、商业智能等领域;阿里巴巴的离线数据业务都运行在ODPS上;
阿里云-数据仓库-数据分析开发神器-ODPS
ODPS是阿里云自研的一体化大数据计算平台和数据仓库产品,为数字化转型提供多功能、低成本、高性能、稳定、安全、开放和易用的整套产品方案,提供实时离线一体、流批一体、湖仓一体、大数据+AI一体的多场景能力。
猿创征文|阿里云MaxCompute存取性能测试报告
前几天公司给我安排了个任务,让我去测试一下阿里云DataWork下的MaxCompute的存取性能,这不,测试报告来了。MaxCompute(ODPS)是适用于数据分析场景的企业级SaaS(Software as a Service)模式云数据仓库,以Serverless架构提供快速、全托管的在线数
MapReduce任务优化 阿里云平台ODPS Join方法等等详细解析
1 计算机性能CPU,内存,磁盘健康,网络2 I/O操作优化 - 数据倾斜数据输入Map阶段Reduce阶段Map长尾 : Map端读取数据由于带下分布不均匀,会导致一些Map Instance读取和处理的数据特别多,造成Map长尾;主要是由于Reduce长尾 : 主要是keyy的分布不均匀所导
sql记录之表的创建与删除相关操作
SQL创建表与删除