odps - overfit.cn

ODPS开发大全：进阶篇

本文旨在收集整理ODPS开发中入门及进阶级知识，尽可能涵盖大多数ODPS开发问题，成为一本mini百科全书，后续也会持续更新。希望通过笔者的梳理和理解，帮助刚接触ODPS开发的同学快速上手。本系列分为两部分：入门篇和进阶篇。ODPS开发大全：入门篇常用参数设置常用的调整无外乎调整map、join、r

overfit同步小助手 2024-09-13 03:03:23 0 收藏

Spark 读取阿里云 MaxCompute数据源写阿里云OSS和华为云OBS

前情提要：当前Spark 版本为2.4.5写数据到阿里云OSS1、编写Spark 代码 - 写OSSpublic class SparkODPS2OSS4 { public static void main(String[] args) { SparkSession spark

overfit同步小助手 2024-03-24 08:03:52 0 收藏

涤生大数据实战：基于Flink+ODPS历史累计计算项目分析与优化（下）

计算链路较短，但如果发生Flink任务重启的情况，需要离线和实时两条线一起修复数据：离线补一次T-1数据到hbase + 离线初始化hbase中当日新用户数据为0 + Flink重启回拉消息位点到T日00:00，共计三步。非T日新增的老用户的数据在ODPS表里已存在，odps2hbase时会覆盖掉

overfit同步小助手 2024-02-29 04:03:20 0 收藏

涤生大数据实战：基于Flink+ODPS历史累计计算项目分析与优化（上）

当一个用户在T日实时上传了自己的跑步记录，Flink节点1会计算出其 [当日0点起至此刻] 的跑步累计数据data1，Flink节点2会根据该用户id取hbase维表里查询其 [历史～T-1日] 的累计数据 data2 (hbase表里数据由odps每日更新，即T-1日的存量累计汇总数据)，将dat

overfit同步小助手 2024-02-22 22:03:53 0 收藏

ODPS是什么，阿里云ODPS前世今生

ODPS（OpenDataPlatformandService）是阿里云自研的一体化大数据智能计算平台，10余年来持续迭代，提供了实时离线一体、流批一体、湖仓一体、大数据+AI一体的多场景能力，是业界少有的完全自主研发，支持10万级服务器并行计算、百万级CPU可扩展大数据智能计算平台。

overfit同步小助手 2023-08-21 02:04:25 0 收藏

SQL实现一行数据分组后转多行多列

通过聚合拆分再聚合的方式实现一行数据变分组的多行多列

overfit同步小助手 2023-07-29 10:04:10 0 收藏

阿里云-ODPS SQL-日常开发日期、字符、数学运算、聚合函数函数使用技巧

数据仓库，是一个面向主题的、集成的、随时间变化的、信息本身相对稳定的数据集合。数据仓库从Oracle（单机、RAC)，到MPP(Green plum)，到Hadoop(Hive、Tez、Sprak)，再到批流一体Flink/Blink、数据湖等，SQL都是其主流的数据处理工具。海量数据下的高效数据流

overfit同步小助手 2023-02-18 08:04:21 0 收藏

阿里云-DataWorks- ODPS SQL开发

阿里云数据仓库这一系列断断续续也有很久没有更新了，新年新气象，赶紧赶上开写。ODPS；是由阿里云自主研发，提供针对TB/PB级数据、实时性要求不高的分布式处理能力，应用于数据分析、挖掘、商业智能等领域；阿里巴巴的离线数据业务都运行在ODPS上；

overfit同步小助手 2023-01-22 03:04:11 0 收藏

阿里云-数据仓库-数据分析开发神器-ODPS

ODPS是阿里云自研的一体化大数据计算平台和数据仓库产品，为数字化转型提供多功能、低成本、高性能、稳定、安全、开放和易用的整套产品方案，提供实时离线一体、流批一体、湖仓一体、大数据+AI一体的多场景能力。

overfit同步小助手 2022-12-21 13:05:26 0 收藏

猿创征文｜阿里云MaxCompute存取性能测试报告

前几天公司给我安排了个任务，让我去测试一下阿里云DataWork下的MaxCompute的存取性能，这不，测试报告来了。MaxCompute（ODPS）是适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数

overfit同步小助手 2022-09-02 07:11:04 0 收藏

MapReduce任务优化阿里云平台ODPS Join方法等等详细解析

1 计算机性能CPU,内存,磁盘健康,网络2 I/O操作优化 - 数据倾斜数据输入Map阶段Reduce阶段Map长尾 : Map端读取数据由于带下分布不均匀,会导致一些Map Instance读取和处理的数据特别多,造成Map长尾;主要是由于Reduce长尾 : 主要是keyy的分布不均匀所导

overfit同步小助手 2022-07-01 08:44:32 0 收藏

sql记录之表的创建与删除相关操作

SQL创建表与删除

overfit同步小助手 2022-06-07 07:38:10 0 收藏