0


全国职业院校技能大赛(大数据)2024

23年国赛和24年:赛卷题目、代码、数据都有(有偿,白嫖勿扰)

编写 Scala 工程代码,将 ods 库中表 order_master、order_detail、

coupon_info、coupon_use、product_browse、product_info、customer_inf、

customer_login_log、order_cart、customer_level_inf、customer_addr 抽取

到 Hive 的 dwd 库中对应表中。表中有涉及到 timestamp 类型的,均要求按照

yyyy-MM-dd HH:mm:ss,不记录毫秒数,若原数据中只有年月日,则在时分秒的

位置添加 00:00:00,添加之后使其符合 yyyy-MM-dd HH:mm:ss。

1、 抽取 ods 库中表 customer_inf 最新分区数据,并结合 dim_customer_inf 最

新 分 区 现 有 的 数 据 , 根 据 customer_id 合 并 数 据 到 dwd 库 中

dim_customer_inf 的分区表(合并是指对 dwd 层数据进行插入或修改,需修

改的数据以 customer_id 为合并字段,根据 modified_time 排序取最新的一

条),分区字段为 etl_date 且值与 ods 库的相对应表该值相等,并添加

dwd_insert_user、dwd_insert_time、dwd_modify_user、dwd_modify_time

四列,其中 dwd_insert_user、dwd_modify_user 均填写“user1”。若该条记录第一次进入数仓 dwd 层则 dwd_insert_time、dwd_modify_time 均存当

前操作时间,并进行数据类型转换。若该数据在进入 dwd 层时发生了合并修

改,则 dwd_insert_time 时间不变,dwd_modify_time 存当前操作时间,其

余列存最新的值。使用 hive cli 查询 modified_time 为 2022 年 10 月 01 日

当天的数据,查询字段为 customer_id、customer_email、modified_time、

dwd_insert_time、dwd_modify_time,并按照 customer_id 进行升序排序,

将结果截图粘贴至客户端桌面【Release\模块 D 提交结果.docx】中对应的

任务序号下;

​​​​​​​

标签: 大数据 spark hbase

本文转载自: https://blog.csdn.net/kangmou111/article/details/140218076
版权归原作者 kangmou111 所有, 如有侵权,请联系我们删除。

“全国职业院校技能大赛(大数据)2024”的评论:

还没有评论