23年国赛和24年:赛卷题目、代码、数据都有(有偿,白嫖勿扰)
编写 Scala 工程代码,将 ods 库中表 order_master、order_detail、
coupon_info、coupon_use、product_browse、product_info、customer_inf、
customer_login_log、order_cart、customer_level_inf、customer_addr 抽取
到 Hive 的 dwd 库中对应表中。表中有涉及到 timestamp 类型的,均要求按照
yyyy-MM-dd HH:mm:ss,不记录毫秒数,若原数据中只有年月日,则在时分秒的
位置添加 00:00:00,添加之后使其符合 yyyy-MM-dd HH:mm:ss。
1、 抽取 ods 库中表 customer_inf 最新分区数据,并结合 dim_customer_inf 最
新 分 区 现 有 的 数 据 , 根 据 customer_id 合 并 数 据 到 dwd 库 中
dim_customer_inf 的分区表(合并是指对 dwd 层数据进行插入或修改,需修
改的数据以 customer_id 为合并字段,根据 modified_time 排序取最新的一
条),分区字段为 etl_date 且值与 ods 库的相对应表该值相等,并添加
dwd_insert_user、dwd_insert_time、dwd_modify_user、dwd_modify_time
四列,其中 dwd_insert_user、dwd_modify_user 均填写“user1”。若该条记录第一次进入数仓 dwd 层则 dwd_insert_time、dwd_modify_time 均存当
前操作时间,并进行数据类型转换。若该数据在进入 dwd 层时发生了合并修
改,则 dwd_insert_time 时间不变,dwd_modify_time 存当前操作时间,其
余列存最新的值。使用 hive cli 查询 modified_time 为 2022 年 10 月 01 日
当天的数据,查询字段为 customer_id、customer_email、modified_time、
dwd_insert_time、dwd_modify_time,并按照 customer_id 进行升序排序,
将结果截图粘贴至客户端桌面【Release\模块 D 提交结果.docx】中对应的
任务序号下;
版权归原作者 kangmou111 所有, 如有侵权,请联系我们删除。