Hive+Spark离线数仓工业项目--ODS层及DWD层构建(2)
Hive+Spark离线数仓工业项目--ODS层及DWD层构建
【RabbitMQ教程】第一章 —— RabbitMQ - 安装
🐬初学一门技术时,总有些许的疑惑,别怕,它们是我们学习路上的点点繁星,帮助我们不断成长。🐟文章粗浅,希望对大家有帮助!
Sqoop安装配置
sqoop安装配置以及运用
HDFS FileSystem 导致的内存泄露
"org.apache.hadoop.fs.FileSystem$Cache"”的一个实例文件系统被"sun.misc.Launcher$AppClassLoader @ 0xc04e9290"加载。问题的源头在于 org.apache.hadoop.fs.FileSystem 这个类,程序运行了5
KafKa 3.x(一、入门)
kafka
Flink Configuration 配置文件的配置
Flink 运行命令详细介绍Flink Configuration | flink-conf.yaml中的配置Basic Setup | 默认配置引流:FLINK 的命令 FLINK 的配置 Flink执行说明对 FLINK 的运行命令做完整的介绍参考文章:Flink Configuration
hadoop环境新手安装教程
这一步需要对hadoop下的 core-site.xml、hadoop-env.sh、hdfs-site.xml、mapred-site.xml、yarn-site.xml等文件进行配置。这里我用了3台虚拟机,1台改为master,另外2台分别改为node1和node2。(3)IP地址改写,这里需要
大数据Doris(三十九):Spark Load 注意事项
3、使用Spark Load时spark_home_default_dir配置项没有指定spark客户端根目录,提交Spark job 时用到 spark-submit 命令,如果 spark_home_default_dir 设置错误,会报 Cannot run program "xxx/bin/
hadoop之ranger权限配置(二)
ranger权限配置
Hive SQL常用函数
Hive SQL常用函数
Spark RDD编程基本操作
Spark RDD编程基本操作
大数据调度平台oozie、azkaban、dolphinscheduler、AirFlow对比
海豚调度出来的有点迟,它把我们之前讲的 Oozie、Azkaban、airflow的优点全拿过来了,后发优势,集万千优点于一身,缺点也避免了。过载处理:airflow 任务过多时卡死服务器,DolphinScheduler任务队列机制,当任务过多时会缓存在任务队列中。Azkaban:最适合shell
rabbitMq动态创建和监听队列
动态创建队列、监听队列
SparkML机器学习实战:应用回归算法,预测二手房价格
受某房产中介委托,需开发一套机器学习系统,当用户将要售卖的二手房挂到二手房网站上时,该机器学习系统能自动根据该二手房的相关信息给出合理的销售价格预测,以指导客户报价。本案例所使用的数据集为纯文本文件,说明如下: 数据集路径:/data/dataset/ml/house/train.csv1、启动H
flink之addSource & fromSource 、addSink & SinkTo
fromSource和SinkTo,是flink提供的简易的读取和输出的算子,建议优先使用fromSource和SinkTo,并结合flink官方文档;说个题外话,在1.14以前flink Kafka都是使用的是addSource,实现的是ParalismSourceFunction以及一些容错的类
Kafka rebalance 的几种原因与解决方案
JoinGroupmember idStatic Memberrejoin
Quartz、xxl-job、Elastic-Job和Saturn简单对比
Quartz是满足复杂调度需求的好选择,而xxl-job和Elastic-Job则更适合分布式调度和动态扩展。优点: Saturn是一个建立在Elastic-Job之上的作业调度框架,旨在简化分布式作业的调度和管理。优势: Elastic-Job是一个强大而灵活的作业调度框架,支持分布式调度、动态扩
Kafka系列——详解创建Kafka消费者及相关配置
详解kafka消费者以及消费者组;介绍分区如何分配给消费者,以及分配策略,介绍各种超时参数;介绍超时的行为,心跳发送的细节
大数据开发之Hive案例篇10-大表笛卡尔积优化
我们需要求每一个start_date的累积数量,那么此时我们可以先求每天的,然后求每天累积的,再求当天每一个start_date累积的,加上前一日的累积的,就是最终我们需要的数据。就算数据量提升数倍,因为 join的条件由一个 data_source 变为了两个 data_souce 、dt,大大减
hadoop高可用【HA】配置详解
想实现 Hadoop 高可用就必须实现 NameNode 的高可用,NameNode 是HDFS的核心,HDFS 又是 Hadoop 核心组件,NameNode 在 Hadoop 集群中至关重要;NameNode 宕机,将导致集群不可用,如果NameNode数据丢失将导致整个集群的数据丢失,而 Na