大数据学习笔记

大数据面试(一)前言hive组成hive与mysql的区别内部表和外部表区别4个by自定义函数窗口函数hive优化数据倾斜杂SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入前

【云计算平台】Hadoop单机模式环境搭建

Centos7环境 – Hadoop单机模式部署接上一篇博客 点我跳转到虚拟机搭建,配置好虚拟机环境后进行hadoop单机模式的部署,我的云计算课程中只要求了简单的单机模式部署,如果有精力的话,应该会把伪分布式部署也简单地记录一下1. Hadoop介绍:Apache Hadoop 项目为可靠,可扩展

SpringBoot加ES整合的一些基本方法

springboot整合elasticsearch一些基本用法

异构数据源离线同步工具之DataX的安装部署

异构数据源离线同步工具之DataX的安装部署

RabbitMQ详解,用心看完这一篇就够了【重点】

1.1 消息中间件消息中间件是基于队列与消息传递技术,在网络环境中为应用系统提供同步或异步、可靠的消息传输的支撑性软件系统——百度百科1.1.1 应用场景1.1.1.1 异步处理场景说明:用户注册后,需要发注册邮件和注册短信,传统的做法有两种1.串行的方式;2.并行的方式 ;(1)串行方式:将注册信

【Kafka从入门到成神系列 六】Kafka 消费组及重平衡

大家好,我是爱敲代码的小黄,独角兽企业的Java开发工程师,Java领域新星创作者。这是我的系列专栏:Kafka 从入门到成神。如果文章知识点有错误的地方,请指正!和大家一起学习,一起进步。如果感觉博主的文章还不错的话,请三连支持一下博主哦。

Linux基本命令

Linux基本命令# 创建目录 mkdir mkdir -p /usr/local/test/shell# 切换目录 cd cd /usr/local/test/shell# 查看目录下文件 ll 或者 ls 都行ls # 显示当前目录 pwdpwd# 编辑新增文件内容 vim # 按 i:插入

Hadoop集群高可用及zookeeper+kafka组件搭建

一.Hadoop集群高可用角色与配置主机名 IP地址 角色服务 hadoop1 192.168.1.50 namenode, resourcemanager, ZKFC hadoop2 192.168.1.56 namenode, resourcemanager, ZKF

Elasticsearch镜像打包记录

对制作Elasticsearch镜像并打包的个人记录

6. 数据仓库环境准备

6. 数据仓库环境准备数据仓库环境准备数据仓库运行环境Hive环境搭建Hive on Spark 配置Hive on Spark 测试Yarn环境配置数据仓库开发环境启动 HiveServer2配置 DataGrip 连接创建连接配置连接属性测试使用模拟数据准备用户行为日志业务数据生成模拟数据全量表

努力成为一名数据分析师

一、什么是数据分析?观测、实验、应用二、重新认识数据分析观测:对事物形成客观量化的认知(报表、图表、仪表盘)。实验:发现规律、验证假设(科学研究、A/B测试)。应用:不断基于数据反馈迭代产品。三、观测观察:采集数据、存储数据、展示数据。1.采集数据:解析系统日志、埋点获取新数据、通过传感器采集(手环

3分钟SpringData整合 ElasticSearch 实现CRUD超级详细

文章目录1.导入依赖2.配置 yml3.创建Bean4.创建接口继承 CrudRepository 接口5. 创建service 注入 接口代理类对象6.主启动类上添加 @EnableElasticsearchRepositories7.编写方法名 ⭐️秋日的晚霞⭐️ ⭐️玲珑骰子安红豆 入

基于Curator(zookeeper)实现leader选举

在分布式计算中,leader election是很重要的一个功能,这个选举过程是这样子的:指派一个进程作为组织者,将任务分发给各节点。在任务开始前,哪个节点都不知道谁是leader或者coordinator。当选举算法开始执行后,每个节点最终会得到一个唯一的节点作为任务leader。除此之外,选举还

【Kafka从入门到成神系列 五】Kafka 幂等性及事务

大家好,我是爱敲代码的小黄,独角兽企业的Java开发工程师,Java领域新星创作者。这是我的系列专栏:Kafka 从入门到成神。如果文章知识点有错误的地方,请指正!和大家一起学习,一起进步。如果感觉博主的文章还不错的话,请三连支持一下博主哦。

Spring Cloud Stream的配置及使用——以RabbitMQ为例

Spring Cloud Stream配置及使用,以RabbtiMQ为例

RabbitMQ消息堆积问题

如何解决数百万消息堆积,无法及时消费的问题

Kylin简介与环境配置(保姆级教程)

Apache Kylin是基于Hadoop大数据平台的一个开源联机分析处理(Online Analytical Processing,OLAP)引擎。它采用多维立方体**预计算**技术,将大数据的SQL查询速度从之前的分钟乃至小时级别提升到亚秒级别,这种百倍、千倍的速度提升,为超大规模数据集上的交互

今天,我 22 岁了 ...

思维决定命运,态度决定成功!

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈