HBase
Hbase的功能和应用场景是什么?功能:能够实现实时分布式随机数据存储场景:大量的结构化数据,实时,随机,持久化存储Hbase的基本存储结构是什么?设计:分布式大量数据实时存储分布式内存【进程】+分布式磁盘【HDFS】实现:NameSpace:类似于数据库概念,访问表的时候必须加上NSTable:就
hadoop-hdfs配置 + HA(高可用)配置(学习)
需要编写hadoop目录下的配置文件配置文件在hadoop安装目录下面的etc/hadoop/下。成功会出现namenode,datanode,secondarynamenode。在浏览器中打开namenode所在id: 192.168.72.88:9870。core-site.xml h
一文详解数据仓库、数据湖、湖仓一体和数据网格
本文对数据仓库、数据湖、湖仓一体、数据网格四个技术概念进行了辨析,并对它们的优势和局限给出了对比介绍。
Hive Beeline 配置
Beeline作为Hive的客户端工具,它支持两种模式:嵌入式模式(embedded mode)和远程模式(remote mode)。在嵌入式模式下,Beeline可以直接在HiveServer2的JVM中运行HiveQL脚本,而在远程模式下,Beeline可以在其他机器上运行并通过网络连接到Hiv
PySpark 大数据分析实用指南(一)
Apache Spark 是一个开源的并行处理框架,已经存在了相当长的时间。Apache Spark 的许多用途之一是在集群计算机上进行数据分析应用程序。本书将帮助您实施一些实用和经过验证的技术,以改进 Apache Spark 中的编程和管理方面。您不仅将学习如何使用 Spark 和 Python
pyspark自定义UDF函数
当遇到一些复杂特殊的计算场景时,只通过pyspark的内置函数无法达到我们想要实现的效果,此时,可通过自定义函数然后注册为UDF函数,就能够很好的解决复杂计算场景问题,且计算效率非常快速。计算5000多万数据,仅需一分钟不到,效率非常高。
【图解大数据技术】流式计算:Spark Streaming、Flink
Flink 和 Spark Streaming 不一样,Flink 一开始设计就是为了做实时流式计算的。它可以监听消息队列获取数据流,也可以用于计算存储在 HDFS 等存储系统上的数据(Flink 把 这些静态数据当做数据流来进行处理)。然后 Flink 计算后生成的结果流,也可以发送到其他存储系统
卡夫卡(Kafka)框架详解:从背景到应用实践
在大数据和分布式系统日益普及的今天,数据处理和消息传递成为了支撑复杂业务系统的关键基础设施。Apache Kafka,作为一个高性能的系统,因其高吞吐量、低延迟和可扩展性,成为了众多企业和开发者首选的消息传递解决方案。本文将从Kafka的诞生背景、基本概念、核心组件、数据读写机制以及应用场景等多个维
【AI大数据计算原理与代码实例讲解】ElasticSearch
作者:禅与计算机程序设计艺术Artificial Intelligence; 大数据: Big Data; Elasticsearch: 数据检索引擎背景介绍 - Introduction在当今这个数据爆炸的时代,企业及个人越来越依赖于数据分析和处理能力。面对海量的数据集,传统的数据库系统往
谈谈Flink消费kafka的偏移量
Filnk checkpointing开始时就进入到pre-commit阶段,具体来说,一旦checkpoint开始,Flink的JobManager向输入流中写入一个checkpoint barrier将流中所有消息分隔成属于本次checkpoint的消息以及属于下次checkpoint的消息,b
【clickhouse】clickhouse入门学习之环境搭建-windows下安装ClickHouse教程(详细版)
clickhouse入门学习之环境搭建-windows下安装ClickHouse教程(详细版)
Hive 高可用分布式部署详细步骤
hive高可用分布式部署详细教程
学习大数据DAY21 Linux基本指令2
tar -zcvf abc123.tar.gz abc.txt 123.txt 压缩成 abc123.tar.gz 的命令。15. 查看/etc/group 及/etc/passwd 文件内容重定向到/root/open.txt 中。8. 使用 root 账号新建文件 1.txt 及 2.txt 对
Java版Flink使用指南——从RabbitMQ中队列中接入消息流
在一文中,我们完成了第一个小型Demo的编写。例子中的数据是代码预先指定的。而现实中,数据往往来源于外部。本文我们将尝试Flink从RabbitMQ中读取数据,然后输出到日志中。关于RabbitMQ的知识可以参阅。
利用Cloudera Manager API来监控CDH大数据组件并异常重启实例
Cloudera Manager API是一套基于RESTful风格的API接口,它允许用户通过HTTP请求与Cloudera Manager服务器进行通信,实现对集群的远程管理。这些API接口包括获取集群信息、服务状态、角色状态、启停服务等,为用户提供了丰富的监控和管理功能。Cloudera Ma
Hadoop 端口号及常用配置文件
hadoop3.x:HDFS NameNode 内部通常端口:8020 / 9000 / 9820HDFS NameNode 对用户的查询端口: 9870Yarn查看任务运行情况的端口: 8088历史服务器: 19888hadoop2.x:HDFS NameNode 内部通常端口:8020 /
Eureka学习
硬编码每次都要修改被调用服务的端口号。
Java处理大数据的技巧
大数据处理是现代计算机科学中的一个重要领域,通过高效的算法和工具,我们可以从大量数据中提取有价值的信息。本文将介绍一些处理大数据的技巧和策略,并讨论如何通过Java与MySQL实现高效的大数据处理。
kafka如何保证高可用、顺序性、幂等性
本来你就是 A 系统调用 BCD 三个系统的接口就好了,ABCD 四个系统还好好的,没啥问题,但加个 MQ 进来,万一 MQ 挂了,整套系统就崩溃了。Kafka 0.8 以前,是没有 HA 机制的,就是任何一个 broker 宕机了,那个 broker 上的 partition 就废了,没法写也没法
Spark Streaming原理与代码实例讲解
随着大数据时代的到来,对实时数据处理的需求日益增加。传统的批处理模式已经无法满足业务对实时性的要求。Spark Streaming作为一种基于Spark的流式计算框架,能够以接近实时的速度处理大规模的数据流,并提供了丰富的流式计算API,为用户提供了一种简单易用的流式数据处理方案。Spark Str