大数据 - overfit.cn

HBase

Hbase的功能和应用场景是什么？功能：能够实现实时分布式随机数据存储场景：大量的结构化数据，实时，随机，持久化存储Hbase的基本存储结构是什么？设计：分布式大量数据实时存储分布式内存【进程】+分布式磁盘【HDFS】实现：NameSpace：类似于数据库概念，访问表的时候必须加上NSTable：就

overfit同步小助手 2024-08-06 00:04:37 0 收藏

hadoop-hdfs配置 + HA(高可用)配置(学习)

需要编写hadoop目录下的配置文件配置文件在hadoop安装目录下面的etc/hadoop/下。成功会出现namenode,datanode,secondarynamenode。在浏览器中打开namenode所在id: 192.168.72.88:9870。core-site.xml h

overfit同步小助手 2024-08-06 00:04:30 0 收藏

一文详解数据仓库、数据湖、湖仓一体和数据网格

本文对数据仓库、数据湖、湖仓一体、数据网格四个技术概念进行了辨析，并对它们的优势和局限给出了对比介绍。

overfit同步小助手 2024-08-06 00:04:12 0 收藏

Hive Beeline 配置

Beeline作为Hive的客户端工具，它支持两种模式：嵌入式模式（embedded mode）和远程模式（remote mode）。在嵌入式模式下，Beeline可以直接在HiveServer2的JVM中运行HiveQL脚本，而在远程模式下，Beeline可以在其他机器上运行并通过网络连接到Hiv

overfit同步小助手 2024-08-05 23:03:40 0 收藏

PySpark 大数据分析实用指南（一）

Apache Spark 是一个开源的并行处理框架，已经存在了相当长的时间。Apache Spark 的许多用途之一是在集群计算机上进行数据分析应用程序。本书将帮助您实施一些实用和经过验证的技术，以改进 Apache Spark 中的编程和管理方面。您不仅将学习如何使用 Spark 和 Python

overfit同步小助手 2024-08-05 21:03:53 0 收藏

pyspark自定义UDF函数

当遇到一些复杂特殊的计算场景时，只通过pyspark的内置函数无法达到我们想要实现的效果，此时，可通过自定义函数然后注册为UDF函数，就能够很好的解决复杂计算场景问题，且计算效率非常快速。计算5000多万数据，仅需一分钟不到，效率非常高。

overfit同步小助手 2024-08-05 21:03:30 0 收藏

【图解大数据技术】流式计算：Spark Streaming、Flink

Flink 和 Spark Streaming 不一样，Flink 一开始设计就是为了做实时流式计算的。它可以监听消息队列获取数据流，也可以用于计算存储在 HDFS 等存储系统上的数据（Flink 把这些静态数据当做数据流来进行处理）。然后 Flink 计算后生成的结果流，也可以发送到其他存储系统

overfit同步小助手 2024-08-05 19:03:42 0 收藏

卡夫卡（Kafka）框架详解：从背景到应用实践

在大数据和分布式系统日益普及的今天，数据处理和消息传递成为了支撑复杂业务系统的关键基础设施。Apache Kafka，作为一个高性能的系统，因其高吞吐量、低延迟和可扩展性，成为了众多企业和开发者首选的消息传递解决方案。本文将从Kafka的诞生背景、基本概念、核心组件、数据读写机制以及应用场景等多个维

overfit同步小助手 2024-08-05 19:03:23 0 收藏

【AI大数据计算原理与代码实例讲解】ElasticSearch

作者：禅与计算机程序设计艺术Artificial Intelligence; 大数据: Big Data; Elasticsearch: 数据检索引擎背景介绍 - Introduction在当今这个数据爆炸的时代，企业及个人越来越依赖于数据分析和处理能力。面对海量的数据集，传统的数据库系统往

overfit同步小助手 2024-08-05 18:03:41 0 收藏

谈谈Flink消费kafka的偏移量

Filnk checkpointing开始时就进入到pre-commit阶段，具体来说，一旦checkpoint开始，Flink的JobManager向输入流中写入一个checkpoint barrier将流中所有消息分隔成属于本次checkpoint的消息以及属于下次checkpoint的消息，b

overfit同步小助手 2024-08-05 17:03:42 0 收藏

【clickhouse】clickhouse入门学习之环境搭建-windows下安装ClickHouse教程（详细版）

clickhouse入门学习之环境搭建-windows下安装ClickHouse教程（详细版）

overfit同步小助手 2024-08-05 17:03:33 0 收藏

Hive 高可用分布式部署详细步骤

hive高可用分布式部署详细教程

overfit同步小助手 2024-08-05 16:03:37 0 收藏

学习大数据DAY21 Linux基本指令2

tar -zcvf abc123.tar.gz abc.txt 123.txt 压缩成 abc123.tar.gz 的命令。15. 查看/etc/group 及/etc/passwd 文件内容重定向到/root/open.txt 中。8. 使用 root 账号新建文件 1.txt 及 2.txt 对

overfit同步小助手 2024-08-05 14:03:55 0 收藏

Java版Flink使用指南——从RabbitMQ中队列中接入消息流

在一文中，我们完成了第一个小型Demo的编写。例子中的数据是代码预先指定的。而现实中，数据往往来源于外部。本文我们将尝试Flink从RabbitMQ中读取数据，然后输出到日志中。关于RabbitMQ的知识可以参阅。

overfit同步小助手 2024-08-05 14:03:35 0 收藏

利用Cloudera Manager API来监控CDH大数据组件并异常重启实例

Cloudera Manager API是一套基于RESTful风格的API接口，它允许用户通过HTTP请求与Cloudera Manager服务器进行通信，实现对集群的远程管理。这些API接口包括获取集群信息、服务状态、角色状态、启停服务等，为用户提供了丰富的监控和管理功能。Cloudera Ma

overfit同步小助手 2024-08-05 13:03:35 0 收藏

Hadoop 端口号及常用配置文件

hadoop3.x：HDFS NameNode 内部通常端口：8020 / 9000 / 9820HDFS NameNode 对用户的查询端口： 9870Yarn查看任务运行情况的端口： 8088历史服务器： 19888hadoop2.x：HDFS NameNode 内部通常端口：8020 /

overfit同步小助手 2024-08-05 12:05:11 0 收藏

Eureka学习

硬编码每次都要修改被调用服务的端口号。

overfit同步小助手 2024-08-05 12:04:54 0 收藏

Java处理大数据的技巧

大数据处理是现代计算机科学中的一个重要领域，通过高效的算法和工具，我们可以从大量数据中提取有价值的信息。本文将介绍一些处理大数据的技巧和策略，并讨论如何通过Java与MySQL实现高效的大数据处理。

overfit同步小助手 2024-08-05 11:03:42 0 收藏

kafka如何保证高可用、顺序性、幂等性

本来你就是 A 系统调用 BCD 三个系统的接口就好了，ABCD 四个系统还好好的，没啥问题，但加个 MQ 进来，万一 MQ 挂了，整套系统就崩溃了。Kafka 0.8 以前，是没有 HA 机制的，就是任何一个 broker 宕机了，那个 broker 上的 partition 就废了，没法写也没法

overfit同步小助手 2024-08-05 10:03:51 0 收藏

Spark Streaming原理与代码实例讲解

随着大数据时代的到来，对实时数据处理的需求日益增加。传统的批处理模式已经无法满足业务对实时性的要求。Spark Streaming作为一种基于Spark的流式计算框架，能够以接近实时的速度处理大规模的数据流，并提供了丰富的流式计算API，为用户提供了一种简单易用的流式数据处理方案。Spark Str

overfit同步小助手 2024-08-05 10:03:46 0 收藏