大数据 - overfit.cn

Hive ｜ Hive 表如何查看所有分区

Apache Hive 是一个构建在 Hadoop 之上的数据仓库工具，它提供了 SQL 类似的查询语言（称为 HiveQL），使得用户能够更容易地进行大数据处理和分析。在 Hive 中，分区是一种优化查询性能的方法，通过将数据按照一个或多个列的值进行划分，可以显著减少查询时扫描的数据量。本文档将介

overfit同步小助手 2024-12-08 06:03:36 0 收藏

Hbase(四)基本概念

以列作为存储单位进行数据存储，表现就是：一个列为一个存储单元，比如一个列就是一个文件逻辑结构。

overfit同步小助手 2024-12-08 06:03:27 0 收藏

使用Java代码操作Kafka（五）：Kafka消费 offset API，包含指定 Offset 消费以及指定时间消费

Kafka消费 offset API，包含指定 Offset 消费以及指定时间消费

overfit同步小助手 2024-12-08 05:03:47 0 收藏

【微服务】 Eureka和Ribbon

服务调用出现的问题：在远程调用另一个服务时，我们采用的解决办法是发送一次http请求，每次环境的变更会产生新的地址，所以采用硬编码会出现很多麻烦，并且为了应对并发问题，采用分布式部署，会形成一个集群，此时硬编码不知该指向哪个地址。①消费者该如何获取服务提供者具体信息?②如果有多个服务提供者，消费者该

overfit同步小助手 2024-12-08 05:03:38 0 收藏

Kafka、ActiveMQ、RabbitMQ、RocketMQ

每种消息队列系统都有其独特的优缺点，适合不同的应用场景。：适合大规模数据流处理，高吞吐量和低延迟，持久化存储，但学习曲线较陡峭，存储开销大。ActiveMQ：易于使用和配置，支持丰富的协议和消息模式，但性能和吞吐量有限，集群支持较弱。RabbitMQ：灵活的消息路由，丰富的客户端库，高可靠性，但性能

overfit同步小助手 2024-12-08 04:03:35 0 收藏

Paimon x Spark：助力企业 Lakehouse 架构升级

摘要：本文整理自 Paimon Committer邹欣宇老师在11月15日 Apache Spark & Paimon Meetup，助力 Lakehouse 架构生产落地上的分享。文章介绍了 Paimon x Spark 的发展历程，企业搭建 Lakehouse 面临的挑战，Paimon

overfit同步小助手 2024-12-08 03:03:40 0 收藏

【Hadoop实训】Hive 数据操作②

大数据专业的Hadoop实训之Hive 数据操作查询②

overfit同步小助手 2024-12-08 01:03:25 0 收藏

基于Hadoop的物品租赁系统的设计与实现，LW+源码+讲解

Java语言正式诞生于1995年，是由SUN公司开发研制的OAK语言发展而来的。Java语言继承了OAK语言可跨平台运行的特点，融合了面向对象编程的风格，JAVA以其独有的开放性、跨平台性和面向网络的交互性席卷全球，以其安全性、易用性和开发周期短的特点，迅速从最初的编程语言发展成为全球第一大软件开发

overfit同步小助手 2024-12-07 23:03:42 0 收藏

Flink on YARN是如何确定TaskManager个数的

flink on yarn如何确定taskmanager个数

overfit同步小助手 2024-12-07 22:03:36 0 收藏

Flink 中 JDBC Connector 使用详解

Flink JDBC Connector 是一个简单而高效的工具，适用于实时计算场景下与关系型数据库的交互。无论是数据写入还是读取，都可以通过简单配置快速实现。在实时计算或离线任务中，往往需要与关系型数据库交互，例如 MySQL、PostgreSQL 等。本文将介绍 Flink JDBC Conne

overfit同步小助手 2024-12-07 21:03:47 0 收藏

JAVA ｜日常开发中Servlet详解

JAVA ｜日常开发中Servlet详解，Servlet 是 Java 编程语言中的一个类，用于在服务器端处理客户端的请求并生成响应。它是 Java Web 应用程序的核心组件之一，运行在支持 Java 的 Web 服务器或应用服务器中。例如，当用户通过浏览器访问一个网站的某个页面时，服务器会调用相

overfit同步小助手 2024-12-07 20:04:11 0 收藏

kafka是如何做到高效读写

消息持久化： Kafka 将消息存储在磁盘上，并且通过顺序写入的方式提高写入性能。消息被追加到日志文件的尾部，避免了随机写操作，从而提高了写入速度。零拷贝技术：利用操作系统的零拷贝特性，数据可以从磁盘直接传输到网络接口，减少了数据在内存中的复制次数，提高了传输效率。批量发送：生产者可以将多个消

overfit同步小助手 2024-12-07 20:03:30 0 收藏

Apache Hive 通过Docker快速入门

在伪分布式模式下在 docker 容器内运行 Apache Hive，以便为 Hive 提供以下快速启动/调试/准备测试环境。

overfit同步小助手 2024-12-07 19:04:02 0 收藏

Hive 2.x 的安装与配置

也允许熟悉 MapReduce 开发者的开发自定义的 mapper、reducer处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。基于Hadoop的一个数据仓库工具，可将结构化数据文件映射为一张数据库表，并提供简单[SQL]查询，可将SQL语句转换为MapReduce任务进行

overfit同步小助手 2024-12-07 17:03:50 0 收藏

Hadoop 分析统计学生考试成绩

Hadoop 分析统计学生考试成绩【下载地址】Hadoop分析统计学生考试成绩分享在这个项目中，您将获得一套模拟的学生考试成绩数据集，这些数据被设计成适合用Hadoop进行批处理分析的格式。项目的目标是演示如何使用MapRedu

overfit同步小助手 2024-12-07 16:03:41 0 收藏

Zookeeper启动报错：Starting zookeeper ... FAILED TO START 解决方案

如果 Zookeeper 的 clientPort（通常是 2181）或其他通信端口被其他进程占用，Zookeeper 将无法正常启动。**解决方案：**确保 Java 已正确安装并配置环境变量 JAVA_HOME 和 PATH。如果端口被其他进程占用，可以在 zoo.cfg 中更改 clientP

overfit同步小助手 2024-12-07 15:03:40 0 收藏

Spring Boot 启动时自动配置 RabbitMQ 交换机、队列和绑定关系

overfit同步小助手 2024-12-07 14:04:47 0 收藏

Spark Optimization —— Reducing Shuffle

randomness。

overfit同步小助手 2024-12-07 13:03:50 0 收藏

WSL中搭建SPARK平台(中）

本部分教程将指导您在Docker容器中构建一个Spark集群，包括配置主节点和工作节点。

overfit同步小助手 2024-12-07 13:03:46 0 收藏

spark学习

使用spark框架进行数据预处理，内含多个案例，可以帮助快速了解如何进行数据预处理

overfit同步小助手 2024-12-07 12:04:24 0 收藏