大数据 - overfit.cn

Hadoop深度剖析

作者：禅与计算机程序设计艺术 1.简介Hadoop是一个开源的分布式计算框架，它的设计目标是为了能够在大数据集上进行分布式处理，并提供高效的数据分析能力。Hadoop生态系统包括HDFS、MapReduce、YARN、Zookeeper等组件。HDFS（Hado

overfit同步小助手 2023-10-23 04:03:15 0 收藏

Kafka如何实现多线程消费

获取消息的线程可以是一个，也可以是多个，每个线程维护专属的KafkaConsumer实例，处理消息则由特定的线程池来做，从而实现消息获取与消息处理的真正解耦。一个现成话对饮一个KafkaConsumer实例，我们可以称之为消费线程。一个消费线程可以消费一个或多个分区中的消息，所有消费线程隶属同一个消

overfit同步小助手 2023-10-23 03:03:43 0 收藏

Rabbitmq的应用场景

虽然并行已经提高的处理时间,但是,前面说过,邮件和短信对我正常的使用网站没有任何影响，客户端没有必要等着其发送完成才显示注册成功,应该是写入数据库后就返回. 消息队列: 引入消息队列后，把发送邮件,短信不是必须的业务逻辑异步处理。并行方式:将注册信息写入数据库后,发送邮件的同时,发送短信,以

overfit同步小助手 2023-10-23 03:03:14 0 收藏

MQ - 11 Kafka的架构设计与实现

在学习的过程中，我们会发现 Kafka 和 RocketMQ 的架构是非常像的，那为什么还要单独来分析 Kafka 呢？因为它们俩面对的场景是不一样的，一个是消息场景、一个是流场景，所以它们在底层的协议设计、存储模型、消费方式的实现上也是不一样的。而实现的不同，又导致了它们在功能和性能上的表现不一样

overfit同步小助手 2023-10-23 01:03:46 0 收藏

How AI is changing Big Data and Business

作者：禅与计算机程序设计艺术 1.简介随着人工智能的不断进步、计算机算力的不断提高，以及基于云计算平台的大数据产生的越来越多的数据，人工智能已成为经济界和产业界的一股重要力量。而人工智能究竟能给企业带来哪些新的机遇和变化，如何运用人工智能为企业提供更好的服务？本

overfit同步小助手 2023-10-23 01:03:37 0 收藏

hudi搭建【大数据比赛长期更新】

hudi搭建题目分析本任务需要使用root用户完成相关配置，具体要求如下：1、从宿主机/opt目录下将maven相关安装包复制到容器Master中的/opt/software（若路径不存在，则需新建）中，将maven相关安装包解压到/opt/module/目录下（若路径不存在，则需新建）并配置ma

overfit同步小助手 2023-10-23 00:03:52 0 收藏

Kafka实战：消费指定时间范围内的Kafka主题数据

例如，我们可能需要重新处理特定时间范围内的数据，或者需要对历史数据进行分析。Kafka提供了Timestamp和Offset两种方式来定位消息，我们可以利用这些特性来实现消费指定时间范围内数据的需求。本文将介绍如何使用Kafka的消费者API来获取指定时间范围内的数据，并附带相应的源代码示例。总结：

overfit同步小助手 2023-10-22 23:03:16 0 收藏

Hive 建表客户端报错 missing EOF at “/“

后来把sql中的注释去掉以后，或者把注释开头替换成 – 此异常便可以解决。在创建表时，我使用的是idea客户端，报了如下错误。

overfit同步小助手 2023-10-22 21:03:39 0 收藏

EIK+Filebeat+Kafka

KAFKA、kafka部署、EIK+Filebeat+Kafka部署，内含基础介绍，详细部署步骤图文详解

overfit同步小助手 2023-10-22 19:03:44 0 收藏

HDFS读写流程详细过程

HDFS详细的读写流程，edit和fsimage文件的更新，WAL技术

overfit同步小助手 2023-10-22 19:03:30 0 收藏

Hadoop启动关闭命令

注意：第一次启动集群之前需要格式化

overfit同步小助手 2023-10-22 18:03:54 0 收藏

Hadoop理论及实践-HDFS的Namenode及Datanode（参考Hadoop官网）

本篇博客参照hadoop官网，介绍HDFS的NN及DN，副本存放机制（机架感知策略），安全模式，文件系统元数据持久化（editlog,fsimage）,HDFS健壮性，数据组织及存储空间的回收，重点介绍DataNode及NameNode及机架感知策略

overfit同步小助手 2023-10-22 18:03:23 0 收藏

【hive】hive修复分区或修复表以及msck命令的使用

我们知道hive有个服务叫metastore，这个服务主要是存储一些元数据信息，比如数据库名，表名或者表的分区等等信息。如果不是通过hive的insert等插入语句，很多分区信息在metastore中是没有的，如果插入分区数据量很多的话，你用。在 Hive 中，当您向分区表添加、删除或更改分区数据时

overfit同步小助手 2023-10-22 17:03:39 0 收藏

dubbo和zookeeper作用以及关系

首先是负载均衡，单注册中心的承载能力是有限的，在流量达到一定程度的时候就需要分流，负载均衡就是为了分流而存在的，一个ZooKeeper群配合相应的Web应用就可以很容易达到负载均衡；命名服务，将树状结构用于维护全局的服务地址列表，服务提供者在启动的时候，向ZK上的指定节点/dubbo/${ser

overfit同步小助手 2023-10-22 17:03:22 0 收藏

ZooKeeper与Paxos

揭开zooKeeper的神秘面纱！

overfit同步小助手 2023-10-22 14:03:47 0 收藏

Flink（java版）

时间语义和 watermark。

overfit同步小助手 2023-10-22 14:03:39 0 收藏

An Introduction to Hadoop Streaming API in Big Data

Hadoop Streaming 是 Hadoop 的一个子项目，它可以让用户在 Hadoop 上运行离线批处理作业或实时流处理作业。其主要工作原理是从标准输入（stdin）读取数据，对其进行处理，然后输出到标准输出（stdout）。Hadoop Streaming 的计算模型是 MapReduce

overfit同步小助手 2023-10-22 14:03:22 0 收藏

RabbitMQ开启消息跟踪日志（trace）

Trace 是Rabbitmq用于记录每一次发送的消息，方便使用Rabbitmq的开发者调试、排错。在RabbitMQ中默认是关闭的，需手动开启。此处rabbitMQ是使用docker部署的。开启了插件后，无需重启，rabbitMq管理界面就会出现Tracing项，可新建追踪。1、启动Tracing

overfit同步小助手 2023-10-22 13:03:50 0 收藏

hiveserver2经常挂断的原因

配置问题：不正确的配置可能导致 HiveServer2 发生问题。如果资源不足，可能会导致 HiveServer2 挂断。Hive 版本问题：某些 Hive 版本可能存在已知的问题或 bug，可能会导致 HiveServer2 挂断。确保使用的 Hive 版本是稳定的，最好是已修复了已知问题的最新版

overfit同步小助手 2023-10-22 12:03:10 0 收藏

Elasticsearch实践：ELK+Kafka+Beats对日志收集平台的实现

当我们在开源日志分析系统的领域，谈及 ELK 架构可谓是家喻户晓。然而，这个生态系统并非 Elastic 有意为之，毕竟 Elasticsearch 的初衷是作为一个分布式搜索引擎。其广泛应用于日志系统，实则是一种意料之外，这是社区用户的推动所致。如今，众多云服务厂商在推广自己的日志服务时，往往以

overfit同步小助手 2023-10-22 10:03:13 0 收藏