大数据 - overfit.cn

流数据湖平台Apache Paimon（四）集成 Hive 引擎

支持 Hive Read 的 MR 和 Tez 执行引擎，以及 Hive Write 的 MR 执行引擎（beeline也不支持hive write）。前面与Flink集成时，通过使用 paimon Hive Catalog，可以从 Flink 创建、删除、查询和插入到 paimon 表中。要访问现

overfit同步小助手 2023-09-21 03:03:56 0 收藏

Spring Boot Kafka Example

Kafka是一个分布式消息系统，它可以实现消息的持久化、高并发量处理以及实时的可靠传输。相比于其他消息队列中间件（例如RabbitMQ、ActiveMQ），其最大的优点在于它提供的跨越语言的API支持，支持多种编程语言的客户端。作为一种轻量级的分布式消息传递系统，它能够很好的满足互联网、移动互联网等

overfit同步小助手 2023-09-21 02:04:04 0 收藏

监控Kafka的关键指标

Kafka 是现代分布式系统架构中非常常见的组件，Kafka 运行是否正常，消息消费是否正常，都需要重点关注。监控可以从 4 个层面着手，机器、JVM、Kafka Broker、Lag。

overfit同步小助手 2023-09-21 01:04:03 0 收藏

kafka connect

Kafka Connect 是一款可扩展并且可靠地在 Apache Kafka 和其他系统之间进行数据传输的工具。可以很简单的定义 connectors（连接器）将大量数据迁入、迁出Kafka。例如我现在想要把数据从MySQL迁移到ElasticSearch，为了保证高效和数据不会丢失，我们选择M

overfit同步小助手 2023-09-20 23:04:04 0 收藏

说说Flink运行模式

与Per-Job-Cluster的区别：就是Application Mode下, 用户的main函数式在集群中执行的，并且当一个application中有多个job的话，per-job模式则是一个job对应一个yarn中的application，而Application Mode则这个applica

overfit同步小助手 2023-09-20 23:03:46 0 收藏

hadoop常用命令

9.-copyFromLocal：从本地文件系统中拷贝文件到HDFS路径去，命令：hadoop fs -copyFromLocal linux系统本地文件 hdfs文件系统路径。查看HDFS上存储的数据信息。10.-put：从本地文件系统中拷贝文件到HDFS路径去，命令：hadoop fs -put

overfit同步小助手 2023-09-20 23:03:37 0 收藏

Hadoop的基础操作

HDFS是hadoop的分布式文件系统，它的设计目标是能够在普通硬件上运行，并且能够处理大量的数据。HDFS采用了主从架构，其中有一个NameNode和多个DataNode。NameNode负责管理文件系统的命名空间和客户端的访问，而DataNode则负责存储实际的数据块。HDFS的基本操作包括文件

overfit同步小助手 2023-09-20 20:03:32 0 收藏

头歌｜Hadoop单点部署，安装和管理

需要在第一关的基础上，若重置了需要从头开始。

overfit同步小助手 2023-09-20 19:03:59 0 收藏

Hadoop完全分布式搭建教程（完整版）

Hadoop完全分布式搭建流程（完整版）适合初学者参考！！！基于Linux的大数据Hadoop集群搭建！

overfit同步小助手 2023-09-20 18:04:04 0 收藏

flink写入到kafka 大坑解析。

加了重试机制 env.setRestartStrategy(RestartStrategies.failureRateRestart(3,Time.of(5000, TimeUnit.SECONDS),Time.of(5000,TimeUnit.SECONDS)));失败的任务只会重试几次。这里就报

overfit同步小助手 2023-09-20 17:03:43 0 收藏

【Hadoop】HDFS API 操作大全

为了提供对不同数据访问的一致接口，Hadoop借鉴了Linux虚拟文件系统的概念，为此Hadopo提供了一个抽象的文件系统模型FileSystem，HDFS 是其中的一个实现。FileSystem是Hadoop中所有文件系统的抽象父类，它定义了文件系统所具有的基本特征和基本操作。

overfit同步小助手 2023-09-20 17:03:23 0 收藏

【基于HBase和ElasticSearch构建大数据实时检索项目】

13. 构建maven工程，配置settings.xml（可配置阿里或华为maven仓库），如下所示：添加依赖到pom.xml中，如下所示：新建data目录，并将测试数据放在该目录下，如下图所示：添加各类配置文件，如conf.properties、application.properties、log

overfit同步小助手 2023-09-20 16:03:57 0 收藏

ansible部署zookeeper和kafka集群

ansible一键部署zookeeper，kafak

overfit同步小助手 2023-09-20 14:04:01 0 收藏

Pulsar的消费模式

Pulsar 提供了三种消费模式：独立消费者模式、共享订阅模式和发布订阅模式

overfit同步小助手 2023-09-20 14:03:32 0 收藏

Flink集群搭建

overfit同步小助手 2023-09-20 13:04:12 0 收藏

大数据——一文熟悉HBase

HBase是基于HDFS的数据存储，它建立在HDFS文件系统上面，利用了HDFS的容错能力，内部还有哈希表并利用索引，可以快速对HDFS上的数据进行随时读写功能。Hadoop在已经有一个Hive+MapReduce结构的数据读写功能，为什么还要HBase呢？我们在使用Hive的过程中也发现，MapR

overfit同步小助手 2023-09-20 11:04:06 0 收藏

解决Hadoop完全分布式集群中从节点jps没有datanode节点问题

也是进入这个目录，只不过namenode中的name文件在datanode是变为了data文件，即/tmp/dfs/data/current。当用start-dfs.sh和start-yarn.sh后，在slave节点(从节点)中用jps命令查看进程。有时候可能发现没有Datanode，即只有两项(

overfit同步小助手 2023-09-20 10:03:56 0 收藏

使用Kafka客户端(spring-kafka)的Java API操作Kafka的Topic

记录：458场景：在Spring Boot微服务集成Kafka客户端spring-kafka-2.8.2操作Kafka的Topic的创建和删除。

overfit同步小助手 2023-09-20 10:03:45 0 收藏

Rabbitmq在java中的使用

如果N个队列绑定到某个扇型交换机上，当有消息发送给此扇型交换机时，交换机会将消息的发送给这所有的N个队列。可以看到，ttl10s的比ttl40s的要30s接收到，之所以是被死信队列接收，是因为设置的 ttl 分别是10s 和 40s，所以刚好被死信队列接收。主题交换机（topic exchang

overfit同步小助手 2023-09-20 09:04:10 0 收藏

RabbitMQ与SpringBoot整合实践

2020年是一个转折点，现代化的信息社会已经开启了数字化进程，越来越多的人开始接受信息技术作为工作的一部分。相较于传统的技术岗位，人工智能、大数据、云计算领域的软件工程师更加需要具备实际项目应用能力、高超的计算机和通信基础知识，能够快速学习新技能。同时，互联网公司也越来越注重企业服务和IT架构建设，

overfit同步小助手 2023-09-20 09:04:00 0 收藏