大数据 - overfit.cn

数据湖Iceberg介绍和使用(集成Hive、SparkSQL、FlinkSQL)

为了解决数据存储和计算引擎之间的适配的问题，Netflix开发了Iceberg，2018年11月16日进入Apache孵化器，2020 年5月19日从孵化器毕业，成为Apache的顶级项目。Iceberg是一个面向海量数据分析场景的开放表格式（Table Format）。表格式（Table Form

overfit同步小助手 2023-09-05 13:04:24 0 收藏

c# MES 对接之二(MQTT、Restful、RabbitMQ）

/ 创建RabbitMQ通道。// 注册消息接收事件。// 创建HttpClient实例。// 创建RabbitMQ连接工厂。// 创建RabbitMQ连接。// 创建MQTT客户端实例。// 连接到MQTT服务器。// 注册消息接收事件。// 发送GET请求。

overfit同步小助手 2023-09-05 13:03:52 0 收藏

消息队列前世今生字节跳动 Kafka #创作活动

我们对以上两个问题进行总结，第一，因为有数据复制的问题，所以Kafka运维的时间成本和人力人本都不低第二，对于负载不均衡的场景，我们需要有一个较为复杂的解决方案进行数据迁移，从而来权衡IO升高的问题除了以上两个问题以外，Kafka自身还存在其他的问题比如，Kafka没有自己的缓存，在进行数据读取的时

overfit同步小助手 2023-09-05 13:03:39 0 收藏

Hive on Spark环境搭建

Hive 引擎包括：默认 MR、tez、spark最底层的引擎就是MR （Mapreduce）无需配置，Hive运行自带Hive on Spark：Hive 既作为存储元数据又负责 SQL 的解析优化，语法是 HQL 语法，执行引擎变成了 Spark，Spark 负责采用 RDD 执行。Spark

overfit同步小助手 2023-09-05 12:04:04 0 收藏

Kafka怎么保证数据不丢失，不重复

Kafka是一个分布式消息队列系统，具有高可靠性、高性能和高扩展性等特点。在数据传输过程中，Kafka采用了多种措施来保证数据的可靠性，包括数据复制、数据持久化、数据备份等。本文将从各个阶段深入分析Kafka如何保证数据不丢失、不重复，并提供代码实例来验证过程。

overfit同步小助手 2023-09-05 11:04:27 0 收藏

kafka：broker、producer、consumer常用配置

摘要 kafka参数官方文档为：https://kafka.apache.org/documentation/#producerconfigs，这里记下常用配置。broker 我们在kafka官网下载的文件比如kafka_2.11-2.4.0.tgz解包启动后就是就是kafka节点，主要

overfit同步小助手 2023-09-05 10:04:33 0 收藏

实战：彻底搞定 SpringBoot 整合 Kafka

kafka是一个消息队列产品，基于Topic partitions的设计，能达到非常高的消息发送处理性能。Spring创建了一个项目Spring-kafka，封装了Apache 的Kafka-client，用于在Spring项目里快速集成kafka。除了简单的收发消息外，Spring-kafka还提

overfit同步小助手 2023-09-05 10:04:10 0 收藏

Docker中搭建RabbitMQ集群

新版本已经不建议通过环境变量设置 Erlang Cookie 了，建议在 home 目录下新建 .erlang.cookie 文件，在每个节点的 .erlang.cookie 写入一致的字符串，注意 .erlang.cookie 文件的权限应该为 400。引入镜像队列(Mirror Queue)的

overfit同步小助手 2023-09-05 10:03:59 0 收藏

zookeeper的部署

存储的分类块存储文件存储 nfs lvm raid对象存储 gfs ceph fastdfs oss s3gfs是一种开源的分布式存储文件系特点高性能高可用统一命名空间弹性卷管理基于协议分布式卷将内容散列在磁盘中不具有冗余能力 2个磁盘条带卷将内容切片以轮询的方式保存在磁盘中 2

overfit同步小助手 2023-09-05 09:03:34 0 收藏

kafka-保证数据不重复-生产者开启幂等性和事务的作用？

1.生产者开启幂等性为什么能去重

overfit同步小助手 2023-09-05 08:04:21 0 收藏

基于 Zookeeper 实现服务注册和服务发现

无论是采用SOA还是微服务架构，都需要使用服务注册和服务发现组件。我刚开始接触 Dubbo 时一直对服务注册/发现以及 Zookeeper 的作用感到困惑，现在看来是因为对分布式系统的理解不够深入，对 Dubbo 和 Zookeeper 的工作原理不够清楚。本文将基于 Zookeeper 实现服务注

overfit同步小助手 2023-09-05 08:04:00 0 收藏

2023_Spark_实验二：IDEA安装及配置

windows 安装idea，并配置scala插件

overfit同步小助手 2023-09-05 08:03:50 0 收藏

Flink系列之：动态发现新增分区

overfit同步小助手 2023-09-05 06:04:16 0 收藏

大数据之linux入门

开发者是林纳斯-托瓦兹，出于个人爱好编写。linux是一个基于posix和unix的多用户、多任务、支持多线程和多CPU的操作系统。

overfit同步小助手 2023-09-05 06:03:56 0 收藏

一文读懂Zookeeper

集中式系统，集中式系统中整个项目就是一个独立的应用，整个应用也就是整个项目，所有的东西都在一个应用里面。部署到一个服务器上。布署项目时，放到一个tomcat里的。也称为单体架构原生Java API（不推荐使用） ZooKeeper 原生Java API位于org.apache.ZooK

overfit同步小助手 2023-09-05 05:04:19 0 收藏

【大数据毕设】基于Hadoop的招聘网站可视化的设计与实现(一)

由于近些年互联网的飞速发展，我们所生活的世界正在被数据所淹没，人们面对大量的数据需要从大量数据中快速地提取有效的自己需要的信息。对于求职者来说当查看招聘信息时也是这样，面对招聘网站展示的大量的职位信息，应聘者难以及时选出自己最想要的职位信息，又或者筛选出信息后不能直观地看到招聘所有信息的特征、规律、

overfit同步小助手 2023-09-05 05:04:03 0 收藏

Cloudera Manager报错汇总

overfit同步小助手 2023-09-05 01:04:26 0 收藏

kettle安装、MySQL数据库连接、报错处理

跟kettle斗智斗勇的一下午，下面是我踩过的一些坑，希望对大家在安装配置kettle时有所帮助，首先放一张我成功的截图：

overfit同步小助手 2023-09-05 00:04:17 0 收藏

黑马旅游案例(包括搜索，分页，广告置顶)中使用 elasticsearch 7.17.9 Java API

本人在学习黑马 SpringCloud 的 es 部分时发现老师用的是es的高级客户端来操作es的，而高级客户端已经显示弃用，上网搜索发现关于新的 Java client API 只有基础的索引、文档操作，没有关于这种稍复杂案例的操作，于是自己琢磨整理了一份笔记，也为其他学习最新的 es 的小伙伴

overfit同步小助手 2023-09-04 23:05:24 0 收藏

SpringBoot + Mybaits 处理百万数据，内存溢出？不存在的！

springboot + mybaits 对数据库进行百万级别大数据量读取，并对这些数据进行操作，应用能顶得住吗？

overfit同步小助手 2023-09-04 23:05:13 0 收藏