大数据 - overfit.cn

大数据-74 Kafka 高级特性稳定性 - 控制器、可靠性副本复制、失效副本、副本滞后多图一篇详解

上节研究了Kafka的事务相关配置、幂等性、Java实现仅保证一次发送的方案等等。本节我们研究Kafka稳定性-控制器、可靠性副本复制、失效副本、副本滞后内容。Kafka集群包含若干个Broker，broker.id 指定broker的编号，编号不要重复。Kafka集群上创建的主题，包含若干个分区

overfit同步小助手 2024-08-13 17:03:16 0 收藏

69、Flink 的 DataStream Connector 之 Kafka 连接器详解

Flink 的 DataStream Connector 之 Kafka 连接器详解

overfit同步小助手 2024-08-13 16:03:33 0 收藏

基于大数据+爬虫的高校毕业生就业信息可视化系统设计与实现

今天带来的是高校毕业生就业信息可视化系统设计与实现，随着信息技术的迅猛发展，大数据已经渗透到各行各业，对就业市场也产生了深远的影响。高校毕业生作为就业市场的重要参与者，其就业信息的管理和匹配成为了一个亟待解决的问题。传统的就业信息管理方式往往存在数据分散、处理效率低下、信息匹配不准确等问题，难以满足

overfit同步小助手 2024-08-13 15:03:49 0 收藏

Kafka基本讲解

Kafka是，主要设计用于高吞吐量的数据处理和消息传输，适用于日志处理、实时数据管道等场景。，用于收集、缓存和分发实时数据流，支持复杂的实时数据处理，实时需求分析，实时报表等应用。

overfit同步小助手 2024-08-13 15:03:45 0 收藏

Scala 和 Spark 大数据分析（一）

原文：zh.annas-archive.org/md5/39EECC62E023387EE8C22CA10D1A221A译者：飞龙协议：CC BY-NC-SA 4.0前言数据持续增长，加上对这些数据进行越来越复杂的决策的需求，正在创造巨大的障碍，阻止组织利用传统的分析方法及时获取洞察力。大数据领域与

overfit同步小助手 2024-08-13 14:03:43 0 收藏

什么是RabbitMQ？RabbitMQ有什么优点？我们该如何使用呢

RabbitMQ是一个开源的消息代理软件，也称为面向消息的中间件。它实现了高级消息队列协议（AMQP），由Erlang语言编写，旨在提供高性能、健壮以及可伸缩性的消息队列服务。RabbitMQ在分布式系统开发中应用广泛，支持多种操作系统和编程语言，如Linux、Windows、macOS等操作系统，

overfit同步小助手 2024-08-13 14:03:16 0 收藏

【ELK+Kafka+filebeat分布式日志收集】分布式日志收集详解

分布式日志收集是一种用于在分布式系统中收集、聚合、存储和分析日志数据的技术。随着系统规模的扩大和分布式架构的普及，单节点的日志收集和处理方案已经难以满足需求。因此，分布式日志收集系统应运而生。

overfit同步小助手 2024-08-13 12:03:37 0 收藏

数据仓库: 2- 数据建模

星型模型是一种简单、高效的数据仓库设计模型, 使用与各种数据分析和商业智能应用;其易于理解、查询性能高和易于扩展的特性使其成为构建数据仓库的首选方案之一;雪花模型是一种数据库设计模型, 其中维度表被进一步规范化, 形成多层结构, 看起来像雪花的形状;事实表和维度表的设计是数据仓库建设的基础, 需要根

overfit同步小助手 2024-08-13 11:03:52 0 收藏

Python中高效处理大数据的几种方法

Pandas是Python中一个强大的数据分析库，提供了快速、灵活和表达式丰富的数据结构，旨在使“关系”或“标签”数据的处理既简单又直观。Pandas非常适合于处理表格数据，如CSV、Excel等。NumPy是Python的一个库，支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库

overfit同步小助手 2024-08-13 11:03:47 0 收藏

md5加密spark-md5

原因：大文件一次性计算Md5有时会遇到卡死现象或者没有响应，原因是FileReader是 JavaScript 中用于读取文件内容的 API,在使用FileReader读取大文件(大于4G)时，它将整个文件加载到内存中进行处理，而大文件可能会超出浏览器的内存限制，导致浏览器崩溃或运行缓慢。因此，对于

overfit同步小助手 2024-08-13 11:03:21 0 收藏

rabbitmq 之无法自动创建队列的问题

rabbitmq无法自动创建队列的问题

overfit同步小助手 2024-08-13 10:03:28 0 收藏

Kafka Client客户端操作详解

Kafka 客户端详细属性介绍

overfit同步小助手 2024-08-13 06:03:46 0 收藏

RabbitMQ —— 理解及应用场景

overfit同步小助手 2024-08-13 06:03:33 0 收藏

Eureka介绍与使用

Eureka是一个在大数据领域中非常重要的组件，通常与微服务架构和云计算环境相结合使用。它主要是一个服务发现平台，能够帮助开发者在分布式系统中快速定位和访问服务。服务注册与发现：Eureka允许服务实例在启动时向Eureka服务器注册，并在失活时注销。其他服务可以通过Eureka服务器来发现这些注册

overfit同步小助手 2024-08-13 05:03:35 0 收藏

kafka 由浅入深

kafka从浅入深讲解原理

overfit同步小助手 2024-08-13 04:03:41 0 收藏

大数据中的电商数仓项目：探秘业务的核心

电商数仓系统不仅仅是一个数据存储和处理的系统，更是电商平台背后的“智慧大脑”。通过对海量数据的高效管理和深入分析，数仓系统为电商业务的各个环节提供了强有力的支持，让电商平台能够更加高效、精准地运营。在这个大数据时代，电商数仓的作用无疑是至关重要的。未来，随着技术的发展，电商数仓将会变得更加智能化和高

overfit同步小助手 2024-08-13 03:03:42 0 收藏

flink standalone部署模式

flink standalone

overfit同步小助手 2024-08-13 03:03:23 0 收藏

如何学习Linux：糙快猛的大数据之路（只讲大数据开发用到的）

想要快速掌握Linux和大数据技能？本文介绍"糙快猛"学习法，助你从入门到精通！涵盖Linux基础、Shell脚本、系统优化到Hadoop、Spark等大数据技术。通过实际案例和高级故障排除指南，让你迅速应对工作挑战。还有性能调优、容器化、监控日志等进阶主题，以及最新的边缘计算、服务网格技术。无论你

overfit同步小助手 2024-08-13 03:03:20 0 收藏

Hive的数据库表操作以及数据上传

关于hive的安装、基本的知识，以及hive中数据库表操作等学习练习笔记

overfit同步小助手 2024-08-13 02:03:52 0 收藏

大数据架构：数据库、数据湖、数据仓库、数据集市、湖仓一体、数据中台

数据库、数据湖、数据仓库、数据集市、湖仓一体、数据中台

overfit同步小助手 2024-08-13 02:03:49 0 收藏