大数据 - overfit.cn

一文搞懂在Linux下使用Docker快速部署Kafka服务

由于Kafka依赖Zookeeper实现高可用性和一致性，Zookeeper为Kafka提供了关键的分布式协调服务，因此部署Kafka必须先部署Zookeeper集群作为基础

overfit同步小助手 2024-02-24 10:03:19 0 收藏

【Kafka】服务器Broker与Controller详解

Kafka服务器Broker与Controller详解

overfit同步小助手 2024-02-24 07:03:40 0 收藏

hive数据库分区表数据迁移到另一个分区/数据复制

overfit同步小助手 2024-02-24 07:03:23 0 收藏

HBase相关面试准备问题

hbase相关内容

overfit同步小助手 2024-02-24 07:03:15 0 收藏

STM32环形串口队列程序大数据串口收发实时不丢包

摘要：本文介绍了一种基于STM32的环形串口队列程序，该程序能够实现大数据量的串口收发，采用中断接收、边收边发的方式，并采用大数据环形队列来处理数据，保证了处理过程的高效性和数据的完整性。为了解决这些问题，本文提出了一种基于STM32的环形串口队列程序，通过充分利用中断接收和大数据环形队列，实现了大

overfit同步小助手 2024-02-24 06:03:44 0 收藏

香港科技园公司董事车品觉：探秘大数据背后的大语言模型世界

大数据产业创新服务媒体——聚焦数据· 改变商业在数字时代的大舞台上，大数据与大语言模型的交汇如同星辰般璀璨，勾勒出创新之路的奇妙轨迹。这两者的完美契合不仅是科技领域的巨大突破，更是创新之路的重要交汇点。作为大数据领域的一位先锋者，香港科技园公司董事、太平绅士、香港特区政府数字经济发展委员会委员车品觉

overfit同步小助手 2024-02-24 05:03:39 0 收藏

在docker上启动了rabbitmq容器，却无法访问到其web界面原因！

1.有可能是因为防火墙以及端口未开放的原因，这里本人使用的是云服务器的dockers进行部署，因此只需要在图示出添加相对应的端口：5672 15672。2.在宝塔开启了相对应的端口之后，记得要去对应的服务器再次开启，比如我的是阿里云的服务器，我需要去阿里云服务器再次开启我的端口。3.如果你完成了以

overfit同步小助手 2024-02-24 05:03:32 0 收藏

python毕设选题 - 大数据二手房数据爬取与分析可视化 -python 数据分析可视化

# 1 前言🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩 基于大数据招聘岗位数据分析

overfit同步小助手 2024-02-24 03:03:48 0 收藏

大数据Doris（二十）：数据导入（Broker Load）介绍

用户在递交导入任务后，FE（Doris系统的元数据和调度节点）会生成相应的PLAN（导入执行计划，BE会导入计划将输入导入Doris中）并根据BE（Doris系统的计算和存储节点）的个数和文件的大小，将PLAN分给多个BE执行，每个BE导入一部分数据。其中 nn 表示 dfs.ha.namenode

overfit同步小助手 2024-02-24 03:03:38 0 收藏

RabbitMQ详解与实战(绝对足够惊喜)

感谢相遇，一起努力！！！

overfit同步小助手 2024-02-24 02:03:14 0 收藏

【手写数据库toadb】toadb表对象访问操作，存储管理抽象层软件架构设计思想应用

手写数据库内核，带大家从零开始写出属于自己的数据库，看似很庞大的数据库系统，经过对核心模块的提取精简，不论是刚学会编程还是有理论基础的你，都会不会感到困难，造自己的轮子，提升项目综合能力，让自己的简历更加丰富。

overfit同步小助手 2024-02-24 01:03:50 0 收藏

Hive核心优化

分桶就是分文件, 在创建表的时候, 指定分桶字段, 并设置分多少个桶, 在添加数据的时候, hive会根据设置分桶字段, 将数据划分到N个桶(文件)中, 默认情况采用HASH分桶方案 , 分多少个桶, 取决于建表的时候, 设置分桶数量, 分了多少个桶最终翻译的MR也就会运行多少个reduce程序(H

overfit同步小助手 2024-02-23 23:03:51 0 收藏

能源大数据：实现能源产业的竞争优势

1.背景介绍能源大数据是一种利用大数据技术来分析、处理和优化能源产业的方法。在过去的几年里，能源产业面临着巨大的挑战，如能源供应的不稳定、能源价格的波动、环境污染等。这些问题使得能源产业需要更有效、更智能的方法来管理和优化其业务。大数据技术为能源产业提供了一种新的解决方案，通过对海量数据的分析和处理

overfit同步小助手 2024-02-23 22:03:50 0 收藏

HBase与Kafka集成与实时处理

1.背景介绍1. 背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。它是Hadoop生态系统的一部分，可以与HDFS、ZooKeeper等组件集成。HBase以列式存储结构设计，适用于读写密集型工作负载，具有高吞吐量和低延迟。Kafka是一个分布式

overfit同步小助手 2024-02-23 22:03:46 0 收藏

面试系列之《Spark》（持续更新...）

根据分区之间是否产生shuffle来确定宽依赖：上游一个分区的数据被打散到下游的多个分区，1:N窄依赖：上游一个分区的数据全部进入到下游的一个分区，1:1 or N:1。

overfit同步小助手 2024-02-23 22:03:21 0 收藏

【hive】列转行—collect_set()/collect_list()/concat_ws()函数的使用场景

overfit同步小助手 2024-02-23 21:03:50 0 收藏

Zookeeper系列（一）集群搭建（非容器）

Zookeeper是一个开源的分布式协调服务，其设计目标是将那些复杂的且容易出错的分布式一致性服务封装起来，构成一个高效可靠的原语集，并以一些简单的接口提供给用户使用。ZooKeeper 背后的动机是减轻分布式应用程序从头开始实现协调服务的责任。Zookeeper是一个典型的分布式数据一致性的解决方

overfit同步小助手 2024-02-23 20:03:49 0 收藏

【kafka实战】03 SpringBoot使用kafka生产者和消费者示例

本节主要介绍用SpringBoot进行开发时，使用kafka进行生产和消费。

overfit同步小助手 2024-02-23 20:03:38 0 收藏

大数据毕设分享大数据二手房数据爬取与分析可视化 -python 数据分析可视化