大数据 - overfit.cn

Hive建表全攻略-从入门到精通

探索Apache Hive的强大功能！本文深入讲解Hive建表技巧、性能优化、安全管理和生态系统集成。从基础语法到高级特性，包括分区表、ORC存储、动态分区、查询优化等核心概念。学习如何处理数据倾斜、实现细粒度访问控制，以及与Spark、Kafka、HBase无缝集成。通过实战案例掌握构建高效数据仓

overfit同步小助手 2024-08-26 15:03:43 0 收藏

docker-compose部署kafka集群

用于测试、开发环境部署kafka集群，实际上也可以用于生产环境，但是需要调整kafka集群参数、镜像系统参数，以达到kafka运行的最佳环境。本例因为资源有限，在一台服务器上进行集群模拟安装。

overfit同步小助手 2024-08-26 14:03:51 0 收藏

【Hadoop】建立圈内组件的宏观认识（大纲版）

【Hadoop】建立圈内组件的宏观认识的大纲，属于精炼的概述性科普，后续会进行优化

overfit同步小助手 2024-08-26 14:03:36 0 收藏

Flink任务提交流程和运行模式

Flink的任务提交流程过程说明，Flink集群的运行模式及其下的任务部署模式

overfit同步小助手 2024-08-26 14:03:27 0 收藏

构建实时数据仓库：流式处理与实时计算技术解析

现在大数据应用比较火爆的领域，比如推荐系统在实践之初受技术所限，可能要一分钟、一小时、甚至更久才能对用户进行推荐，这远远不能满足需要，我们需要更快的完成对数据的处理，而不是进行离线的批处理。Lambda架构经历多年的发展，其优点是稳定，对于实时计算部分的计算成本可控，批量处理可以用晚上的时间来整体批

overfit同步小助手 2024-08-26 13:03:36 0 收藏

ZooKeeper 集群的详细部署

overfit同步小助手 2024-08-26 10:04:03 0 收藏

Kafka深入解析

overfit同步小助手 2024-08-26 10:03:53 0 收藏

Kerberos 认证介绍

Ticket（票据）：一个加密的证书，证明用户的身份并允许用户访问特定的服务。票据由 Kerberos 服务器（Key Distribution Center，KDC）颁发。KDC 是 Kerberos 认证系统的中心，包括两个主要的组件：Authentication Server (AS)：负责用

overfit同步小助手 2024-08-26 10:03:42 0 收藏

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程

上节研究SparkSQL的编码、测试、结果，输入输出，数据源包含Parquet、JSON、CSV、Avro、ORC、Hive、JDBC。本节研究SparkSQL的原理，包含Boradcost、Shuffle、SQL解析和执行的原理。在Spark的物理计划阶段，Spark的Join Selection

overfit同步小助手 2024-08-26 10:03:36 0 收藏

数据仓库系列 3：数据仓库的主要组成部分有哪些?

你是否曾经好奇过,当你在网上购物或使用手机应用时,背后的数据是如何被存储和分析的?答案就在数据仓库中。本文将为你揭开数据仓库的神秘面纱,深入探讨其核心组成部分,以及这些组件如何协同工作,将海量数据转化为有价值的商业洞察。

overfit同步小助手 2024-08-26 10:03:20 0 收藏

RabbitMQ 迁移

如果您只需要导出和导入RabbitMQ的定义（如vhost、exchange、queue等），可以使用RabbitMQ的 HTTP API。

overfit同步小助手 2024-08-26 09:03:47 0 收藏

防盗、防泄露、防篡改，我们把 ZooKeeper 的这种认证模式玩明白了

ZooKeeper 作为应用的核心中间件在业务流程中存储着敏感数据，具有关键作用。正确且规范的使用方法对确保数据安全至关重要，否则可能会因操作不当而导致内部数据泄露，进而带来严重的安全风险。

overfit同步小助手 2024-08-26 09:03:42 0 收藏

大数据-100 Spark 集群 Spark Streaming DStream转换黑名单过滤的三种实现方式

上节研究了Spark Streaming 基础数据源，文件流、Socket流、RDD队列流等内容，基础概念、代码实例等等。本节研究DStream的转换，同时附带一个黑名单过滤业务的实现案例，包含三种实现的方式。一个功能强大的函数，它可以允许开发者直接操作其内部的RDD，也就是说开发者，可以任意提供

overfit同步小助手 2024-08-26 09:03:29 0 收藏

大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流

上节研究了SparkStreaming基础概述、架构概念、编程模型、优缺点概括等内容。本节研究Spark Streaming DStream 文件数据数据流、Socket、RDD队列流等内容。每秒创建一个RDD（RDD存放1-100的整数），Streaming每隔1秒就对数据进行处理，计算RDD中数

overfit同步小助手 2024-08-26 08:03:14 0 收藏

探秘Fast Modeling Language：打造高效数据仓库的利器

探秘Fast Modeling Language：打造高效数据仓库的利器 fast-modeling-language阿里云计算平台DataWorks(https://help.aliyun.com/document_detail/276018.html) 团队出品，快速建模语言项目地址:https

overfit同步小助手 2024-08-26 05:03:50 0 收藏

你知道Kafka和Redis的各自优缺点吗？一文带你优化选择，不走弯路

按照上面的过程，4个月的时间刚刚好。当然Java的体系是很庞大的，还有很多更高级的技能需要掌握，但不要着急，这些完全可以放到以后工作中边用别学。学习编程就是一个由混沌到有序的过程，所以你在学习过程中，如果一时碰到理解不了的知识点，大可不必沮丧，更不要气馁，这都是正常的不能再正常的事情了，不过是“人同

overfit同步小助手 2024-08-26 03:03:44 0 收藏

Spark基础

spark基础

overfit同步小助手 2024-08-26 02:04:00 0 收藏

Docker搭建kafka和StarRocks的问题

本地搭建kafka遇到的问题，学习分享，贴出的错误提示用于搜索引擎，让大家方便搜索

overfit同步小助手 2024-08-26 02:03:52 0 收藏

Doris Connector 结合 Flink CDC 实现 MySQL 分库分表

FLink CDC分库分表

overfit同步小助手 2024-08-26 02:03:43 0 收藏

压滤机行业领军者-兴源环保亮相2024上海生物发酵系列展

2024第13届国际生物发酵产品与技术装备展览会（上海）于8月7-9日在上海新国际博览中心盛大召开，全方面展示：生物发酵、生物技术、生物合成学、医药、生物制药、生物工程、细胞工程、基因工程、生物药、食品工业、啤酒饮料、化工、节能装备、环保等行业新技工艺、新技术、新装备，提供一站式解决方案！公司以

overfit同步小助手 2024-08-26 02:03:19 0 收藏