大数据 Hadoop - overfit.cn

Kafka是由Apache软件基金会开发的一个开源流处理平台,它使用Scala和Java语言编写，是一个基于Zookeeper系统的分布式发布订阅消息系统，该项目的设计初衷是为实时数据提供一个统一、高通量、低等待的消息传递平台。①、Kafka的众多优点：其优点具体：(1)解耦。Kafka 具备消息系

overfit同步小助手 2022-10-15 08:02:36 0 收藏

hive窗口函数极速入门及在拉链表上的运用案例

hive开窗函数

overfit同步小助手 2022-10-13 07:07:30 0 收藏

[Spark、hadoop]DStream的窗口操作、输出操作、实例——实现网站热词排序

Dstream(Discretized Stream)是Spark Streaming数据的基本传输单位。它表示一个连续的数据流,这个数据流可以是原始的数据输入流,也可以是将原始的数据输入流通过转换生成已处理的数据输入流特点1、Spark Streaming对流数据按秒/分等时间间隔进行微批划分,每

overfit同步小助手 2022-10-13 07:07:23 0 收藏

大数据面试题汇总【持续更新】

【持续更新】大数据面试题汇总（ZooKeeper、Hadoop、HDFS、MapReduce、YARN和Hive常见面试题）

overfit同步小助手 2022-10-12 07:07:15 0 收藏

【Apache Spark 】第 1 章Apache Spark 简介：统一分析引擎

本章列出了 Apache Spark 的起源及其基本理念。它还调查了项目的主要组件及其分布式架构。如果您熟悉 Spark 的历史和高级概念，可以跳过本章。

overfit同步小助手 2022-10-11 07:22:43 0 收藏

【Hadoop技术篇】hive的优化，经典面试

hive的优化，经典面试

overfit同步小助手 2022-10-11 07:22:37 0 收藏

大数据之Hadoop3简单入门（一）（通俗易懂）

2.1.1 概念hadoop是一个分布式系统基础架构，主要解决数据存储与海量分析计算的问题，广泛来说，hadoop通常指的是Hadoop生态圈。2.1.2 hadoop优势主要分为4个方面。高可靠性：hadoop底层维护多个数据副本，即使当hadoop某个计算元素或存储出现故障，也不会导致数据丢失。

overfit同步小助手 2022-10-10 10:22:40 0 收藏

【Hadoop技术篇】YARN 作业执行流程

yarn的作业执行流程

overfit同步小助手 2022-10-09 07:51:17 0 收藏

基于antlr-3.5.2+Python实现一般HiveSQL血缘解析(一)

作为一个开发实践项目，实现对HiveSQL语句的解析可以很有效的作为管理用户查询权限的管理。对于这方面的知识本身也不是非常熟悉了解，很多时候也是边学边记。身边也没有人指导这个方案具体该怎么实现怎么做，只有需求是要将复杂查询或者是关联建表的SQL语句能够将其库名和表名全都给提取出来并且能够实现上下游的

overfit同步小助手 2022-10-09 07:51:15 0 收藏

hadoop伪分布式集群搭建（超详细）

hadoop伪分布式集群搭建适合初学

overfit同步小助手 2022-10-07 10:51:39 0 收藏

大数据Presto（一）：Presto介绍

一、Presto出现背景Presto是Facebook在2012年开发的，是专为Hadoop打造的一款数据仓库工具。在早期Facebook依赖Hive做数据分析，Hive底层依赖MapReduce，随着数据量越来越大，使用Hive进行数据分析，时间可能需要分钟级到小时级别

overfit同步小助手 2022-10-07 10:51:22 0 收藏

【Flink】flink的安装部署（1）

Flink集群的搭建，local，standalone，flink on yarn。

overfit同步小助手 2022-10-05 13:55:54 0 收藏

【Flink】flink入门案例（2）

flink入门案例，flink wordcount单词计数

overfit同步小助手 2022-10-05 13:55:47 0 收藏

Hadoop大数据平台搭建环境提供虚拟机相关配置

我把已经搭建好的虚拟机环境放在了百度网盘上，需要的同学自取即可。

overfit同步小助手 2022-10-05 13:55:44 0 收藏

HDFS的API操作

Hadoop完全分布式集群搭建 centos 6.5（保姆级教程）

Linux下编写shell脚本一键启动HBase

想了解流计算？你必须得看一眼，实现Flink on Yarn的三种部署方式，并运行wordcount计算任务

Hive group by 数据倾斜问题处理

Hadoop2.0高可用集群搭建【保姆级教程】

[Spark、hadoop]Spark Streaming整合kafka实战