[Spark、hadoop]DStream的窗口操作、输出操作、实例——实现网站热词排序

Dstream(Discretized Stream)是Spark Streaming数据的基本传输单位。它表示一个连续的数据流,这个数据流可以是原始的数据输入流,也可以是将原始的数据输入流通过转换生成已处理的数据输入流特点1、Spark Streaming对流数据按秒/分等时间间隔进行微批划分,每

大数据面试题汇总【持续更新】

【持续更新】大数据面试题汇总(ZooKeeper、Hadoop、HDFS、MapReduce、YARN和Hive常见面试题)

【Apache Spark 】第 1 章Apache Spark 简介:统一分析引擎

本章列出了 Apache Spark 的起源及其基本理念。它还调查了项目的主要组件及其分布式架构。如果您熟悉 Spark 的历史和高级概念,可以跳过本章。

【Hadoop技术篇】hive的优化,经典面试

hive的优化,经典面试

大数据之Hadoop3简单入门(一)(通俗易懂)

2.1.1 概念hadoop是一个分布式系统基础架构,主要解决数据存储与海量分析计算的问题,广泛来说,hadoop通常指的是Hadoop生态圈。2.1.2 hadoop优势主要分为4个方面。高可靠性:hadoop底层维护多个数据副本,即使当hadoop某个计算元素或存储出现故障,也不会导致数据丢失。

【Hadoop技术篇】YARN 作业执行流程

yarn的作业执行流程

基于antlr-3.5.2+Python实现一般HiveSQL血缘解析(一)

作为一个开发实践项目,实现对HiveSQL语句的解析可以很有效的作为管理用户查询权限的管理。对于这方面的知识本身也不是非常熟悉了解,很多时候也是边学边记。身边也没有人指导这个方案具体该怎么实现怎么做,只有需求是要将复杂查询或者是关联建表的SQL语句能够将其库名和表名全都给提取出来并且能够实现上下游的

hadoop伪分布式集群搭建(超详细)

hadoop伪分布式集群搭建适合初学

大数据Presto(一):Presto介绍

一、​​​​​​​​​​​​​​Presto出现背景Presto是Facebook在2012年开发的,是专为Hadoop打造的一款数据仓库工具。在早期Facebook依赖Hive做数据分析,Hive底层依赖MapReduce,随着数据量越来越大,使用Hive进行数据分析,时间可能需要分钟级到小时级别

【Flink】flink的安装部署(1)

Flink集群的搭建,local,standalone,flink on yarn。

【Flink】flink入门案例(2)

flink入门案例,flink wordcount单词计数

Hadoop大数据平台搭建环境 提供虚拟机相关配置

我把已经搭建好的虚拟机环境放在了百度网盘上,需要的同学自取即可。

大数据ClickHouse进阶(十五):ClickHouse的LIMIT BY和 LIMIT子句

LIMIT BY 子句运行在Order by 之后和LIMIT 之前,能够按照指定分组,最多返回前n行数据,如果数据总行少于n行,则按实际数量返回,常用于TOPN的查询场景,功能类似Hive中的开窗函数。n指的是获取几条数据;express通常是一到多个字段,即按照express分组获取每个分组的前

CDH CDH 13Cloudera Manager Console FreeIPA 用户规划(markdown新版)

freeIPA用户团队权限规划

【大数据】Hadoop在呼唤Hive(附一键部署Hive脚本)

汝之观览,吾之幸也!本文主要讲解Hive部署到Hadoop集群并使用,结尾附一键部署Hive脚本

MapReduce课程设计-----好友推荐功能

MapReduce课程设计-----好友推荐功能,步骤详细且通俗易懂

Hadoop集群完全分布式搭建

hadoop集群分布式的搭建

大数据开发工程师是做什么的?岗位要求高吗?

大数据开发工程师是做什么的?岗位要求高吗?大数据开发工程师要负责数据仓库建设、ETL开发、数据分析、数据指标统计、大数据实时计算平台及业务开发、平台建设及维护等工作内容。熟练掌握数据仓库、hadoop生态体系、计算及二次开发、大数据平台工具的开发:开发平台、调度系统、元数据平台等工具,该岗位对于技术

客快物流大数据项目(七十八):Hue简介

HUE是一个开源的。

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈