大数据技术之Hadoop(MapReduce核心思想和工作流程)
文章目录MapReduce 核心思想MapReduce工作流程MapReduce 核心思想MapReduce分为Map阶段和Reduce阶段。Map阶段:前两个MapTask对黄色的区域进行统计,最后一个MapTask对灰色区域进行统计,Map阶段先将数据读到内存,之后对数据进行处理,按照空格将单词
Hive--时间函数大全
hive时间函数1. current_date():获取当前格式化日期2. current_timestamp():获取当前格式化时间3. unix_timestamp():获取当前unix时间戳4. from_unixtime():把unix时间戳转化为格式化时间5. to_date(): 当前格
数据湖概念(一)
数据湖概念一、什么是数据湖数据湖是一个集中式的存储库,允许你以任意规模存储多个来源、所有结构化和非结构化数据,可以按照原样存储数据,无需对数据进行结构化处理,并运行不同类型的分析对数据进行加工,例如:大数据处理、实时分析、机器学习,以指导做出更好地决策。二、大数据为什么需要数据湖当前基
数据仓库搭建ODS层
其他内容请关注我的博客!在<项目>专栏里!!!目录一、用户行为数据1.1创建日志表1.2ODS层加载数据脚本二、业务数据2.1hive建表2.2ODS层加载数据脚本一、用户行为数据1.1创建日志表1)创建支持lzo压缩的分区表drop table if exists ods_log;CR
hadoop启动集群之后没有namenode的一种情况
先说结论吧,一般在网上搜索这个问题都是让重新格式化namenode(当然,格式化之前要记得清空namenode和DataNode文件夹)。但是对于我之前遇到的问题却没法解决。我的做法是:检查你的hadoop的配置文件是否填写正确,我的hadoop的hdfs-site.xml中的主机IP地址未填写正确
大数据框架综合实验作业
1、数据raw_user.csv:完整用户数据,记录2000万左右(见网盘-实验步骤-综合案例1数据)small_user.csv:子集,方便测试,记录30万条我们用small_user.csv这个小数据集进行实验,这样可以节省时间。等所有流程都跑通以后,可以使用大数据集raw_user.csv去测
【大数据】Hive基础知识
Hive基础知识1.Hive 有哪些特点?Hive 最适合于数据仓库应用程序,使用该应用程序进行相关的静态数据分析,不需要快速响应给出结果,而且数据本身不会频繁变化。Hive 不是一个完整的数据库。Hadoop 以及 HDFS 的设计本身约束和局限性的限制了 Hive 所能胜任的工作。其中最大的限制
尚硅谷大数据技术之Hadoop(MapReduce)
文章目录MapReduce定义MapReduce核心思想WordCount案例Hadoop序列化MapReduce框架原理InputFormat数据输入MapReduce定义MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核
大数据入门学习指南
大数据入门学习指南前情提要大数据入门核心技术栏目刚打造出来没多久,内容十分丰富,集合将近200篇高质文章带你轻松入门。但是由于文章很多,集合很多不同系列的知识点,在栏目里面难以标注顺序,这次博主花时间整理一份详细的学习指南,对于新手是非常友好的。只要跟着学,想进入大数据做开发是很容易的,前提你得自律
Hadoop之实战WordCount
大致流程如下:第一步:开发Map阶段代码第二步:开发Reduce阶段代码第三步:组装Job在idea中创建WordCountJob类添加注释,梳理一下需求:需求:读取hdfs上的hello.txt文件,计算文件中每个单词出现的总次数hello.txt文件内容如下:hello youhello me最
熟悉常用的HBase操作
HBase是一个分布式的、面向列的开源数据库,源于Google的一篇论文《BigTable:一个结构化数据的分布式存储系统》。HBase以表的形式存储数据,表有行和列组成,列划分为若干个列族/列簇(column family)。欲了解HBase的官方资讯,请访问[HBase官方网站](http://
ubuntu上配置好hadoop后,运行MapReduce
ubuntu上配置好hadoop环境后,运行官网MapReduce教程。
统计全球每年的最高气温和最低气温
文章目录数据准备1.下载数据2.处理数据一、统计全球每年的最高气温和最低气温1.YearMaxTAndMinT2.Mapper:MaxTAndMinTMapper3.Combiner:MaxTAndMinTCombiner4.Reducer:MaxTAndMinTReducer5.运行代码:MaxT
【Hadoop伪分布式安装】之安装JDK如何通过WinSCP将JDK上传到CentOS
文章目录前言一、WinSCP将JDK上传到CentOS1. WinSCP连接CentOS2. 连接成功3. 上传jdk-8u211-linux-x64.tar二、安装JDK1. 未上传JDK时,CentOS的/usr/java目录里面啥都没有2. 上传JDK成功可查看到jdk-8u211-linux
如何构建、部署运行Flink程序。
一、构建Flink程序构建一个Flink程序有两种方式# 方式一:构建 maven 工程,导入流式应用依赖包<!-- 基础依赖 --><dependency&.
【Hadoop伪分布式安装】之安装PieTTY
文章目录系列文章1. 下载PieTTY2. 运行文件,输入CentOS 7的ip地址3. 查看CentOS的ip地址4. PieTTY登录CentOS系列文章【Hadoop伪分布式安装】之配置CentOS1. 下载PieTTY在网上找到安装包直接下载2. 运行文件,输入CentOS 7的ip地址如果
【Hadoop伪分布式安装】之配置CentOS
文章目录配置CentOS一、修改主机名二、配置hosts文件1. vi编辑/etc/hosts2.在文件末尾添加一行配置CentOS一、修改主机名[eva@bogon ~]$ su #切换root模式密码:[root@bogon eva]# hostname hadoop
hbase的啥子日子问题
这个是最开始的数据:乱七八糟的,要取出其中的一些,类似这些其中毫秒级的时间数据要转为时间戳spark先过滤出要取的数据package sparkj;import java.text.SimpleDateFormat;import java.util.Arrays;import java.util.r
Docker 上部署一主两从Hadoop集群 | [Centos7]
本文目录写在前面配置前须知集群规划step1 开启docker拉取镜像step2 创建容器step3 免密登录配置1. ip查看2. 设置主机名3. 主机名与ip地址映射4. 免密登录5. 免密登录效果***bug fix1.0 /etc/hosts修改完成后重启容器失效step4 关闭防火墙ste
推荐系统(5)——Hadoop完全分布式(开发重点)
开发重点,Hadoop完全分布式搭建1. 将hadoop100上的拷贝到101和102上2. ssh免密登录 3. 集群配置 4.制作并使用xsync分发脚本(可忽略) 5. 群起集群并测试1. 将hadoop100上的拷贝到101和102上 (1)scp(secure co