大数据综合项目--网站流量日志数据分析系统(详细步骤和代码)
文章目录前言:基本概述Sqoop概述什么是SqoopFlume概述什么是Flume为什么需要flumeHIve概述什么是Hive系统背景:模块开发数据采集使用Flume搭建日志采集系统数据预处理实现数据预处理数据仓库开发数据导出日志分析系统报表展示前言:提示:这里简述我使用的版本情况:ubuntu1
hadoop-3.3.3完全分布式集群搭建
hadoop-3.3.3完全分布式集群搭建前言环境准备软件版本集群规划一、配置jdk环境变量1. 解压jdk2. 修改/etc/profile文件二、hadoop集群搭建1. 关闭防火墙2. 修改主机名3. 添加ip映射4. 配置免密登录5. 修改hadoop配置文件1. 解压2. 配置hadoop
数据仓库搭建ODS层
其他内容请关注我的博客!在<项目>专栏里!!!目录一、用户行为数据1.1创建日志表1.2ODS层加载数据脚本二、业务数据2.1hive建表2.2ODS层加载数据脚本一、用户行为数据1.1创建日志表1)创建支持lzo压缩的分区表drop table if exists ods_log;CR
hadoop启动集群之后没有namenode的一种情况
先说结论吧,一般在网上搜索这个问题都是让重新格式化namenode(当然,格式化之前要记得清空namenode和DataNode文件夹)。但是对于我之前遇到的问题却没法解决。我的做法是:检查你的hadoop的配置文件是否填写正确,我的hadoop的hdfs-site.xml中的主机IP地址未填写正确
大数据框架综合实验作业
1、数据raw_user.csv:完整用户数据,记录2000万左右(见网盘-实验步骤-综合案例1数据)small_user.csv:子集,方便测试,记录30万条我们用small_user.csv这个小数据集进行实验,这样可以节省时间。等所有流程都跑通以后,可以使用大数据集raw_user.csv去测
【Hadoop伪分布式安装】之安装PieTTY
文章目录系列文章1. 下载PieTTY2. 运行文件,输入CentOS 7的ip地址3. 查看CentOS的ip地址4. PieTTY登录CentOS系列文章【Hadoop伪分布式安装】之配置CentOS1. 下载PieTTY在网上找到安装包直接下载2. 运行文件,输入CentOS 7的ip地址如果
hive中的表操作
1,hive概述Hive是基于Hadoop的数据仓库,用于处理结构化的数据集,数据结构存在于MySQL,数据存在 HDFS。Hive可以将一个类似于sql的查询语句(HQL)翻译成MR程序,将job提交给HDFS进行查询 时,hive把HDFS上的一个目录映射成一张Hive表,在查询的时候就是把jo
超详细的基于docker搭建hadoop集群
基于Docker搭建Hadoop集群
Hadoop快速入门——入门考试(伪分布式60+编码25+执行jar15)
Hadoop快速入门——入门考试(伪分布式60+编码25+执行jar15)1、创建1台Linux虚拟机,并打开对应的网络连接(VMnet8)(5分)2、通过xshell正确连接Linux虚拟机(5分)3、在【/opt/】文件夹下上传【java】以及【hadoop】压缩包(5分)4、解压【java】以
Hadoop快速入门——第四章、zookeeper(集群)
Hadoop快速入门——第四章、zookeeper集群前置条件:配置ssh免密登录&hadoop分布式1、上传【zookeeper-3.4.6.tar.gz】文件2、解压文件tar -zxvf zookeeper-3.4.6.tar.gz3、修改文件名称方便操作mv zookeeper-3.
HIVE学习系列——windows Hadoop安装(上)
文章目录Hadoop安装HIVE MySQL版本安装Hadoop安装Hadoop官网点击Download选择Binary download下的最新版本即可Source Distribution 表示源代码版,需要编译后使用Binary Distribution 表示可执行版,直接解压使用点击该条链接
大数据笔记(四):HDFS集群搭建-HA模式概念
HDFS集群搭建-HA模式概念,伪分布式到完全分布式,HDFS- Federation解决方案等知识点的讲解。
Hadoop完全分布式环境部署(一看就会)
Hadoop完全分布式环境部署
HDFS小文件问题分析与解决方案(面试层面~)
1)会有什么影响(1)存储层面:1个文件块,占用namenode多大内存150字节1亿个小文件150字节1个文件块 * 150字节(2)计算层面:每个小文件都会起到一个MapTask,占用了大量计算资源2)怎么解决(1)采用har归档方式,将小文件归档(2)采用CombineTextInputFor
基于Hadoop的带词频统计的文档倒排索引算法实现
文档倒排索引是一种支持全文检索的数据结构,该索引结构被用来存储某个单词(或词组)在一个文档或者一组文档中存储位置的映射,即提供了一种根据内容来查找文档的方式。一个倒排索引由大量的postings列表构成,每一个posting列表与一个单词term相关联,由多个posting的列表组成,每一个post
大数据-Hadoop是什么,如何部署
大数据-Hadoop是什么,如何部署1.是什么?2.架构2.1 HDFS(分布式文件系统)2.1.1NameNode(简称nn)2.1.2DataNode(dn)2.1.3Secondary NameNode(2NN)2.2 YARN(资源管理器/协调者)2.2.1 Resource Manager
Hadoop 集群安装
Hadoop 集群安装
手把手教你搭建HADOOP集群
准备工作:准备三台虚拟机,关闭防火墙,修改他们的主机名,第一台虚拟机为master 剩下两台分别是slave1和slave2,修改hosts文件 修改他们的主机映射,三台进行免密操作。基础配置:修改主机名永久修改:vim /etc/hostname重启 restart零时修改: hostnamect
Hadoop:HDFS总结
Hadoop:HDFS总结HDFS架构NameNode(nn): 管理文件的元数据,如文件名、文件目录结构、文件属性等信息【NN运行时,元数据是存储在内存中,从而保证响应时间】元数据只保留在内存中是非常不可靠的,所以也需要持久化到磁盘。NN内部有两类文件用于持久化元数据:fsimage文件,以fsi
六十七、Spark-两种运行方式(本地运行,提交集群运行)
本地运行:在IDEA中直接运行控制台输出结果即可集群运行:在本地将程序打包为 jar,提交至集群运行其程序(将结果上传至hdfs)