大数据接私活200元,做个简易的HDFS浏览器(一)
接到一个单子说是用制作一个简单的HDFS浏览器。功能包括:基于HDFS的文件浏览、上传和下载。 用到的技术包括Java、HDFSAPI、tomcat的配置等
# HDFS常问面经和个人学习经验
自己关于HDFS文件存储系统的一些理解,详细介绍的HDFS的存储过程和机制,也是面试过程中经常会问的
hadoop综合实验(对日志的处理mapreduce保存到csv)
综合实验:网站访问日志采集、处理及分析实验步骤注:截图必须使用实验机的带水印截图功能,题目中要求截图但未提供的视为未做一、使用Flume导入日志数据数据文件下载地址:新建一个待监控的文件夹,放入三个日志文件我这里是lhx1、(代码)创建flume配置,文件内容及部分属性注释(注意路径):2、(截图)
Hadoop生态之HDFS
用一万字文章来深层次理解HDFS文件上传系统的底层原理,爆肝半天的极品文章,需要资源私信博主奥里给。。。。
flink hadoop 从0~1分布式计算与大数据项目实战(3)三台机器 hdfs HA模式从0~1 部署
flink hadoop 从0~1项目实战(3)三台机器 hdfs HA模式从0~1 部署
大数据综合项目--网站流量日志数据分析系统(详细步骤和代码)
文章目录前言:基本概述Sqoop概述什么是SqoopFlume概述什么是Flume为什么需要flumeHIve概述什么是Hive系统背景:模块开发数据采集使用Flume搭建日志采集系统数据预处理实现数据预处理数据仓库开发数据导出日志分析系统报表展示前言:提示:这里简述我使用的版本情况:ubuntu1
hadoop-3.3.3完全分布式集群搭建
hadoop-3.3.3完全分布式集群搭建前言环境准备软件版本集群规划一、配置jdk环境变量1. 解压jdk2. 修改/etc/profile文件二、hadoop集群搭建1. 关闭防火墙2. 修改主机名3. 添加ip映射4. 配置免密登录5. 修改hadoop配置文件1. 解压2. 配置hadoop
数据仓库搭建ODS层
其他内容请关注我的博客!在<项目>专栏里!!!目录一、用户行为数据1.1创建日志表1.2ODS层加载数据脚本二、业务数据2.1hive建表2.2ODS层加载数据脚本一、用户行为数据1.1创建日志表1)创建支持lzo压缩的分区表drop table if exists ods_log;CR
hadoop启动集群之后没有namenode的一种情况
先说结论吧,一般在网上搜索这个问题都是让重新格式化namenode(当然,格式化之前要记得清空namenode和DataNode文件夹)。但是对于我之前遇到的问题却没法解决。我的做法是:检查你的hadoop的配置文件是否填写正确,我的hadoop的hdfs-site.xml中的主机IP地址未填写正确
大数据框架综合实验作业
1、数据raw_user.csv:完整用户数据,记录2000万左右(见网盘-实验步骤-综合案例1数据)small_user.csv:子集,方便测试,记录30万条我们用small_user.csv这个小数据集进行实验,这样可以节省时间。等所有流程都跑通以后,可以使用大数据集raw_user.csv去测
【Hadoop伪分布式安装】之安装PieTTY
文章目录系列文章1. 下载PieTTY2. 运行文件,输入CentOS 7的ip地址3. 查看CentOS的ip地址4. PieTTY登录CentOS系列文章【Hadoop伪分布式安装】之配置CentOS1. 下载PieTTY在网上找到安装包直接下载2. 运行文件,输入CentOS 7的ip地址如果
hive中的表操作
1,hive概述Hive是基于Hadoop的数据仓库,用于处理结构化的数据集,数据结构存在于MySQL,数据存在 HDFS。Hive可以将一个类似于sql的查询语句(HQL)翻译成MR程序,将job提交给HDFS进行查询 时,hive把HDFS上的一个目录映射成一张Hive表,在查询的时候就是把jo
超详细的基于docker搭建hadoop集群
基于Docker搭建Hadoop集群
Hadoop快速入门——入门考试(伪分布式60+编码25+执行jar15)
Hadoop快速入门——入门考试(伪分布式60+编码25+执行jar15)1、创建1台Linux虚拟机,并打开对应的网络连接(VMnet8)(5分)2、通过xshell正确连接Linux虚拟机(5分)3、在【/opt/】文件夹下上传【java】以及【hadoop】压缩包(5分)4、解压【java】以
Hadoop快速入门——第四章、zookeeper(集群)
Hadoop快速入门——第四章、zookeeper集群前置条件:配置ssh免密登录&hadoop分布式1、上传【zookeeper-3.4.6.tar.gz】文件2、解压文件tar -zxvf zookeeper-3.4.6.tar.gz3、修改文件名称方便操作mv zookeeper-3.
HIVE学习系列——windows Hadoop安装(上)
文章目录Hadoop安装HIVE MySQL版本安装Hadoop安装Hadoop官网点击Download选择Binary download下的最新版本即可Source Distribution 表示源代码版,需要编译后使用Binary Distribution 表示可执行版,直接解压使用点击该条链接
大数据笔记(四):HDFS集群搭建-HA模式概念
HDFS集群搭建-HA模式概念,伪分布式到完全分布式,HDFS- Federation解决方案等知识点的讲解。
Hadoop完全分布式环境部署(一看就会)
Hadoop完全分布式环境部署
HDFS小文件问题分析与解决方案(面试层面~)
1)会有什么影响(1)存储层面:1个文件块,占用namenode多大内存150字节1亿个小文件150字节1个文件块 * 150字节(2)计算层面:每个小文件都会起到一个MapTask,占用了大量计算资源2)怎么解决(1)采用har归档方式,将小文件归档(2)采用CombineTextInputFor
基于Hadoop的带词频统计的文档倒排索引算法实现
文档倒排索引是一种支持全文检索的数据结构,该索引结构被用来存储某个单词(或词组)在一个文档或者一组文档中存储位置的映射,即提供了一种根据内容来查找文档的方式。一个倒排索引由大量的postings列表构成,每一个posting列表与一个单词term相关联,由多个posting的列表组成,每一个post