大数据 Hadoop - overfit.cn

解决MobaXtermSSH连接超时（Network error:Conection timed out ）

报错描述Network error:Conection timed out 解决MobaXtermSSH连接超时，无法连linux IP地址的问题使用的是MobaXterm远程连接我使用VMware创建的虚拟机。ssh测试1.检测一下linux系统上有没有安装ssh，一般情况是可以自动安装的，但是由

overfit同步小助手 2023-04-26 13:03:56 0 收藏

大数据导论实验一：搭建Hadoop集群

搭建Hadoop集群，要求至少是3个节点的真分布式集群系统，包含1个NameNode，两个DataNode。

overfit同步小助手 2023-04-26 13:03:47 0 收藏

educoder--MapReduce基础实战各关卡通关答案

第1关：成绩统计:本关任务相关知识map处理阶段reduce处理阶段编程要求测试说明本关任务词频统计是最能体现MapReduce思想的程序，结构简单，上手容易。词频统计的大致功能是：统计单个或者多个文本文件中每个单词出现的次数，并将每个单词及其出现频率按照<k，v>键值对的形式输出，其基

overfit同步小助手 2023-04-26 10:03:46 0 收藏

实验4 RDD编程初级实践

一、实验目的（1）熟悉Spark的RDD基本操作及键值对操作；（2）熟悉使用RDD编程解决实际具体问题的方法。二、实验平台操作系统：Ubuntu16.04Spark版本：2.1.0三、实验内容和要求实验内容与完成情况：1.spark-shell交互式编程（1）该系总共有多少学生；（2）该系共开设来多

overfit同步小助手 2023-04-26 00:04:00 0 收藏

大数据计算框架及引擎介绍

主流的大数据处理框架包括以下三类五种：1、仅批处理框架：Apache Hadoop2、仅流处理框架：Apache Storm、Apache Samza3、混合框架：Apache Spark、Apache Flink

overfit同步小助手 2023-04-25 07:03:59 0 收藏

Hive概论、架构和基本操作

Apache Spark是一个快速的，多用途的集群计算系统，相对于Hadoop MapReduce将中间结果保存在磁盘中，Spark使用了内存保存中间结果，能在数据尚未写入硬盘时在内存中进行计算，同时Spark提供SQL支持。Hive是建立在Hadoop上的数据仓库基础架构，它提供了一系列的工具，可

overfit同步小助手 2023-04-25 06:04:01 0 收藏

hadoop集群启动后datanode没有启动

解决方法：第一步：关掉所有启动的集群在hadoop3.1.3目录下，输入命令sbin/stop-all.sh第二步：删除每个集群中datanode存放路径的数据,data 和logs输入命令：rm -rf data/ logs/第三步：重新格式化输入命令：hadoop namenode -forma

overfit同步小助手 2023-04-24 10:03:53 0 收藏

熟悉常用的HDFS操作（大数据技术原理与应用-第三章实验）

一、HDFS shell命令首先启动Hadoop，命令如下：cd /usr/local/hadoop/sbinstart-dfs.sh在终端输入如下命令，查看hdfs dfs总共支持哪些操作：cd /usr/local/hadoop/binhdfs dfs上述命令执行后，会显示如下的结果：如果显示W

overfit同步小助手 2023-04-23 23:03:45 0 收藏

HIVE表 DML 操作——第3关：将 select 查询结果插入 hive 表中

命令可以操作在表和特定的分区上，如果属于分区表，必须指明所有分区列和其对应的分区列属性值。为了完成本关任务，你需要掌握：1. 单表插入，2. 多表插入。表应用不同的查询规则从扫描结果中获取目标数据插入到不同的。该方法会覆盖表或分区中的数据（若对特定分区指定。多表插入操作的开始第一条命令指定所有表

overfit同步小助手 2023-04-23 20:03:38 0 收藏

Hadoop集群间文件拷贝

文章主要介绍了Hadoop集群减文件拷贝的使用，借助源码简要分析了拷贝过程。

overfit同步小助手 2023-04-23 19:03:35 0 收藏

datax与多种数据库间数据类型映射

datax与数据库的数据类型映射

overfit同步小助手 2023-04-23 18:03:52 0 收藏

Hive 表 DML 操作第1关：将文件中的数据导入（Load）到 Hive 表中

overfit同步小助手 2023-04-23 11:03:39 0 收藏

大数据--pyspark远程连接hive

上一篇文章介绍了python连接hive的过程，通过地址+端口号访问到hive并对hive中的数据进行操作，这一篇文章介绍一下怎么通过windows本地pyspark+本地部署好的spark+远程虚拟机的hive，完成本地pyspark对hive的访问。一.环境介绍(1)关于pyspark这个是之前

overfit同步小助手 2023-04-23 10:03:38 0 收藏

大数据系统自检

哈尔滨工业大学大数据计算基础系统部分复习自检

overfit同步小助手 2023-04-22 17:03:42 0 收藏

类比一下，秒懂大数据模式

大数据架构模式，其实与单机开发模式一致，类比一下就会更加清晰。

overfit同步小助手 2023-04-22 17:03:36 0 收藏

hadoop HA高可用集群实战

HA（high available），即高可用（24h不中断服务）实现高可用最关键的策略是消除单点故障。HA严格来说是应该分成各个组件的HA机制hadoop2.0之前，在HDFS集群中NamNode存在单点故障（SPOF）NameNode主要存在以下两个方敏影响HDFS集群。NameNode机器发生

overfit同步小助手 2023-04-22 11:03:52 0 收藏

数据同步工具DataX从Mysql同步数据到HDFS实战

会先写入临时文件，如果成功，则将临时文件rename，再删除临时文件；如果失败，直接删除临时文件。会在该文件名后添加随机的后缀，作为每个线程写入的实际文件名。我自己在下面的模板文件中添加了一些说明注释。

overfit同步小助手 2023-04-22 04:03:33 0 收藏

Hadoop集群配置及运行

本文章基于尚硅谷Hadoop 3.x视频进行总结，仅作为学习交流使用

overfit同步小助手 2023-04-22 00:05:54 0 收藏

Impala：大数据交互查询工具

Impala是由Cloudera公司开发的一款开源的大数据交互查询工具，能够对存储在HDFS、HBase上的数据进行快速的交互式SQL查询。Impala可以实现对PB级别的数据的实时分析，其查询速度比基于MapReduce的Hive高出3到90倍。Impala使用了类似于传统的MPP数据库技术，避免

overfit同步小助手 2023-04-21 18:04:08 0 收藏

一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】

一文看懂大数据生态圈完整知识体系

overfit同步小助手 2023-04-21 12:03:49 0 收藏