大数据 Hadoop - overfit.cn

大数据Hadoop之——Flink DataStream API 和 DataSet API

文章目录一、DataStream API概述一、DataStream API概述DataStream API 得名于特殊的 DataStream 类，该类用于表示 Flink 程序中的数据集合。你可以认为它们是可以包含重复项的不可变数据集合。这些数据可以是有界（有限）的，也可以是无界（无限）的，但

overfit同步小助手 2022-02-28 08:53:13 0 收藏

hive之连续登录问题

目录1、开窗函数的格式2、窗口范围图例连续登录问题：限制时间段内登录次数问题：1、开窗函数的格式FUNCTION_NAME([argument_list])OVER ([PARTITION BY window_partition,…][ORDER BY window_ordering, … [ASC

overfit同步小助手 2022-02-28 08:53:07 0 收藏

Hadoop—在私有云上创建与配置虚拟机

一、登录已有的私有云账号（1）查看【概览】（2）查看【镜像】（3）查看【实例】二、创建项目、用户与网络（1）创建项目 - huawei（2）创建用户 - huawei（3）创建网络 - LAN192三、创建实例（1）基于WindowsThinPC镜像创建hw_win7实例（2）基于centos7创建

overfit同步小助手 2022-02-28 08:53:00 0 收藏

Spark环境搭建（保姆级教程）

Spark 是一个大规模数据处理的统一分析引擎本文主要介绍Spark的相关配置，以及各种模式的代码提交，包括Local,Standalone,YARN。文末有相应资源下载网盘链接。

overfit同步小助手 2022-02-25 07:53:03 0 收藏

入门ClickHouse和Elasticsearch

❄️大多数同学都知道数据有mysql、mongodb、oracle、nosql等等，这些是我们在学校能接触到最多的数据库,今天我们就来认识2个企业中比较常用的数据库clickhouse和elasticsearch。对大数据感兴趣的同学可以参考下面的文章👇:hadoop专题: hadoop系列文章.

overfit同步小助手 2022-02-24 07:52:53 0 收藏

Hadoop：HDFS总结

Hadoop：HDFS总结HDFS架构NameNode(nn): 管理文件的元数据，如文件名、文件目录结构、文件属性等信息【NN运行时，元数据是存储在内存中，从而保证响应时间】元数据只保留在内存中是非常不可靠的，所以也需要持久化到磁盘。NN内部有两类文件用于持久化元数据：fsimage文件，以fsi

overfit同步小助手 2022-02-21 07:22:43 0 收藏

一篇解析论文MapReduce

一篇解析论文MapReduce，这样你也可以和面试官“讲一讲”

overfit同步小助手 2022-02-20 15:22:39 0 收藏

PySpark与GraphFrames的安装与使用

pandas快速升级到spark，简单丝滑，值得拥有。

overfit同步小助手 2022-02-20 15:22:36 0 收藏

2、Hive数据仓库——环境搭建及简单使用

Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL ），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL ，它允许熟悉 SQL 的用户查询数据。同时

overfit同步小助手 2022-02-18 07:39:07 0 收藏

六十七、Spark-两种运行方式（本地运行，提交集群运行）

本地运行：在IDEA中直接运行控制台输出结果即可集群运行：在本地将程序打包为 jar，提交至集群运行其程序（将结果上传至hdfs）

overfit同步小助手 2022-02-18 07:38:59 0 收藏

Hadoop（三）HDFS 原理

HDFS核心的设计思想 HDFS 集群中，主要的角色有 NameNode 和 DataNode 两大角色（SecondaryNamenode 和 Client）； NameNode 负责管理文件系统的元数据，并响应 Client 的请求； DataNode 负责存储用户的文件块（block）

overfit同步小助手 2022-02-17 07:39:05 0 收藏

12、Hadoop框架MapReduce 统计人数、总分、关联

文章目录Hadoop框架MapReduce 统计人数、总分、关联数据Hadoop框架MapReduce 统计人数、总分、关联数据students.txt1500100001,施笑槐,22,女,文科六班1500100002,吕金鹏,24,男,文科六班1500100003,单乐蕊,22,女,理科六班15

overfit同步小助手 2022-02-17 07:39:02 0 收藏

Hadoop（二）介绍HDFS

HDFS的简单介绍

overfit同步小助手 2022-02-17 07:38:54 0 收藏

09、Hadoop框架Zookeeper Java API

Hadoop框架Zookeeper Java API

overfit同步小助手 2022-02-14 07:39:19 0 收藏

08、Hadoop框架HDFS HA 的高可用

Hadoop框架HDFS HA 的高可用

overfit同步小助手 2022-02-14 07:39:07 0 收藏

04、Hadoop框架HDFS NN、SNN、DN工作原理

Hadoop框架HDFS NN、SNN、DN工作原理

overfit同步小助手 2022-02-13 07:39:28 0 收藏

06、Hadoop框架HDFS读写流程

Hadoop框架HDFS读写流程

overfit同步小助手 2022-02-13 07:39:13 0 收藏

元数据性能大比拼：HDFS vs OSS vs JuiceFS

背景存储是大数据的基石，存储系统的元数据又是它的核心大脑，元数据的性能对整个大数据平台的性能和扩展能力非常关键。本文选取了大数据平台中 3 个典型的存储方案来压测元数据的性能，来个大比拼。其中 HDFS 是被广为使用的大数据存储方案，已经经过十几年的沉淀和积累，是最合适的参考标杆。以 Amazon

overfit同步小助手 2022-02-10 09:08:54 0 收藏

金融风控实战——Hive详解（数据读取、预处理、特征工程）

大数据技术介绍大数据技术的介绍： 1、存储，我们需要了解在大数据的架构下，数据大致是怎么进行存储的，传统的文件系统是单机的，不能横跨不同的机器。HDFS（Hadoop Distributed FileSystem）的设计本质上是为了大量的数据能横跨成百上千台机器，但是用户在实际的应用中，看到的是一

overfit同步小助手 2022-02-07 07:43:45 0 收藏

hadoop 使用 kerberos 认证后，hadoop fs -ls 命令、hdfs dfs -ls 无法使用

解决启用 kerberos 认证的 hdfs 集群遇到的无法使用hadoop、hdfs命令的问题

overfit同步小助手 2022-02-06 07:51:58 0 收藏