大数据 - overfit.cn

大数据-玩转数据-Flume

Flume提供一个分布式的，可靠的，对大数据量的日志进行高效收集、聚集、移动的服务，Flume只能在Unix环境下运行。Flume基于流式架构，容错性强，也很灵活简单。Flume、Kafka用来实时进行数据收集，Spark、Flink用来实时处理数据，impala用来实时查询。

overfit同步小助手 2023-12-08 06:03:25 0 收藏

【大数据】Hadoop_MapReduce➕实操（附详细代码）

MapReduce是hadoop的核心组件之一，hadoop要分布式包括两部分，一是分布式文件系统hdfs，一是分布式计算框，就是mapreduce，二者缺一不可，也就是说，可以通过mapreduce很容易在hadoop平台上进行分布式的计算编程sftp命令：Windows下登录Hadoop102l

overfit同步小助手 2023-12-08 01:03:38 0 收藏

使用两台Centos7系统搭建Hadoop-3.1.4完全分布式集群

Hadoop是Apache旗下的一个用Java语言实现开源软件框架，是一个存储和计算大规模数据的软件平台。Hadoop是Apache Lucene创始人 Doug Cutting 创建的，最早起源一个Nutch项目。2003年Google发表了一篇GFS论文，为大规模数据存储提供了可行的解决方案。2

overfit同步小助手 2023-12-07 16:03:44 0 收藏

从0到1构建智能分布式大数据爬虫系统

从0到1搭建分布式爬虫平台、深度汇总各功能模块应用

overfit同步小助手 2023-12-07 09:03:22 0 收藏

【flink】Task 故障恢复详解以及各重启策略适用场景说明

overfit同步小助手 2023-12-07 07:03:12 0 收藏

版本控制工具 - git的安装与使用

git的下载与安装、idea中git插件配置、gitlab项目拉取

overfit同步小助手 2023-12-07 06:04:05 0 收藏

【数据开发】大数据平台架构，Hive / THive介绍

什么是Hive？Hive是一个基于Hadoop的数据仓库工具。它提供了一个类似于SQL的查询语言，称为HiveQL，用于查询和分析大规模数据集。Hive将结构化数据映射到Hadoop的分布式文件系统和Hadoop的分布式处理引擎上，允许用户使用类似于SQL的语言查询数据，并将数据转换为其他格式，例如

overfit同步小助手 2023-12-07 06:03:25 0 收藏

hadoop完全分布式集群搭建（超详细）-大数据集群搭建

本次搭建完全分布式集群用到的环境有：jdk1.8.0hadoop-2.7.7本次搭建集群所需环境也给大家准备了，下载链接地址：https://share.weiyun.com/dk7WgaVk密码：553ubk本次完全分布式集群搭建需要提前建立好三台虚拟机，我分别把它们的主机名命名为:master,

overfit同步小助手 2023-12-07 03:03:34 0 收藏

HIVE数据抽样

hive中分桶其实就是根据某一个字段Hash取模，放入指定数据的桶中，比如将表table按照ID分成100个桶，其算法是hash(id) % 100，这样，hash(id) % 100 = 0的数据被放到第一个桶中，hash(id) % 100 = 1的记录被放到第二个桶中。sort by 提供了单

overfit同步小助手 2023-12-06 14:03:53 0 收藏

Hadoop的安装和使用，Windows使用shell命令简单操作HDFS

Hadoop的安装和使用，Windows使用shell命令简单操作HDFS，Hadoop是一个能够对大量数据进行分布式处理的软件框架，并且是以一种可靠、高效、可伸缩的方式进行处理的，它具有以下几个方面的特性。高可靠性。高效性。高可扩展性。高容错性。成本低。运行在Linux平台上。支持多

overfit同步小助手 2023-12-06 11:03:48 0 收藏

hadoop3.3.1单机版环境搭建详细流程记录

单机版hadoop3.3.1搭建详细过程。

overfit同步小助手 2023-12-06 09:03:24 0 收藏

大数据之存算分离架构研究

随着硬件技术的快速进步，尤其是网络和存储设备的性能迅速提升，以及云计算厂商推动软硬件协同加速的云存储服务，越来越多的企业开始基于云存储来构建数据存储服务，或数据湖，因此就需要单独再建设一个独立的计算层来提供数据分析服务，这也就是存算分离架构（Disaggregated Storage and Com

overfit同步小助手 2023-12-06 09:03:19 0 收藏

Flink（七）【输出算子（Sink）】

Flink Sink输出算子

overfit同步小助手 2023-12-06 08:03:38 0 收藏

CDH大数据平台入门篇之搭建与部署

CDH：存储各种类型的数据、使用各种不同的计算框架进行操作、能够快速集成和运行一个完整的Hadoop平台，适用于各种不同的硬件和软件、高安全性且能够部署多种应用，并扩展和扩充它们以满足你的需求、还可以放心地用于关键的商业任务。

overfit同步小助手 2023-12-06 05:03:51 0 收藏

Hadoop集群安装部署

hadoop集群的搭建

overfit同步小助手 2023-12-06 03:03:43 0 收藏

sparksql源码系列 | 一文搞懂Show create table 执行原理

这篇文章主要介绍了show create table命令执行的源码流程，弄清楚了sparksql是怎么和hive元数据库交互，查询对应表的metadata，然后拼接成最终的结果展示给用户的

overfit同步小助手 2023-12-06 02:03:34 0 收藏

架构师必知必会系列：容器安全与容器漏洞管理

作者：禅与计算机程序设计艺术 1.简介容器漏洞是一个敏感的话题。由于容器技术的普及和社区成熟，越来越多的企业、组织将容器技术作为一种“云”服务进行应用部署、运维和管理，而容器成为一个“平台”，其潜在危险性也越来越高。因此，保护容器环境免受攻击并修补漏洞是非常重要

overfit同步小助手 2023-12-05 21:07:10 0 收藏

大数据SpringBoot项目——基于SpringBoot+Bootstrap框架的学生宿舍管理系统的设计与实现

该系统采用了基于Bootstrap的样式搭建的管理系统，后台采用SpringBoot框架和MySQL数据库,通过Java+javasript+jsp 语言编写，具有比较高的安全性，跨平台，很强的可移植性。学生可以非常方便查看宿舍信息、入住信息。宿舍管理员可以通过后台强大的信息修改功能进行更新，对楼宇

overfit同步小助手 2023-12-05 17:03:12 0 收藏

Spark内核

任务的最小单位是线程。失败重试，会记录失败的次数，如果超过最大重试次数，宣告Application失败。失败的同时会记录它上一次所在的ExecutorID和Host, 最多重试4次。落盘的话就需要考虑不同分区之间的数据如何存放的问题。假设每个Executor有两个Task，总共有三个分区。特点：无论

overfit同步小助手 2023-12-05 16:03:38 0 收藏

oracle递归查询connect by prior

oracle的start with connect by prior是条件递归查询，树结构

overfit同步小助手 2023-12-05 14:03:12 0 收藏