大数据 - overfit.cn

大数据Flink进阶（八）：Apache Flink架构介绍

在Flink的整个软件架构体系中，同样遵循这分层的架构设计理念，在降低系统耦合度的同时，也为上层用户构建Flink应用提供了丰富且友好的接口。上图是Flink基本组件栈，从上图可以看出整个Flink的架构体系可以分为三层，从下往上依次是物理部署层、Runtime 核心层、API&Libraries层

overfit同步小助手 2023-03-27 08:03:33 0 收藏

Linux（阿里云）安装Hadoop(详细教程+避坑)

overfit同步小助手 2023-03-27 04:03:55 0 收藏

Python模块之psutil详解

psutil是一个跨平台库，能够轻松实现获取系统运行的进程和系统利用率（包括CPU、内存、磁盘、网络等）信息。它主要用来做系统监控，性能分析，进程管理。

overfit同步小助手 2023-03-27 04:03:48 0 收藏

Ubuntu下搭建Hadoop分布式集群

应学校课程要求，这学期学习到了云计算与大数据，这次实验就是让我们在ubuntu中配置好hadoop分布式集群，这两天就从网上一边各种搜寻教程结合课本（课本上是使用的centos，而且版本较老，不太适用）一边自己动手做，顺便自己也写一篇教程记录一下，其中也包含一些遇到的问题及解决方法。因为第一次接触到

overfit同步小助手 2023-03-25 08:03:48 0 收藏

大数据 | Hadoop集群搭建（完全分布式）

一学就会，Hadoop完全分布式（集群）搭建

overfit同步小助手 2023-03-25 08:03:37 0 收藏

Kafka常见topic命令

overfit同步小助手 2023-03-24 19:04:17 0 收藏

Hive时间日期函数一文详解+代码实例

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。Hive中的表示纯逻辑表，只有表的定义等，即表的元数据（存储于MySQL中）。本质就是Hadoop的目录/文件，这种设计方式实现了元数据与数据存储分离。Hive本身不存储数据，它完全依赖HDFS

overfit同步小助手 2023-03-24 17:04:10 0 收藏

大数据之Hadoop图解概述

文章目录1 Hadoop是什么2 Hadoop 发展历史（了解）3 Hadoop 三大发行版本（了解）3.1 Apache Hadoop（常用）3.2 Cloudera Hadoop3.3 Hortonworks Hadoop4 Hadoop 优势（4 高）5 Hadoop 组成（面试重点）5.1

overfit同步小助手 2023-03-24 16:04:18 0 收藏

土地利用/土地覆盖数据整理

土地利用/土地覆盖数据是开展地理、生态、环境等研究的基础数据，本文对目前主流且开源的土地利用数据进行整理，随时更新，欢迎补充！

overfit同步小助手 2023-03-24 16:04:10 0 收藏

Spark大数据分析与实战课后答案

Spark大数据分析实战课后答案

overfit同步小助手 2023-03-24 14:04:08 0 收藏

大数据时代下：标签体系的应用

大数据时代下：标签体系的应用凄凄切切凄凄切切群群群

overfit同步小助手 2023-03-23 21:05:15 0 收藏

windows安装hadoop教程，带截图

windows安装hadoop

overfit同步小助手 2023-03-23 21:05:13 0 收藏

spark3.3.1 for CDH6.3.2 打包

因为 CDH 在 6.3.2 之后开始收费，而自带的spark版本太低，还阉割了 spark-sql 功能。所以我们直接外挂spark3.3.1，使用 CDH 6.3.2 相关的 hadoop lib。

overfit同步小助手 2023-03-23 21:05:07 0 收藏

dbeaver连接impala，window10环境

dbeaver连接impala。window10环境，不需要密码，使用证书连接。凡事事出都有因。本以为dbeaver连接impala应该也和其他一样，不会太复杂。最多就是下载一个jar包导入即可。谁知道里面的坑还不少。本文分三大部分：一、正确的解决过程二、解决错误记录三、附录：1、打开Dbeaver

overfit同步小助手 2023-03-23 21:05:04 0 收藏

深入浅出理解什么是HTAP

关于HTAPHTAP（Hybrid Transactional/Analytical Processing）混合事务 / 分析处理。这里的HTAP就是常见的比较经典的OLAP和OLTP的处理场景的结合体。即可解决OLTP在线事务处理场景，还可以解决OLAP在线分析场景。Gartner也认为HTAP数

overfit同步小助手 2023-03-23 21:05:01 0 收藏

Flink学习20：聚合算子(sum,max,min)

常见的聚合算子 sum,max,min等聚合算子可以在在keyedStream 流上进行滚动的聚合（即累计的操作），而且同一个 keyedStream 流上只能调用一次聚合算子。

overfit同步小助手 2023-03-23 21:04:58 0 收藏

目前常用心电数据库ECG：MITBIH,AHA,CSE,ST-T,PTB,PAF 详细介绍+下载

首先声明是转载的文章，原文指路：https://blog.csdn.net/zsg2063/article/details/76615924担心原文链接失效，所以这里自己复制了一份。一、四大数据库概述目前国际上最重要的，具有权威性的心电数据库有四个：美国麻省理工学院与Beth Israel医院联合建

overfit同步小助手 2023-03-23 21:04:55 0 收藏

kafka消息重复消费解决方案

Kafka消费者以消费者组(Consumer Group)的形式消费一个topic，发布到topic中的每个记录将传递到每个订阅的消费者组中的一个消费者实例。Consumer Group 之间彼此独立，互不影响，它们能够订阅相同的一组主题而互不干涉。......

overfit同步小助手 2023-03-23 21:04:52 0 收藏

数据治理系列：数仓建模之数仓主题与主题域

数仓主题是什么？主题域又是什么？二者有什么区别和联系？主题与主题域如何划分？本文可以解答这些问题，

overfit同步小助手 2023-03-23 21:04:49 0 收藏

HDFS基础知识(个人总结)

    声明: 1. 本文为我的个人复习总结, 并非那种从零基础开始普及知识 内容详细全面, 言辞官方的文章           &nbsp

overfit同步小助手 2023-03-23 21:04:46 0 收藏