大数据 - overfit.cn

一小时Git入门教程【上篇】

这个新目录可以用来存储关于学习 Git 版本控制系统的文件和项目，我们后续的教程也会在这个目录下展开，所以**Git 会在当前目录下生成一个名为 “.git” 的子目录，这个目录包含了 Git 仓库的所有必要文件和子目录，用于跟踪项目中的文件变化、记录历史版本等操作。需要注意的是，如果 “learn

overfit同步小助手 2024-04-04 16:04:09 0 收藏

什么是 SRE？一文详解 SRE 运维体系

目录可观测性系统故障响应故障复盘测试与发布容量规划自动化工具开发用户体验在任何有一定规模的企业内部，一旦推行起来整个SRE的运维模式，那么对于可观测性系统的建设将变得尤为重要，而在整个可观测性系统中，通常我们会分为如下三个方面：一整套的可观测系统，它能确保你洞察系统，跟踪系统的健康状态、可用性以及系

overfit同步小助手 2024-04-04 14:06:33 0 收藏

[flink 实时流基础系列]揭开flink的什么面纱基础一

Apache Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行，并能以内存速度和任意规模进行计算。

overfit同步小助手 2024-04-04 14:03:21 0 收藏

ubuntu20.04安装星火商城（spark store）

cd /tmp。

overfit同步小助手 2024-04-04 12:03:19 0 收藏

Flink流处理案例：实时数据去重

1.背景介绍在大数据处理领域，实时数据流处理是一项至关重要的技术，可以帮助我们实时分析和处理数据，从而更快地做出决策。Apache Flink是一款流处理框架，具有高性能和低延迟的特点，可以处理大规模的实时数据流。在本文中，我们将讨论Flink流处理的一个案例，即实时数据去重。1. 背景介绍实时数据

overfit同步小助手 2024-04-04 11:03:47 0 收藏

spark学习

spark的学习，调试技巧

overfit同步小助手 2024-04-04 10:03:56 0 收藏

“解决大数据环境中的映射错误：验证失败：映射类型丢失“

解决大数据环境中的映射错误：验证失败：映射类型丢失”在大数据环境中，数据映射是一项关键任务，用于定义数据的结构和类型。然而，有时在进行映射操作时会遇到一些错误。其中之一就是"Validation Failed: mapping type is missing"（验证失败：映射类型丢失）错误。本文将详

overfit同步小助手 2024-04-04 08:03:52 0 收藏

跨境电商培训机构靠谱吗？跨境电商在我国遍地开花

2022年年初，跨境电商综合试验区首次评估结果出炉，商务部对全国前五批105个跨境电商综合试验区进行了综合评估。跨境电商异军突起，成为我国外贸经济的重要组成部分，以前外贸出海是大型企业专属，是沿海城市的独有标签。而如今，跨境出海不再受规模和地区的限制，越来越多的个人和中小型企业参与其中，贡献了重要的

overfit同步小助手 2024-04-04 08:03:29 0 收藏

人人都离不开的算法：AI 时代的生存指南

你是否发现，购物、短视频、资讯等平台背后的智能推荐算法，不断分析着你的购物偏好和浏览习惯；价格算法时刻计算调整着你能购买到的商品价位；导航算法、网约车平台算法和无人驾驶汽车算法等等，时刻影响着我们的出行……无论是否愿意，我们的生活已被算法包围。

overfit同步小助手 2024-04-04 08:01:11 0 收藏

数据仓库实验一：数据仓库建立实验

数据仓库与数据挖掘实验一：数据仓库建立实验。

overfit同步小助手 2024-04-04 07:03:19 0 收藏

Paimon 与 Spark 的集成（二）：查询优化

PaimonApache Paimon (incubating) 是一项流式数据湖存储技术，可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。Paimon 采用开放的数据格式和技术理念，可以与 Flink / Spark / Trino 等诸多业界主流计算引擎进行对接，共同推进 St

overfit同步小助手 2024-04-04 06:03:36 0 收藏

❤️❤️❤️关于Hadoop的初体验

本文基于Hadoop关于大数据入门做出详细介绍，希望对大家有所帮助🩷

overfit同步小助手 2024-04-04 05:03:42 0 收藏

Flink中JobManager与TaskManage的运行架构以及原理详解

TaskManager是Flink中的工作进程，数据流的具体计算就是它来做的，所以也被称为“Worker”。当然由于分布式计算的考虑，通常会有多个TaskManager运行，每一个TaskManager都包含了一定数量的任务槽（task slots）。TaskManager启动之后，JobManag

overfit同步小助手 2024-04-04 02:03:27 0 收藏

Flume集成Kafka

overfit同步小助手 2024-04-04 02:03:11 0 收藏

Spark重温笔记（四）：秒级处理庞大数据量的 SparkSQL 操作大全，能否成为你的工作备忘指南？

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。sparkSQL的四个特性1-易整合：将sql查询与spark程序无缝混合，可以使用java、scala、python、R等语言的API操作。2-统一的数据访问：

overfit同步小助手 2024-04-04 01:03:47 0 收藏

Flink + Paimon数据 CDC 入湖最佳实践

Apache Paimon 最典型的场景是解决了 CDC （Change Data Capture）数据的入湖，看完这篇文章可以了解到：1、为什么 CDC 入Hive迁移到 Paimon？2、CDC 入 Paimon 怎么样做到成本最低？3、Paimon 对比 Hudi有什么样的优势？Paimon

overfit同步小助手 2024-04-04 00:03:52 0 收藏

Hadoop完全分布式搭建（Hadoop-3.3.0)

本教程讲解Hadoop-3.3.0在Ubuntu系统下集群的搭建。在正式开始之前，需要自己先安装好一台虚拟机。

overfit同步小助手 2024-04-04 00:03:47 0 收藏

Spark 3.5.0 特性速览

Spark 3系列已经发布了第六版3.5.0，目前最新3.5.1。使用最广泛的大数据可扩展计算引擎。数以千计的公司，包括 80% 的财富 500 强企业，都在使用 Apache Spark。来自业界和学术界的 2000 多名开源项目贡献者。Apache Spark 3.5.0 是 3.x 系列中的第

overfit同步小助手 2024-04-03 19:03:44 0 收藏

Spark-Scala语言实战（8）

今天开始的文章，我会带给大家如何在spark的中使用我们的RDD方法，今天学习RDD方法中的flatMap,take,union三种方法。希望我的文章能帮助到大家，也欢迎大家来我的文章下交流讨论，共同进步。

overfit同步小助手 2024-04-03 19:03:39 0 收藏

Hadoop HA 搭建过程中报错：namenode格式化

在修改配置文件部分一定要细心，namenode格式化过程中报错大多都是配置文件写错了。根据报错找到对应文件进行修改。

overfit同步小助手 2024-04-03 15:03:40 0 收藏