大数据 - overfit.cn

Docker一直在“Docker Desktop Starting .”的设置中循环运行——编程学习

当Docker Desktop在启动过程中一直卡在“Docker Desktop Starting .”的设置界面时，可能是由于系统资源不足或网络连接问题所致。然而，有时候我们可能会遇到一些问题，比如Docker Desktop在启动时一直卡在“Docker Desktop Starting .”的

overfit同步小助手 2023-11-15 02:03:24 0 收藏

Ubuntu搭建Hadoop3.X分布式和高可用集群，一步步深入

本文介绍了在Ubuntu操作系统上搭建Hadoop 3.x分布式和高可用环境的步骤。首先解释了Hadoop 3.x的架构和核心组件。然后，详细讲解了如何配置Ubuntu网络和主机名，安装Java和SSH，并生成SSH密钥。接下来，引导用户通过安装和配置Hadoop的各个组件（如HDFS、YARN和M

overfit同步小助手 2023-11-15 00:03:10 0 收藏

Flink的API分层、架构与组件原理、并行度、任务执行计划

Apache Flink的API分为四个层次，每个层次都提供不同的抽象和功能，以满足不同场景下的数据处理需求。Flink API 最底层的抽象为有状态实时流处理。其抽象实现是Process Function，并且Process Function被框架集成到了DataStream API中来为我们

overfit同步小助手 2023-11-14 23:03:52 0 收藏

Hive On Spark 概述、安装配置、计算引擎更换、应用、异常解决

overfit同步小助手 2023-11-14 23:03:48 0 收藏

Spark Scala大数据编程实例

初步介绍scala，下载安装配置spark和scala，运行spark scala版本实例

overfit同步小助手 2023-11-14 23:03:43 0 收藏

KAFKA (2.12-2.2.1)常用命令和kafka tool 工具使用

Kafka tool为kafka 较为通用的客户端连接工具之一，通过连接kafka直接明了的查看kafka数据、创建删除topic，添加kafka数据完成简单流程验证、查看topic消费情况等功能Kafka Tool 工具下载地址:Kafka 连接配置1）启动 Kafka Tool在安装目录下，双击

overfit同步小助手 2023-11-14 23:03:36 0 收藏

玩转数据-大数据-Flink SQL 中的时间属性

处理时间属性可以在 schema 定义的时候用 .proctime 后缀来定义。时间属性一定不能定义在一个已有字段上，所以它新增一个字段。// 1. 创建表的执行环境// 声明一个额外的字段来作为处理时间字段+ ")");事件时间属性可以用 .rowtime 后缀在定义 DataStream sch

overfit同步小助手 2023-11-14 19:03:38 0 收藏

Hive 的权限管理

hive自身支持三种权限管理模型，默认情况下是不开启的，这样会导致所有的用户都具有相同的权限，且默认都是超级管理员，超管对hive中的所有表都有查看和改动的权利，这样是不符合一般数据仓库的安全原则的，今天我们就来探究下Hive的权限管理

overfit同步小助手 2023-11-14 18:03:23 0 收藏

Hive 常用DML操作

1.加载文件数据到表1.1 语法LOCAL 关键字代表从本地文件系统加载文件，省略则代表从 HDFS 上加载文件：从本地文件系统加载文件时， `filepath` 可以是绝对路径也可以是相对路径 (建议使用绝对路径)；从 HDFS 加载文件时候，`filepath` 为文件完整的 URL 地址：如

overfit同步小助手 2023-11-14 16:03:47 0 收藏

大数据和智能数据应用架构系列教程之：大数据与环境监测

作者：禅与计算机程序设计艺术 1.简介一、背景介绍随着社会经济的不断发展，各种数据量的激增让数据的采集、存储、处理等过程变得越来越复杂、耗时长。传感器的普及、传播设备的广泛应用、传统的硬件设备已经不能满足需求了。近年来，大数据、云计算、机器学习技术等新兴技术

overfit同步小助手 2023-11-14 13:03:21 0 收藏

企业spark案例 —— 出租车轨迹分析(Python)

overfit同步小助手 2023-11-14 12:03:34 0 收藏

centos9 stream 下 rabbitmq高可用集群搭建及使用

RabbitMQ是一种常用的消息队列系统，可以快速搭建一个高可用的集群环境，以提高系统的弹性和可靠性。下面是搭建RabbitMQ集群的步骤：基于centos9 stream系统。

overfit同步小助手 2023-11-14 10:03:20 0 收藏

【Hadoop】MapReduce详解

MapReduce思想在生活中处处可见。MapReduce 的思想核心是“分而治之”，适用于大规模数据处理场景。Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Reduce负责“合”，即对map阶段的结果进行全

overfit同步小助手 2023-11-14 10:03:09 0 收藏

2022年下半年网络规划设计师真题解析

33、假定在一个CDMA系统中，两个发送方发送的信号进行叠加，发送方1和接收方1共享的码片序列为：(1,1,1, - 1,1, - 1, - 1, - 1),发送方2和接收方2共享的码片序列为：( - 1,1,1,1,- 1,1,1)。假设发送方1和发送方2发送的两个连续bit经过编码后的序列为：

overfit同步小助手 2023-11-14 08:03:51 0 收藏

从0到一配置单节点zookeeper

可以的，能行！

overfit同步小助手 2023-11-14 08:03:47 0 收藏

解决RabbitMQ Management API returned status code 500 报错问题

3.输入: echo management_agent.disable_metrics_collector = false > management_agent.disable_metrics_collector.conf 命令。1.进入rabbitmq容器: docker exec -it

overfit同步小助手 2023-11-14 08:03:32 0 收藏

【网络奇幻之旅】那年我与大数据的邂逅

本文主要讲解了大数据的定义和分类，大数据的特点，大数据的应用以及大数据带来的一些负面影响。

overfit同步小助手 2023-11-14 08:03:12 0 收藏

基于 Flink CDC 高效构建入湖通道

本文整理自阿里云 Flink 数据通道负责人、Flink CDC 开源社区负责人， Apache Flink PMC Member & Committer 徐榜江（雪尽），在 Streaming Lakehouse Meetup 的分享。内容主要分为四个部分： 1. Flink CDC 核心技

overfit同步小助手 2023-11-14 07:03:12 0 收藏

[实战-04]FlinkSql 如何实现数据去重？

很多时候flink消费上游kafka的数据是有重复的，因此有时候我们想数据在落盘之前进行去重，这在实际开发中具有广泛的应用场景，此处不说详细代码，只粘贴相应的flinksql。

overfit同步小助手 2023-11-14 06:03:37 0 收藏

flink streamload写入doris

详细介绍了基于flink 1.16的各种写入方式，本文主要介绍的是基于flink 1.13的RowData 数据流(RowDataSerializer)写入

overfit同步小助手 2023-11-14 03:03:47 0 收藏