大数据 - overfit.cn

DataX详解和架构介绍

DataX是阿里开源的一个异构数据源离线同步工具，它致力于实现包括关系型数据库（如MySQL、Oracle等）、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

overfit同步小助手 2024-02-24 14:01:59 0 收藏

HBase相关面试准备问题

hbase相关内容

overfit同步小助手 2024-02-24 07:03:15 0 收藏

香港科技园公司董事车品觉：探秘大数据背后的大语言模型世界

大数据产业创新服务媒体——聚焦数据· 改变商业在数字时代的大舞台上，大数据与大语言模型的交汇如同星辰般璀璨，勾勒出创新之路的奇妙轨迹。这两者的完美契合不仅是科技领域的巨大突破，更是创新之路的重要交汇点。作为大数据领域的一位先锋者，香港科技园公司董事、太平绅士、香港特区政府数字经济发展委员会委员车品觉

overfit同步小助手 2024-02-24 05:03:39 0 收藏

在docker上启动了rabbitmq容器，却无法访问到其web界面原因！

1.有可能是因为防火墙以及端口未开放的原因，这里本人使用的是云服务器的dockers进行部署，因此只需要在图示出添加相对应的端口：5672 15672。2.在宝塔开启了相对应的端口之后，记得要去对应的服务器再次开启，比如我的是阿里云的服务器，我需要去阿里云服务器再次开启我的端口。3.如果你完成了以

overfit同步小助手 2024-02-24 05:03:32 0 收藏

大数据Doris（二十）：数据导入（Broker Load）介绍

用户在递交导入任务后，FE（Doris系统的元数据和调度节点）会生成相应的PLAN（导入执行计划，BE会导入计划将输入导入Doris中）并根据BE（Doris系统的计算和存储节点）的个数和文件的大小，将PLAN分给多个BE执行，每个BE导入一部分数据。其中 nn 表示 dfs.ha.namenode

overfit同步小助手 2024-02-24 03:03:38 0 收藏

如何使用版本控制系统（如Git）来管理代码？

使用版本控制系统（如Git）来管理代码可以帮助团队成员协作开发，同时还能保持代码的完整性和可追溯性。以下是使用Git来管理代码的基本步骤：

overfit同步小助手 2024-02-23 23:04:25 0 收藏

能源大数据：实现能源产业的竞争优势

1.背景介绍能源大数据是一种利用大数据技术来分析、处理和优化能源产业的方法。在过去的几年里，能源产业面临着巨大的挑战，如能源供应的不稳定、能源价格的波动、环境污染等。这些问题使得能源产业需要更有效、更智能的方法来管理和优化其业务。大数据技术为能源产业提供了一种新的解决方案，通过对海量数据的分析和处理

overfit同步小助手 2024-02-23 22:03:50 0 收藏

Doris-简介、架构、编译、安装和数据表的基本使用

overfit同步小助手 2024-02-23 19:02:26 0 收藏

59、Flink CEP - Flink的复杂事件处理介绍及示例（4）- 延迟数据处理和三个实际应用示例

一、Flink 专栏Flink 专栏系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分，比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。

overfit同步小助手 2024-02-23 13:03:52 0 收藏

东润环能：高效利用大数据资源

公司简介我们北京东润环能科技股份有限公司是一家从事新能源电力领域的数据信息服务公司，公司的经营聚焦为：新能源产业大数据应用与投资服务领跑者！我们东润环能开创之初，提供了新能源发电功率预测系统、电网调度管理与支持系统、新能源城市规划与咨询服务等基础性产品，并逐步打造三大新能源互联网智慧服务生态圈平台，

overfit同步小助手 2024-02-23 13:03:39 0 收藏

Flink的流式数据流式计算

1.背景介绍流式数据流式计算是一种处理大规模、高速、实时数据的技术，它的核心是在数据流中进行实时计算和分析。随着大数据时代的到来，流式数据处理技术已经成为了一种必须掌握的技能。Apache Flink是一种流式数据处理框架，它可以处理大规模、高速的数据流，并提供实时计算和分析功能。在本文中，我们将深

overfit同步小助手 2024-02-23 08:03:43 0 收藏

Flink容错机制

在恢复时，Flink将从最近的检查点中读取状态数据，并尝试将任务恢复到该检查点之前的状态。总之，Flink的保存点功能为用户提供了灵活的状态管理选项，使得用户可以更好地控制和管理Flink作业的状态。更重要的是，在有状态的流处理中，任务需要保持其之前的状态，以便继续处理新数据。总之，Flink的保存

overfit同步小助手 2024-02-23 07:03:50 0 收藏

Spark与Kubernetes集成

1.背景介绍1. 背景介绍Apache Spark是一个开源的大规模数据处理框架，它提供了一种高效的方法来处理大量数据。Kubernetes是一个开源的容器管理平台，它可以自动化地管理和扩展应用程序的部署和运行。在大数据处理和分析场景中，将Spark与Kubernetes集成可以实现更高效、可扩展的

overfit同步小助手 2024-02-23 06:03:27 0 收藏

【大数据】Flink 中的 Slot、Task、Subtask、并行度

通过调整 task slot 的数量，用户可以定义 subtask 如何互相隔离。每个 TaskManager 有一个 slot，这意味着每个 task 组都在单独的 JVM 中运行（例如，可以在单独的容器中启动）。具有多个 slot 意味着更多 subtask 共享同一 JVM。同一 JVM 中的

overfit同步小助手 2024-02-23 05:03:51 0 收藏

Hadoop 环境搭建

1各个模块分开启动/停止（配置ssh是前提）常用（1）整体启动/停止HDFS（2）整体启动/停止YARN2各个服务组件逐一启动/停止（1）分别启动/停止HDFS组件（2）启动/停止YARN。

overfit同步小助手 2024-02-23 05:03:25 0 收藏

【大数据】Flink 架构（三）：事件时间处理

在事件时间模式下，Flink 流式应用处理的所有记录都必须包含时间戳。时间戳将记录和特定时间点进行关联，这些时间点通常是记录所对应事件的发生时间。但实际上应用可以自由选择时间戳的含义，只要保证流记录的时间戳会随着数据流的前进大致递增即可。正如前文所述，基本上所有现实应用场景都会出现一定程度的时间戳乱

overfit同步小助手 2024-02-23 04:03:44 0 收藏

(02)Hive SQL编译成MapReduce任务的过程

Hive SQL编译成MapReduce的过程

overfit同步小助手 2024-02-23 04:03:35 0 收藏

【大数据面试题】001 Flink 的 Checkpoint 原理

一步一个脚印，一天一道大数据面试题。Flink 是大数据实时处理计算框架。实时框架对检查点，错误恢复的功能要比离线的更复杂，所以一起来了解 Flink 的 Checkpoint 机制吧。

overfit同步小助手 2024-02-23 01:03:17 0 收藏

涤生大数据实战：基于Flink+ODPS历史累计计算项目分析与优化（上）

当一个用户在T日实时上传了自己的跑步记录，Flink节点1会计算出其 [当日0点起至此刻] 的跑步累计数据data1，Flink节点2会根据该用户id取hbase维表里查询其 [历史～T-1日] 的累计数据 data2 (hbase表里数据由odps每日更新，即T-1日的存量累计汇总数据)，将dat

overfit同步小助手 2024-02-22 22:03:53 0 收藏

大数据——hadoop环境安装（docker搭建）

###### 这个Dockerfile主要是基于CentOS镜像进行一些系统设置和软件安装，最终生成一个包含SSH服务的镜像。####### dockerfile的内容# 基础镜像# 作者# 将工作目录切换到`/etc/yum.repos.d/`# 使用sed命令注释掉mirrorlist行。# 使

overfit同步小助手 2024-02-22 21:03:53 0 收藏