大数据 - overfit.cn

【Spark精讲】一文讲透SparkSQL物理执行计划

【Spark精讲】一文讲透SparkSQL物理执行计划，SparkPlan，LeafExecNode类型，BinaryExecNode类型

overfit同步小助手 2024-02-29 11:03:48 0 收藏

HBase中的数据版本控制与回滚策略

1.背景介绍1. 背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。它广泛应用于大规模数据存储和处理，如日志记录、实时数据分析、时间序列数据等。在HBase中，数据版本控制和回滚策略是非常重要的，因为它们直接影响数据的一致性、可靠性和可用性。在本文

overfit同步小助手 2024-02-29 11:03:34 0 收藏

【四川省计算机学会主办 | 中国科协重要学术会议】人工智能与大数据国际会议(ICAIBD 2024)

第七届人工智能与大数据国际会议(ICAIBD 2024)将于2024年5月24-27日在中国▪四川▪成都召开。七年来，ICAIBD 2024由四川省计算机学会主办，四川省科学技术协会作为指导单位，四川大学，西南交通大学，电子科技大学，成都信息工程大学，中国民用航空飞行学院、中国东方航空研发中心联合协

overfit同步小助手 2024-02-29 10:03:16 0 收藏

CentOS7 Hive2.3.8安装

删空后加入以下内容，注意复制进去的时候不要少了>符号之类的小错误，此文件涉及到之前设置的密码Root123!,如果你不一样，记得改。复制备份hive-default.xml.template并命名为hive-site.xml。在文件最底下加，注意hadoop版本和java版本以及路径是否和我一样，不

overfit同步小助手 2024-02-29 09:03:19 0 收藏

基于Python+大数据的微博事件分析可视化系统设计与实现

今天带来的是基于Python+大数据的微博事件分析可视化系统，随着微博事件的常态化，如果依然采用传统的管理方式，将会为工作人员带来庞大的工作量，这将是一个巨大考验，需要投入大量人力开展对科技视频等相关工作进行管理，单一且反复的操作容易出错且不易被察觉，于是利用现代信息技术，设计开发一款微博事件分析与

overfit同步小助手 2024-02-29 06:03:47 0 收藏

Flink 1.18.1 部署与配置[CentOS7]

【代码】Flink 1.18.1 部署与配置[CentOS7]

overfit同步小助手 2024-02-29 05:03:27 0 收藏

涤生大数据实战：基于Flink+ODPS历史累计计算项目分析与优化（下）

计算链路较短，但如果发生Flink任务重启的情况，需要离线和实时两条线一起修复数据：离线补一次T-1数据到hbase + 离线初始化hbase中当日新用户数据为0 + Flink重启回拉消息位点到T日00:00，共计三步。非T日新增的老用户的数据在ODPS表里已存在，odps2hbase时会覆盖掉

overfit同步小助手 2024-02-29 04:03:20 0 收藏

大数据搭建

例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

overfit同步小助手 2024-02-29 00:03:26 0 收藏

第八章：AI大模型的部署与优化8.1 模型压缩与加速8.1.2 量化与剪枝

AI 大模型的部署与优化-8.1 模型压缩与加速-8.1.2 量化与剪枝作者：禅与计算机程序设计艺术8.1 模型压缩与加速8.1.1 背景介绍随着深度学习技术的不断发展，人工智能模

overfit同步小助手 2024-02-29 00:01:48 0 收藏

Flink的窗口操作及其应用场景

1.背景介绍Flink的窗口操作及其应用场景作者：禅与计算机程序设计艺术1. 背景介绍1.1 Streaming 数据处理Streaming 数据处理是当今许多应用程序所需要的一个重要功能。Streaming 数据指的是持续的、高速的数据流，如传感器数据、网络日志、交易记录等。随着互联网的普及和物联

overfit同步小助手 2024-02-28 23:03:47 0 收藏

大数据 - Spark系列《八》- 闭包引用

本文将深入探讨闭包引用的原理和应用。首先，我们将介绍闭包引用的概念及其副本的形成机制。随后，通过两个实例代码演示闭包引用在 Spark 中的具体应用场景。接下来，我们将讨论使用 Source.fromFile 和 sc.textFile 两种方法读取数据的差异和适用场景。最后，我们会总结闭包引用的注

overfit同步小助手 2024-02-28 23:03:21 0 收藏

HiveSQL——共同使用ip的用户检测问题【自关联问题】

overfit同步小助手 2024-02-28 22:03:44 0 收藏

【知识整理】产研中心岗位评定标准之基建运维岗位

为贯彻执行集团数字化转型的需要,该知识库将公示集团组织内各产研团队不同角色成员的职务“职级”岗位的评定标准;

overfit同步小助手 2024-02-28 19:06:38 0 收藏

实时Flink的检查点与恢复机制

1.背景介绍在大规模数据处理系统中，实时性能是至关重要的。Apache Flink是一个流处理框架，可以处理大量实时数据，并提供高性能和低延迟的数据处理能力。为了确保系统的可靠性和容错性，Flink提供了检查点(Checkpoint)和恢复机制。本文将深入探讨Flink的检查点与恢复机制，揭示其核心

overfit同步小助手 2024-02-28 19:03:51 0 收藏

Hadoop-Yarn-NodeManager如何计算Linux系统上的资源信息

Hadoop-Yarn-NodeManager都做了什么>中讲节点资源监控服务（NodeResourceMonitorImpl）时只是提了下SysInfoLinux，下面我们展开讲下SysInfoLinux是用于计算Linux系统上的资源信息的插件。

overfit同步小助手 2024-02-28 19:03:23 0 收藏

Hadoop的介绍与安装

HDFS是一个分布式文件系统：引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode，对数据进行分布式储存和读取。MapReduce是一个分布式计算框架：MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分（Map计算/Reduce计

overfit同步小助手 2024-02-28 18:03:38 0 收藏

大数据技术之 Kafka

大数据技术之 Kafka文章目录大数据技术之 Kafka第 1 章 Kafka 概述1.1 定义1.2 消息队列1.2.1 传统消息队列的应用场景1.2.2 消息队列的两种模式1.3 Kafka 基础架构第 2 章 Kafka 快速入门2.1 安装部署2.1.1 集群规划2.1.2 集群部署2.1.

overfit同步小助手 2024-02-28 18:03:31 0 收藏

Hadoop的任务调度与资源管理

1.背景介绍Hadoop是一个分布式文件系统和分布式计算框架，由Google的MapReduce和Google File System(GFS)技术启发。Hadoop的核心组件有HDFS(Hadoop Distributed File System)和MapReduce。Hadoop的任务调度与资源

overfit同步小助手 2024-02-28 17:04:03 0 收藏

【大数据】Flink 内存管理（一）：设置 Flink 进程内存

Apache Flink 通过严格控制各种组件的内存使用，在 JVM 上提供高效的工作负载。虽然社区努力为所有配置提供合理的默认值，但用户在 Flink 上部署的应用程序种类繁多，这意味着这并非总是可行。为了向用户提供最大的生产价值，Flink 允许对集群内的内存分配进行高级和精细调整。

overfit同步小助手 2024-02-28 17:03:50 0 收藏

[Flink02] Flink架构和原理

这是继第一节之后的Flink入门系列的第二篇，本篇主要内容是是：了解Flink运行模式、Flink调度原理、Flink分区、Flink安装。

overfit同步小助手 2024-02-28 17:03:45 0 收藏