大数据 - overfit.cn

Hadoop YARN在分布式模型训练中的任务调度机制探索

作者：禅与计算机程序设计艺术 1.简介概述Hadoop YARN是一个开源的资源管理和调度框架，被广泛应用于Hadoop生态系统中。它是Apache基金会孵化的顶级项目之一，最初由Apache Hadoop的设计者之一彼得德鲁克（Tim DeWolf）于2012

overfit同步小助手 2023-10-24 22:03:46 0 收藏

从Flink的Kafka消费者看算子联合列表状态的使用

flink算子联合列表状态

overfit同步小助手 2023-10-24 20:03:50 0 收藏

Introduction to Big Data Technologies

作者：禅与计算机程序设计艺术 1.简介“Big data”这个词很容易被提起，但是它背后真正的含义却并不太清楚。究竟什么是“big data”，它为什么如此重要？许多公司、组织和政府都已经在实施大数据解决方案，但却始终没有得到广泛认同。那么，什么才是真正的“bi

overfit同步小助手 2023-10-24 17:03:28 0 收藏

HBase基础

HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库(k-v)。数据量越大，优势越明显；数据量小，比较消耗内存，耗资源；数据量大的时候，可以做到几十亿条数据秒级查询；HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用 HBASE 技术可在廉价 PC Server

overfit同步小助手 2023-10-24 10:03:48 0 收藏

Hadoop为什么如此流行——史上最详解

作者：禅与计算机程序设计艺术 1.简介Hadoop是一个开源的分布式计算框架，其出现主要是为了解决海量数据的存储、计算、分析、和处理问题。随着互联网的数据量不断增加，分布式系统越来越普及，Hadoop也越来越受到青睐。它具备高容错性、高可靠性、弹性扩展等特性，能

overfit同步小助手 2023-10-24 09:03:43 0 收藏

人工智能的商业模式与前景如何？

作者：禅与计算机程序设计艺术 1.简介人工智能（AI）是指将认知、理解、推理、学习、决策等能力集成到计算机、手机、汽车或其他智能设备中，使它们具备智能的功能。它可以解决一些复杂的问题、自动化重复性工作、优化生产流程、减少人力资源开销等。近几年来，随着传感器、芯片

overfit同步小助手 2023-10-24 07:01:30 0 收藏

计算机，软件工程，网络工程，大数据专业毕业设计选题有哪些（附源码获取途径）前后端分离项目居多

大家好！我是你们的毕设周学长，知道你们即将面临毕业设计的任务，所以我来给大家整理了一些可能用到的计算机毕设选题，希望能够帮到你们。当然，以上只是一些选题的示例，具体选题还需要结合自身的兴趣和实际情况进行选择。如果对选题有任何疑问，欢迎向我提问，我会尽力为大家提供帮助。祝愿大家能够找到适合自己的毕设选

overfit同步小助手 2023-10-24 06:03:46 0 收藏

【大数据实训】—Hadoop开发环境搭建（一）

因为JDK的压缩包有大概200M，所以我们已经在平台中为你下载好了JDK，不用你再去Oracle的官网去下载了，如果你要在自己的Linux系统中安装，那么还是需要下载的。配置开发环境是我们学习一门IT技术的第一步，Hadoop是基于Java开发的，所以我们学习Hadoop之前需要在Linux系统中配

overfit同步小助手 2023-10-24 03:03:52 0 收藏

Hadoop分布式集群搭建教程

大数据课程需要搭建Hadoop分布式集群，在这里记录一下搭建过程。

overfit同步小助手 2023-10-24 00:03:33 0 收藏

数据中台实战(00)-大数据的尽头是数据中台吗？

数据中台构建于数据湖之上，具备数据湖异构数据统一计算、存储的能力，同时让数据湖中杂乱的数据通过规范化的方式管理起来。数据中台需要依赖大数据平台，大数据平台完成了数据研发的全流程覆盖，数据中台增加了数据治理和数据服务化的内容。数据中台借鉴了传统数据仓库面向主题域的数据组织模式，基于维度建模的理论，构建

overfit同步小助手 2023-10-23 22:03:28 0 收藏

大数据面试题：Spark和Flink的区别

Flink 根据用户提交的代码生成 StreamGraph，经过优化生成 JobGraph，然后提交给JobManager 进行处理， JobManager 会根据 JobGraph 生成 ExecutionGraph，ExecutionGraph 是 Flink 调度最核心的数据结构，JobMan

overfit同步小助手 2023-10-23 18:03:17 0 收藏

2.2 如何使用FlinkSQL读取&写入到文件系统(HDFS\Local\Hive)

如何使用FlinkSQL读取&写入到文件系统(HDFS\Local)

overfit同步小助手 2023-10-23 18:03:08 0 收藏

Python 单元测试

Python作为一种高级语言，对于开发者来说无疑是一个极其优秀的选择。相比其他语言，比如Java或者C++等，Python在易用性、学习曲线、生态系统等方面都有着不俗的表现。而Python的另一个突出优势就是支持面向对象的编程模式，使得代码具有更好的可读性和维护性。但是，由于在编程中可能出现很多意想

overfit同步小助手 2023-10-23 17:05:45 0 收藏

Building a Realtime Streaming Data Pipeline Using Kafka

作者：禅与计算机程序设计艺术 1.简介Apache Kafka是一个开源的分布式流处理平台，由LinkedIn开发并开源，用于高吞吐量、低延迟的数据实时传输。本文将使用Kafka作为数据源，使用Storm作为流处理框架构建实时数据流水线。在这一过程中，我们可以学

overfit同步小助手 2023-10-23 15:03:18 0 收藏

人工智能在农业领域的应用和潜力如何？

作者：禅与计算机程序设计艺术 1.简介人工智能（AI）在农业领域的应用还处于起步阶段，近年来，随着新技术、新数据、新方法的引入，农业领域的人工智能研究越来越火热。农业领域的人工智能，主要用于解决农业中无人机、遥感图像、气象信息等问题。通过精准的预测和掌握农产品和

overfit同步小助手 2023-10-23 14:01:36 0 收藏

Spark3 新特性之AQE

overfit同步小助手 2023-10-23 13:03:25 0 收藏

云数据仓库实践：AWS Redshift在大数据储存分析上的落地经验分享

本文从主流的数据仓库出发进行讲解，然后重点分析了一下这款产品的特点，及其在数据分析领域的优劣势。然后根据平时在工作用的实际应用实践，给出了常见的一些疑惑问题解答。最后通过一些日常使用的SQL分享，让大家来初识这一款数据仓库。如果想要深入学习大数据或者数据挖掘，可以继续去官网学习相关技术。

overfit同步小助手 2023-10-23 08:03:21 0 收藏

一百一十七、Hadoop——GZIP压缩并解压HDFS中的文件

GZIP压缩并解压HDFS中的文件

overfit同步小助手 2023-10-23 06:03:49 0 收藏

怎么使用 Flink 向 Apache Doris 表中写 Bitmap 类型的数据

Bitmap是一种经典的数据结构，用于高效地对大量的二进制数据进行压缩存储和快速查询。Doris支持bitmap数据类型，在Flink计算场景中，可以结合Flink doris Connector对bitmap数据做计算。社区里很多小伙伴在是Doris Flink Connector的时候，不知道怎

overfit同步小助手 2023-10-23 06:03:44 0 收藏

对比flink cdc和canal获取mysql binlog优缺点

Flink CDC和Canal都是用于获取MySQL binlog的工具，但是有以下几点优缺点对比：

overfit同步小助手 2023-10-23 06:03:37 0 收藏