大数据 - overfit.cn

【智能大数据分析 | 实验二】Spark实验：部署Spark集群

智能大数据分析实验二，Spark实验：部署Spark集群。理解Spark体系架构，学会部署Spark集群，能够配置Spark集群使用HDFS。最后在master上提交并运行Spark示例代码WordCount，上传至HDFS。

overfit同步小助手 2024-09-29 10:03:22 0 收藏

Apache Kafka UI ：一款功能丰富且美观的 Kafka 开源管理平台！！【送源码】

对数据使用现成的 Serde。

overfit同步小助手 2024-09-29 08:03:52 0 收藏

大数据新视界 --大数据大厂之数据压缩算法比较与应用：节省存储空间

本文深入探讨了大数据中数据压缩算法的重要性，详细比较了常见的无损（GZIP、ZIP）和有损（JPEG、MP3）压缩算法在压缩率、速度、适用场景方面的差异，并结合丰富的实际案例阐述了它们在大数据厂的数据存储和传输中的应用，还对数据压缩技术未来的发展趋势进行了全面分析。

overfit同步小助手 2024-09-29 08:03:18 0 收藏

数据仓库与数据库的不同

分享了数据仓库和数据库的不同

overfit同步小助手 2024-09-29 07:03:27 0 收藏

保姆级教程教你如何安装Hadoop，实现Hadoop单机（非分布式）配置

前往阿里镜像站选择下载下载时间较久，请耐心等待。

overfit同步小助手 2024-09-29 06:04:58 0 收藏

大数据-146 Apache Kudu 安装运行 Dockerfile 模拟集群启动测试

本节对 Apache Kudu 进行部署，通过Docker Compose 配置文件，用于部署 Apache Kudu 集群。Apache Kudu 是一个用于快速分析和实时数据处理的分布式列式存储系统，常与 Apache Hadoop 生态系统中的其他组件（如 Apache Impala、Apac

overfit同步小助手 2024-09-29 06:04:36 0 收藏

30分钟掌握沧湖一体化：flink+hudi（干货，建议收藏）_flink hudi sink

之所以数据先入 Kafka 而不是直接入 Hudi，是为了实现多个实时任务复用 MySQL 过来的数据，避免多个任务通过 Flink CDC 接 MySQL 表以及 Binlog，对 MySQL 库的性能造成影响。再者，如果把大量的历史数据再一次推到 Kafka，走实时计算的链路来修正历史数据，可能

overfit同步小助手 2024-09-29 05:03:53 0 收藏

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务

点一下关注吧！！！非常感谢！！持续更新！！！目前已经更新到了：Hadoop(已更完)HDFS(已更完)MapReduce(已更完)Hive(已更完)Flume(已更完)Sqoop(已更完)Zookeeper(已更完)HBase(已更完)Redis (已更完)Kafka(已更完)Spark(已更完)F

overfit同步小助手 2024-09-29 05:03:49 0 收藏

Spark-LP：Apache Spark分布式线性规划求解器实战指南

本文还有配套的精品资源，点击获取简介：Spark-LP是一款利用Apache Spark分布式计算能力解决大规模线性规划问题的工具，旨在提升优化效率。线性规划在多个领域有广泛应用，而Spark-LP通过将问题分解并并行求解，大幅提高处理速度。该求解器支持Scala编写，并可利用Spark生态系

overfit同步小助手 2024-09-29 05:03:45 0 收藏

Paimon 集成Flink CDC (二） Kafka

Flink提供了几种KafkaCDC格式:canal-json、debezium-json、ogg-json、maxwell-json。如果Kafka主题中的消息是使用更改数据捕获(CDC）工具从另一个数据库捕获的更改事件，则可以使用Paimon 的KafkaCDC。将解析后的INSERT、UPDA

overfit同步小助手 2024-09-29 05:03:32 0 收藏

【RabbitMQ】快速上手

RabbitMQ 介绍上手操作

overfit同步小助手 2024-09-29 04:03:25 0 收藏

【大数据Big DATA】大数据解决方案，提供完整的大数据采集，大数据存储，大数据处理，具体业务应用解决方案

大数据解决方案是指利用大数据技术，结合企业实际业务需求，为企业提供数据采集、存储、处理、分析和报告等一站式服务，以帮助企业更好地利用大数据提高运营效率、优化决策制定。

overfit同步小助手 2024-09-29 03:04:15 0 收藏

探索知乎用户大数据：zhihu-crawler-people 开源项目推荐

探索知乎用户大数据：zhihu-crawler-people 开源项目推荐 zhihu-crawler-peopleA simple distributed crawler for zhihu && data analysis项目地址:https://gitcode.com/gh_mirrors/z

overfit同步小助手 2024-09-29 03:03:52 0 收藏

大数据基础

Volume（体量大）Velocity（速度快）和Variety（种类多）。它指的是数据集的规模、增长速度和多样性，这些数据集太大或复杂，传统的数据处理软件难以处理。大数据是一个快速发展的领域，它为组织提供了前所未有的机会来从海量数据中提取有价值的见解。随着技术的进步，大数据的应用将更加广泛，对个人

overfit同步小助手 2024-09-29 02:04:26 0 收藏

Flink SQL 中枚举类型处理的挑战与解决方案

在 Flink SQL 中处理枚举类型的数据可能会遇到一些限制，特别是在无法调用 Java 方法的情况下。数据预处理：在 Kafka 数据源处将枚举类型转换为字符串。CASE语句：在 Flink SQL 中使用CASE语句进行枚举值的映射，适用于较简单的场景。字符串替换：对于简单的枚举字符串，可以使

overfit同步小助手 2024-09-29 01:04:14 0 收藏

li-apache-kafka-clients 使用教程

li-apache-kafka-clients 使用教程 li-apache-kafka-clientsli-apache-kafka-clients is a wrapper library for the Apache Kafka vanilla clients. It provides add

overfit同步小助手 2024-09-29 00:03:49 0 收藏

解决高版本flink cdc connector缺少依赖的问题

解决高版本flink cdc依赖缺失的问题

overfit同步小助手 2024-09-29 00:03:46 0 收藏

SpringCloud基于Eureka的服务治理架构搭建与测试：从服务提供者到消费者的完整流程

Spring Cloud微服务框架中的Eureka是一个用于服务发现和注册的基础组件，它基于RESTful风格，为微服务架构提供了关键的服务注册与发现功能。以下是对Eureka的详细解析和搭建举例。

overfit同步小助手 2024-09-28 20:05:41 0 收藏

鹰眼系统：基于Flink的电商实时数据分析与风控利器

鹰眼系统：基于Flink的电商实时数据分析与风控利器 eagle 基于flink的电商实时数据分析、推荐、风控项目项目地址: https://g

overfit同步小助手 2024-09-28 19:03:23 0 收藏

大数据与管理会计在企业中的应用分析

本文还有配套的精品资源，点击获取简介：在大数据时代，企业管理会计正面临重大变革。信息技术的发展使数据成为企业决策的重要资产，从而提升了管理会计的精确度和实时性，扩展了其功能，并推动了信息共享。本文深入探讨了大数据如何改变管理会计实践，并分析了企业因此面临的机遇与挑战，强调了提升会计人员数据分析

overfit同步小助手 2024-09-28 18:07:37 0 收藏