大数据 - overfit.cn

Spark 基本知识介绍

spark基本概念理解

overfit同步小助手 2024-01-08 23:03:40 0 收藏

[spark] RDD, DataFrame和DataSet是什么?如何相互转化

简而言之，RDD 是最基本的抽象，DataFrame 是对结构化数据的更高层次抽象，而 Dataset 是在 DataFrame 基础上提供了类型安全性的扩展。在实际使用中，通常优先选择使用 DataFrame 或 Dataset，因为它们更适合进行结构化数据处理和利用 Spark 的优化能力。在

overfit同步小助手 2024-01-08 22:03:48 0 收藏

从零开始了解大数据(二)：Hadoop篇

Hadoop是一个开源的分布式计算框架，主要用于处理大规模数据集。本文将介绍Hadoop集群的主要组成部分，包括HDFS分布式文件系统和YARN资源管理器，并探讨它们在大数据处理中的作用和功能。

overfit同步小助手 2024-01-08 20:03:34 0 收藏

【1-3章】Spark编程基础(Python版)

大数据技术概述、Spark设计与运行原理、Spark环境搭建和使用方法

overfit同步小助手 2024-01-08 19:03:49 0 收藏

为什么每一个爬虫工程师都应该学习 Kafka

上面描述的功能，实际上有不少 MQ 都能实现。但为什么是 Kafka 而不是其他呢？因为Kafka 集群的性能非常高，在垃圾电脑上搭建的集群能抗住每秒10万并发的数据写入量。而如果选择性能好一些的服务器，每秒100万的数据写入也能轻松应对。这篇文章通过两个例子介绍了 Kafka 在爬虫开发中的作用。

overfit同步小助手 2024-01-08 19:03:37 0 收藏

Flink cdc3.0同步实例（动态变更表结构、分库分表同步）

基于 Flink CDC 3.0 同步 MySQL 到 Doris ，来体验整库同步、表结构变更同步和分库分表同步等功能。

overfit同步小助手 2024-01-08 19:03:26 0 收藏

字节跳动 Spark 支持万卡模型推理实践

在云原生化的发展过程中 Kubernetes 由于其强大的生态构建能力和影响力，使得包括大数据、AI 在内越来越多类型的负载应用开始向 Kubernetes 迁移，字节内部探索 Spark 从 Hadoop 迁移到 Kubernetes 对作业的云原生化运行。字节跳动的大数据资源管理架构和 Spar

overfit同步小助手 2024-01-08 17:03:40 0 收藏

一百八十二、大数据离线数仓完整流程——步骤一、用Kettle从Kafka、MySQL等数据源采集数据然后写入HDFS

大数据离线数仓完整流程——步骤一、用Kettle从Kafka、MySQL等数据源采集数据然后写入HDFS

overfit同步小助手 2024-01-08 17:03:34 0 收藏

Hive DDL语法

Hive的语法和MySQL大部分都相同。

overfit同步小助手 2024-01-08 16:03:50 0 收藏

打包与解包：Go 中 archive 库的实战应用

经过对 Go 语言中archive库的深入探讨，我们了解了如何使用和进行文件的打包、压缩和解压缩。archive库作为 Go 标准库的一部分，为文件的打包和压缩处理提供了强大而灵活的工具，对于优化数据存储和传输具有重要意义。archive。

overfit同步小助手 2024-01-08 16:03:32 0 收藏

注册中心Eureka

overfit同步小助手 2024-01-08 15:03:31 0 收藏

Kafka中的fetch-min-size、fetch-max-wait和request.timeout.ms配置

Kafka中的fetch-min-size和fetch-max-wait配置

overfit同步小助手 2024-01-08 14:03:45 0 收藏

SpringCloud 整合 Canal+RabbitMQ+Redis 实现数据监听

Canal 指的是阿里巴巴开源的数据同步工具，用于数据库的实时增量数据订阅和消费。它可以针对 MySQL、MariaDB、Percona、阿里云RDS、Gtid模式下的异构数据同步等情况进行实时增量数据同步。当前的 canal 支持源端 MySQL 版本包括 5.1.x , 5.5.x , 5.6.

overfit同步小助手 2024-01-08 13:03:44 0 收藏

大数据平台/大数据技术与原理-实验报告--部署ZooKeeper集群和实战ZooKeeper

在上步修改配置文件zoo.cfg中，将存放数据快照和事务日志的目录设置为目录data和datalog，因此需要在master机器上创建这两个目录，使用如下命令实现，假设当前目录为以上步骤操作后的所在目录“/opt/so/apache-zookeeper-3.9.1-bin”。由于ZooKeeper集

overfit同步小助手 2024-01-08 12:03:38 0 收藏

计算机毕业设计：基于python热门旅游景点数据爬取分析系统+可视化 +大数据（附源码+文档）✅

overfit同步小助手 2024-01-08 11:03:34 0 收藏

zookeeper服务启动报错&zookeeper加入到开机自启服务

zookeeper启动报错Error contacting service. It is probably not running.网上搜的防火墙、端口的各种解决方法都尝试了，无果。特此记录解决方法

overfit同步小助手 2024-01-08 11:03:30 0 收藏

毕设分享 python大数据房价预测与可视化系统

今天学长向大家介绍一个机器视觉的毕设项目毕设分享 python大数据房价预测与可视化系统项目获取：https://gitee.com/sinonfin/algorithm-sharing对于数据挖掘工程师来说，有时候需要抓取地理位置信息，比如统计房子周边基础设施信息，比如医院、公交车站、写字楼、地铁

overfit同步小助手 2024-01-08 10:03:42 0 收藏

Spark大数据分析与实战笔记（第二章 Spark基础-05）

在大数据处理和分析领域，Spark被广泛应用于解决海量数据处理和实时计算的挑战。作为一个快速、可扩展且易于使用的分布式计算框架，Spark为开发人员提供了丰富的API和工具来处理和分析大规模数据集。其中，Spark-Shell是Spark提供的一个交互式工具，它基于Scala语言，使得用户能够更加灵

overfit同步小助手 2024-01-08 09:03:27 0 收藏

数据挖掘（Data Mining）第四章课后习题

overfit同步小助手 2024-01-08 08:03:29 0 收藏

kafka 集群 KRaft 模式搭建

Apache Kafka是一个开源分布式事件流平台，被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用程序Kafka 在2.8版本之后，移除了对Zookeeper的依赖，将依赖于ZooKeeper的控制器改造成了基于Kafka Raft的Quorm控制器，因此可以在不使用ZooKeepe

overfit同步小助手 2024-01-08 07:03:51 0 收藏