大数据 - overfit.cn

Spark学习（8）-SparkSQL的运行流程，Spark On Hive

将Filter这种可以减少数据集的操作下推，放在Scan的位置，这样可以减少操作时候的数据量。RDD的运行会完全按照开发者的代码执行，如果开发者水平有限，RDD的执行效率也会受到影响。当使用ThriftServer后，相当于是一个持续性的Spark On Hive集成模式，它提供10000端口，持

overfit同步小助手 2024-01-03 19:03:35 0 收藏

Big Data Tools插件(详细讲解安装，连接，包教包会！！！)

最近有很多朋友都开始转行大数据竞赛了，大部分都是刚刚入门之类的，我自己是有一些基础的，玩过一段时间，最近很多好友学弟，都问过一个问题就是有没有什么类似于远程控制，或者图形化控制HDFS的插件或者软件啥的，我就想起来有一个插件叫Big Data Tools，之前我学的时候几乎一直都是使用这个插件，

overfit同步小助手 2024-01-03 18:03:42 0 收藏

华为云云耀云服务器L实例评测｜华为云上安装kafka

Kafka是由LinkedIn公司开发的一款开源分布式消息流平台，由Scala和Java编写。主要作用是为处理实时数据提供一个统一、高吞吐、低延迟的平台，其本质是基于发布订阅模式的消息引擎系统。

overfit同步小助手 2024-01-03 12:03:37 0 收藏

【空间统计学习笔记】四、空间大数据、复杂性科学及模拟计算

前面讲解了一些空间统计的理论，这一讲概括一些空间大数据的应用，以及介绍复杂性科学及模拟计算，重点介绍在空间统计分析中常用的元胞自动机模拟。后续将补充一些元胞自动机的代码。加油噢。

overfit同步小助手 2024-01-03 11:04:14 0 收藏

Flink系列之：背压下的检查点

然而，当 Flink 作业正运行在严重的背压下时，Checkpoint 端到端延迟的主要影响因子将会是传递 Checkpoint Barrier 到所有的算子/子任务的时间。在启动时，每个 Checkpoint 仍然是 aligned checkpoint，但是当全局 Checkpoint 持续时

overfit同步小助手 2024-01-03 10:04:26 0 收藏

RabbitMQ基本使用

没有topic 使用的是AMQP协议。

overfit同步小助手 2024-01-03 10:03:58 0 收藏

Flink面试题与详解

官网图：由两个部分组成，JM，TM。JM中包含三个组件，。dispatch主要是负责提供了rest接口，接受客户端提供的jar包dataflow等信息，并且运行Flink UI也是该组件运行。jobmaster主要是负责将dataflow等数据流图转换成真正的物理执行图，如果资源足够启动任务，那么就

overfit同步小助手 2024-01-03 10:03:55 0 收藏

【头歌实训】kafka-入门篇

第1关：kafka - 初体验第2关：生产者（Producer ）- 简单模式第3关：消费者（ Consumer）- 自动提交偏移量第4关：消费者（ CoTopic 的消息会复制（不是真的复制，是概念上的）到所有的 CG ，但每个 Partion 只会把消息发给该 CG 中的一个 Consu

overfit同步小助手 2024-01-03 10:03:51 0 收藏

Spark大数据分析与实战笔记（第二章 Spark基础-02）

Spark Standalone集群是主从架构的集群模式，由于存在单点故障问题，解决这个问题需要用到Zookeeper服务，其基本原理是将Standalone集群连接到同一个Zookeeper实例并启动多个Master节点，利用Zookeeper提供的选举和状态保存功能，可以使一台Master节点被

overfit同步小助手 2024-01-03 09:03:21 0 收藏

【大数据Hive】hive 运算符使用详解

hive运算符详解

overfit同步小助手 2024-01-03 09:03:12 0 收藏

windows下安装配置kafka详解

ZooKeeper是一个开源的分布式协调服务，它提供了可靠的数据存储和协调机制，用于协调分布式系统中的各个节点。Kafka使用ZooKeeper来存储和管理集群的元数据、配置信息和状态。在使用Kafka之前，通常需要先安装和配置ZooKeeper。ZooKeeper是Kafka的依赖项之一，它用于协

overfit同步小助手 2024-01-03 08:03:44 0 收藏

大数据机器学习GAN：生成对抗网络GAN全维度介绍与实战

本文为生成对抗网络GAN的研究者和实践者提供全面、深入和实用的指导。通过本文的理论解释和实际操作指南，读者能够掌握GAN的核心概念，理解其工作原理，学会设计和训练自己的GAN模型，并能够对结果进行有效的分析和评估。生成对抗网络（GAN）是深度学习的一种创新架构，由Ian Goodfellow等人于2

overfit同步小助手 2024-01-03 08:03:16 0 收藏

HIVE运行卡死没反应的亲测解法

这是一个解决hive操作卡住的方案，希望可以帮到遇到相同问题的同学In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reducer=In order to li

overfit同步小助手 2024-01-03 08:03:10 0 收藏

Zookeeper+kafka的应用及部署

overfit同步小助手 2024-01-03 05:03:54 0 收藏

惊!-hive on spark(hive任务)任务慢---竟然有这些原因！

hive性能慢的排查过程，hive on spark 任务慢

overfit同步小助手 2024-01-03 05:03:46 0 收藏

hive合并查询——头歌

之前的单表查询只是对一张表进行查询，而多表查询需要将两张及两张以上的表进行关联查询。在多表查询中，通常使用表名.列名来对各表中的列进行查询操作。的单表查询，本关主要讲解如何进行多表查询。本关任务：统计查询各班学习Python的人数。根据提示，在右侧编辑器补充代码，统计查询各班学习Python的人

overfit同步小助手 2024-01-03 05:03:24 0 收藏

大数据Hadoop之——部署hadoop+hive+Mysql环境（Linux）

-是否启动一个线程检查每个任务正使用的物理内存量，如果任务超出分配值，则直接将其杀掉，默认是 true -->--是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认是 true -->-- 关闭yarn内存检查 flink on hadoop 配置-->-- 指

overfit同步小助手 2024-01-03 03:03:47 0 收藏

Prometheus监控Kafka（三种方法JMX/Kafka_exporter/KMINION监控Kafka）

Prometheus监控kafka的三种方式：JMX监控kafka、kafka_exporter监控kafka、Kminion监控kafka。

overfit同步小助手 2024-01-03 03:03:37 0 收藏

Nacos和Eureka冲突问题原因分析

Nacos和Eureka冲突问题解决办法及原因分析。

overfit同步小助手 2024-01-03 02:03:09 0 收藏

基于 Eureka 的 Ribbon 负载均衡实现原理【SpringCloud 源码分析】

Eureka 服务拉取流程及 Ribbon 负载均衡源码分析。

overfit同步小助手 2024-01-03 01:03:51 0 收藏