分布式 - overfit.cn

spark方法

Spark是一个开源的、大规模的、快速的数据处理引擎，专为大规模数据处理而设计。它提供了一个统一的编程模型来处理批处理、交互式查询、实时流处理和图计算等多种类型的数据处理任务。Scala源自Java，构建在JVM之上，与Java兼容、互通。Scala的优势：1.多范式编程：(1)面向对象编程：每个值

overfit同步小助手 2024-05-29 23:03:56 0 收藏

spark

在进行处理时，reduceByKey()方法将相同键的前两个值传给输入函数，产生一个新的返回值，新产生的返回值与RDD中相同键的下一个值组成两个元素，再传给输入函数，直到最后每个键只有一个对应的值为止。使用flatMap()方法时先进行map（映射）再进行flat（扁平化）操作，数据会先经过跟map

overfit同步小助手 2024-05-29 23:03:51 0 收藏

Hadoop伪分布式平台搭建

搭建Hadoop伪分布式环境是在单台机器上模拟完整的Hadoop分布式系统，使得所有的Hadoop守护进程（如NameNode、DataNode、ResourceManager、NodeManager等）都在同一台机器上运行。这样可以在一台机器上体验Hadoop的分布式特性，适合学习、测试和开发。

overfit同步小助手 2024-05-29 23:03:46 0 收藏

使用Hadoop进行模数据去重

使用Hadoop进行数据去重可以有效地处理大规模数据，并且可以通过适当的算法和技术实现高效的去重操作。通过本博客提供的步骤和代码示例，你可以在自己的环境中实现数据去重，并优化处理大规模数据的效率。

overfit同步小助手 2024-05-29 18:03:56 0 收藏

伪分布式数据库搭建（hadoop+spark+scala）

一，下载JDK安装包官网：https://www.oracle.com/java /technologies /javase-jdk8-downloads.html二，卸载openJDK三，安装JDK四，设置java环境变量命令：vi /etc/profile将master公钥进行公钥认证，实现本机

overfit同步小助手 2024-05-29 16:03:55 0 收藏

RabbitMQ —— 延迟队列

在这篇文章中，荔枝会梳理延迟队列的相关知识，主要涉及两种实现延时队列的方式和应用场景，希望能帮助到有需要的小伙伴~~~

overfit同步小助手 2024-05-29 16:03:28 0 收藏

Kafka-集群管理者（Controller）选举机制、任期（epoch）机制

overfit同步小助手 2024-05-29 14:03:51 0 收藏

Linux LAMP集群分布式安全方案

进入IP为10.0.0.168的Firefox，输入10.0.0.219/info.php，出现该界面。进入IP为10.0.0.168的Firefox，输入10.0.0.219，出现该界面。允许访问10.0.0.219的apache的端口8080和10080。10.0.0.219测试ssh连接10.

overfit同步小助手 2024-05-29 08:07:15 0 收藏

消息驱动：如何使用 Rabbit Template 集成 RabbitMQ？

上图中，不同的路由算法存在不同的 Exchange 类型，而 AMQP 规范中指定了直接式交换器（Direct Exchange）、广播式交换器（Fanout Exchange）、主题式交换器（Topic Exchange）和消息头式交换器（Header Exchange）这几种 Exchange

overfit同步小助手 2024-05-29 08:04:12 0 收藏

spark上如何终止目前正在运行的任务

命令提交任务，并通过 Spark Web UI 监控任务的执行状态。如果想要终止正在运行的 Spark 任务，可以在 Spark Web UI 中找到该任务，并点击“Kill”按钮来停止该任务的执行。是 Spark 应用程序在 YARN 上的应用 ID，可以在 Spark Web UI 或者命令行中

overfit同步小助手 2024-05-29 07:03:45 0 收藏

Kafka-ACK机制（ack应答原理、冥等性、事务）

Kafka ACK机制

overfit同步小助手 2024-05-29 05:03:32 0 收藏

RabbitMQ的用途

RabbitMQ主要有四个用途，分别是应用解耦、异步提速、削峰填谷、消息分发。

overfit同步小助手 2024-05-29 05:03:19 0 收藏

一、初识hadoop

开发人员为Hadoop编写MapReduce作业，并使用HDFS中存储的数据，而HDFS可以保证快速的数据访问。类似于SQL的高级语言，用于执行对存储在Hadoop中数据的查询，Hive允许不熟悉MapReduce的开发人员编写数据查询语句，它会将其翻译为Hadoop中的MapReduce作业。

overfit同步小助手 2024-05-29 01:03:58 0 收藏

Spark编程基础详细总结

第二种方式生成的RDD中保存的是T的值，Seq［String］部分的数据会按照 Seqf（T,Seq［String］）的顺序存放到各个分区中，一个 Seq［Stringl对应存放至一个分区，并为数据提供位置信息，通过preferredLocations0方法可以根据位置信息查看每一个分区的值。（2）

overfit同步小助手 2024-05-29 00:03:57 0 收藏

因为一次 Kafka 宕机，终于搞透了 Kafka 高可用原理！

所以，只要将Topic副本个数设置为和Broker个数一样，Kafka的多副本冗余设计是可以保证高可用的，不会出现一宕机就不可用的情况（不过需要注意的是Kafka有一个保护策略，当一半以上的节点不可用时Kafka就会停止）。存在一种情况，Leader刚收到了消息，Follower还没来得及同步Bro

overfit同步小助手 2024-05-28 23:03:32 0 收藏

RabbitMQ中4种交换机的Java连接代码

虽然queue1和queue的map中要求的参数信息基本一致，但匹配规则不同，queue1是“x-match：all” ,即需要完全匹配，而后者是“x-match：any”，即只要一个满足就可发送到，从图中可以看到queue2里 " "sex":男" "可以匹配到的。Header交换机与Direct

overfit同步小助手 2024-05-28 20:03:35 0 收藏

Spark AQE 导致的 Driver OOM问题

因为原则上来说，如果没有开启AQE之前，一个SQL执行单元的是属于同一个Job的，开启了AQE之后，因为AQE的原因，一个Job被拆成了了多个Job，但是从逻辑上来说，还是属于同一个SQL处理单元的所以还是得归属到一次执行中。类在内存中存放着一个整个SQL查询链的所有stage以及stage的指标

overfit同步小助手 2024-05-28 18:03:55 0 收藏

python——spark使用

Spark使用Scala语言进行实现，能操作分布式数据集。Spark是在借鉴了MapReduce之上发展而来的，继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷。Spark的适用场景：1. 复杂的批量处理（Batch Data Processing），偏重点在于处理海量数据的能力，

overfit同步小助手 2024-05-28 17:03:46 0 收藏

Hadoop基本配置和运用

Hadoop基础

overfit同步小助手 2024-05-28 16:03:58 0 收藏

hadoop- yarn启动后用jps查看没有resourcemanager

overfit同步小助手 2024-05-28 16:03:54 0 收藏