大数据 - overfit.cn

搭建hadoop+spark完全分布式集群环境

tar -zxvf jdk-8u181-linux-x64.tar.gz -C /home/hadoop/apps #解压到apps下。进入/home/hadoop/apps/hadoop-2.7.6/etc/Hadoop。sudo vi /etc/profile #修改配置文件。start-s

overfit同步小助手 2024-08-14 02:03:49 0 收藏

详解 Spark 各种运行环境的搭建

Mesos 是 Apache 下的开源分布式资源管理框架Kubernetes（k8s）是目前最为流行的容器管理工具Windows 模式：将解压缩到无中文无空格的路径中执行解压缩文件路径下bin目录中的文件，启动 Spark 本地环境编写 Scala 程序执行或在 DOS 命令行窗口中执行提交指令。

overfit同步小助手 2024-08-14 02:03:46 0 收藏

【IEEE出版 | 往届会后三个月检索】第五届大数据、人工智能与软件工程国际研讨会（ICBASE 2024）

会议旨在为从事大数据、人工智能与软件工程研究的专家学者、工程技术人员、技术研发人员提供一个共享科研成果和前沿技术，了解学术发展趋势，拓宽研究思路，加强学术研究和探讨，促进学术成果产业化合作的平台。大数据分析、深度学习、机器学习、人工智能、模式识别、数据挖掘、云计算技术、物联网、AI应用于物联网、聚类

overfit同步小助手 2024-08-13 23:04:16 0 收藏

大数据------JavaWeb------Filter&Listener&AJAX&Axios&JSON

Filter、Listener、AJAX、Axios、JSON完整知识点汇总

overfit同步小助手 2024-08-13 22:03:54 0 收藏

Hadoop 面试题（六）

1. 简述Google三驾马车是Hadoop等分布式系统的基石，其中论文()不属于三驾马车之一？2. 简述现有一个安装 2.6.5 版本的 Hadoop 集群，在不修改默认配置的情况下，存储 200 个每个 200M 的文本文件，请问最终会在集群中产生多少个数据块（包括副本）？3. 假设有Had

overfit同步小助手 2024-08-13 22:03:47 0 收藏

什么是RabbitMQ

保证消息一定能发到消息队列中细节保证mq节点成功接受消息消息发送端需要接受到mq服务端接收到消息的确认应答完善的消息补偿机制，发送失败的消息可以再感知并二次处理RabbitMQ消息投递路径生产者-->交换机-->队列-->消费者通过两个点的控制，保证消息的可靠性投递生产者到交换机 confirmCa

overfit同步小助手 2024-08-13 22:03:44 0 收藏

实时数据处理：Apache Kafka 和 Apache Flink 的比较

1.背景介绍实时数据处理在大数据时代已经成为了企业和组织中不可或缺的技术手段。随着互联网、物联网、人工智能等领域的快速发展，实时数据处理技术的需求也越来越高。Apache Kafka 和 Apache Flink 是两款流行的开源实时数据处理框架，它们各自具有独特的优势，并在不同的场景下发挥着重要作

overfit同步小助手 2024-08-13 22:03:36 0 收藏

RabbitMQ

跟随尚硅谷学习rabbitMQ的记录

overfit同步小助手 2024-08-13 22:03:16 0 收藏

以Zookeeper为例浅谈脑裂与奇数节点问题

因此，对于6台服务器的集群，计算过半数需要的票数为 `half = 6 / 2 = 3`，意味着至少需要4票来成功选举出一个Leader。在某些情况下，为了确保集群中只有一个有效的领导者，可以采用磁盘锁或仲裁机制。② 若网络断开，机房1内的3台服务器可以通过内部投票选出一个Leader（因为3票已经

overfit同步小助手 2024-08-13 21:03:49 0 收藏

Eureka中的服务断路器模式实现：保障微服务系统的稳定性

服务消费者通过Eureka服务器获取服务提供者的信息，并进行调用。结合服务断路器，可以在服务调用失败时自动触发断路器，保护服务系统。在微服务架构中，服务间的依赖关系错综复杂，一旦某个服务出现故障，可能会引发连锁反应，导致整个系统的崩溃。本文将详细解释如何在Eureka中实现服务的断路器模式，并提供具

overfit同步小助手 2024-08-13 21:03:32 0 收藏

Kafka 的零拷贝（Zero Copy）

零拷贝（Zero Copy）是一种计算机操作系统中的技术，用于减少数据在内存中的拷贝次数，从而提高数据传输的效率。传统的数据传输过程中，数据通常需要从磁盘读取到内核缓冲区，再从内核缓冲区拷贝到用户空间缓冲区，最后从用户空间缓冲区拷贝到网络缓冲区进行发送。这个过程中涉及多次数据拷贝，消耗了大量的 CP

overfit同步小助手 2024-08-13 21:03:10 0 收藏

Hadoop，ActiveMQ，RabbitMQ，Springboot Actuator未授权访问漏洞（附带修复方法）

Hadoop是⼀个由Apache基⾦会所开发的分布式系统基础架构，由于服务器直接在开放了Hadoop 机器 HDFS 的 50070 web 端⼝及部分默认服务端⼝，⿊客可以通过命令⾏操作多个⽬录下的数据，如进⾏删除，下载，⽬录浏览甚⾄命令执⾏等操作，产⽣极⼤的危害。在 Actuator 启⽤的情况

overfit同步小助手 2024-08-13 20:03:49 0 收藏

Flink 实时数仓（七）【DWS 层搭建（一）流量域汇总表创建】

Flink 实时数仓，流量域汇总表创建：流量域来源关键词粒度页面浏览各窗口汇总表，流量域版本-渠道-地区-访客类别粒度页面浏览各窗口汇总表

overfit同步小助手 2024-08-13 20:03:42 0 收藏

如何在Java中使用Kafka

本文详细介绍了如何在Java中使用Kafka，包括创建生产者和消费者的基本步骤，以及一些高级配置与优化建议。通过本文的学习，相信大家能够掌握基本的Kafka使用方法，并能在实际项目中应用。本文将详细介绍如何在Java中使用Kafka，并通过示例代码展示如何实现生产者和消费者。大家好，我是免费搭建查券

overfit同步小助手 2024-08-13 19:03:46 0 收藏

KafkaConnect：对接HadoopHDFS的实践

KafkaConnect：对接HadoopHDFS的实践1.背景介绍在当今大数据时代，数据的采集、传输和存储是至关重要的。Apache Kafka作为一个分布式流处理平台,已经广泛应用于各种场景。而Hadoop分布式文件系统HDFS则是大数据存储的核心组件之一。将

overfit同步小助手 2024-08-13 18:03:48 0 收藏

Kafka Monitor 使用教程

Kafka Monitor 使用教程 kafka-monitorXinfra Monitor monitors the availability of Kafka clusters by producing synthetic workloads using end-to-end pipelines

overfit同步小助手 2024-08-13 18:03:29 0 收藏

Zookeeper 四、Zookeeper应用场景

Master选举是一个在分布式系统中非常常见的应用场景。分布式最核心的特性就是能够将具有独立计算能力的系统单元部署在不同的机器上，构成一个完整的分布式系统。而与此同时，实际场景中往往也需要在这些分布在不同机器上的独立系统单元中选出一个所谓的“老大”，在计算机中，我们称之为Master。在分布式系统中

overfit同步小助手 2024-08-13 18:03:25 0 收藏

大数据计算模式之流处理和交互式计算

总结来说，交互式计算关注于对已有数据的快速查询和分析，以支持决策和探索；而流式计算则侧重于对实时数据流的即时处理，以捕捉数据中的瞬时变化和趋势，两者在大数据处理中扮演着互补的角色。日常工作中，我们一般会先把数据存储在表，然后对表的数据进行加工、分析。既然先存储在表中，那就会涉及到时效性概念。如果我们

overfit同步小助手 2024-08-13 17:03:51 0 收藏

Flink1.20.0安装

centos7安装部署Flink1.20.0集群

overfit同步小助手 2024-08-13 17:03:43 0 收藏

kafka详解及应用场景介绍

Kafka架构，由多个组件组成，如下图所示：主要会包含：Topic、生产者、消费者、消费组等组件。Broker是Kafka集群中的一个节点，每个节点都是一个独立的Kafka服务器。它负责存储和处理发布到Kafka的消息，消息以主题（topic）的形式进行分类和组织。如下图所示：每个Broker可以承

overfit同步小助手 2024-08-13 17:03:21 0 收藏