大数据 - overfit.cn

Spark与ApacheCassandra集成与优化

1.背景介绍1. 背景介绍Apache Spark 是一个快速、通用的大数据处理框架，它可以处理批量数据和流式数据，支持多种编程语言，如 Scala、Python、R 等。Apache Cassandra 是一个分布式、高可用的 NoSQL 数据库，它可以存储大量数据，支持高并发访问。在大数据处理和

overfit同步小助手 2024-03-08 13:03:57 0 收藏

HBase整合Phoenix

1）官网地址：http://phoenix.apache.org/Phoenix是HBase的开源SQL皮肤。可以使用标准JDBC API代替HBase客户端API来创建表，插入数据和查询HBase数据。优点：使用简单，直接能写sql。缺点：效率没有自己设计rowKey再使用API高，性能较差。

overfit同步小助手 2024-03-08 13:03:49 0 收藏

【想进大厂还不会阅读源码】ShenYu源码-替换ZooKeeper客户端

ShenYu源码阅读。相信大家碰到源码时经常无从下手，不知道从哪开始阅读😭。我认为有一种办法可以解决大家的困扰！至此，我们发现自己开始从大量堆砌的源码中脱离开来😀。ShenYu是一个异步的，高性能的，跨语言的，响应式的 API 网关。

overfit同步小助手 2024-03-08 13:03:43 0 收藏

大数据揭秘：Hadoop短视频流量分析实战

本文介绍了一个基于Hadoop的哔哩哔哩短视频流量数据处理与分析系统。该系统利用Java进行后端开发，结合SpringBoot框架简化了开发过程。前端采用Vue.js技术，实现数据的可视化展示。MySQL数据库用于存储和管理系统元数据。通过该系统，我们可以高效处理和分析短视频流量数据，为哔哩哔哩平台

overfit同步小助手 2024-03-08 12:03:51 0 收藏

Zookeeper与ApacheSuperset的开发实践与案例分析

1.背景介绍1. 背景介绍Apache Zookeeper 和 Apache Superset 都是 Apache 基金会官方的开源项目，它们在分布式系统和数据可视化领域发挥着重要作用。本文将从以下几个方面进行深入分析：Apache Zookeeper 的核心概念、功能和应用场景Apache Sup

overfit同步小助手 2024-03-08 12:03:48 0 收藏

【Spark精讲】Spark五种JOIN策略

Spark JOIN详解，Spark五种JOIN策略，Shuffle Hash Join，Broadcast Hash Join，Sort Merge Join，Cartesian Join，Broadcast Nested Loop Join

overfit同步小助手 2024-03-08 12:03:30 0 收藏

刘亦菲，彭于晏快进来看看如何在最短时间内理解Spark

（1）Spark是一种快速、通用、可扩展的大数据分析引擎计算引擎。这一站式的计算框架，包含了Spark RDD(这也是Spark Core用于离线批处理)、Spark SQL(交互式查询)、Spark Streaming(实时流计算)、MLlib(机器学习)、GraphX(图计算)等重要处理组件。

overfit同步小助手 2024-03-08 12:03:27 0 收藏

【复现】Panalog大数据日志审计系统 RCE漏洞_51

【复现】Panalog大数据日志审计系统 RCE漏洞，通过提交恶意构造的参数破坏命令语句结构，从而达到执行恶意命令的目的。

overfit同步小助手 2024-03-08 11:03:41 0 收藏

Flink cdc3.0动态变更表结构——源码解析

Flink cdc 动态变更表结构的源码分析

overfit同步小助手 2024-03-08 11:03:37 0 收藏

重生之我在CSDN学习spark

SparkSQL的前身是Shark，Shark是伯克利实验室Spark生态环境的组件之一，它修改了内存管理、物理计划、执行三个模块，并使之能运行在Spark引擎上，从而使得SQL查询的速度得到10-100倍的提升。2）在Spark中引入了RDD (Resilient Distributed Data

overfit同步小助手 2024-03-08 10:03:25 0 收藏

用Hadoop搭建完全分布式集群

以上就是用Hadoop搭建完全分布式集群的方法。

overfit同步小助手 2024-03-08 09:03:54 0 收藏

RabbitMQ讲解与整合

交换机类型、队列类型讲解、死信队列、延时队列、springboot整合简单实例，实测以上列代码的方式直接对消息设置有效期是生效的

overfit同步小助手 2024-03-08 09:03:37 0 收藏

RabbitMQ相关问题

死信队列即DLX，全称为，翻译为：死信交换机。当一个消息在队列中变成死信 (dead message) 之后，它能被重新发送到另外一个交换机中，这个交换机就是DLX，绑定到DLX的队列就称为死信队列；死信队列本身也是一个普通的消息队列，可以通过设置一些参数将其设置为死信队列；死信队列是一个用于存放无

overfit同步小助手 2024-03-08 09:03:29 0 收藏

hadoop群起集群并测试

hadoop集群启动

overfit同步小助手 2024-03-08 08:03:22 0 收藏

HBase与Flink集成与实时处理

1.背景介绍1. 背景介绍HBase和Flink都是Apache基金会的开源项目，分别属于NoSQL数据库和流处理框架。HBase是基于Hadoop的分布式数据库，专注于实时读写操作，适用于大规模数据存储和查询。Flink是一种流处理框架，可以实时处理大规模数据流，支持实时计算和数据分析。在现代数据

overfit同步小助手 2024-03-08 08:03:19 0 收藏

大数据毕设分享大数据工作岗位数据分析与可视化 - python flask

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩基于大数据的工作岗位数据分析与可视化🥇学

overfit同步小助手 2024-03-08 06:03:42 0 收藏

Flink使用JavaAgent进行字节码修改的文件错误：无法打开ZIP文件或JAR清单丢失

Flink使用JavaAgent进行字节码修改的文件错误：无法打开ZIP文件或JAR清单丢失在大数据领域，Apache Flink是一个强大的流处理和批处理框架，它提供了许多功能和工具来处理大规模数据集。在某些情况下，我们可能需要对Flink应用程序的字节码进行修改，以实现一些定制化的需求。Java

overfit同步小助手 2024-03-08 06:03:28 0 收藏

Flink 源码剖析｜4. 累加器与相关工具方法

在 Flink 官方文档中，提到单个作业的所有累加器共享一个命名空间，Flink 会合并所有具有相同名称的累加器。（合并多个累加器的结果）功能的一种数据结构，在作业结束后，可以获取所有部分（各个 operator 的各个 subtask）合并后的最终结果并发送到客户端。类型表示累加器结果的类型，这个

overfit同步小助手 2024-03-08 05:03:35 0 收藏

Zookeeper与Tomcat集成与Web服务

1.背景介绍1. 背景介绍Zookeeper是一个开源的分布式协调服务，它为分布式应用提供一致性、可靠性和原子性的数据管理。Tomcat是一个流行的Java Web服务器和应用服务器，它是Apache软件基金会的一个项目。在现代分布式系统中，Zookeeper和Tomcat都是非常重要的组件，它们的

overfit同步小助手 2024-03-08 05:03:22 0 收藏

Zookeeper+Kafka概述

Kafka 是一个分布式的基于发布/订阅模式的消息队列（MQ，Message Queue），主要应用于大数据实时处理领域。#Kafka 简介。

overfit同步小助手 2024-03-08 04:03:56 0 收藏