apache - overfit.cn

大数据-153 Apache Druid 案例从 Kafka 中加载数据并分析

Apache Druid 从 Kafka 中获取数据并进行分析的流程通常分为以下几个步骤：Kafka 数据流的接入： Druid 通过 Kafka Indexing Service 直接从 Kafka 中摄取实时流数据。Kafka 是一个高吞吐量的消息队列，适合处理大量实时数据。Druid 会订阅

overfit同步小助手 2024-10-04 04:03:16 0 收藏

大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计

Apache Druid 是一个高效的实时数据存储和分析系统，结合 Kafka 能实现对实时流数据的摄取与处理。典型的流程是先通过 Kafka 采集数据，Kafka 作为数据源接收生产者发送的实时数据，比如用户行为日志或传感器数据。Druid 通过 Kafka Indexing Service 实时

overfit同步小助手 2024-10-04 01:03:38 0 收藏

大数据-155 Apache Druid 架构与原理详解数据存储索引服务压缩机制

Segment创建完成之后，Segment文件就是不可更改的，被写入到深度存储（目的是为了防止MiddleManager节点宕机后，Segment丢失）。负责创建Task、分发Task到MiddleManger上运行，为Task创建锁以及跟踪Task运行状态并反馈给用户。同时，Metadata st

overfit同步小助手 2024-10-03 15:03:59 0 收藏

大数据-151 Apache Druid 集群模式配置启动【上篇】超详细！

Apache Druid 集群模式配置启动【上篇】超详细！将MySQL驱动链接到：$DRUID_HOME/extensions/mysql-metadata-storage 中。上述文件链接到 conf/druid/cluster/_common 下。参数大小根据实际情况调整。参数大小根据实际情

overfit同步小助手 2024-10-02 16:06:41 0 收藏

大数据学习｜理解和对比 Apache Hive 和 Apache Iceberg

Hive是一个成熟的数据仓库解决方案，特别适合于批处理和数据仓库应用。Iceberg是一个更为现代的数据表格式，提供了更强的事务支持和性能优化，适用于需要更灵活数据管理和实时处理的应用场景。选择 Hive 还是 Iceberg 取决于具体的业务需求和技术背景。如果你的应用需要支持事务处理和更高的读写

overfit同步小助手 2024-10-02 15:03:57 0 收藏

大数据-149 Apache Druid 基本介绍技术特点应用场景

使用Hadoop、Spark进行分析将Hadoop、Spark的结果导入到RDBMS中提供数据分析将结果保存到容量更大的NoSQL数据库中，解决数据分析的存储瓶颈，例如：HBase将数据源进行流式处理，对接流式计算框架（如Storm、Spark、Flink），结果保存到RDBMS或NoSQL中将数据

overfit同步小助手 2024-10-02 01:03:31 0 收藏

大数据-152 Apache Druid 集群模式配置启动【下篇】超详细！

Apache Druid 是一种高性能、分布式的列式存储数据库，专门用于实时分析和查询大规模数据集。它适用于 OLAP（在线分析处理）场景，尤其在处理大数据实时流时表现优异。Druid 的架构由多个组件组成，主要包括数据摄取、存储、查询和管理。数据摄取层：使用 MiddleManager 节点来处理

overfit同步小助手 2024-10-01 18:03:12 0 收藏

Apache OFBiz 远程代码执行漏洞复现(CVE-2024-45195)

2024年9月，互联网上披露了Apache OFBiz 远程代码执行漏洞(CVE-2024-45195)，该漏洞允许未经身份验证的远程攻击者通过SSRF漏洞控制请求从而写入恶意文件。攻击者可能利用该漏洞来执行恶意操作，包括但不限于获取敏感信息、修改数据或执行系统命令，最终可导致服务器失陷。

overfit同步小助手 2024-10-01 15:06:37 0 收藏

大数据-154 Apache Druid 架构与原理详解基础架构、架构演进

Coordinator是周期运行的（由 druid.coordinator.period 配置指定，默认间隔60秒），Coordinator需要维护和ZooKeeper的连接，以获取集群的信息。进程监视MiddleManager进程，并且是Druid数据摄入的主节点，负责将提取任务分配给Middle

overfit同步小助手 2024-10-01 10:02:31 0 收藏

Apache zookeeper kafka 开启SASL安全认证_kafka开启认证

在结束之际，我想重申的是，学习并非如攀登险峻高峰，而是如滴水穿石般的持久累积。尤其当我们步入工作岗位之后，持之以恒的学习变得愈发不易，如同在茫茫大海中独自划舟，稍有松懈便可能被巨浪吞噬。然而，对于我们程序员而言，学习是生存之本，是我们在激烈市场竞争中立于不败之地的关键。一旦停止学习，我们便如同逆水行

overfit同步小助手 2024-09-30 17:03:50 0 收藏

大数据-150 Apache Druid 安装部署单机启动系统架构

Apache Druid 是一个高性能的实时分析数据库，专为快速聚合和查询大规模数据集而设计。它的架构由多个组件组成，每个组件在数据的存储、处理和查询中发挥重要作用。每个段通常包含一段时间内的数据，并被优化以支持快速查询。时间分区: Druid 根据时间将数据分区，以提高查询性能。数据按时间戳索引，

overfit同步小助手 2024-09-30 17:03:38 0 收藏

在Jupyter Notebook中进行大数据分析：集成Apache Spark

通过本教程，您已经学习了如何在Jupyter Notebook中集成和使用Spark进行大数据分析。从环境设置、数据加载与预处理到数据处理与分析，再到高级分析与机器学习，您掌握了完整的工作流程。接下来，您可以尝试使用更复杂的数据集和分析方法，进一步提高大数据处理和分析的技能。希望本教程能帮助您在大数

overfit同步小助手 2024-09-30 16:04:00 0 收藏

大数据-145 Apache Kudu 架构解读 Master Table 分区读写

在Kudu中，Tablet被细分为更小的单元，叫做RowSets，一些RowSets仅存于内存中，被称为MemRowSets，而另一些则同时使用内存和硬盘，被称为DiskRowSets。因为Master上缓存了集群的元数据，所以Client读写数据的时候，肯定是要通过Master才能获取到Table

overfit同步小助手 2024-09-30 10:02:08 0 收藏

在Ubuntu 18.04上安装Apache Web服务器的方法

Apache HTTP 服务器是世界上使用最广泛的 Web 服务器。它提供许多强大的功能，包括动态可加载模块、强大的媒体支持以及与其他流行软件的广泛集成。在本指南中，您将学习如何在 Ubuntu 18.04 服务器上安装 Apache Web 服务器。本指南还概述了有关重要的 Apache 文件和目

overfit同步小助手 2024-09-30 02:06:16 0 收藏

Apache Kafka UI ：一款功能丰富且美观的 Kafka 开源管理平台！！【送源码】

对数据使用现成的 Serde。

overfit同步小助手 2024-09-29 08:03:52 0 收藏

大数据-146 Apache Kudu 安装运行 Dockerfile 模拟集群启动测试

本节对 Apache Kudu 进行部署，通过Docker Compose 配置文件，用于部署 Apache Kudu 集群。Apache Kudu 是一个用于快速分析和实时数据处理的分布式列式存储系统，常与 Apache Hadoop 生态系统中的其他组件（如 Apache Impala、Apac

overfit同步小助手 2024-09-29 06:04:36 0 收藏

大数据-148 Apache Kudu 从 Flink 下沉数据到 Kudu

将数据从 Apache Flink 下沉到 Kudu 是一个常见的场景，可以利用 Kudu 的高性能和灵活性进行实时数据存储和分析。将编写代码展示了如何从数据源读取数据、进行转换，并最终将结果写入 Kudu。需要确保 MyFlinkSinkToKudu 类的实现是正确的，以便顺利将数据存储到 Kud

overfit同步小助手 2024-09-28 15:06:17 0 收藏

java日志门面之JCL和SLF4J

什么时日志门面？随着系统开发的进行，可能会更新不同的日志框架，造成当前系统中存在不同的日志依赖，让我们难以统一的管理和控制。借鉴JDBC的思想，为日志系统也提供一套门面，那么我们就可以面向这些接口规范来开发，避免了直接依赖具体的日志框架。这样我们的系统在日志中，就存在了日志的门面和日志的实现。常见的

overfit同步小助手 2024-09-28 09:09:07 0 收藏

大数据-144 Apache Kudu 基本概述数据模型使用场景

Apache Kudu 是由Cloudera开源的存储引擎，可以同时提供低延迟的随机读写和高效的分析能力。Kudu支持水平扩展，使用Raft协议进行一致性的保证，并且Cloudera和ApacheSpark等流行的大数据查询框架和分析工具紧密结合。现在提起大数据存储，我们能想到的HDFS、Apach

overfit同步小助手 2024-09-27 19:06:26 0 收藏

keepalived+lvs集群，实现高可用

环境准备：两台虚拟机，关闭防火墙，selinux,配置阿里云仓库，配置epel192.168.88.21 dr1 负载均衡器 master192.168.88.22 dr2 负载均衡器 backup实验说明：给主机配置一个虚拟IP192.168.88.100 当访问虚拟IP时，可以访问到nginx服

overfit同步小助手 2024-09-27 18:04:47 0 收藏