大数据 - overfit.cn

Flink 流数据批量写入数据库指南

Flink 流数据批量写入数据库指南【下载地址】Flink流数据批量写入数据库指南分享在Flink应用中，将流数据写入数据库是一个常见的场景。通常情况下，开发者会通过继承`RichSinkFunction`来实现数据的写入。然而

overfit同步小助手 2024-12-06 09:04:22 0 收藏

从0开始搭建一个生产级SpringBoot2.0.X项目（十）SpringBoot 集成RabbitMQ

最近有个想法想整理一个内容比较完整springboot项目初始化Demo。SpringBoot集成RabbitMQRabbitMQ中的一些角色：publisher：生产者consumer：消费者exchange个：交换机，负责消息路由queue：队列，存储消息virtualHost：虚拟主机，隔离不

overfit同步小助手 2024-12-06 09:04:07 0 收藏

六，Linux基础环境搭建（CentOS7）- 安装HBase

在hbase-site.xml配置zookeeper，当Hbase管理zookeeper的时候，你可以通过修改zoo.cfg来配置zookeeper，对于zookeepr的配置，你至少要在 hbase-site.xml中列出zookeepr的ensemble servers，具体的字段是 hbase

overfit同步小助手 2024-12-06 08:04:38 0 收藏

Hadoop完全分布式的搭建（零基础）

本文旨在指导读者如何在虚拟化环境中构建一个完全分布式的Hadoop集群。内容涵盖了从网络和节点的规划到环境设置，再到实现SSH免密登录、配置文件的准备、软件的分发与安装、集群的启动与停止。

overfit同步小助手 2024-12-06 08:04:33 0 收藏

大数据新视界 -- Hive 元数据管理：核心元数据的深度解析（上）（27 / 30）

本文深入探索 Hive 元数据管理领域，细致剖析核心元数据内涵、存储机制、管理策略与应用实践，结合创新视角与深度案例，为大数据从业者提供全面且具前瞻性的技术指南，引领元数据管理前沿趋势。

overfit同步小助手 2024-12-06 08:04:09 0 收藏

Microi 吾码：大数据浪潮中的智能领航者

在大数据的浩瀚海洋中，Microi 吾码犹如一艘智能领航者，从数据存储、处理与分析、可视化、流式处理到安全与隐私保护以及云平台集成等多个方面，为大数据应用提供了全面而强大的支持。通过丰富的代码示例和深入的文字解析，我们可以看到 Microi 吾码在大数据领域的独特价值和卓越能力。

overfit同步小助手 2024-12-06 08:04:03 0 收藏

2023_Spark_实验十五：SparkSQL进阶操作

本实验通过实践掌握Spark SQL中的复杂查询，如子查询、窗口函数和联接操作，同时学习性能优化策略，包括数据分区、缓存机制和查询优化。学员实现了一个ETL数据处理流程，从日志和交易数据中提取信息，清洗数据并进行复杂查询，最终将处理结果加载到目标存储中。这些技能为后续的大数据分析和处理奠定了基础。

overfit同步小助手 2024-12-06 07:03:59 0 收藏

SpringAMQP — RabbitMQ操作工具

Spring AMQP（Spring for Advanced Message Queuing Protocol）是 Spring 框架的一个子项目，用于简化与消息代理（如 RabbitMQ）的集成。Spring AMQP 提供了基于 AMQP 协议的抽象层，使得 Java 程序员能够更轻松地使用

overfit同步小助手 2024-12-06 05:03:36 0 收藏

kafka和zookeeper单机部署

安装kafka需要jdk和zookeeper环境，因此先部署单机zk的测试环境。

overfit同步小助手 2024-12-06 00:03:52 0 收藏

大数据-240 离线数仓 - 广告业务测试 ADS层数据加载 DataX数据导出到 MySQL

DataX 是由阿里巴巴开源的分布式离线数据同步工具，用于解决不同存储系统之间的数据传输问题。它被设计为一种高效、稳定、易扩展的工具，能够适应多种复杂的数据同步需求。,DataX 是由阿里巴巴开源的分布式离线数据同步工具，用于解决不同存储系统之间的数据传输问题。它被设计为一种高效、稳定、易扩展的工具

overfit同步小助手 2024-12-06 00:03:45 0 收藏

Kafka

Kafka 是一个。

overfit同步小助手 2024-12-06 00:03:41 0 收藏

大数据新视界 -- 大数据大厂之 Hive MapReduce 性能调优实战（下）（24 / 30）

本文深入探索 Hive MapReduce 性能调优，凭借丰富实战案例、创新调优策略与深度技术剖析，打造全面且具前瞻性的性能提升指南。助您突破大数据处理瓶颈，解锁高效数据处理的核心秘诀，引领大数据技术前沿。

overfit同步小助手 2024-12-06 00:03:25 0 收藏

Hadoop参数调优全攻略，让你的集群性能翻倍！

的DataNode节点保存数据的路径由dfs.datanode.data.dir参数决定，其默认值为file://${hadoop.tmp.dir}/dfs/data，若服务器有多个磁盘，必须对该参数进行修改。在进行参数调优时，需要综合考虑集群的硬件配置、作业的特点和性能指标，通过实验和监控来找到最

overfit同步小助手 2024-12-05 23:03:37 0 收藏

数据仓库和sql 高级查询技巧

根据自己对一些大数据分析相关文章的一些阅读和理解，整理了一些数据分析、Sparksql（也可以是hivesql）常见高级技巧的使用示例，包括语句的实现和特定场景优化等。这些示例有些是大厂数据开发面试中的常见题目。

overfit同步小助手 2024-12-05 23:03:34 0 收藏

Cmakelist.txt之Liunx-rabbitmq

Cmakelist.txt之Liunx-rabbitmq配置

overfit同步小助手 2024-12-05 22:03:51 0 收藏

Spark-CoreNLP 项目推荐

Spark-CoreNLP 项目推荐 spark-corenlp Stanford CoreNLP wrapper for Apache Spark

overfit同步小助手 2024-12-05 22:03:39 0 收藏

一次ES集群崩溃及恢复过程

生产环境上搭建了一套由Filebeat + Kafka + Logstash + Elasticsearch + Kibana实现的实时日志分析系统。每一台生产服务器上利用Filebeat收集指定的应用日志，作为生产者写入到Kafka中；另一端Logstash作为消费者消费Kafka中的消息，并上报

overfit同步小助手 2024-12-05 21:03:39 0 收藏

大数据-239 离线数仓 - 广告业务测试 FlumeAgent 加载ODS、DWD层

Flume 是一个分布式、可靠且可扩展的系统，用于收集、聚合和传输大量日志数据。它常用于从各种数据源（例如日志文件、应用程序、系统等）收集数据并将其传输到 Hadoop 生态系统（例如 HDFS、Hive、HBase 等）进行进一步处理。Flume 主要由多个组件构成，其中 Flume Agent

overfit同步小助手 2024-12-05 21:03:14 0 收藏

探索 Hadoop：构建大数据处理的基石

Hadoop 作为大数据处理领域的中流砥柱，以其独特的架构和强大的功能，为企业和组织处理大规模数据提供了坚实的基础。从数据的分布式存储到高效的并行计算，从与其他技术的集成到性能的优化和未来的发展，Hadoop 不断演进和创新，适应着大数据时代的各种挑战和需求。无论是互联网企业、金融机构还是科研领域，

overfit同步小助手 2024-12-05 20:03:18 0 收藏

深入解析 Hadoop 核心技术：构建大数据处理基石

分布式文件系统，负责存储大规模数据，将数据分割成块并分布存储在多个节点上，具有高容错性和高可靠性。MapReduce：分布式计算模型，用于大规模数据集的并行处理。它将计算任务分解为 Map 阶段和 Reduce 阶段，通过在集群节点上并行执行来提高计算效率。：资源管理框架，负责集群资源的分配和管理，

overfit同步小助手 2024-12-05 19:03:52 0 收藏