大数据 - overfit.cn

Kafka学习笔记

overfit同步小助手 2024-12-14 02:03:57 0 收藏

SQL on Hadoop

Hadoop 提供了一种分布式存储和计算的平台，为了解决传统关系型数据库无法处理海量数据的问题，通过扩展 SQL 的方式在 Hadoop 上执行分布式查询，称之为。

overfit同步小助手 2024-12-14 01:03:45 0 收藏

[1] zookeeper基础知识

客户端在向Zookeeper服务器注册的同时，会将Watcher对象存储在客户端的WatcherManager中。3.6.0中：客户端可以在znode上设置永久的递归监视，这些监视在触发时不会被删除，并且以递归方式触发已注册znode以及任何子znode上的更改。Zookeeper的数据节点称为ZN

overfit同步小助手 2024-12-14 01:03:39 0 收藏

Hadoop生态圈框架部署伪集群版（七）- Hive部署

随着大数据技术的不断发展，数据处理和分析的需求日益增长。Apache Hive作为基于Hadoop的一个数据仓库工具，能够极大地简化对大规模数据集的查询和管理过程。它允许用户使用类似于SQL的HiveQL语言查询数据，这使得那些熟悉关系型数据库管理系统（RDBMS）的开发者可以轻松地转移到大数据平台

overfit同步小助手 2024-12-14 01:03:34 0 收藏

Flink 开发工程应加载哪些依赖

讲解flink打包时依赖相关配置

overfit同步小助手 2024-12-14 00:03:42 0 收藏

DBeaver连接Hive教程

简而言之，hiveserver2是Hive启动了一个server，客户端可以使用JDBC协议，通过IP+ Port的方式对其进行访问，达到并发访问的目的。：通过hive shell来操作hive，但是至多只能存在一个hive shell，启动第二个会被阻塞，也就是说hive shell不支持。编辑驱

overfit同步小助手 2024-12-13 21:03:26 0 收藏

SpringBoot集成Flink-CDC

Flink CDCCDC相关介绍CDC是什么?CDC是Change Data Capture(变更数据获取)的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入、更新以及删除等），将这些变更按发生的顺序完整记录下来，写入到MQ以供其他服务进行订阅及消费CDC分类CDC主要分为基于查询和

overfit同步小助手 2024-12-13 19:03:45 0 收藏

External systems send messages to your Kafka system

When external systems send messages to your Kafka system, it’s crucial to implement multiple layers of security to ensure the integrity, confidentiali

overfit同步小助手 2024-12-13 19:03:39 0 收藏

小蒋聊技术 - Spark 不只是技术：如何在商业中释放大数据的超级价值？

在大数据时代，Apache Spark 已成为推动企业数据创新和业务转型的核心技术之一。然而，许多人对于 Spark 的认知停留在技术层面，忽视了它在真实商业场景中的巨大潜力。本文将深入探讨 Spark 如何在企业中发挥真正的价值，帮助业务解决实际问题，提升决策效率与资源利用率。通过结合真实的商业案

overfit同步小助手 2024-12-13 18:03:49 0 收藏

Spring Boot 和 Hadoop 3.3.6 的 MapReduce 实战：日志分析平台

是一个开源的分布式计算框架，主要用于处理大规模数据集。HDFS（Hadoop 分布式文件系统）：一个分布式存储系统，能够高效地存储大数据。MapReduce：一种并行计算模型，用于处理和生成大规模数据集。：Hadoop 的资源管理系统，负责集群资源的管理和调度。Hadoop 的强大之处在于它的可扩展

overfit同步小助手 2024-12-13 17:03:20 0 收藏

Kafka+RabbitMQ+ActiveMQ看看消息队列设计精要15

消息队列已经逐渐成为企业IT系统内部通信的核心手段。它具有低耦合、可靠投递、广播、流量控制、最终一致性等一系列功能，成为异步RPC的主要手段之一。当今市面上有很多主流的消息中间件，如老牌的ActiveMQ、RabbitMQ，炙手可热的Kafka，阿里巴巴自主开发的Notify、MetaQ、Rocke

overfit同步小助手 2024-12-13 16:03:50 0 收藏

zookeeper+kafka+storm集群搭建--详细步骤--附带官网连接

Zookeeper3.8.4搭建。其他两台机器不用启动。

overfit同步小助手 2024-12-13 16:03:38 0 收藏

Spark-Avro 项目常见问题解决方案

Spark-Avro 项目常见问题解决方案 spark-avro Avro Data Source for Apache Spark 项目地址:

overfit同步小助手 2024-12-13 15:03:43 0 收藏

信息差的商业产品管理：大数据如何优化产品管理

信息差的商业产品管理：大数据如何优化产品管理关键词信息差商业产品管理大数据用户行为分析市场趋势预测竞争对手分析产品生命周期管理

overfit同步小助手 2024-12-13 12:03:44 0 收藏

kafka单节点以及集群安装

Apache Kafka 是一种高吞吐量的分布式发布订阅消息系统，它能够处理大量的数据流，并且被广泛应用于日志收集、监控报告、流处理等多种场景中。本文详细介绍了kafka单节点以及集群的安装。

overfit同步小助手 2024-12-13 12:03:31 0 收藏

363java ssm springboot基于大数据的电影数据分析可视化系统电影推荐（源码+文档+运行视频+讲解视频）

本文阐述了基于 Java SSM（Spring、Spring MVC、MyBatis）、SpringBoot 框架和大数据技术构建的电影数据分析可视化系统，该系统具备电影推荐功能。旨在通过对海量电影数据的收集、分析与可视化展示，为用户提供精准的电影推荐服务，提升用户观影体验。系统采集电影的各类信息，

overfit同步小助手 2024-12-13 11:03:25 0 收藏

厦门大学数据库实验室林子雨Hadoop3.1.3安装心得第一篇

通过查看sshd_config文件，将PermitRootLogin设置为yes，然后重启SSH服务，可以解决此问题。我个人建议不创建，也省去给创建的用户添加权限问题，减少不必要的代码（这个看个人喜好，当然如果还是想创建也是没有问题的，我这里就不创建——就用。这里不要输入任何，一直回车就行了（这边主

overfit同步小助手 2024-12-13 10:03:45 0 收藏

Flink任务开发：从代码编写到集群提交

通过本文的介绍，我们了解了Flink任务开发的基本流程，包括使用DataStream API进行编码、打包上传以及提交任务的两种方式。在实际应用中，可以根据具体的业务需求，灵活运用Flink的各种功能和特性，构建高效、可靠的大数据处理应用。同时，需要注意Flink版本的兼容性以及相关依赖的管理，以确

overfit同步小助手 2024-12-13 09:04:22 0 收藏

kafka-console-ui的简介及安装使用

kafka-console-ui 是一款轻量级的kafka可视化管理平台，安装、配置特别简单，一般来说只需要配置一个kafka集群地址启动即可。为了开发的省事，没有国际化支持，页面只支持中文展示。不是一个企业级的平台，目前看来只适合中、小型集群的管理。这个工具看起来是挺low的，但是对于刚接触kaf

overfit同步小助手 2024-12-13 09:04:13 0 收藏

HIVE学习笔记–Linux命令篇

数据的划分基于分桶列的值进行hash取模决定，因为load不会触发MapReduce计算，所以无法执行hash算法，只是简单的进行数据移动，所以不能用于分桶表数据插入。本质上HIVE操作的还是hdfs中的文件默认在HIVE/warehouse，在mysql中存的都是元数据。分桶表数据加载不能用loa

overfit同步小助手 2024-12-13 09:03:46 0 收藏