大数据 - overfit.cn

HBase基础编程

实验任务1：HBase表设计。通过HBase shell命令来设计并创建三张相关的表，其中后两张表可以关联起来，例如店铺与商品表。建议自拟表名和表内容。实验任务2：使用Java编程创建表和删除表，表名和列族自拟。

overfit同步小助手 2023-11-16 23:03:19 0 收藏

头歌大数据MapReduce基础运用

WordCount词频统计 HDFS文件读写倒排索引网页排序——PageRank算法头歌

overfit同步小助手 2023-11-16 21:03:43 0 收藏

2023_Spark_实验十五：自定义法创建Dataframe及SQL操作

基于Spark 中样例类，隐式转换，使用Spark Core API生成RDD，将RDD转换为DataFrame，并将其注册成临时表，使用Spark SQL API分析数据

overfit同步小助手 2023-11-16 19:03:31 0 收藏

Spring RabbitMQ那些事（1-交换机配置&消息发送订阅实操）

*** 定义4个队列*/@Bean@Bean@Bean@Bean/*** 定义Fanout交换机和对应的绑定关系*/@Bean/*** 定义多个Fanout交换机和队列的绑定关系* @return*/@Bean备注：这里我们将4个队列绑定到了名为的交换机上。@Bean@Bean备注：这里我们定义了名

overfit同步小助手 2023-11-16 17:03:24 0 收藏

Springboot Kafka整合（开发实例、连接、配置TOPICS、发送消息）—官方原版

Springboot Kafka整合—官方原版

overfit同步小助手 2023-11-16 16:03:47 0 收藏

（三）Linux中卸载docker（非常详细）

卸载docker（非常详细

overfit同步小助手 2023-11-16 15:03:38 0 收藏

在Windows上安装Kibana - 大数据

请注意，为了使Kibana正常工作，您的系统应具备与Kibana兼容的Java Runtime Environment（JRE）版本。在解压缩的Kibana文件夹中，找到并打开"config"文件夹。在该文件夹中，您将找到一个名为"kibana.yml"的文件，它是Kibana的主要配置文件。在解压

overfit同步小助手 2023-11-16 15:03:29 0 收藏

FlinkSQL基本概念、时间属性和窗口

在创建表的 DDL（CREATE TABLE 语句）中，可以增加一个字段，通过 WATERMARK语句来定义事件时间属性。WATERMARK 语句主要用来定义水位线（watermark）的生成表达式，这个表达式会将带有事件时间戳的字段标记为事件时间属性，并在它基础上给出水位线的延迟时间。

overfit同步小助手 2023-11-16 14:03:56 0 收藏

Java必知必会系列：大数据处理与Hadoop

作者：禅与计算机程序设计艺术 1.简介Hadoop（简称HA），是一个分布式计算系统基础框架，由Apache基金会开发。它是一种可以用来存储大量数据的计算平台，可以实现海量数据的存储、分析、处理等功能。目前，Hadoop已成为最流行的大数据处理技术之一。Apac

overfit同步小助手 2023-11-16 14:03:46 0 收藏

Scala文件操作

Scala按行读取,Scala使用source.buffered方法按字符读取文件,Scala使用java.io.PrintWriter类,使用java.io.FileWriter类,使用java.io.FileOutputStream类, Scala序列化和反序列化

overfit同步小助手 2023-11-16 14:03:26 0 收藏

分布式集群——搭建Hadoop环境以及相关的Hadoop介绍

本文主要介绍hadoop的相关概念以及在Linux上面配置Hadoop的具体操作。镜像文件实际是存放的目录结构、文件属性等相关信息，是NameNode中关于元数据的镜像。它是在NameNode启动时对整个文件系统的快照。edits：编辑日志文件,记录对文件或者目录的修改信息，比如删除目录，修改文件

overfit同步小助手 2023-11-16 13:03:37 0 收藏

kafka 的 ack 的三种机制

这些不同的确认机制可以根据应用程序的需求进行选择。如果对延迟非常敏感，可以选择acks=0，但要注意可能会丢失消息。如果对可靠性要求非常高，可以选择acks=all，但延迟可能会增加。acks=1通常是一种折中选择，提供了一定的可靠性而不会引入太多的延迟。Kafka的消息确认（acknowledgm

overfit同步小助手 2023-11-16 13:03:18 0 收藏

Kafka——管理Kafka(命令行工具)详解

有时候，我们需要知道提交的消费者群组偏移量是多少，比如某个特定的群组是否在提交偏移量，或者偏移量提交的频度。也就是说，如果集群里有 5 个 broker，生产者的配额是 10MB/s，那么它可以以 10MB/s 的速率在单个 broker 上生成数据，总共的速率可以达到 50MB/s。根据分区

overfit同步小助手 2023-11-16 12:03:21 0 收藏

分布式内存计算Spark环境部署与分布式内存计算Flink环境部署

Spark是一款分布式内存计算引擎，可以支撑海量数据的分布式计算。Spark在大数据体系是明星产品，作为最新一代的综合计算引擎，支持离线计算和实时计算。在大数据领域广泛应用，是目前世界上使用最多的大数据分布式计算引擎。我们将基于前面构建的Hadoop集群，部署Spark Standalone集群。

overfit同步小助手 2023-11-16 11:03:41 0 收藏

RabbitMQ 消费者

消费者就是针对某个队列进行消息监听和消息消费的。消费者消费消息存在拉模式和推模式，推模式的是使用场景相对比较多。为确保消息被合法的消费，RabbitMQ提供了消费确认机制，投递的消息并不能被理解完成了消费，仅消费者确认消费该消息才会被移除队列。默认的消息投递机制时轮询，轮询的消息分发并会关系消费者的

overfit同步小助手 2023-11-16 09:03:48 0 收藏

kafka 集群企业部署最佳实践

Kafka 是一款高性能、高可靠性、可水平扩展的分布式消息队列系统

overfit同步小助手 2023-11-16 08:03:35 0 收藏

Spark Streaming实战

作者：禅与计算机程序设计艺术 1.简介Apache Spark™作为世界上最流行的开源大数据计算框架之一，在近几年越来越受到大家的关注。基于Spark的分布式计算能力和速度的突飞猛进，使其成为许多企业应用中不可或缺的一环。但Spark本身所提供的高级特性如：SQ

overfit同步小助手 2023-11-16 08:03:24 0 收藏

qt Rabbitmq 下载、连接、使用

【代码】qt Rabbitmq 下载、连接、使用。

overfit同步小助手 2023-11-16 07:03:50 0 收藏

RabbitMQ详细教程以及SpringBoot集成RabbitMQ

RabbitMQ详细教程、SpringBoot集成RabbitMQ、RabbitMQ Windows、Mac、Linux搭建以及Linux搭建RabbitMQ集群模式

overfit同步小助手 2023-11-16 06:03:36 0 收藏

Apache Zookeeper 快速入门极客时间

作者：禅与计算机程序设计艺术 1.简介Apache Zookeeper 是一种分布式协调服务，它是一个基于 CP（一致性和容错）的系统，用来维护配置信息、命名数据、状态信息等；同时也提供分布式锁和 leader 选举等高可用功能。Zookeeper 的架构设计目

overfit同步小助手 2023-11-16 06:03:22 0 收藏