HBase基础编程

实验任务1:HBase表设计。通过HBase shell命令来设计并创建三张相关的表,其中后两张表可以关联起来,例如店铺与商品表。建议自拟表名和表内容。实验任务2:使用Java编程创建表和删除表,表名和列族自拟。

头歌大数据MapReduce基础运用

WordCount词频统计 HDFS文件读写 倒排索引 网页排序——PageRank算法 头歌

2023_Spark_实验十五:自定义法创建Dataframe及SQL操作

基于Spark 中样例类,隐式转换,使用Spark Core API生成RDD,将RDD转换为DataFrame,并将其注册成临时表,使用Spark SQL API分析数据

Spring RabbitMQ那些事(1-交换机配置&消息发送订阅实操)

*** 定义4个队列*/@Bean@Bean@Bean@Bean/*** 定义Fanout交换机和对应的绑定关系*/@Bean/*** 定义多个Fanout交换机和队列的绑定关系* @return*/@Bean备注:这里我们将4个队列绑定到了名为的交换机上。@Bean@Bean备注:这里我们定义了名

(三)Linux中卸载docker(非常详细)

卸载docker(非常详细

在Windows上安装Kibana - 大数据

请注意,为了使Kibana正常工作,您的系统应具备与Kibana兼容的Java Runtime Environment(JRE)版本。在解压缩的Kibana文件夹中,找到并打开"config"文件夹。在该文件夹中,您将找到一个名为"kibana.yml"的文件,它是Kibana的主要配置文件。在解压

FlinkSQL基本概念、时间属性和窗口

​ 在创建表的 DDL(CREATE TABLE 语句)中,可以增加一个字段,通过 WATERMARK语句来定义事件时间属性。WATERMARK 语句主要用来定义水位线(watermark)的生成表达式,这个表达式会将带有事件时间戳的字段标记为事件时间属性,并在它基础上给出水位线的延迟时间。​

Java必知必会系列:大数据处理与Hadoop

作者:禅与计算机程序设计艺术 1.简介Hadoop(简称HA),是一个分布式计算系统基础框架,由Apache基金会开发。它是一种可以用来存储大量数据的计算平台,可以实现海量数据的存储、分析、处理等功能。目前,Hadoop已成为最流行的大数据处理技术之一。Apac

Scala文件操作

Scala按行读取,Scala使用source.buffered方法按字符读取文件,Scala使用java.io.PrintWriter类,使用java.io.FileWriter类,使用java.io.FileOutputStream类, Scala序列化和反序列化

分布式集群——搭建Hadoop环境以及相关的Hadoop介绍

本文主要介绍hadoop的相关概念以及在Linux上面配置Hadoop的具体操作。镜像文件实际是存放的目录结构、文件属性等相关信息,是NameNode中关于 元数据的镜像。它是在NameNode启动时对整个文件系统的快照。edits:编辑日志文件,记录对文件或者目录的修改信息,比如删除目录,修改文件

kafka 的 ack 的三种机制

这些不同的确认机制可以根据应用程序的需求进行选择。如果对延迟非常敏感,可以选择acks=0,但要注意可能会丢失消息。如果对可靠性要求非常高,可以选择acks=all,但延迟可能会增加。acks=1通常是一种折中选择,提供了一定的可靠性而不会引入太多的延迟。Kafka的消息确认(acknowledgm

Kafka——管理Kafka(命令行工具)详解

有时候,我们需要知道提交的消费者群组偏移量是多少,比如某个特定的群组是否在提交 偏移量,或者偏移量提交的频度。也就是说,如果集群里有 5 个 broker,生产者的配额是 10MB/s,那么它可以以 10MB/s 的速率在单个 broker 上生成 数据,总共的速率可以达到 50MB/s。根 据分区

分布式内存计算Spark环境部署与分布式内存计算Flink环境部署

Spark是一款分布式内存计算引擎,可以支撑海量数据的分布式计算。Spark在大数据体系是明星产品,作为最新一代的综合计算引擎,支持离线计算和实时计算。在大数据领域广泛应用,是目前世界上使用最多的大数据分布式计算引擎。我们将基于前面构建的Hadoop集群,部署Spark Standalone集群。

RabbitMQ 消费者

消费者就是针对某个队列进行消息监听和消息消费的。消费者消费消息存在拉模式和推模式,推模式的是使用场景相对比较多。为确保消息被合法的消费,RabbitMQ提供了消费确认机制,投递的消息并不能被理解完成了消费,仅消费者确认消费该消息才会被移除队列。默认的消息投递机制时轮询,轮询的消息分发并会关系消费者的

kafka 集群企业部署最佳实践

Kafka 是一款高性能、高可靠性、可水平扩展的分布式消息队列系统

Spark Streaming实战

作者:禅与计算机程序设计艺术 1.简介Apache Spark™作为世界上最流行的开源大数据计算框架之一,在近几年越来越受到大家的关注。基于Spark的分布式计算能力和速度的突飞猛进,使其成为许多企业应用中不可或缺的一环。但Spark本身所提供的高级特性如:SQ

qt Rabbitmq 下载、连接、使用

【代码】qt Rabbitmq 下载、连接、使用。

RabbitMQ详细教程以及SpringBoot集成RabbitMQ

RabbitMQ详细教程、SpringBoot集成RabbitMQ、RabbitMQ Windows、Mac、Linux搭建以及Linux搭建RabbitMQ集群模式

Apache Zookeeper 快速入门 极客时间

作者:禅与计算机程序设计艺术 1.简介Apache Zookeeper 是一种分布式协调服务,它是一个基于 CP(一致性和容错)的系统,用来维护配置信息、命名数据、状态信息等;同时也提供分布式锁和 leader 选举等高可用功能。Zookeeper 的架构设计目

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈