Apache Doris 学习笔记

由百度大数据部研发(之前叫百度 Palo,2018年贡献到 Apache 社区后,更名为 Doris )Apache Doris是一个现代化的MPP (Massively Parallel Processing,即大规模并行处理)分析型数据库产品,仅需亚秒级响应时间即可获得查询结果,有效地支持实时数

大数据学习:使用Java API操作HDFS

创建、读取、写入

云计算:从基础架构原理到最佳实践之:云计算网络安全与防护

作者:禅与计算机程序设计艺术 1.简介概述云计算的高速发展带来了新的机遇,也带来了新的挑战。不管是在经济领域还是工程领域都面临着巨大的变革和新挑战。如何保证云计算平台的安全运行、数据的安全传输、用户数据的安全存储,成为一个重中之重的问题。随着云计算的

elasticsearch-7.13.3 升级log4j 到log4j-2.17.1

2、下载后解压apache-log4j-2.17.1-bin.tar.gz。log4j低版本存在严重漏洞,根据需要升级到安全版本,不一定是最新。进入elasticsearch-7.13.3目录。log4j-2.17.1 jar包下载地址。5、重新启动elasticsearch服务。4、将需要升级的包

hive lag() 和lead()函数

Hive 中的LAG和LEAD函数时,通常用于在结果集中获取同一列在前一行(LAG)或后一行(LEAD)的值。这在分析时间序列数据、计算变化率或查找趋势时非常有用。LAG函数用于获取前一行的值。

Hadoop YARN功能介绍--资源管理、调度任务

YARN是一个通用资源管理系统平台和调度平台,可为上层应用提供统一的资源管理和 调度。他的引入为集群在利用率、资源统一管理和数据共享等方面带来了好处。

Linux安装 spark 教程详解

链接: https://pan.baidu.com/s/1Brm6XqaqYQnXQwOd8mUt7A?链接: https://pan.baidu.com/s/1ua01OvTYjFQyG82AG1g1yg?scala 的安装比较简单,spark 的运行环境需要 scala。添加配置,这里根据自己的

Hadoop——大数据生态体系详解

这是管理队列及工作者集群的另一种方式。1)Sqoop:sqoop 是一款开源的工具,主要用于在 Hadoop(Hive)与传统的数据库(mysql)间进 行数据的传递,可以将一个关系型数据库(例如 :MySQL ,Oracle 等)中的数据导进到 Hadoop 的 HDFS 中,也可以将 HDFS

新一代数据湖存储技术Apache Paimon入门Demo

新一代数据湖存储技术Apache Paimon(Flink Table Store)入门Demo,本文给出了一些简单的flink-paimon样例(example),可供快速学习上手(文中所有代码均已跑通)。

解决git:‘remote-http‘ 不是一个 git 命令错误提示

第一步:yum -y install curl-devel curl libcurl-devel libcurl。stderr: git:‘remote-http’ 不是一个 git 命令。参见 ‘git --help’。安装Git时缺少curl-devel curl libcurl-devel l

【大数据Hadoop】HDFS-HA模式下ZKFC(DFSZKFailoverController)高可用主备切换机制

当一个NameNode被成功切换为Active状态时,它会在ZK内部创建一个临时的znode,在znode中将会保留当前Active NameNode的一些信息,比如主机名等等。当Active NameNode出现失败或连接超时的情况下,监控程序会将ZK上对应的临时znode进行删除,znode的删

数据挖掘和大数据的区别

大数据是数据挖掘产业化的表现

HBase 开发:使用Java操作HBase 第3关:获取数据

HBase 开发:使用Java操作HBase第3关:获取数据

Hadoop中重新格式化NameNode的操作

有时候,我们需要重新格式化NameNode,这意味着清除现有的文件系统命名空间和元数据,并创建一个全新的NameNode实例。此外,重新格式化NameNode后,您可能还需要重新配置和恢复您的Hadoop集群的其他组件和作业。完成上述步骤后,您的Hadoop集群的NameNode将被重新格式化,并且

技术选型:何时使用Elasticsearch而不是MySQL?

MySQL 是一个关系型数据库管理系统(RDBMS),它使用表(table)来存储结构化的数据,每个表由多个行(row)和列(column)组成,每个列有一个预定义的数据类型,例如整数、字符串、日期等。MySQL 支持主键、外键、约束、触发器等关系型数据库的特性,以保证数据的完整性和一致性 。Ela

人工智能技术基础系列之:情感分析

作者:禅与计算机程序设计艺术 1.简介人工智能(AI)技术已经成为当今社会的一个热门话题。基于这个热点,很多公司和组织都投入了大量的精力和资源在研发相应的AI产品。其中最突出的就是自然语言处理技术,可以实现对用户输入、自然语音、短信等各种媒介的文字或语音数据的自

大数据学习(6)-hive底层原理Mapreduce

在Reduce阶段,不同的Map任务输出的键值对通过Shuffle机制进行分区和排序,相同key的数据value放在一个集合中。然后,对每个key对应的value集合进行归约处理,即执行Reduce函数。在Map阶段,MapTask并行度决定机制根据InputFormat数据切片机制对输入数据进行切

处理大规模数据时的 Spark 踩坑经验

以上是我在使用 Spark 处理大规模数据时遇到的一些问题和解决方案。在处理大规模数据时,应该注意内存溢出、网络问题、数据倾斜和 GC 停顿等问题,并根据实际情况采取相应的解决方法。

大数据-Storm流式框架(六)---Kafka介绍

默认的消息保留策略是,要么保存一段时间(7天),要么保留消息到一定大小的字节数(1GB)。1、kafka的生产者在发送消息到kafka的时候,如果消息没有指定key,则按照轮询的策略,依次将各个消息发送给不同的主题的分区。最简单的例子,为键生成一个一致性散列值,然后使用散列值对主题分区进行取模,为消

7.2、如何理解Flink中的水位线(Watermark)

如何理解Flink中的水位线(Watermark)

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈