大数据 - overfit.cn

掌握Couchbase的数据库操作

1.背景介绍在本文中，我们将深入探讨Couchbase数据库的操作，揭示其核心概念、算法原理、最佳实践和实际应用场景。通过详细的代码实例和解释，我们将帮助您掌握Couchbase数据库的使用，并提供有价值的技巧和技术洞察。1. 背景介绍Couchbase是一种高性能、可扩展的NoSQL数据库管理系统

overfit同步小助手 2024-03-26 04:03:18 0 收藏

（超详细）Spark on Yarn安装配置

（超详细）Spark on Yarn安装配置，附有详细步骤，详细代码，注意事项提示

overfit同步小助手 2024-03-26 03:03:49 0 收藏

Hadoop 集群

可以访问的 web 页面全部绑定了 127.0.0.1。禁止外部访问，需要访问可以使用 nginx 反向代理增加鉴权之后暴露出去。如果不需要可以替换 IP。

overfit同步小助手 2024-03-26 03:03:45 0 收藏

2、RabbitMQ_安装

使用yum升级gblic 版本。上传安装包到linux 环境。安装rabbitMQ。启动rabbitmq。关闭rabbitMQ。重新设置一下主机名称。

overfit同步小助手 2024-03-26 02:03:46 0 收藏

Why choose Flink for real-time processing

Why choose Flink[1] Streaming data more truly reflects our lifestyle (real-time chat);[2] Traditional data architecture is based on limited data sets

overfit同步小助手 2024-03-26 02:03:33 0 收藏

信息系统项目管理师024：大数据（2信息技术发展—2.2新一代信息技术及应用—2.2.3大数据）

①采用MPP架构的新型数据库集群，通过列存储、粗粒度索引等多项大数据处理技术和高效的分布式计算模式，实现大数据存储：②围绕Hadoop衍生出相关的大数据技术，应对传统关系型数据库较难处理的数据和场景，通过扩展和封装Hadoop来实现对大数据存储、分析的支撑：③基于集成的服务器、存储设备、操作系统、数

overfit同步小助手 2024-03-26 02:03:10 0 收藏

【Eureka详细讲解】

Eureka是由 Netflix 开源的一种服务发现解决方案，它是 Netflix OSS 套件中的一个组件，经常用在微服务架构中。核心作用是服务注册与发现。当微服务启动时，会把它的网络地址（如 IP 和端口）注册到 Eureka 服务器上，这台服务器被称作 Eureka Server（服务注册中心

overfit同步小助手 2024-03-26 00:03:42 0 收藏

她看了这篇文章后竟让霸总怒甩八百万——Spark？？

Hadoop是目前应用最为广泛的分布式大数据处理框架，其具备可靠、高效、可伸缩等特点。Hadoop的核心组件是HDFS、MapReduce。MapReduce是一个分布式运算程序的编程框架，其核心功能为把用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在Hadoop集群上

overfit同步小助手 2024-03-25 23:03:46 0 收藏

【Spark Graphx 系列】Pregel PeriodicCheckpointer原理场景示例源码详解

[【Spark Graphx 系列】Pregel PeriodicCheckpointer原理场景示例源码详解]

overfit同步小助手 2024-03-25 22:03:28 0 收藏

hive sql 和 spark sql的区别

总体而言，Spark SQL 在性能和灵活性上相对于 Hive SQL 有一些优势，特别是在需要处理实时数据或采用交互式查询的场景中。然而，选择使用哪个工具还取决于具体的业务需求、数据规模和现有的基础设施。Hive Metastore 或其他元数据管理工具。

overfit同步小助手 2024-03-25 22:03:19 0 收藏

Flink 大数据学习详情

flink提交作业和执行任务，需要几个关键组件：客户端（client）：代码由客户端获取并作转换，之后提交给 jobManagerJobManager：就是flink集群里的“管事人”，对作业进行中央调度管理；

overfit同步小助手 2024-03-25 21:03:46 0 收藏

Flink 资源管理

在Flink中，资源管理是一个核心组件，它负责分配和管理计算资源，以确保任务能够高效、稳定地运行。资源管理的目标高效性：确保任务能够充分利用可用的计算资源，达到最佳的处理性能。稳定性：在资源不足或任务失败时，能够优雅地处理并恢复任务，保持系统的稳定运行。资源管理的组件：由Flink Master（也

overfit同步小助手 2024-03-25 20:03:39 0 收藏

spark大数据技术与应用

但是，如果计算过程中涉及数据交换，Spark 也是会把 shuffle 的数据写磁盘的！有一个误区，Spark 是基于内存的计算，所以快，这不是主要原因，要对数据做计算，必然得加载到内存，Hadoop 也是如此，只不过 Spark 支持将需要反复用到的数据给 Cache 到内存中，减少数据加载耗时，

overfit同步小助手 2024-03-25 19:03:49 0 收藏

HBase非关系型数据库

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库。HBase是一个NoSQL数据库，把数据存在HDFS上，低成本来存储海量的数据并且支持高并发随机写和实时查询。HBase 的原型: Google 的 BigTable 论文。

overfit同步小助手 2024-03-25 19:03:45 0 收藏

Hadoop与Spark的x86和ARM混合集群部署【环境搭建篇】

笔者在完成课程设计时，突然想到把大数据框架同时部署到PC端虚拟机以及ARM架构的Linux板上，这篇博客记录集群部署流程以及例程测试。运行环境：PC方面，使用两台Ubuntu 20.04 LTS Focal Fossa虚拟机ARM板子则使用香橙派5（RK3588S），系统是香橙派官方适配的Ubun

overfit同步小助手 2024-03-25 19:03:32 0 收藏

Hive拉链表设计、实现、总结

拉链表的设计思路，如何制作，实践踩坑......

overfit同步小助手 2024-03-25 18:03:28 0 收藏

SpringBoot+RabbitMQ+Redis实现秒杀功能

三者都成功后，在redis中存储用户id和订单id，作为秒杀成功的记录，如果用户再次进行秒杀时，直接从redis查询是否存在秒杀成功的记录，存在即返回已经秒杀，不存在就下一步。传统处理：如果不涉及到redis的话，最初的用户请求进来的流程大概是先去数据库判断下当前用户是否已经秒杀过当前商品，如果秒杀

overfit同步小助手 2024-03-25 16:03:14 0 收藏

HBase 进阶

每一个 region 维护着 startRow 与 endRowKey，如果加入的数据符合某个 region 维护的rowKey 范围，则该数据交给这个 region 维护。那么依照这个原则，我们可以将数据所要投放的分区提前大致的规划好，以提高 HBase 性能。1）手动设定预分区2）生成 16 进

overfit同步小助手 2024-03-25 15:03:51 0 收藏

spark 数据序列化和内存调优（翻译）

由于大多数Spark计算的内存性质，Spark程序可能会被集群中的任何资源瓶颈：CPU、网络带宽或内存。大多数情况下，如果数据能放在内存，瓶颈是网络带宽，但有时，您还需要进行一些调整，例如以序列化形式存储RDD，以减少内存使用。本指南将涵盖两个主要主题：数据序列化，这对良好的网络性能至关重要，也可以

overfit同步小助手 2024-03-25 15:03:43 0 收藏

【大数据】Flink SQL 语法篇（五）：Regular Join、Interval Join

Join 其实在我们的数仓建设过程中应用是非常广泛的。离线数仓可以说基本上是离不开 Join 的。那么实时数仓的建设也必然离不开 Join，比如日志关联扩充维度数据，构建宽表；日志通过 ID 关联计算 CTR。

overfit同步小助手 2024-03-25 15:03:38 0 收藏