大数据 - overfit.cn

Spark Standalone环境搭建及测试

Apache Spark是目前最流行的大数据处理框架之一，可用于分布式数据处理和分析。在Standalone模式下搭建Spark集群是学习和开发Spark应用程序的良好起点。

overfit同步小助手 2023-08-25 08:03:44 0 收藏

使用 Apache Kafka 和 Go 将数据引入 OpenSearch

它使用索引集合来支持特定的工作负载，与传统集群不同，它分离了索引和搜索组件，并使用Amazon S3作为索引的主存储。例如，规范用例之一是异构系统（源组件）之间的数据实时同步，以确保 OpenSearch 索引是最新的，并且可以通过仪表板和可视化用于分析或使用下游应用程序。即，在上一节的步骤 2 和

overfit同步小助手 2023-08-25 07:04:17 0 收藏

大数据课程E5——Flume的Selector

根据headers中的指定字段决定将数据发送给哪一个Channel。1. Selector本身是Source的子组件，决定了将数据分发给哪个Channel。如果是multiplexing，那么在所有值不匹配的情况下数据发送的Channel。如果是multiplexing，那么需要指定监听字段匹配的只

overfit同步小助手 2023-08-25 06:04:23 0 收藏

Flink学习笔记（七）并行度详解

一个Flink程序由多个任务（Source、Transformation和Sink）组成。一个任务由多个并行实例（线程）来执行，一个任务的并行实例（线程）数目被称为该任务的并行度。

overfit同步小助手 2023-08-25 05:04:11 0 收藏

一、Flink使用异步算子+线程池查询MySQL

Flink异步查询MySQL使用线程池创建多链接实现多请求

overfit同步小助手 2023-08-25 05:04:06 0 收藏

餐饮行业未来的发展趋势和前景

未来餐饮业将更加注重提供多元化的餐饮服务，如健康餐、素食餐、快餐、外卖、自助餐等，以满足不同消费者的需求。例如，通过互联网实现线上点餐、外卖订餐、餐饮评价等服务，比如传递宝APP这样的软件服务，提高餐饮服务的便捷性和效率。3.环保与可持续发展：随着全球环保和可持续发展的日益重视，未来餐饮业也将更加注

overfit同步小助手 2023-08-25 04:04:17 0 收藏

【Spring Cloud 三】Eureka服务注册与服务发现

目前公司项目使用的注册中心主要是Spring Cloud Alibaba的Nacos做的注册中心和配置中心。之前也是对Nacos的基本原理通过手写代码的方式进行了实现。出于对于Eureka的好奇所以就对Spring Cloud Neflix的Eureka进行理论学习和实践。Eureka是一个注册发现

overfit同步小助手 2023-08-25 00:04:16 0 收藏

Flink流批一体计算（14）：PyFlink Tabel API之SQL查询

create_temporary_view(view_path, table) 将一个 `Table` 对象注册为一张临时表，类似于 SQL 的临时表。sql_query(query) 执行一条 SQL 查询，并将查询的结果作为一个 `Table` 对象。Table API 中的 Table

overfit同步小助手 2023-08-25 00:04:05 0 收藏

【大数据】一些基本概念

数据仓库是一个面向主题的、集成的、非易失的、随着时间变化的,用于支持管理人员决策的数据集合。数据仓库是一种专门用于分析和报告的大型结构化数据存储技术。与传统数据库不同，数据仓库通常包含历史记录和大量冗余信息，以便支持复杂的分析查询。它们通常是企业级解决方案，用于从各种源中采集和存储数据，以便进行分析

overfit同步小助手 2023-08-24 21:04:30 0 收藏

汇总Kafka手动提交与自动提交

汇总kafka手动提交与自动提交，包含配置、丢消息、重复消费场景等

overfit同步小助手 2023-08-24 21:03:58 0 收藏

flink任务性能优化

明确指出，当前内存有限的情况下，使用rocketDB会造成性能损害，因为rocketDB会不停刷内存，造成高io和高cpu。所以在小型化项目时，对状态数据要求不高时，可考虑不使用rocketDB作为状态后端。2、将下游数据需要的数据以参数的形式向下传递。1、使用异步算子，异步执行操作。

overfit同步小助手 2023-08-24 20:03:53 0 收藏

RabbitMQ学习笔记4（小滴课堂）RabbitMQ工作队列模型实战

这里的之前的代码都是固定的创建工厂和管道，然后在使用Consumer消费者去写自己的业务逻辑。我们在工作中可能一个生产者不止对应一个消费者，可能我们一个生产者要对应多个消费者。这里的改变只是加了一个消费者限制数。这里需要注意的是我们的这个要设置成在控制台页面中存在的，不然会报错找不到。如果我们的生产

overfit同步小助手 2023-08-24 19:03:54 0 收藏

Nacos（一）：简介如何安装服务注册与发现集群权重与Eureka区别

NACOS是一个更易于构建云原生应用的动态服务发现、配置管理和服务管理平台。简单来说：NACOS就是一个注册中心，用来实现服务的注册与发现。Nacos与eureka的共同点都支持服务注册和服务拉取都支持服务提供者心跳方式做健康检测Nacos与Eureka的区别Nacos支持服务端主动检测提供者状态

overfit同步小助手 2023-08-24 17:03:57 0 收藏

【Hive】HQL Array 『CRUD | 相关函数』

例如，array_intersect(array(1,2,3), array(2,3,4))将返回数组(2,3)。例如，array_except(array(1,2,3), array(2,4))将返回数组(1,3)。例如，6. array_join(array(1,2,3), ‘,’)将返回字符串

overfit同步小助手 2023-08-24 17:03:44 0 收藏

rabbitmq基础8——持久化、存储机制、ETS、队列结构、消息状态、内存告警、磁盘告警

持久化、存储机制、ETS、队列结构、消息状态、内存告警、磁盘告警

overfit同步小助手 2023-08-24 15:04:45 0 收藏

Hive底层数据存储格式

在大数据领域，Hive是一种常用的数据仓库工具，用于管理和处理大规模数据集。Hive底层支持多种数据存储格式，这些格式对于数据存储、查询性能和压缩效率等方面有不同的优缺点。本文将介绍Hive底层的三种主要数据存储格式：文本文件格式、Parquet格式和ORC格式。总结来说，Hive底层数据存储格式的

overfit同步小助手 2023-08-24 15:04:35 0 收藏

orangepi 4lts ubuntu安装RabbitMQ

overfit同步小助手 2023-08-24 13:04:27 0 收藏

【数仓建设系列之一】什么是数据仓库？

数据仓库是一个存储和管理大量结构化和非结构化数据的存储集合，它以主题为向导，通过整合来自不同数据源下的数据(比如各业务数据，日志文件数据等)，解决企业数据孤岛，为企业提供统一的数据视图。通过构建不同时间范围或不同业务主题下的分析报告和数据报表等，为企业决策提供一定程度上的支持和帮助。

overfit同步小助手 2023-08-24 13:03:59 0 收藏

校内大数据课题目

275【判断】HDFS中当数据节点发生故障，或者网络发生断网时，名称节点就无法收到来自一些数据节点的心跳信息，这时，这些数据节点就会被标记为“宕机”，节点上面的所有数据都会被标记为“不可读”，名称节点不会再给它们发送任何I/0请求。查询所有学生的学号、班号,查询结果根据学号按降序排列,仅显示前5个学

overfit同步小助手 2023-08-24 11:04:35 0 收藏

【大数据】Flink 详解（四）：核心篇 Ⅲ

Checkpoint 被叫做检查点，是 Flink 实现容错机制最核心的功能，是 Flink 可靠性的基石，它能够根据配置周期性地基于 Stream 中各个 Operator 的状态来生成 Snapshot 快照，从而将这些状态数据定期持久化存储下来，当 Flink 程序一旦意外崩溃时，重新运行程序

overfit同步小助手 2023-08-24 10:04:24 0 收藏