大数据 - overfit.cn

split函数在spark和presto/hive中的区别

在正则表达式中，点号 `.` 表示匹配任意单个字符，因此在使用 `split` 函数时，需要对点号进行转义，表示点号的字面上的意义。但是在许多编程语言中，包括 Java 在内，`\` 本身也是一个转义字符，因此如果直接使用 `split` 函数时只使用一个 `\` 进行转义，实际传入的分隔符可能并不

overfit同步小助手 2023-12-21 18:03:45 0 收藏

Kafka 基础知识-01

Kafka基础知识

overfit同步小助手 2023-12-21 17:03:26 0 收藏

【大数据】Doris 构建实时数仓落地方案详解（一）：实时数据仓库概述

数据仓库的概念可以追溯到 20 世纪 80 年代，当时 IBM 的研究人员提出了商业数据仓库的概念。数据仓库概念的提出，是为了解决和数据流相关的各种问题，特别是多重数据复制带来的高成本问题。

overfit同步小助手 2023-12-21 16:03:30 0 收藏

了解Zookeeper的系统架构吗？

• 当leader被选举出来，且大多数服务器完成了和leader的状态同步后，leadder election 的过程就结束了，就将会进入到Atomic brodcast的过程。总的来说，Zookeeper的系统架构通过分布式数据一致性算法、集群管理机制和配置管理机制，实现了对分布式系统的协调和管

overfit同步小助手 2023-12-21 15:03:52 0 收藏

大数据｜海豚调度官方文档注解（3）

该样例模拟了自定义参数任务，为了更方便的复用已有的任务，或者面对动态的需求时，我们会使用变量保证脚本的复用性。本例中，我们先在自定义脚本中定义了参数 “param_key”，并将他的值设置为 “param_val”。接着在"脚本"中声明了 echo 命令，将参数 “param_key” 打印了出来。

overfit同步小助手 2023-12-21 15:03:13 0 收藏

大数据智能决策系统架构：决策系统与智能城市

作者：禅与计算机程序设计艺术 1.背景介绍智能城市建设是一个极具挑战性的课题。作为我国高新技术产业的龙头之一、信息化水平最高的国家之一，拥有两千多年的城市历史，面对巨大的社会、经济和科技发展需求，如何快速、有效地推进智能城市建设已经成为引领发展的绊脚石。近几年来

overfit同步小助手 2023-12-21 12:03:41 0 收藏

Hadoop学习总结（MapReduce的数据去重）

学习Hadoop的MapReduce的案例——数据去重

overfit同步小助手 2023-12-21 10:03:45 0 收藏

大数据之巅：深入分析数据湖架构的优势

在开始深入研究数据湖的优势之前，让我们首先了解一下什么是数据湖。数据湖是一种存储大规模数据的系统，其中数据以其原始形式存储，无需预定义模式或结构。这意味着数据湖能够接受来自各种源头的数据，包括结构化数据（例如数据库表）、半结构化数据（例如JSON或XML文档）以及非结构化数据（例如文本文件、图像和音

overfit同步小助手 2023-12-21 09:03:54 0 收藏

2023_Spark_实验二十四：Kafka集群环境搭建

KafKa集群环境的搭建，zookeeper集群搭建，Kafka部署验证，2023

overfit同步小助手 2023-12-21 09:03:51 0 收藏

基于大数据的校园外卖系统的设计与实现(Python+Django+MySQL)

通过本文的研究，我们将为校园内外卖业务的管理和发展提供一个全面、准确、方便的解决方案，为外卖平台的发展做出贡献。数据挖掘和分析：通过数据挖掘和机器学习技术，对订单数据进行深入分析和挖掘，提高评价的准确性和精度，为用户提供更优质的服务。订单管理和配送优化：制定标准化的订单管理流程和配送模式，确保订单管

overfit同步小助手 2023-12-21 08:03:55 0 收藏

数据仓库命名规范总结

overfit同步小助手 2023-12-21 08:03:36 0 收藏

RabbitMQ异步与重试机制

RabbitMQ异步与重试机制、死信队列

overfit同步小助手 2023-12-21 04:03:19 0 收藏

【kafka性能测试脚本详解、性能测试、性能分析与性能调优】

官方在kafka高版本发行时，修改了这个默认值，暂时理解为官网的推荐设置，但对于实时性较高的业务，比如实时统计用户访问量的分析，一般会启用这个配置，即设置为true，但对于可靠性较高的业务，比如银行的业务，宁可花费几分钟或几个小时的延时后再处理像信用卡支付的业务，也不会冒险处理错误的消息。因此，按真

overfit同步小助手 2023-12-21 03:03:26 0 收藏

SpringBoot基于Spark的共享单车数据管理系统（源码+LW）

基于Spark的共享单车数据存储系统拟采用java技术和Springboot 搭建系统框架，后台使用MySQL数据库进行信息管理，设计开发的共享单车数据存储系统。通过调研和分析，系统拥有管理员和用户两个角色，主要具备个人中心、用户管理、共享单车管理、系统管理等功能模块。将纸质管理有效实现为在线管理，

overfit同步小助手 2023-12-21 02:03:48 0 收藏

集群配置，hadoop配置过程，细节满满

(2)如果你的集群虚拟机已经都创建完成，且确保网络，ssh密钥登陆都做好了后，就可以开始安装jdk和hadoop了。/usr/local/src/hadoop/etc/hadoop 中的对应配置文件中加入下面的相关参数。这一步是集群配置的关键。做一个hadoop的配置流程的全记录，把遇到的问题和细

overfit同步小助手 2023-12-21 02:03:41 0 收藏

如何在Spring Boot中集成RabbitMQ

在Spring Boot集成的RabbitMQ应用中，通常会在消费者处理消息时发生异常的情况下，明确地将消息发送到死信队列。如果点进来，没有显示这个绑定队列，就说明配置的不对，后续也无法消费，点进队列后，就会显示队列中的消息了。避免消息丢失：死信队列确保无法处理的消息不会被丢失，而是存储在一个特定的

overfit同步小助手 2023-12-21 00:03:43 0 收藏

RabbitMQ 管理页面使用指南

除了上述介绍的功能，RabbitMQ 管理页面还提供了其他的管理操作，如创建交换机、创建队列、绑定交换机与队列等。点击导航栏中的 “Channels” 选项卡，您将看到一个列表，其中包含了当前在 RabbitMQ 服务器上打开的所有通道。点击导航栏中的 “Exchanges” 选项卡，您将看到一个列

overfit同步小助手 2023-12-20 22:03:34 0 收藏

spark读取、写入Clickhouse以及遇到的问题

最近需要处理Clickhouse里面的数据，经过上网查找总结一下spark读写Clickhouse的工具类已经遇到的问题点。

overfit同步小助手 2023-12-20 21:03:48 0 收藏

大数据：Hadoop刷题

overfit同步小助手 2023-12-20 21:03:41 0 收藏

Spark Streaming 编程权威使用指南

本文档为Spark的旧版本Streaming引擎。Spark Streaming 不再更新，是一个遗留项目。在Spark中有一种新的、更易用的流处理引擎，称为结构化流式处理。您应该使用Spark结构化流处理来开发流式应用和流水线。请参阅结构化流式处理编程指南。*

overfit同步小助手 2023-12-20 20:03:30 0 收藏