大数据 - overfit.cn

Spark SQL Dataframe Doris的输入输出操作

需要的maven依赖。

overfit同步小助手 2024-06-03 20:04:58 0 收藏

Hive on Spark 配置

Hive引擎包括：MR（默认）、tez、spark。Hive on Spark：Hive既作为存储元数据又负责 SQL 的解析优化，语法是 HQL 语法，执行引擎变成了 Spark，Spark 负责采用 RDD 执行。Spark on Hive：Hive 只作为存储元数据，Spark负责SQL解析优

overfit同步小助手 2024-06-03 20:04:42 0 收藏

Kafka 实战 - SpringBoot 中使用@KafkaListener详解与使用

在Spring Boot项目中使用注解，可以方便地监听和处理从Kafka主题中流入的消息。

overfit同步小助手 2024-06-03 17:03:51 0 收藏

RabbitMQ的四种消息传递模式与演示代码

例如，用户在网站上提交了一个长时间处理的任务（如生成报表、发送邮件等），为了提高用户体验，可以将任务提交到RabbitMQ的任务队列中，然后由后台的消费者进行异步处理。通过使用Fanout模式，可以将日志消息广播到所有相关的队列中，每个消费者只需要关注自己负责处理的日志级别，从而实现了日志的分发和处

overfit同步小助手 2024-06-03 16:04:01 0 收藏

「Kafka」Kafka单机和集群安装（二）

集群启动命令后，会打开多个黑窗口，每一个窗口都是一个kafka服务，请不要关闭，一旦关闭，对应的kafka服务就停止了。如果启动过程报错，主要是因为zookeeper和kafka的同步问题，请先执行cluster-clear.cmd文件，再执行cluster.cmd文件即可。因为Kafka启动前，必

overfit同步小助手 2024-06-03 16:03:24 0 收藏

并发与限流实战：如何利用 RabbitMQ 在 SpringBoot 应用中实现并发控制与流量限制

在高并发场景下，如大促销、秒杀等，我们可以采用 RabbitMQ 配合 SpringBoot 来实现并发控制与流量限制。你可以将 RabbitMQ 作为一个缓冲区，暂存大量并发请求，然后消费者可以根据自身处理能力去处理这些请求。下面就以一个高并发订单处理的案例实现来说明。在高并发的环境中，订单请求会

overfit同步小助手 2024-06-03 14:03:55 0 收藏

.NET操作RabbitMQ(全球最简单实现)

若是在.Net Core环境下，你则需要在DeveloperSharp.json文件中添加“DeveloperSharp.RabbitMQ”节点（如下配置示例），并把DeveloperSharp.json文件放到程序执行目录中（即bin目录下与dll、exe等文件的同一目录中，放错了位置会报错）（注

overfit同步小助手 2024-06-03 13:03:30 0 收藏

实时流处理框架Storm+SparkStreaming+Samza+Flink，谁可笑傲江湖

Flink发送checkpoint的栅栏（barrier）到数据流中（栅栏是Flink的分布式快照机制中一个核心的元素），当checkpoint的栅栏到达其中一个operator，operator会接所有收输入流中对应的栅栏（比如，图中checkpoint n对应栅栏n到n-1的所有输入流，其仅仅是

overfit同步小助手 2024-06-03 12:04:42 0 收藏

【大数据·Hadoop】从词频统计由浅入深介绍MapReduce分布式计算的设计思想和原理

MapReduce的算法核心思想是：分治学过算法的同学应该会学到分治算法，所谓分治，就是把原问题分解为规模更小的问题，进行处理，最后将这些子问题的结果合并，就可以得到原问题的解。MapReduce这种分布式计算框架的核心就是：分治。上图是MapReduce的处理流程图，可以看到，MapReduce的

overfit同步小助手 2024-06-03 11:03:43 0 收藏

hive正则函数regexp_extract()提取字符串

分析：将a.STEP_ID 按照[_/,;]来分割，如果匹配上了就提取[_/,;]右侧的字符串，没有的话返回‘NA’;例子：nvl(REGEXP_SUBSTR('005/06','[^_/,;本例中分隔符之前只有数字和字母，且分隔符至多一个。

overfit同步小助手 2024-06-03 11:03:38 0 收藏

SpringCloud学习笔记(一)微服务介绍、服务拆分和RestTemplate远程调用、Eureka注册中心

单体架构：简单方便，高度耦合，扩展性差，适合小型项目。例如：学生管理系统分布式架构：松耦合，扩展性好，但架构复杂，难度大。适合大型互联网项目，例如：京东、淘宝微服务：一种良好的分布式架构方案优点：拆分粒度更小、服务更独立、耦合度更低缺点：架构非常复杂，运维、监控、部署难度提高SpringCloud是

overfit同步小助手 2024-06-03 10:03:51 0 收藏

Hive常见的日期函数

UNIX 时间戳转日期语法：fom_unixtime(bigint unixtime[, string format]);返回类型：string。

overfit同步小助手 2024-06-03 09:04:11 0 收藏

Hive中文乱码的解决方法

解决Hive中文乱码问题

overfit同步小助手 2024-06-03 09:03:40 0 收藏

Spark SQL结构化数据文件处理

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象结构叫做DataFrame的数据模型（即带有Schema信息的RDD），Spark SQL作为分布式SQL查询引擎，让用户可以通过SQL和三种方式实现对结构化数据的处理。已存在的RDD调用toDF()方法转换得到Data

overfit同步小助手 2024-06-03 08:03:52 0 收藏

FLink-CDC部署（S4:flink-cdc配置）

如果没什么异常，那么可以登录doris里面，看app_db下有新生成了表，且已经将数据同步过来，接着可以在mysql中做数据更新、删除、插入等操作，会发现，数据会同步更新到doris中。其中table.create.properties.replication_num设置成1，默认是3，因为这里的d

overfit同步小助手 2024-06-03 08:03:46 0 收藏

Spark与Storm的比较与应用

1.背景介绍1. 背景介绍Apache Spark和Apache Storm是两种流处理框架，它们在大数据处理领域具有重要地位。Spark Streaming是Spark生态系统的流处理组件，而Storm则是一个独立的流处理框架。本文将从以下几个方面进行Spark与Storm的比较与应用：核心概念与

overfit同步小助手 2024-06-03 06:04:04 0 收藏

大数据比赛-环境搭建(二)

链接：https://pan.baidu.com/s/1w4Hsa1wbJDfC95fX2vU_1A。链接：https://pan.baidu.com/s/1tmVEGjRI_7CXgCzcmocRAw。链接：https://pan.baidu.com/s/1tmVEGjRI_7CXgCzcmocR

overfit同步小助手 2024-06-03 06:03:53 0 收藏

flink 使用入门及案例

这些案例只是Flink应用的冰山一角，实际上Flink的应用范围非常广泛，包括金融、物联网、电商、游戏等多个领域。通过学习和实践，你可以深入了解Flink的特性和优势，并开发出适用于自己业务场景的数据处理应用。因此，在使用Flink进行实时计算和生成推荐结果之前，建议先了解和熟悉相关的推荐系统原理和

overfit同步小助手 2024-06-03 05:03:53 0 收藏

django基于大数据+Spring的新冠肺炎疫情实时监控系统设计和实现

随着计算机技术发展，计算机系统的应用已延伸到社会的各个领域，大量基于网络的广泛应用给生活带来了十分的便利。所以把新冠肺炎疫情实时监控管理与现在网络相结合，利用计算机搭建新冠肺炎疫情实时监控系统，实现新冠肺炎疫情实时监控的信息化。则对于进一步提高新冠肺炎疫情实时监控管理发展，丰富新冠肺炎疫情实时监控管

overfit同步小助手 2024-06-03 05:03:49 0 收藏

Kafka基础架构详解

Kafka基础架构

overfit同步小助手 2024-06-03 03:04:11 0 收藏