大数据 - overfit.cn

Docker搭建Kafka集群

详细讲解docker如何搭建Kafka集群

overfit同步小助手 2023-02-27 12:04:14 0 收藏

RabbitMQ发布确认模式

讲解RabbitMQ三种发布确认的模式以及发布确认的原理。

overfit同步小助手 2023-02-27 08:03:39 0 收藏

一文带你快速初步了解云计算与大数据

一文带你快速初步了解云计算与大数据，这是一篇涨知识的文章

overfit同步小助手 2023-02-26 08:03:48 0 收藏

【大数据】【Spark】Spark运行架构

Spark 集群的独立部署环境中，不需要依赖其他的资源调度框架，自身就实现了资源调度的功能，所以环境中还有其他两个核心组件：Master 和 Worker，这里的 Master 是一个进程，主要负责资源的调度和分配，并进行集群的监控等职责，类似于 Yarn 环境中的 RM, 而Worker 呢，也是

overfit同步小助手 2023-02-26 08:03:34 0 收藏

Spark环境搭建（保姆级教程）

Spark 是一个大规模数据处理的统一分析引擎本文主要介绍Spark的相关配置，以及各种模式的代码提交，包括Local,Standalone,YARN。文末有相应资源下载网盘链接。

overfit同步小助手 2023-02-25 11:04:12 0 收藏

从一个SQL打印全年日历漫谈数据仓库中时间操作场景的重点写法

我如何快速确定今年是否是闰年的😣我如何从DATE类型数据获取年、月(月初&月末)、周、日、时、分、秒信息🤯我如何快速查到本月月初第一周的周一和本月最后一周周一是在几号😑我如何快速确定每个季度的开始和结束日期😫领导让统计每个月招聘的人数，但是有的月份没招人也就没在数据库记录当月招聘信息，我怎么

overfit同步小助手 2023-02-25 09:04:00 0 收藏

数据中台详解

各种信息系统大多是独立建设的，无法做到信息的互联互通，导致形成了多个数据孤岛。数据中台的作用是融合新老信息，整合各个孤岛上的信息，快速形成数据服务能力，为企业经营决策、精细化运营提供支持。数据中台和业务中台的区别：业务中台是抽象业务流程的共性形成通用业务服务能力，数据中泰是抽象数据能力的共性形成通

overfit同步小助手 2023-02-25 00:04:10 0 收藏

Mysql 窗口函数

一, MySQl 8.0 窗口函数窗口函数适用场景: 对分组统计结果中的每一条记录进行计算的场景下, 使用窗口函数更好;可以跟Hive的对比着看: 点我, 特么的花了一晚上整理, 没想到跟Hive 的基本一致, 还不因为好久没复习博客了, 淦注意: mysql 因为没有array数据结构, 无法像

overfit同步小助手 2023-02-24 14:04:11 0 收藏

Java EasyExcel带格式多线程导出百万数据

Java结合Alibaba EasyExcel，通过多线程加redis缓存的方式，将明细表数据带有数据格式（字体格式，表头冻结，单元格合并等格式），导出百万数据量，响应时间30s左右。

overfit同步小助手 2023-02-24 13:04:15 0 收藏

【SQL开发实战技巧】系列（二）：简单单表查询

本篇文章介绍一些SQL开发基础的内容，讲解的主要内容是：***NULL空值的运算、coalesce比nvl的优势、拼接列实现批量脚本、如何通过rownum限制返回的行数以及如何正确的使用rownum从表中随机返回 n 条记录。***

overfit同步小助手 2023-02-24 08:04:05 0 收藏

Docker启动RabbitMQ，实现生产者与消费者

Docker启动RabbitMQ，实现消费者消息轮训、消息自动应答以及消息自动重新入队

overfit同步小助手 2023-02-24 08:03:56 0 收藏

Hadoop常见端口号及配置文件

Hadoop常用端口及配置文件

overfit同步小助手 2023-02-24 07:04:04 0 收藏

知识点16--spring boot整合kafka

本篇知识点沿用知识点15的项目，为大家介绍spring boot如何连接kafka，本章有些长请耐心看完。没有kafka集群的去我主页找–>第一步：首先导入pom依赖第二步：修改spring boot配置文件第三步：我们建立一个测试类，来认识如何使用生产者我们在服务器端开一个消费者，消费test主题

overfit同步小助手 2023-02-24 02:04:11 0 收藏

R实战 | 限制性立方样条(RCS)

RCS在科学研究中，我们经常构建回归模型来分析自变量和因变量之间的关系。大多数的回归模型有一个重要的假设就是自变量和因变量呈线性关联。当自变量和因变量之间为非线性关系时，可以将连续型变量转化为分类变量，但是分类变量的类别数目以及节点位置的选择一般会带有主观性并且分类变量会损失部分信息；也可以直接拟合

overfit同步小助手 2023-02-23 20:04:12 0 收藏

数据倾斜的原因及解决方案

一、什么是数据倾斜及数据倾斜是如何产生的数据倾斜的根本原因是数据的key分布不均，个别key数据很多，超出了计算节点的计算能力的结果；过程：数据经过 map后，由于不同key 的数据量分布不均，在shuffle 阶段中通过 partition 将相同的 key 的数据打上发往同一个 reducer

overfit同步小助手 2023-02-23 15:04:25 0 收藏

消息队列面试题（2022最新整理）

总结一下，主要三点原因：解耦、异步、削峰。1、解耦。比如，用户下单后，订单系统需要通知库存系统，假如库存系统无法访问，则订单减库存将失败，从而导致订单操作失败。订单系统与库存系统耦合，这个时候如果使用消息队列，可以返回给用户成功，先把消息持久化，等库存系统恢复后，就可以正常消费减去库存了。2、异步。

overfit同步小助手 2023-02-23 15:04:17 0 收藏

数据湖-hudi概述

数据湖是一个集中式存储库，允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据（无需先对数据进行结构化处理），并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习，以指导做出更好的决策。

overfit同步小助手 2023-02-23 15:04:06 0 收藏

毕业设计-基于大数据的电影爬取与可视化分析系统-python

毕业设计-基于大数据的电影爬取与可视化分析系统-python:随着信息技术的发展，爬取和可视化分析系统作为一种重要的数据获取和分析方法，已经得到了广泛的应用。大数据技术为爬取和可视化分析系统提供了可靠的技术支持，使之能够更好地收集和分析大量复杂的数据。电影爬取与可视化分析系统是基于大数据技术的一种新

overfit同步小助手 2023-02-23 15:03:59 0 收藏

在Linux上启动kafka

在服务器上启动kafka

overfit同步小助手 2023-02-23 15:03:56 0 收藏

Kafka的安装与配置

设置环境变量ZOO_LOG_DIR，指定Zookeeper保存日志的位置；2.1、上传zookeeper-3.4.14.tar.gz到服务器。ZOOKEEPER_PREFIX指向Zookeeper的解压目录；3.8、此时Kafka是前台模式启动，要停止，使用Ctrl+C。# 复制zoo_sample

overfit同步小助手 2023-02-23 15:03:51 0 收藏