大数据 - overfit.cn

Hadoop的shuffle过程及调优

今天这章，我们详细介绍了 Shuffle 过程，关注 Shuffle 过程的性能对整个 MR 作业的性能调优至关重要。经过这章的介绍，我们能够掌握 Shuffle 过程的关键技术点，虽然还不算深入。同时，我们介绍了常见的参数以及调优方法，希望能够在实际应用中不断的尝试、总结，写出性能最佳的任务。

overfit同步小助手 2023-06-27 16:04:42 0 收藏

rabbitmq中客户端30分钟未ack报错解决

overfit同步小助手 2023-06-27 15:03:51 0 收藏

短信验证码—Java实现

在业务需求中我们经常会用到短信验证码，比如手机号登录、绑定手机号、忘记密码、敏感操作等，都可以通过短信验证码来保证操作的安全性，于是就记录下了一次开发的过程。

overfit同步小助手 2023-06-27 14:04:18 0 收藏

大数据项目之电商数据仓库系统

overfit同步小助手 2023-06-27 13:04:35 0 收藏

消息队列是什么

在像双11 的时候秒杀等系统的时候，用户直接访问数据库，数据库一时接受到大量的数据请求，就会压垮数据库，所以在这个时候加入消息队列，用消息队列的大吞吐量，快速处理用户的请求（哪怕是Redis还不足够应对这种大数据访问）。使用消息队列可以实现系统与系统之间的解耦，比如买票系统中买票，用户是不直接调用

overfit同步小助手 2023-06-27 13:04:28 0 收藏

大数据学习路线图（2023完整版）适合收藏

（MySQL介绍、MySQL安装、MySQL基础语法、MySQL高级语法、MySQL系统架构、MySQL存储引擎、MySQL索引、MySQL备份恢复、MySQL主从、主主复制、MySQL存储过程、MySQL分库分表、MySQL综合案例、MySQL性能优化）（帆软介绍、安装部署与启动、初始化设置、初识

overfit同步小助手 2023-06-27 13:04:20 0 收藏

python毕业设计大数据房价数据分析及可视化房价分析

网络爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。爬虫对某一站点访问，如果可以访问就下载其中的网页内容，并且通过爬虫解析模块解析得到的网页链接，把这些链接作为之后的抓取目标，并且在整个过程中完全不依赖用户，自动运行。若不能访问则根据爬虫预先设定的策略进行下一个 URL的访问。在整个过

overfit同步小助手 2023-06-27 11:04:26 0 收藏

Es初步检索命令

Es初步检索命令大全一步到位

overfit同步小助手 2023-06-27 09:04:16 0 收藏

分布式存储与并行处理环境配置：Hadoop、HBase和Spark等

本文介绍Linux系统中配置Hadoop、HBase和Spark环境，包括安装Java运行环境、下载安装包、进行配置和测试。通过这种方式，可以搭建一个强大的分布式计算环境，用于处理大规模数据集。为了成功配置Hadoop、HBase和Spark环境，需要理解它们之间的关系和各自的组件。

overfit同步小助手 2023-06-27 08:04:14 0 收藏

RabbitMQ 发布订阅模式,routing路由模式,topic模式

第三个参数:是否排他性(是否在同一个Connection,如果设置为true,不同的Connection是获得不到消息的)* 第三个参数:是否排他性(是否在同一个Connection,如果设置为true,不同的Connection是获得不到消息的)* 第三个参数:是否排他性(是否在同一个Connec

overfit同步小助手 2023-06-27 07:04:11 0 收藏

Hadoop实训任务3：HDFS和MapReduce综合操作

overfit同步小助手 2023-06-27 02:04:02 0 收藏

大数据处理实验（三）HDFS基本操作实验

HDFS基本操作实验一、Hadoop配置环境变量列出当前目录下的文件级联创建一个文件夹，类似这样一个目录：/mybook/input上传文件至HDFS从HDFS上下载文件查看HDFS上某个文件的内容统计目录下各文件的大小（单位：字节B）删除HDFS上某个文件或者文件夹使用help命令寻求帮助。HDF

overfit同步小助手 2023-06-27 01:04:09 0 收藏

助力工业物联网，工业大数据之其他维度：组织机构【十五】

org_employee：员工信息表【员工id、员工编码、员工名称、用户系统id】org_position：岗位信息表【岗位id、岗位编码、岗位名称、部门id】org_organization：部门信息表【部门id、部门编码、部门名称】org_empposition：员工岗位信息表【员工id、岗位i

overfit同步小助手 2023-06-27 00:03:59 0 收藏

软件工程超市库存管理系统设计报告

overfit同步小助手 2023-06-26 22:04:32 0 收藏

手记系列之六 ----- 分享个人使用kafka经验

本篇文章主要介绍的关于本人从刚工作到现在使用kafka的经验，内容非常多，包含了kafka的常用命令，在生产环境中遇到的一些场景处理，kafka的一些web工具推荐等等。由于kafka这块的记录以及经验是从我刚开始使用kafka，从2017年开始，可能里面有些内容过时，请见谅。Kafka是一种高吞吐

overfit同步小助手 2023-06-26 22:04:14 0 收藏

数据采集及预处理——针对“数据”“采集”“预处理”的理解与解析

数据采集及预处理文章目录数据采集及预处理前言一、数据二、采集1.系统日志采集2.网络数据采集3.ETL三. 预处理总结前言一、数据在计算机系统中，各种字母、数字符号的组合、语音、图形、图像等统称为数据，数据经过加工后就成为信息。数据（data）是事实或观察的结果，是对客观事物的逻辑归纳，是用于

overfit同步小助手 2023-06-26 21:04:26 0 收藏

RocketMQ (六) 主题-Topic

RocketMQ(主题)

overfit同步小助手 2023-06-26 19:04:40 0 收藏

SpringCloud服务注册与发现组件Eureka(五)

overfit同步小助手 2023-06-26 19:04:35 0 收藏

【Spark分布式内存计算框架——Spark 基础环境】1. Spark框架概述

Spark 是加州大学伯克利分校AMP实验室（Algorithms Machines and People Lab）开发的通用大数据出来框架。Spark生态栈也称为BDAS，是伯克利AMP实验室所开发的，力图在算法（Algorithms）、机器（Machines）和人（Person）三种之间通过大规

overfit同步小助手 2023-06-26 19:04:22 0 收藏

flink-安装以及可视化界面的简单使用

使用docker简易安装flink进行学习测试！

overfit同步小助手 2023-06-26 16:04:36 0 收藏