大数据 - overfit.cn

Hadoop学习笔记DAY3-MapReduce

1）什么是序列化序列化就是把内存的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输反序列化就是将收到字节序列或者是磁盘的持久化数据，转换成内存中的对象2）Why一般来说，对象只生存在内存里，关机断电就没有了，而且只能由本地进程使用，不能通过网络发送给另一台计算机，而序列

overfit同步小助手 2024-03-14 01:03:47 0 收藏

【详细版】Linux系统中搭建Hadoop

修改core-site.xml文件，分别指定hdfs 协议文件系统的通信地址及hadoop 存储临时文件的目录。进入/opt/server/hadoop-3.3.4/etc/hadoop 目录下，修改以下配置。进入 ~/.ssh 目录下，查看生成的公匙和私匙，并将公匙写入到授权文件。Hadoop 3

overfit同步小助手 2024-03-14 01:03:43 0 收藏

Zookeeper详解

Curator 是 Apache ZooKeeper 的Java客户端库，目标是简化 ZooKeeper 客户端的使用常见的ZooKeeper Java API ：原生Java APIZkClientCuratorCurator 最初是 Netfix 研发的,后来捐献了 Apache 基金会,目前是

overfit同步小助手 2024-03-14 01:03:34 0 收藏

Spark的详细概述

spark的特点，生态圈，运行架构，RDD

overfit同步小助手 2024-03-14 01:03:22 0 收藏

大数据技术1：大数据发展简史

随着信息时代互联网技术爆炸式的发展，人们对于网络的依赖程度日渐加深，在业务中需要处理的数据量快速增加，逐渐飙升到了一个惊人的数量级。并且数据产生的速度随着采集与处理技术的更新仍在加快。数据量从兆字节(MB)、吉字节 (GB) 的级别到现在的太字节 (TB)、柏字节(PB) 级别，数据量的变化促使数

overfit同步小助手 2024-03-14 00:03:27 0 收藏

开局掉马，逃荒前我还在学Spark

Hadoop是目前应用最为广泛的分布式大数据处理框架，其具备可靠、高效、可伸缩等特点。Hadoop的核心组件是HDFS、MapReduce。1）HDFS（分布式文件系统）：HDFS是整个hadoop体系的基础，它是Hadoop生态系统中的核心项目之一，是分布式计算中数据存储管理基础。2）MapRed

overfit同步小助手 2024-03-13 23:03:52 0 收藏

大数据开发（Hadoop面试真题-卷二）

Hadoop是一个开源的分布式计算框架，用于处理大规模数据集的存储和处理。它由Apache基金会开发和维护，为处理大数据提供了可靠和高效的解决方案。HDFS：HDFS是一个可扩展的分布式文件系统，用于存储大规模数据集。它将数据分割成多个块，并在集群中的多个节点上进行分布式存储。YARN：YARN是H

overfit同步小助手 2024-03-13 23:03:44 0 收藏

RabbitMQ 消息对象通过 Jackson 库消息转化器序列化/反序列化天坑！

a）使用 RabbitMQ 发送消息时，发送消息的类型为 Map，map 里面我 put 了一个类型，如下图：b）这里有一个前提：我清楚使用 org.springframework.amqp.rabbit.core.RabbitTemplate 来发送消息到 RabbitMQ 队列时，消息的序列

overfit同步小助手 2024-03-13 23:03:24 0 收藏

什么是Scala语言和spark？

这些应用程序来自Spark 的不同组件，如Spark Shell 或Spark Submit 交互式批处理方式、Spark Streaming 的实时流处理应用、Spark SQL 的即席查询、采样近似查询引擎BlinkDB 的权衡查询、MLbase/MLlib 的机器学习、GraphX 的图处理和

overfit同步小助手 2024-03-13 22:03:47 0 收藏

第十四章 RabbitMQ应用

一般MQ用于系统解耦、削峰使用，常见于微服务、业务活动等场景。

overfit同步小助手 2024-03-13 20:03:56 0 收藏

Rabbitmq调用FeignClient接口失败

微服务结构，目前有A、B、C三个服务。A服务：做一些工具类的功能B服务：类似于门户，调用A、C服务来给到前端C服务：基础模块，日志、权限、数据维护A服务：实现blast功能，该功能是异步任务，需要几分钟的时间才能执行完成，所以采用了消息队列的方式通知功能完成，可查看数据。当代码执行完成之后通过rab

overfit同步小助手 2024-03-13 20:03:52 0 收藏

Zookeeper与ApacheRanger的集成与优化

1.背景介绍1. 背景介绍Zookeeper是一个开源的分布式协调服务，用于构建分布式应用程序的基础设施。它提供了一种可靠的、高性能的、分布式的协同服务，以解决分布式应用程序中的一些常见问题，如集群管理、配置管理、同步等。Apache Ranger 是一个开源的安全管理框架，用于管理和保护 Hado

overfit同步小助手 2024-03-13 20:03:47 0 收藏

【Flink数据传输（一）】NetworkStack架构概述：实现tm之间的数据交换

overfit同步小助手 2024-03-13 20:03:39 0 收藏

【初始RabbitMQ】工作队列的实现

这是一篇关于RabbitMQ工作队列的文章，详细的介绍了其工作原理以及如何实现每一个代码全部都有解析，保姆级教学快来看看吧！！！

overfit同步小助手 2024-03-13 20:03:26 0 收藏

【极数系列】Flink配置参数如何获取？（06）

旨在帮助读者快速在开发项目中解决Flink参数如何从外部获取问题，分别是配置文件，命令行，系统属性

overfit同步小助手 2024-03-13 20:03:18 0 收藏

2024 年中国高校大数据挑战赛赛题 D：行业职业技术培训能力评价完整思路以及源代码分享

中国是制造业大国，产业门类齐全，每年需要培养大量的技能娴熟的技术工人进入工厂。某行业在全国有多所不同类型（如国家级、省级等）的职业技术培训学校，进行 5 种技能培训。学员入校时需要进行统一的技能考核（称作“入校考核”），培训结束后再次进行统一考核（称作“离校考核”）并根据该考核成绩总分位次颁

overfit同步小助手 2024-03-13 20:03:13 0 收藏

【Docker】Kafka 容器化部署

Kafka标准软件基于Bitnami Kafka 构建。当前版本为3.6.1你可以通过轻云UC部署工具直接安装部署，也可以手动按如下文档操作。

overfit同步小助手 2024-03-13 19:03:53 0 收藏

说明HDFS、HBase、Hive的区别

1、HDFS（分布式文件系统）： 2、HBase（分布式数据库）：3、Hive（数据仓库）：

overfit同步小助手 2024-03-13 19:03:49 0 收藏

2023年中国高校大数据挑战赛第二场 D题：行业职业技术培训能力评价思路+python代码

数据探索与可视化:开始通过对数据的初步探索，使用统计描述和可视化工具，例如散点图、箱线图、相关性矩阵等，来了解不同技能考核成绩的分布和离校成绩之间的关系。如果使用机器学习模型，解释模型的结果，了解哪些技能对于离校成绩的影响最大，以及它们之间的关系。1. 一般而言，入学的各技能考核成绩与对应的离校考核

overfit同步小助手 2024-03-13 18:03:29 0 收藏

【Hadoop和Spark伪分布式安装与使用】

本教程（也算不上不哈）适用于从零开始安装，就是电脑上什么都没安装的那种，因为本人就是，看到这篇文章的伙伴，让我们一起安装吧！注意下面下载的所有文件均是免费的，如有网页弹出付费，请及时叉掉，我提供的一般都是官方网站，谨防受骗，在此温馨提醒！重启后桌面如果还是英文的话，按以下设置：1、右键单击，点击设置

overfit同步小助手 2024-03-13 18:03:20 0 收藏