大数据 - overfit.cn

CDH大数据平台入门篇之搭建与部署

CDH：存储各种类型的数据、使用各种不同的计算框架进行操作、能够快速集成和运行一个完整的Hadoop平台，适用于各种不同的硬件和软件、高安全性且能够部署多种应用，并扩展和扩充它们以满足你的需求、还可以放心地用于关键的商业任务。

overfit同步小助手 2023-12-06 05:03:51 0 收藏

python大数据毕设选题

大家好！大四的同学们，毕业设计的时间即将到来，你们准备好了吗？为了帮助大家更好地开始毕设，我作为学长给大家整理了最新的计算机大数据专业的毕设选题。如果在开题选题的过程中有任何疑问，都可以随时向我提问，我会根据你们的情况提供帮助。对于大数据专业的毕设选题，重要的是选择与该领域紧密相关且具有实际意义的课

overfit同步小助手 2023-12-06 05:03:35 0 收藏

Hadoop集群安装部署

hadoop集群的搭建

overfit同步小助手 2023-12-06 03:03:43 0 收藏

SpringCloud之Eureka注册中心原理及其搭建

Eureka是Netflix开发的服务发现框架，本身是一个基于REST的服务，主要用于定位运行在AWS域中的中间层服务，以达到负载均衡和中间层服务故障转移的目的。SpringCloud将它集成在其子项目spring-cloud-netflix中，以实现SpringCloud的服务发现功能。

overfit同步小助手 2023-12-06 02:03:47 0 收藏

sparksql源码系列 | 一文搞懂Show create table 执行原理

这篇文章主要介绍了show create table命令执行的源码流程，弄清楚了sparksql是怎么和hive元数据库交互，查询对应表的metadata，然后拼接成最终的结果展示给用户的

overfit同步小助手 2023-12-06 02:03:34 0 收藏

RabbitMQ基本原理

overfit同步小助手 2023-12-05 23:03:33 0 收藏

window系统修改rabbitmq 默认端口

Windows下rabbitmq服务端更新主机名为IP地址和更改端口

overfit同步小助手 2023-12-05 22:03:45 0 收藏

40、Flink 的Apache Kafka connector（kafka source的介绍及使用示例）-1

1、Flink 部署、概念介绍、source、transformation、sink使用示例、四大基石介绍和示例等系列综合文章链接13、Flink 的table api与sql的基本概念、通用api介绍及入门示例14、Flink 的table api与sql之数据类型: 内置数据类型以及它们的属性1

overfit同步小助手 2023-12-05 21:03:11 0 收藏

Windows11编译Hadoop3.3.6源码

由于还未发布3.3.6版本winutils，因此尝试源码编译。

overfit同步小助手 2023-12-05 18:03:34 0 收藏

谨慎Apache-Zookeeper-3.5.5以后在CentOS7.X安装的坑

本文主要讲解在Centos7中，JDK正确安装及配置，系统防火墙也正常配置，但Zookeeper无法启动的一种可能问题及解决办法

overfit同步小助手 2023-12-05 17:03:41 0 收藏

大数据SpringBoot项目——基于SpringBoot+Bootstrap框架的学生宿舍管理系统的设计与实现

该系统采用了基于Bootstrap的样式搭建的管理系统，后台采用SpringBoot框架和MySQL数据库,通过Java+javasript+jsp 语言编写，具有比较高的安全性，跨平台，很强的可移植性。学生可以非常方便查看宿舍信息、入住信息。宿舍管理员可以通过后台强大的信息修改功能进行更新，对楼宇

overfit同步小助手 2023-12-05 17:03:12 0 收藏

Spark内核

任务的最小单位是线程。失败重试，会记录失败的次数，如果超过最大重试次数，宣告Application失败。失败的同时会记录它上一次所在的ExecutorID和Host, 最多重试4次。落盘的话就需要考虑不同分区之间的数据如何存放的问题。假设每个Executor有两个Task，总共有三个分区。特点：无论

overfit同步小助手 2023-12-05 16:03:38 0 收藏

RabbitMQ 消息中间件

Kafka是LinkedIn开源的分布式发布-订阅消息系统，目前归属于Apache顶级项目。Kafka主要特点是基于Pull的模式来处理消息消费，追求高吞吐量，一开始的目的就是用于日志收集和传输。0.8版本开始支持复制，不支持事务，对消息的重复、丢失、错误没有严格要求，适合产生大量数据的互联网服务的

overfit同步小助手 2023-12-05 15:03:46 0 收藏

头歌实践平台：ZooKeeper之节点基本操作（一）、（二）--内有代码直接复制粘贴过关

ZooKeeper之节点基本操作（一）第一关zkServer.sh startzkCli.sh -server 127.0.0.1:2181create -e /enode ""create /spnode ""quit第二关zkServer.sh start zkCli.sh -server 12

overfit同步小助手 2023-12-05 15:03:37 0 收藏

[Exceptions]运行hive sql报错NoViableAltException

)

overfit同步小助手 2023-12-05 14:03:50 0 收藏

基于RabbitMQ的模拟消息队列之五——虚拟主机设计

overfit同步小助手 2023-12-05 14:03:44 0 收藏

oracle递归查询connect by prior

oracle的start with connect by prior是条件递归查询，树结构

overfit同步小助手 2023-12-05 14:03:12 0 收藏

【运维】hadoop 集群安装（三）hdfs、yarn集群配置、nodemanager健康管理讲解

【运维】hadoop 集群安装（三）hdfs、yarn集群配置、监控nodemanager配置

overfit同步小助手 2023-12-05 12:03:49 0 收藏

Win10 环境下 spark 本地环境的搭建

此电脑(右击)==>属性==>高级系统设置==>环境变量==>系统变量==>Path==>新建。此电脑(右击)==>属性==>高级系统设置==>环境变量==>系统变量==>Path==>新建。此电脑(右击)==>属性==>高级系统设置==>环境变量==>系统变量==>Path==>新建。下载 jdk

overfit同步小助手 2023-12-05 12:03:40 0 收藏

Flume 整合 Kafka

以实时流处理项目为例，由于采集的数据量可能存在峰值和峰谷，假设是一个电商项目，那么峰值通常出现在秒杀时，这时如果直接将 Flume 聚合后的数据输入到 Storm 等分布式计算框架中，可能就会超过集群的处理能力，这时采用 Kafka 就可以起到削峰的作用。Kafka 天生为大数据场景而设计，具有高吞

overfit同步小助手 2023-12-05 12:03:11 0 收藏