大数据 - overfit.cn

Hive 与 SQL 标准和主流 SQL DB 的语法区别

Hive是一种基于Hadoop的数据仓库软件，可以将结构化数据文件映射为一张数据库表，并提供了类SQL查询接口，使得用户可以使用SQL类语言来查询数据。Hive可以处理包括文本、CSV、JSON、ORC和Parquet等格式的数据文件，支持数据的导入、导出、转换等操作。Hive可以在Hadoop集群

overfit同步小助手 2024-05-27 13:04:02 0 收藏

docker 集群管理实战mesos+zookeeper+marathon（三）

https://www.toutiao.com/article/7221354604351537698/?log_from=6b55db495da1d_1681366356776这个教程主要演示部署和使用marathon./start --hostname 192.168.23.101 --mast

overfit同步小助手 2024-05-27 13:03:53 0 收藏

Hadoop完全分布式搭建（超详细，傻瓜式安装）

Hadoop完全分布式安装配置。

overfit同步小助手 2024-05-27 13:03:25 0 收藏

【运维基础篇】-新版Kafka部署

Kafka在2.8版本之前，Kafka强依赖zookeeper来来负责集群元数据的管理，这也导致当Zookeeper集群性能发生抖动时，Kafka的性能也会收到很大的影响。2.8版本之后，kafka3.x开始提供KRaft（Kafka Raft，依赖Java 8+ ）模式，开始去除对zookeepe

overfit同步小助手 2024-05-27 12:03:49 0 收藏

大数据实验实验五：MapReduce 初级编程实践

overfit同步小助手 2024-05-27 12:03:34 0 收藏

Spark SQL的使用

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduc的程序的复杂性，由于MapReduce这种计算模型

overfit同步小助手 2024-05-27 12:03:23 0 收藏

Spark 异常: Python worker 连接失败

在使用 PySpark 进行编程时，可能会遇到 “org.apache.spark.SparkException: Python worker failed to connect back” 的错误。本文介绍了一些可能导致此错误的原因，并提供了相应的解决方法，包括确认网络连接和主机名设置、检查防火墙

overfit同步小助手 2024-05-27 11:03:19 0 收藏

Hadoop 之 HDFS命令

HDFS（Hadoop Distributed File System）是Hadoop生态系统中的一个核心组件，它是一个高度容错性的分布式文件系统，设计用于在廉价硬件上存储大规模数据集。HDFS的架构采用主从（Master/Slave）结构模型，包含一个。

overfit同步小助手 2024-05-27 10:03:51 0 收藏

Windows安装RabbitMQ详细教程

RabbitMQ是一个功能强大且易于使用的开源消息代理，它支持多种消息协议（AMQP、STOMP、MQTT等），并提供了一个易用的用户界面来监控和管理消息Broker。例如，如果你的RabbitMQ安装在C:\Program Files\RabbitMQ Server\rabbitmq_server

overfit同步小助手 2024-05-27 10:03:44 0 收藏

基于Hadoop的港口物流大数据应用研究

本篇摘要旨在探讨基于Hadoop的港口物流大数据应用研究。随着全球贸易的不断发展和港口物流的复杂化，港口物流大数据处理和分析面临着巨大挑战。如何有效地处理海量的港口物流数据、挖掘其中的潜在价值成为一个关键问题。本研究基于Hadoop大数据处理框架，旨在应用其强大的分布式计算能力和存储优势，解决港口物

overfit同步小助手 2024-05-27 10:03:36 0 收藏

关于在hadoop中搭建HBase时创建表一直显示“Master is initializing”的问题

今天帮室友解决了这个问题，对于我个人来说感触还是蛮深刻的，毕竟这个东西真的弄得要崩溃了，本想着去找老师问问，但是又想自己再挣扎一下下，果然成功了，这简直就像是中了彩票一样哈哈哈哈~（ps：在写这个value时注意与之前在hadoop当中的core-site.xml中的那个hdfs地址对应，同时将这个

overfit同步小助手 2024-05-27 09:03:43 0 收藏

Spark高可用模式和Spark分布式Yarn环境安装

ha验证，要干掉alive的master，观察standby的master,hadoop102的状态缓慢的有standby转变为alive。1)上线：不需要在现有集群的配置上做任何修改，只需要准备一台worker机器即可，可和之前的worker的配置相同。配置基于Zookeeper的一个ha是非常简

overfit同步小助手 2024-05-27 08:03:55 0 收藏

Java技术学习|消息队列|初级RabbitMQ

是非常初级的学习，听说后续的高级课程会涉及到微服务之类的，所以等学完微服务再回来学。还有redis的高级部分也涉及了微服务，所以也都暂时停止学习了。

overfit同步小助手 2024-05-27 08:03:51 0 收藏

安装伪分布式Hadoop

步骤一：安装 JDK安装命令如下，将安装包解压到/usr/local/src/目录下。

overfit同步小助手 2024-05-27 08:03:46 0 收藏

CAP理论与ZooKeeper

zookeeper在选举leader时，会停止服务，直到选举成功之后才会再次对外提供服务，这个时候就说明了服务不可用，但是在选举成功之后，因为一主多从的结构，zookeeper在这时还是一个高可用注册中心，只是在优先保证一致性的前提下，zookeeper才会顾及到可用性。也就是说，如果一个客户端将Z

overfit同步小助手 2024-05-27 08:03:37 0 收藏

Spark SQL编程初级实践

假设当前目录为/usr/local/spark/mycode/rddtodf，在当前目录下新建一个目录mkdir -p src/main/python，然后在目录/usr/local/spark/mycode/rddtodf/src/main/python下新建一个rddtodf.py，复制下面代码

overfit同步小助手 2024-05-27 07:03:50 0 收藏

Kafka源码分析(五) - Server端 - 基于时间轮的延时组件

Kafka源码分析，侧重于时间轮延时组件

overfit同步小助手 2024-05-27 06:03:37 0 收藏

快速上手RabbitMQ

overfit同步小助手 2024-05-27 06:03:16 0 收藏

基于python大数据抖音短视频数据分析与可视化平台大数据毕业设计 Echarts可视化 Flask框架（源码）✅

overfit同步小助手 2024-05-27 05:04:03 0 收藏

知识图谱与大数据：区别、联系与应用

在当今信息爆炸的时代，数据成为了我们生活和工作中不可或缺的资源。知识图谱和大数据是两个关键概念，它们在人工智能、数据科学和信息管理领域扮演着重要角色。本文将深入探讨知识图谱和大数据的区别、联系以及它们的应用。

overfit同步小助手 2024-05-27 05:03:58 0 收藏