大数据 Hadoop - overfit.cn

Mac 安装 Hadoop 详细教程（安装包 and Homebrew）

JDK 版本高于 JDK 8，可能会导致 Hadoop ResourceManager 打不开，从而导致无法访问 localhost:8088。因此最好的方法，就是准备好 JDK 8 的环境，然后导入到 Hadoop 当中。PS: 这种安装方式可能会少 lib/native 文件夹，具体原因未知。2

overfit同步小助手 2024-11-27 22:03:48 0 收藏

hadoop+Spark+django基于大数据的健康美食推荐系统(源码+文档+调试+可视化大屏)

Django基于大数据的健康美食推荐系统是一个结合了大数据技术和Django框架的健康饮食推荐平台。以下是对该系统的详细介绍：一、系统背景与意义在现代社会，随着健康意识的提高和人们对个性化健康管理的需求不断增长，基于大数据的健康美食推荐系统应运而生。该系统通过收集和分析用户的健康数据、饮食偏好以及食

overfit同步小助手 2024-11-27 16:03:22 0 收藏

Hadoop大数据入门——Hive-SQL语法大全

Hadoop大数据入门之Hive-SQL语法篇

overfit同步小助手 2024-11-27 14:03:23 0 收藏

大数据之Hive基础

Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。本质是将HQL转化为MapReduce分类：1）UDF 一进一出2）UDAF 聚集函数，多进一出（类似于count，max）3）UDTF 一进多出（如lateral view expl

overfit同步小助手 2024-11-27 14:03:14 0 收藏

hadoop-teragen库的使用

hadoop jar /opt/module/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.4.jar（使用的jar包的路径） teragen 10000000 （使用代码） /teragen/data（存放结果的hdfs路

overfit同步小助手 2024-11-26 20:03:19 0 收藏

基于Hadoop的共享单车分布式存储与计算

共享单车的普及带来了便利，但也引发了数据管理的挑战。随着市场竞争加剧，大量资金涌入，导致共享单车数量激增，品牌众多。这种情况下，有效管理和分析海量数据成为一个关键问题。本项目利用Hadoop技术对共享单车数据进行分布式存储和计算。我们收集了10万条开源数据，包含用户类型、活跃程度、地理位置、消费水平

overfit同步小助手 2024-11-26 17:03:44 0 收藏

【已解决】【hadoop】如何解决Hive连接MySQL元数据库的依赖问题

在启动 Hive 之前，通常不需要手动连接到 MySQL 数据库。Hive 的配置文件中已经包含了连接到 MySQL 元数据库所需的信息，包括用户名和密码。当你启动 Hive 服务时，Hive 会使用这些配置信息自动连接到 MySQL 数据库。为什么还要手动连接MySQL数据库？文件中的配置可能有误

overfit同步小助手 2024-11-26 13:03:56 0 收藏

Hadoop核心技术

Hadoop是一个由Apache基金会所开发的分布式系统基础架构，它允许用户在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力进行高速运算和存储。

overfit同步小助手 2024-11-26 12:03:49 0 收藏

大数据-230 离线数仓 - ODS层的构建 Hive处理 UDF 与 SerDe 处理与当前总结

UDF 是用户定义的函数，用于扩展大数据处理系统的功能。通过 UDF，用户可以实现特定的业务逻辑，用于数据的转换或计算。SerDe 是序列化与反序列化的缩写，用于定义数据的读写方式。在大数据框架中，数据通常以结构化或非结构化形式存储，SerDe 用于将这些数据转化为系统可以理解的格式，或从系统中导出

overfit同步小助手 2024-11-26 12:03:38 0 收藏

大数据-231 离线数仓 - DWS 层、ADS 层的创建 Hive 执行脚本

DWS 层通常被称为数据仓库服务层或明细层，它是数据仓库架构中的中间层，负责将原始数据经过清洗、转换后进行存储，并提供给下游的数据应用层或分析层使用。ADS 层是面向应用的数据服务层，主要聚焦于业务的直接需求和决策支持，提供高性能和高响应的数据查询能力，通常是直接为应用或决策系统提供服务。DWS 层

overfit同步小助手 2024-11-25 19:03:33 0 收藏

【源码+文档+调试讲解】基于Hadoop实现的豆瓣电子图书推荐系统的设计与实现

随着开数字化阅读的普及，豆瓣电子图书推荐系统应运而生，旨在为用户提供个性化的阅读体验。基于Hadoop的强大数据处理能力，该系统能够有效处理海量用户数据和书籍信息，通过复杂的算法模型为用户推荐高质量的内容。管理员功能涵盖用户管理、豆瓣高分管理等，确保了平台的高效运营。用户个人中心则提供修改密码、我的

overfit同步小助手 2024-11-25 14:03:54 0 收藏

Hadoop3.x单机模式Local(Standalone)模式

hadoop-env.sh、core-site.xml、hdfs-site.xml、workers(DataNode节点配置文件)、mapred-site.xml、yarn-site.xml。--SecondaryNameNode的HTTP服务地址-->--指定mapreduce使用yarn资源管理

overfit同步小助手 2024-11-25 07:03:58 0 收藏

Hadoop在 IntelliJ IDEA 中打包并提交 MapReduce 程序

随着移动设备的广泛使用和互联网的快速发展，数据的增量和存量快速增加，硬件发展跟不上数据发展，单机很多时候已经无法处理 TB、PB 级别的数据。如果一头牛拉不动货物，那么选择找几头牛一起拉货物比培育一头更强壮的牛更加容易。同理，对于单机无法解决的问题，综合利用多个普通机器的做法比打造一台超级计算机的做

overfit同步小助手 2024-11-24 16:03:52 0 收藏

Hadoop生态圈框架部署（四）- Hadoop完全分布式部署

介绍在虚拟机hadoop1、hadoop2和hadoop3部署完全分布式Hadoop部署规划：hadoop1hadoop2hadoop3HDFSNameNodeDataNodeDataNodeYARN配置hadoop配置文件配置hadoop环境变量访问hadoop对应Web UI提供shell脚本自

overfit同步小助手 2024-11-24 15:03:56 0 收藏

Hadoop学习第二章 HDFS

1. 什么是HDFS？HDFS全称：Hadoop Distributed File System是Hadoop三大组件（HDFS、MapReduce、YARN）之一可在多台服务器上构建集群，提供分布式数据存储能力2. HDFS中的架构角色有哪些？NameNode：主角色，管理HDFS集群和DataN

overfit同步小助手 2024-11-24 14:04:00 0 收藏

【大数据·hadoop】项目实践：IDEA实现WordCount词频统计项目

我们知道，在hdfs分布式系统中，MapReduce这部分程序是需要用户自己开发，我们在ubuntu上安装idea也是为了开发wordcount所需的Map和Reduce程序，最后打包，上传到hdfs上。在ubuntu上安装idea的教程我参考的是这篇。

overfit同步小助手 2024-11-23 12:03:43 0 收藏

【大数据技术基础 | 实验十二】Hive实验：Hive分区

本实验介绍掌握Hive分区的用法，加深对Hive分区概念的理解，了解Hive表在HDFS的存储目录结构。

overfit同步小助手 2024-11-23 09:03:24 0 收藏

hadoop技术实验- 第4章 HBase 开发：使用Java操作HBase

/禁用表//删除表代码//使用create()静态方法就可以得到Configuration对象//config为前文的配置对象//使用连接对象获取Admin对象//禁用表//删除表。

overfit同步小助手 2024-11-23 02:03:39 0 收藏

Hadoop的汽车销量数据分析系统

随着大数据技术的快速发展，基于大数据的分析应用日益普及。本论文针对汽车行业，本论文设计并实现了一个基于Hadoop的汽车销量数据分析系统，旨在提供汽车行业的决策支持和市场洞察。系统首先通过网络爬虫和API等方式采集汽车销量数据，然后利用Hadoop生态系统中的HDFS组件进行数据清洗、存储和处理。在

overfit同步小助手 2024-11-23 00:03:45 0 收藏

HIVE4.0.1在Hadoop HA部署hiveserver2模式

HIVE的远程模式部署

overfit同步小助手 2024-11-22 20:03:31 0 收藏