大数据 Hadoop - overfit.cn

基于Hadoop+Spark的去哪儿旅游出行分析推荐可视化系统【源码+文档】

基于Hadoop+Spark的去哪儿旅游出行分析推荐可视化系统【源码+文档】,支持安装部署、售后修改、代码讲解等。本设计主要从网站进行数据的爬取、清洗，然后将其放入`HDFS`可以降低MySQL的负荷。对爬取的数据进行可视化分析，从人均费用、出游方式、目的地、出游时间等方面分析人们的出行特征，以及这

overfit同步小助手 2024-09-01 01:03:30 0 收藏

离线数仓之Hive的基础操作

hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本

overfit同步小助手 2024-08-31 20:03:51 0 收藏

Hadoop FS 文件系统命令

Hadoop 文件系统命令可以用来直接和 Hadoop 的文件系统交互，支持包括 HDFS、本地文件系统、WebHDFS、S3 等文件系统。下面我们介绍下常用的文件命令。

overfit同步小助手 2024-08-31 14:03:50 0 收藏

docker部署hadoop集群

docker部署hadoop集群；通过Dockerfile方式构建hadoop容器；hadoop职责划分为NameNode、DataNode、NodeManager、ResourceNode、2NN；HDFS、MapReduce、Yarn测试。

overfit同步小助手 2024-08-30 12:03:22 0 收藏

Hadoop 重要监控指标

NameNode 指标：包括 NameNode 的状态、内存使用、文件系统操作等。DataNode 指标：包括 DataNode 的状态、磁盘使用、数据块操作等。ResourceManager 指标：包括 ResourceManager 的状态、应用程序队列、资源使用等。NodeManager 指标

overfit同步小助手 2024-08-30 01:03:40 0 收藏

三、系统隔离术——基于Servlet 3实现请求隔离

特别是在像京东这样的大型电商平台中，商品详情页系统及相关的服务，如库存服务、图书相关服务、延保服务等，都需要处理大量的并发请求。在传统的请求处理模型中，所有请求处理操作都在一个线程中完成，包括请求解析、业务处理和响应生成。例如上图，Tomcat 6 在处理请求时需要在一个线程中完成所有的操作，这种处

overfit同步小助手 2024-08-29 16:04:04 0 收藏

Hadoop 中的大数据技术：调优篇（3）

存储小文件会导致 NameNode 内存消耗过多，因为每个文件都需要按块存储，而每个块的元数据都存储在 NameNode 的内存中。使用 HDFS 存档文件（HAR 文件）来更高效地归档小文件，减少 NameNode 内存使用的同时保持文件的透明访问。结果显示，磁盘的总体混合随机读速度为 220Mi

overfit同步小助手 2024-08-29 13:03:33 0 收藏

Hadoop: Mapreduce了解

Hadoop MapReduce是一个软件框架，用于轻松编写应用程序，这些应用程序以可靠、容错的方式在大型集群（数千个节点）的商用硬件上并行大量数据（数TB数据集）。MapReduce作业通常将输入数据集分割成独立的块，这些块由映射任务以完全并行的方式进行处理。该框架对映射的输出进行排序，然后将其输

overfit同步小助手 2024-08-29 11:04:16 0 收藏

hive数据采集零点漂移

这个时候数据写入的目录就和系统时间有关系。解决方案是采用自定义flume的拦截器，将数据中的事件时间(也就是数据生成的实际时间)解析出来，存储到headers里面，key是timestamp，value是解析出来的事件时间，将useLocalTimeStamp配置为false，最终数据就会写入事

overfit同步小助手 2024-08-29 01:03:45 0 收藏

Linux下的Hadoop分布式安装详解

Linux下分布式部署hadoop全流程详细记录附带图文。

overfit同步小助手 2024-08-28 20:03:43 0 收藏

基于Hadoop平台的电信客服数据的处理与分析④项目实现：任务15：数据生产

电信数据生产是一个完整且严密的体系，这样可以保证数据的鲁棒性。在本项目的数据生产模块中，我们来模拟生产一些电信数据。同时，我们必须清楚电信数据的格式和数据结构，这样才能在后续的数据产生、存储、分析和展示环节中正确使用数据，避免可能出现的问题。

overfit同步小助手 2024-08-28 19:03:59 0 收藏

基于Hadoop的网购笔记本电脑大数据分析与可视化系统

本项目首先通过爬虫获取京东电脑数据，爬虫比较OK，十分具有学习意义，数据可以不断地获取，智能化爬虫，遵守协议，属于良性获取数据。然后进行数据预处理，将脏数据进行结构化处理，保证大数据Hadoop可以复用采用Hadoop进行大数据分析设计组件集群 hdfs HIve flume sqoop

overfit同步小助手 2024-08-28 16:03:47 0 收藏

基于Hadoop的区块链海量数据存储的设计与实现

本文基于Hadoop技术，探讨了如何设计和实现基于区块链的海量数据存储系统。随着区块链技术的快速发展和广泛应用，大量的数据需要被存储和管理。然而，由于区块链的去中心化和不可篡改性质，传统的数据库技术在处理海量数据时遇到了困难。因此，利用Hadoop这一成熟的分布式存储和处理框架，本文提出了一种可扩展

overfit同步小助手 2024-08-28 14:03:18 0 收藏

深入探索【Hadoop】生态系统：Hive、Pig、HBase及更多关键组件（下）

本文深入探索了Hadoop生态系统的核心组成部分及其关键组件，特别是聚焦于Hive、Pig和HBase这三个重要工具。Hadoop作为大数据处理和分析的基石，通过其丰富的生态系统为企业和组织提供了强大的数据处理能力。首先，文章介绍了Hive，作为Hadoop上的数据仓库工具，Hive允许用户通过类S

overfit同步小助手 2024-08-28 10:03:20 0 收藏

hadoop学习系列--环境安装

value>hdfs://127.0.0.1:9000</value> //如果其他主机也要访问，那就将127.0.0.1:9000改为：你的网卡IP：9000，或者改为0.0.0.0:9000。先说踩的坑：刚开始学习，使用mac本安装单机hadoop，遭遇mac自身安全限

overfit同步小助手 2024-08-28 05:03:39 0 收藏

Hadoop简明教程

Hadoop极简教程

overfit同步小助手 2024-08-28 03:03:53 0 收藏

Hive-3.1.3远程模式安装与配置

Hive-3.1.3的安装与配置

overfit同步小助手 2024-08-28 03:03:23 0 收藏

【搭建】hadoop伪分布式平台搭建

（4）配置hadoop-env.sh添加JAVA_HOME=/opt/hadoop/jdk1.8.0_212。18.添加用户名：vi /opt/hadoop-3.1.3/etc/hadoop/11.将hadoop0中的公钥分配给hadoop1和hadoop2。12.将hadoop1中的公钥分配给ha

overfit同步小助手 2024-08-27 20:03:27 0 收藏

Hadoop安装Hive

如果以上步骤都能成功运行，说明 Hive 安装和配置完成，可以开始使用 Hive 进行大数据分析了。确保你的系统已经安装了 Java JDK（推荐使用 JDK 1.8 版本）。如果还没有安装 Hadoop，可以参考以下简要步骤安装 Hadoop。将 Hadoop 目录移动到合适的位置（例如。将 Hi

overfit同步小助手 2024-08-27 17:04:12 0 收藏

Hive 中的 SPLIT、COALESCE 及 COLLECT_LIST 函数的用法

SPLITstr：要拆分的字符串。delimiter：用于拆分的分隔符。COALESCE：一组值，COALESCE将返回第一个非空值。expr：要收集的表达式。Hive 提供的SPLITCOALESCE和函数是数据处理和分析中非常有用的工具。它们可以帮助用户高效地处理字符串、管理空值，以及聚合数据。

overfit同步小助手 2024-08-27 11:04:00 0 收藏