大数据 Hadoop - overfit.cn

Hadoop HDFS：海量数据的存储解决方案

作为处理大规模数据集的强大工具，HDFS已经成为了很多组织在大数据时代的基石。虽然存在一些设计和性能挑战，但其开源的本质和持续的技术进步保证了HDFS在未来数据技术领域的重要位置。无论是数据存储、大数据分析还是云服务，HDFS都将继续发挥其独特的价值和功能。

overfit同步小助手 2024-06-23 17:03:54 0 收藏

Hadoop的核心组件包括分布式文件系统HDFS和分布式计算框架MapReduce

HDFS（Hadoop Distributed File System）：HDFS是Hadoop生态系统中的分布式文件系统，主要用于存储大规模数据集。它将数据分布在多个节点上，支持数据冗余备份，确保数据的可靠性和高可用性。HDFS是Hadoop分布式计算的基础，能够让Hadoop系统高效地处理大规模

overfit同步小助手 2024-06-23 17:03:47 0 收藏

摸鱼大数据——Hive基础理论知识——Hive环境准备

后台启动hiveserver2服务: nohup hive --service hiveserver2 &方式1: sh 脚本注意: 需要进入脚本所在目录,但脚本有没有执行权限不影响执行。方式2: ./脚本注意: 需要进入脚本所在目录,且脚本必须有执行权限。

overfit同步小助手 2024-06-23 17:03:31 0 收藏

MapReduce排序机制（Hadoop）

mapreduce排序机制

overfit同步小助手 2024-06-22 21:03:47 0 收藏

hive 基础知识

Hive的优缺点：优点：o操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手）。o避免了去写MapReduce，减少开发人员的学习成本。oHive的执行延迟比较高，因此Hive常用于数据分析，对实时性要求不高的场合。oHive优势在于处理大数据，对于处理小数据没有优势，因为Hive的执行

overfit同步小助手 2024-06-22 20:03:45 0 收藏

Hive大数据任务调度和业务介绍

ZooKeeper和DolphinScheduler的使用

overfit同步小助手 2024-06-22 19:03:44 0 收藏

大数据实训（三）——MapReduce编程实例：词频统计

http://t.csdnimg.cn/OySPS

overfit同步小助手 2024-06-22 11:03:40 0 收藏

Hadoop的性能优化与调优

1.背景介绍Hadoop是一个开源的分布式文件系统和分析平台，由Apache软件基金会开发。它可以处理大量数据，并提供高性能、高可用性和高扩展性。Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce。HDFS是一个分布式文件系统，可以

overfit同步小助手 2024-06-22 06:03:45 0 收藏

大数据基础知识-Hadoop、HBase、Hive一篇搞定

相应的，数据库由于规模较小，因此可以支持的数据规模较小，一般单张表中能存储百万条数据(最新版的MySQL经过优化，单表中可以存储千万条或者上亿条数据，即使是一亿条数据，也就10GB大小，且此时效率会非常低)。HBase数据存储依靠HDFS，HDFS存储数据具有一次写入，多次读取的特点，其不支持对数据

overfit同步小助手 2024-06-22 06:03:40 0 收藏

深入解析Apache Hadoop YARN：工作原理与核心组件

YARN（Yet Another Resource Negotiator）是Apache Hadoop生态系统中的一个重要组件，用于资源管理和作业调度。它是Hadoop 2.x版本中的一个关键特性，取代了旧版本中的JobTracker和TaskTracker。YARN的设计目标是使Hadoop能够处

overfit同步小助手 2024-06-22 05:03:45 0 收藏

基于Hadoop的旅行推荐系统

随着互联网和移动设备的普及，旅游已经成为人们生活中不可或缺的一部分。然而，海量的旅游信息和多样化的旅行需求让旅行计划变得复杂且费时。为了解决这一问题，我们设计并实现了基于HadoopHivePandasFlask和ECharts的零陵古城旅行推荐系统。该系统通过分析大量用户行为数据和旅游资源信息，提

overfit同步小助手 2024-06-21 22:03:56 0 收藏

基于Hive的招聘网站的大数据分析系统

基于Hive的招聘网站的大数据分析系统，预处理包括数据清洗、去重、缺失值处理、数据格式转换等环节，以确保数据的质量和一致性。在这一阶段，还可以利用自然语言处理技术对文本数据进行分词、词性标注等操作，为后续的分析提供更多维度的信息。通过对招聘数据的分析，我们可以发现人才市场的热点行业、热门职位、薪资水

overfit同步小助手 2024-06-21 21:03:39 0 收藏

openEuler搭建hadoop Standalone 模式

1. 升级软件2. 安装常用软件3. 关闭防火墙4. 修改主机名和IP地址5. 修改hosts配置文件6. 下载jdk和hadoop并配置环境变量7. 配置ssh免密钥登录8. 修改配置文件9. 初始化集群10. windows修改hosts文件11. 测试

overfit同步小助手 2024-06-21 17:03:44 0 收藏

MySQL与Hadoop集成：实现大数据分析

1.背景介绍在大数据时代，数据的处理和分析已经成为企业和组织中非常重要的一部分。MySQL和Hadoop是两个非常受欢迎的数据处理和分析工具。MySQL是一种关系型数据库管理系统，用于存储和管理结构化数据。Hadoop是一个开源的分布式文件系统和数据处理框架，用于处理和分析非结构化数据。在本文中，我

overfit同步小助手 2024-06-21 06:03:16 0 收藏

hadoop完全分布式搭建

提示:hadoop完全分布式的搭建与伪分布式搭建的准备工作是非常相似的,如果不会不会伪分布式搭建,可以去看看我发布的hadoop伪分布式搭建.注意:前面有 # 的代表注解,可以不写。

overfit同步小助手 2024-06-20 23:03:32 0 收藏

Hadoop笔记

1.hadoop环境搭建，linux命令（vi);2.分布式的基本概念，cap理论（遵循此原则开发分布式数据库），hdfs,mapreduce；3.3.1；3.2重点；4.map，reduce过程，优缺点（第一二个版本）；6.6.3；7.sqoop；8.Zookeeper，yarn，mapreduc

overfit同步小助手 2024-06-20 18:03:14 0 收藏

kerberos-hive-dbeaver问题总结

hive kerberos 认证与连接问题

overfit同步小助手 2024-06-20 14:03:45 0 收藏

手机流量分析——Hadoop实现

统计每个手机号上行流量和、下行流量和、总流量和（上行流量和+下行流量和）,并且：将统计结果按照手机号的前缀进行区分，并输出到不同的输出文件中去。在该目录下使用hadoop调用该包，通过数据源文件，求出每个手机号的总上行流量、下行流量、总流量。(2) 根据(1)的手机号流量汇总结果再按照题目要求将不

overfit同步小助手 2024-06-20 05:03:48 0 收藏

解决hive客户端输入命令出现大量日志问题

在hive的conf目录下新建log4j.properties文件传入一下内容。解决办法：只让终端提示错误信息。

overfit同步小助手 2024-06-20 03:03:44 0 收藏

Hive基础知识（十三）：Hive的Group by语句与Having语句

GROUP BY 语句通常会和聚合函数一起使用，按照一个或者多个列队结果进行分组，然后对每个组执行聚合操作。1）案例实操：（1）计算 emp 表每个部门的平均工资（2）计算 emp 每个部门中平均薪资大于2000，及部门平均薪资。（3）计算 emp 每个部门中每个岗位的最高薪水。

overfit同步小助手 2024-06-19 22:03:40 0 收藏