大数据 Hadoop - overfit.cn

Hadoop简单应用程序实例

Hadoop是一个分布式系统基础架构，主要用于大数据的存储和处理。它允许使用简单的编程模型跨集群处理和生成大数据集。Hadoop主要由HDFS（Hadoop Distributed FileSystem，分布式文件系统）和MapReduce编程模型两部分组成。

overfit同步小助手 2024-07-15 13:03:20 0 收藏

解决Hive不支持delete、update问题

2.要实现update和delete功能，该表就需要支持ACID（原子性、一致性、隔离性、持久性）支持，CLUSTERED BY(id) INTO 2 BUCKETS //表必须进行分桶。1.Hive是不支持事务的，所以也就无法支持DELETE和UPDATE操作。需要注意的是，启用ACID支持会增加

overfit同步小助手 2024-07-15 06:03:45 0 收藏

运维锅总浅析Hadoop

本文尝试从Hadoop的简介、工作原理、Hadoop生态系统中的关键工具及其协作流程、Hadoop自身各个组件之间的协作流程、Hadoop性能优化及最佳实践等方面对Hadoop进行简要分析。希望对您有所帮助！

overfit同步小助手 2024-07-15 00:03:26 0 收藏

Hive-存储-文件格式

数据存储是Hive的基础，选择合适的底层数据存储格式，可以在不改变Hql的前提下得到大的性能提升。类似mysql选择适合场景的存储引擎。Hive支持的存储格式有其中，ORCFile和Apache Parquet，以其高效的数据存储和数据处理性能得以在实际的生产环境中大量运用。创建表时可以使用说明Se

overfit同步小助手 2024-07-14 15:03:58 0 收藏

Hive 实战：位图 Bitmap 系列-bitmap_and 函数实现解析

在 ClickHouse 中，bitmapAnd 函数用于计算两个位图 Bitmap 的交集，常用于高效地进行复杂的位运算。而在 Hive 中没有内置的等效函数，我们可以通过创建一个用户自定义函数（UDF）来实现 bitmapAnd。这里将详细介绍如何在 Hive 中实现一个类似 bitmapAnd

overfit同步小助手 2024-07-14 10:03:49 0 收藏

HBase集群部署

利用ZooKeeper作为分布式应用程序协调服务，同时存储HBase集群的元数据信息可以为HBase集群提供故障自动转移功能，以保证HBase集群的高可用。进入Hadoop安装目录的conf目录，将配置文件core-site.xml和hdfs-site.xml复制到HBase安装目录下的conf目录

overfit同步小助手 2024-07-14 06:03:26 0 收藏

Hadoop权威指南-读书笔记-02-关于MapReduce

读书笔记~

overfit同步小助手 2024-07-13 19:03:56 0 收藏

Hadoop入门—HDFS、MR、Yarn【看这一篇就够了！】

hadoop生态及架构，HDFS存储方式、Yarn资源调度、MR并行计算

overfit同步小助手 2024-07-13 17:03:48 0 收藏

Hive 内部与外部表

外部表被drop后，表的metadata会被删除，但是data不会被删除。（1）外部表：因其指删除表时不会删除HDFS上的数据，安全性相对较高，且指定目录的特性，适合数据需要共享或者数据的处理需要 hive和其他工具一起处理的场景。Hive中的表可以分为内部表（managed table）和外部表（

overfit同步小助手 2024-07-13 12:03:42 0 收藏

Hadoop平台搭建运行

rw-------. 1 hadoop hadoop 395 11月 14 16:18 authorized_keys。-rw-------. 1 hadoop hadoop 395 11月 14 16:18 authorized_keys。-rw-------. 1 hadoop hadoop 3

overfit同步小助手 2024-07-13 10:03:44 0 收藏

基于Hadoop的招聘数据可视化系统实现（爬虫、hadoop+hive、flask+echarts、薪资预测、岗位推荐）

本文利用Flask框架设计并实现了一个AI岗位招聘数据可视化系统。首先，系统利用Selenium技术实现对网页数据的自动抓取；接着，构建由三台服务器组成的Hadoop集群，并将爬取数据存储在HDFS分布式文件系统中，使用基于Spark的Hive数据仓库进行数据处理和分析，生成得到的分析数据用可视化方

overfit同步小助手 2024-07-13 09:03:37 0 收藏

Hadoop的SSH免密登录配置(三台虚拟机

-------------------------------结束----------------------------并分别修改hosts文件，将主机名与相应的IP地址对应上。3.三台虚拟机分别运行以下命令，清除原有的密钥信息。分别设为master、slave1、slave2。分发完后，重复步骤

overfit同步小助手 2024-07-13 08:03:34 0 收藏

hadoop各组件工作流程分析

conbineTextInputFormat切片机制。将大量的小文件合并成一个大的Map Task的过程。虚拟存储过程切片过程。

overfit同步小助手 2024-07-12 23:03:50 0 收藏

hive搭建完整教学

Hive是一个建立在Hadoop上的数据仓库工具，它提供了一个类似于SQL的查询语言来分析大规模数据。1. 处理大规模数据高效能够处理TB至PB级数据，并优化MapReduce任务以提高效率。2.高可扩展性和容错性利用Hadoop生态系统实现高效扩展，支持大规模并行计算。3.数据管理与存储提供表、分

overfit同步小助手 2024-07-12 18:03:43 0 收藏

Docker容器搭建Hadoop集群(hadoop-3.1.3)

Docker容器环境下搭建Hadoop集群（完全分布式）hadoop版本为hadoop-3.1.3

overfit同步小助手 2024-07-12 17:03:55 0 收藏

大数据基础：Hadoop之HDFS重点架构原理

Hadoop Distributed File System - 分布式文件存储系统，解决海量数据存储问题。

overfit同步小助手 2024-07-12 16:03:21 0 收藏

Hadoop 2.0 大家族（二）

本文讲解Hadoop2.0大家族，介绍Hbase和Pig。

overfit同步小助手 2024-07-12 13:03:51 0 收藏

大数据入门实践一：mac安装Hadoop，Hbase，FLume

安装hadoop参考此文，关键点是安装JDK和Hadoop的配置，为避免引用文章变收费，我把关键信息摘录如下：jdk安装和配置就不说了，hadoop安装过程：1. 打开系统偏好设置，在输入框输入sharing（共享），勾选”远程连接“：2.打开终端，依次输入如下命令：3.输入【ssh localho

overfit同步小助手 2024-07-12 09:03:39 0 收藏

如何在hadoop2的环境中使用纠删码(hadoop Erasure Coding)

在Proxy FileSystem中，根据path中namenode判定是hdfs2还是hdfs3，如果是hdfs3，则通过classloader，加载hdfs3的jar，而hdfs3的jar包，事先我们已经采用assembly的方式，将hdfs3所依赖的所有包然后外加HDFS3ProxyFileS

overfit同步小助手 2024-07-11 22:03:54 0 收藏

Hadoop 面试题（七）

1. 简述以下选项中不参与hdfs写流程的组件是？2. 简述下列哪一个组件不是Hadoop系统的组件之一（）？3. 简述有关Hadoop的高可用下列描述错误的是（）？4. 简述关于安全模式命令，正确的是（）？5. 简述下列关于Hadoop架构组件描述错误的是() ？6. 简述请问以下哪个命令

overfit同步小助手 2024-07-11 22:03:41 0 收藏