大数据 Hadoop - overfit.cn

Hadoop 简介（五）

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力，解决海量数据的存储及海量数据的分析计算问题。广义上的Hadoop是指Hadoop的整个技术生态圈；狭义上的Hadoop指的是其核心三大组件，包括HDFS、YA

overfit同步小助手 2024-08-22 10:03:42 0 收藏

三十种未授权访问漏洞复现合集（四）

JBoss是一个基于J2EE的开放源代码应用服务器，代码遵循LGPL许可，可以在任何商业应用中免费使用;JBoss也是一个管理EJB的容器和服务器，支持EJB 1.1、EJB 2.0和EJB3规范。,默认情况下访问 http://ip:8080/jmx-console 就可以浏览 JBoss 的部署

overfit同步小助手 2024-08-22 08:03:56 0 收藏

Hive数据库项目搭建

重要。

overfit同步小助手 2024-08-21 22:03:43 0 收藏

python开发prometheus exporter--用于hadoop-yarn监控

yarn_vcore_seconds: 这是一个Gauge指标,用于记录应用程序使用的虚拟CPU核心数量乘以运行时间(vCore-秒)。yarn_zkRMAppRoot_code: 这个是一个Gauge指标,用于记录YARN ResourceManager应用程序根目录在ZooKeeper中的zno

overfit同步小助手 2024-08-20 23:03:56 0 收藏

基于Hadoop搭建HDFS文件管理系统（大数据）

--------------------------------------------------------------------------------------------------------------------------------如果各位看官老爷都可以配置到最后一步了，那么

overfit同步小助手 2024-08-20 20:03:57 0 收藏

Hadoop中HDFS、Hive 和 HBase三者之间的关系

Hive 类似于一个数据仓库，它建立在 HDFS 之上，提供了 SQL-like 的查询语言（HiveQL），让数据分析师和开发者可以用类似 SQL 的方式来查询和管理 HDFS 上的大数据。Hive 把复杂的 MapReduce 编程抽象掉了，让用户更专注于数据的业务逻辑，而不是底层的技术细节。：

overfit同步小助手 2024-08-20 08:03:23 0 收藏

干货分享|数据安全的重要性探索—— Hive 的安全机制

完整性是数据安全的核心，要保证数据的完整性，必须设置用户权限和数据密级。访问安全通常指用户访问数据的来源和方式是否安全可控，而数据系统又是 IT 系统的核心，其内容涉及主机、存储、网络等。数据备份指用户能否及时有效地备份和保全数据，以及在发生故障之后对数据进行恢复，有效地建立异地数据系统有助于保护数

overfit同步小助手 2024-08-20 05:03:41 0 收藏

hadoop未授权访问命令执行漏洞复现-vulfocus

Hadoop YARN（Yet Another Resource Negotiator）的ResourceManager是集群资源管理的核心组件，负责分配和管理集群资源以及调度作业。如果ResourceManager出现未授权访问漏洞，可能允许未经认证的用户访问或操作集群资源，这可能会导致数据泄露、

overfit同步小助手 2024-08-20 05:03:27 0 收藏

(08)Hive——Join连接、谓词下推

Hive的Join连接

overfit同步小助手 2024-08-19 19:03:44 0 收藏

Hadoop 中的大数据技术：调优篇（2）

HDFS默认情况下，一个文件有3个副本，这虽然提高了数据的可靠性，但也带来了2倍的冗余开销。Hadoop 3.x引入了纠删码机制，通过计算方法，可以节省大约50%的存储空间。

overfit同步小助手 2024-08-19 14:03:34 0 收藏

基于Hadoop平台的电信客服数据的处理与分析④项目实现：任务16：数据采集/消费/存储

数据生产”的程序启动后，会持续向callLog.csv文件中写入模拟的通话记录。接下来，我们需要将这些实时的数据通过Flume采集到Kafka集群中，然后提供给HBase消费。：是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类

overfit同步小助手 2024-08-19 14:03:28 0 收藏

Hive-函数-窗口函数

Hive中常用的窗口函数（也称为开窗函数）丰富多样，这些函数能够在进行数据分析时提供强大的支持，特别适用于需要对分组数据进行复杂计算和排序的场景。

overfit同步小助手 2024-08-19 13:03:37 0 收藏

hive常见时间函数

获取当天时间的三种方式，注意格式，其中current_timestamp返回的时间为UTC时间。日期格式化函数，需要什么格式，后面写什么格式的日期字符串描述，to_date仅有一种格式返回结果。hive提供了灵活获取年、月、日、天、小时、分钟、秒、周数、星期几、季节的函数，最后面还。时区转换函数有很

overfit同步小助手 2024-08-19 12:03:52 0 收藏

在CentOS7部署Hadoop

Hadoop部署安装教程

overfit同步小助手 2024-08-19 09:04:01 0 收藏

物联网架构之Hadoop

resourcemanager、nodemanager的通信端口，web端口等信息。实现了对文本中的单词计数的功能，并要求输出结果并按单词首字母排序。名称节点和数据节点的存放位置，文件副本数和读取权限。备注：Mapreduce作业记录的web地址和端口。4：将file1和file2拷贝到hdfs存储

overfit同步小助手 2024-08-19 04:03:52 0 收藏

【hadoop源码研究-编译】MacBook pro编译hadoop3.4.0版本的源码

使用mac电脑编译hadoop3.4.0版本的源码

overfit同步小助手 2024-08-19 04:03:18 0 收藏

Hive小文件问题及解决方案

Hive小文件问题是大数据环境中一个常见的挑战，影响了查询性能和资源利用率。通过了解小文件问题的成因和影响，并采取合适的解决方案，可以有效地缓解这一问题。在实际应用中，选择合适的文件格式、合并小文件、调整Hadoop配置参数以及使用分区和桶等方法，都是解决Hive小文件问题的有效手段。随着大数据技术

overfit同步小助手 2024-08-19 01:04:01 0 收藏

Hadoop 中的大数据技术：HDFS（2）

Fsimage不记录块位置信息的设计增强了NameNode的灵活性，使得它能够在不影响整体系统的情况下调整块的位置和副本数量。

overfit同步小助手 2024-08-19 01:03:58 0 收藏

Hadoop集群部署（单机、伪分布式、完全分布式）

选择IPV4---修改IP地址（Address）为192.168.200.129---修改子网掩码（Network）为255.255.255.0---修改网关（Gateway）为192.168.200.1---点击Apply应用生效。如果是完全分布式的多台虚拟机之间的配置，参照2 SSH实现免密远程

overfit同步小助手 2024-08-18 23:03:16 0 收藏

Day03-Hadoop概述-浅浅入门一下

处理完毕后，各个部分的结果会被汇总（Shuffle阶段），最后再进行整合（Reduce阶段），形成最终的产品（分析结果），这个过程非常适合处理大规模数据，因为它可以显著提高效率，减少浪费。每个工人将数据转换为一系列中间键值对，这些键值对应着数据的特征及其关联信息。YARN就像是一个大型的数据工厂的主

overfit同步小助手 2024-08-18 03:03:55 0 收藏