Hadoop - overfit.cn

hive将时间字符串转换为timestamp的几种写法

overfit同步小助手 2024-07-08 20:03:16 0 收藏

面试专区|【74道Hadoop高频题整理(附答案背诵版)】

Hadoop的序列化和反序列化是其处理数据的一个重要方面，特别是在MapReduce过程中。在Hadoop中，序列化涉及将对象转换成可以在网络上发送或写入磁盘的格式，而反序列化则是将这些格式还原回原始对象。Hadoop使用自己的序列化框架，不同于Java的原生序列化，因为它更加高效和灵活。为了在Ha

overfit同步小助手 2024-07-08 16:03:45 0 收藏

Hive数据库操作

原因：手动在hdfs创建的分区目录信息，并没有保存到元数据库中，所以查询的时候从mysql元数据库查询不到country=en的分区信息，所以查不到数据。方案一（手动修复）：想要读取到country=en分区的数据，可以添加country=en分区的元数据信息到mysql。思考：能否手动在hdfs添

overfit同步小助手 2024-07-08 15:03:48 0 收藏

Hadoop 请求数据长度 Requested Data length 超过配置的最大值

Spark 任务速度变慢，也不失败。DataNode 内存足够 CPU 负载不高 GC 时间也不长。查看 DataNode 日志，发现有些日志出现很多 Netty RPC 超时。

overfit同步小助手 2024-07-08 08:03:52 0 收藏

Hadoop：全面深入解析

本文从定义、架构、原理、应用场景、常见命令、安装与配置、性能优化、安全性、未来发展和社区支持等多个方面对Hadoop进行了全面深入的解析。希望通过本文，读者能够对Hadoop有一个清晰和全面的认识，并能够在实际工作中灵活运用这一强大的工具，解决大规模数据处理和分析的挑战。未来，随着大数据技术的发展，

overfit同步小助手 2024-07-08 01:03:53 0 收藏

hadoop词频统计

此文章基于搭建好hadoop之后做的词频统计实验，以上是链接。

overfit同步小助手 2024-07-08 00:03:23 0 收藏

【大数据】Hadoop学习笔记

Hadoop学习笔记, 包含了HDFS/YARN/MapReduce的学习笔记

overfit同步小助手 2024-07-07 21:03:44 0 收藏

Hive的一系列启动命令

• 会基于 yarn-site.xml 中配置的 yarn.resourcemanager.hostname 来决定在哪台机器上启动 resourcemanager。• 读取 core-site.xml内容（ fs.defaultFS 项），确认 NameNode所在机器，启动 NameNode。•

overfit同步小助手 2024-07-07 14:03:34 0 收藏

【大数据技术原理与应用（概念、存储、处理、分析与应用）】第2章-大数据处理架构 Hadoop习题与知识回顾

这一章节主要介绍大数据处理架构 Hadoop

overfit同步小助手 2024-07-07 07:03:48 0 收藏

Hadoop 部署

Hadoop部署，一键开启大数据之旅！在几台廉价服务器上，轻松构建高效、可靠、可扩展的分布式计算平台。HDFS存储海量数据，MapReduce加速处理，为数据分析和挖掘提供强大动力。无需深究底层细节，轻松驾驭大数据时代！

overfit同步小助手 2024-07-07 06:03:51 0 收藏

Hadoop 安装与伪分布的搭建

在Hadoop生态系统中，YARN（Yet Another Resource Negotiator）是一个通用的资源管理系统，它不仅可以管理MapReduce作业，还可以支持其他类型的计算框架。Secondary NameNode并不存储集群的实时状态，但它定期合并NameNode的fsimage和

overfit同步小助手 2024-07-06 22:03:32 0 收藏

Hive实现delete、update操作

【代码】Hive实现delete、update操作。

overfit同步小助手 2024-07-06 13:03:36 0 收藏

未授权访问：Hadoop 未授权访问漏洞

Hadoop是一个由Apache基金会所开发的分布式系统基础架构，由于服务器直接在开放了 Hadoop 机器 HDFS 的 50070 web 端口及部分默认服务端口，黑客可以通过命令行操作多个目录下的数据，如进行删除，下载，目录浏览甚至命令执行等操作，产生极大的危害。

overfit同步小助手 2024-07-06 09:03:26 0 收藏

大数据Hive——数据倾斜

什么是数据倾斜呢?简单的讲，数据倾斜就是在我们计算的时候，由于数据的分布不均，导致大量的数据集中在一台或者几台服务器上，造成数据的热点问题，这些数据的计算速度往往低于平均计算速度，从而导致整个计算过程变慢用Hive算数据的时候reduce阶段卡在99.99%用SparkStreaming做实时算法时

overfit同步小助手 2024-07-06 05:03:47 0 收藏

探索Hadoop：大数据处理的核心技术

Hadoop是由Apache软件基金会开发的一个开源框架，用于存储和处理大型数据集。它最早由Doug Cutting和Mike Cafarella在2006年创建，灵感来自于Google的文件系统（GFS）和MapReduce论文。Hadoop的目标是解决传统数据库系统无法有效处理的大规模数据处理问

overfit同步小助手 2024-07-05 12:03:46 0 收藏

hive获取月初1号以及次月1号

-把系统时间减去目前天数的日期转换为时间戳格式。如系统时间：2024123，即为2024123-23=20231231。--4.系统时间减去系统天数--即上月的最后一天:是否要加unix_timestamp还不确定。--转换为时间：2024-01-01 00:00:00。--1.剖析：获取系统时间的

overfit同步小助手 2024-07-05 05:03:15 0 收藏

Hadoop伪分布式搭建、Hive搭建

防火墙若不关闭可能导致hadoop模块受损。

overfit同步小助手 2024-07-05 02:03:28 0 收藏

从 Hadoop 迁移，无需淘汰和替换

计算节点：Kubernetes 高效管理计算节点上的无状态 Apache Spark 和 Apache Hive 容器，确保资源利用率和动态扩展。存储层：MinIO纠删码和BitRot保护意味着您可能会丢失多达一半的驱动器数量，但仍然可以恢复，所有这些都不需要维护Hadoop所需的每个数据块的三个副

overfit同步小助手 2024-07-05 01:03:50 0 收藏

Hadoop 教程 - Hadoop YARN Resource 资源配置

YARN支持扩展资源类型，允许用户定义除内存和CPU之外的其他资源，如GPU、网络带宽等。描述: 配置文件中定义自定义资源类型。描述: 在Capacity Scheduler中，每个队列可以设置用户最低资源占有率百分比，以保证公平性。

overfit同步小助手 2024-07-04 22:03:39 0 收藏

【人机交互复习】第2章 Hadoop

在Hadoop 2.0及以上版本中，start-all.sh 已被拆分为 start-dfs.sh 和 start-yarn.sh，但在旧版本中，start-all.sh 可以启动这两个服务。1.Hadoop 是一个能够对大量数据进行分布式处理的软件框架，并且是以一种可靠、高效、可伸缩的方式进行

overfit同步小助手 2024-07-04 18:03:50 0 收藏