Hadoop - overfit.cn

hadoop之ranger权限配置（二）

ranger权限配置

overfit同步小助手 2023-06-23 21:04:03 0 收藏

Spark RDD编程基本操作

overfit同步小助手 2023-06-23 20:03:55 0 收藏

大数据开发之Hive案例篇10-大表笛卡尔积优化

我们需要求每一个start_date的累积数量，那么此时我们可以先求每天的，然后求每天累积的，再求当天每一个start_date累积的，加上前一日的累积的，就是最终我们需要的数据。就算数据量提升数倍，因为 join的条件由一个 data_source 变为了两个 data_souce 、dt，大大减

overfit同步小助手 2023-06-23 13:04:25 0 收藏

hadoop高可用【HA】配置详解

想实现 Hadoop 高可用就必须实现 NameNode 的高可用，NameNode 是HDFS的核心，HDFS 又是 Hadoop 核心组件，NameNode 在 Hadoop 集群中至关重要；NameNode 宕机，将导致集群不可用，如果NameNode数据丢失将导致整个集群的数据丢失，而 Na

overfit同步小助手 2023-06-23 12:04:38 0 收藏

Hadoop基础之《（7）—Hadoop三种运行模式》

在wcinput下建立一个word.txt，输入一些单词。数据存储在HDFS，同时多台服务器工作。单机运行就是直接执行hadoop命令。一、hadoop有三种运行模式。数据存储在linux本地，不用。数据存储在HDFS，测试用。1、例子-统计单词数量。

overfit同步小助手 2023-06-23 07:04:27 0 收藏

基于hadoop大数据的音乐推荐系统

overfit同步小助手 2023-06-23 06:03:56 0 收藏

使用Eclipse创建MapReduce工程

1.实训目标（1）掌握以Exlipse创建MapReduce工程2.实训环境（1）使用CentOS的Linux操作系统搭建的3个节点（2）使用Eclipse软件作为编程软件（3）使用插件hadoop-eclipse-plugin-2.x.x.jar3.实训内容（1）配置MapReduce环境（2）新

overfit同步小助手 2023-06-22 15:04:13 0 收藏

大数据高频面试题

说下Spark中的Transform和Action，为什么Spark要把操作分为Transform和Action?Hive的join操作原理，leftjoin、right join、inner join、outer join的异同?在删除HBase中的一个数据的时候，它什么时候真正的进行删除呢?Hi

overfit同步小助手 2023-06-22 13:03:57 0 收藏

Hadoop/Hive/Spark小文件处理

小文件指的是文件size比HDFS的block size小很多的文件。Hadoop适合处理少量的大文件，而不是大量的小文件。首先，在HDFS中，任何block，文件或者目录在内存中均以对象的形式存储，每个对象约占150byte，如果有1000 0000个小文件，每个文件占用一个block，则name

overfit同步小助手 2023-06-22 09:04:40 0 收藏

内存大数据

1.经过多年的发展，Hadoop生态系统不断完善和成熟，目前已经包含多个子项目，其中YARN的主要功能是？A.负责集群资源调度管理的组件B.分布式并行编程模型C.分布式海量日志采集、聚合和传输系统D.数据仓库工具正确答案：A2.[单选题]大数据时代,数据使用的关键是?A.数据收集B.数据存储C.数据

overfit同步小助手 2023-06-22 07:04:08 0 收藏

Hadoop伪分布搭建完整步骤

hadoop伪分布搭建保姆级教程

overfit同步小助手 2023-06-21 23:04:16 0 收藏

Hive（3）

hive3

overfit同步小助手 2023-06-21 21:04:03 0 收藏

使用sqoop从Hive导出数据到MySQL

2、启动mysql：support-files/mysql.server start。8、数据可视化（前端）需求：Tom选修了哪些课程，对应的每门课程有多少学分。（课程信息：课程号kch，学号xh，课程名称kcmc，学分xf）kcxx。其次：使用sqoop从hdfs上将分析好的数据导出到mysql中

overfit同步小助手 2023-06-21 19:04:28 0 收藏

配置hadoop集群常见报错汇总

从如上日志可以看出，本身data节点启动并无问题，但在与主节点通信时报“Problem connecting to server: hadoop0/192.168.2.130:49000”，之后持续重试。鉴于每次执行都要导入，建议直接在对应的/XXX/hadoop-xxx/etc/hadoop/ha

overfit同步小助手 2023-06-21 15:05:03 0 收藏

HDFS编程实践

介绍HDFS编程实战

overfit同步小助手 2023-06-21 09:04:33 0 收藏

hive 分桶文件的大小多大最合适

另一方面，如果某个列包含许多唯一值，例如包含顾客 ID 的列，这可能不是一个好的分桶字段，因为这可能会导致分桶数量过多，从而降低查询效率。在 Hive 中，选择分桶字段时，考虑到分桶字段的值将被用于对数据进行分区，因此选择较少离散值的列作为分桶字段可以提高查询效率。同时，指定适当的分桶数也很重要，应

overfit同步小助手 2023-06-21 03:04:16 0 收藏

hadoop之kerberos权限配置（ranger基础上）（三）

kerberos+ranger+kerberos权限控制

overfit同步小助手 2023-06-21 02:03:48 0 收藏

Hadoop的基本概念和架构

Hadoop是由Apache基金会所发布的开源的分布式计算框架，由Java语言编写，主要用于处理大规模的数据集的处理和分析。它基于Google的MapReduce算法和Google文件系统（GFS）的思想，提供了一个可靠，高效，可扩展的分布式计算平台。 Hadoop的核心组件包括HDFS（

overfit同步小助手 2023-06-20 14:04:13 0 收藏

头歌大数据——MapReduce 基础实战答案无解析

overfit同步小助手 2023-06-19 13:04:22 0 收藏

Zookeeper简介、原理和功能？

zookeeper的简介、原理、总体架构

overfit同步小助手 2023-06-19 10:04:20 0 收藏