Hadoop - overfit.cn

Hive--临时表的三种方式

一、临时数据方案1、with as1.1 使用demo witht1as( select imei ,src_pkg ,src_type ,app_version_name frombi_quickgame.dw_qgcrpk_boot_di whereday='${

overfit同步小助手 2023-07-15 20:04:39 0 收藏

hive、pg库，建表语句及查询表结构语句

overfit同步小助手 2023-07-15 16:04:29 0 收藏

大数据存储系统HDFS和对象存储(OOS/S3)的比较

虽然Apache Hadoop以前都是使用HDFS的，但是当Hadoop的文件系统的需求产生时候也能使用S3。Netflix的利用这个特性把数据存储在S3上而不是HDFS上。笔者曾经工作经历的大数据集群存储都是用HDFS，当前工作接触到对象存储S3，在实践中比较两者的不同之处。

overfit同步小助手 2023-07-15 12:04:06 0 收藏

【排错/运维】修复HDFS丢失、损坏以及副本数的问题

overfit同步小助手 2023-07-15 09:04:20 0 收藏

HDFS集群部署成功但网页无法打开如何解决（显示配置通过浏览器访问hdfs的端口）

HDFS集群部署成功（3台虚拟机）但是网页端无法打开，通过显示指定端口解决！！

overfit同步小助手 2023-07-15 04:03:51 0 收藏

Spark Local环境搭建及测试

Spark单机版的搭建，常用于本地开发测试Spark使用Scala语言编写，运行在Java虚拟机（JVM）当中，故在安装前检查下本机的Java虚拟机环境。用命令查询当前Java版本是否为6以上。

overfit同步小助手 2023-07-14 22:04:39 0 收藏

【大数据入门核心技术-Impala】（一）Impala简介

Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性。相比之下，Impal

overfit同步小助手 2023-07-14 09:03:59 0 收藏

Hive sql 将多个字段组合成json格式

新的项目中，有一个需求，前端展示一个字段中要包含多个字段，讨论后决定将多个字段转成Json类型进行展示，新字段类型为。经历了多次试验，参考多个文章版本，终于改成了符合需求的SQL版本。

overfit同步小助手 2023-07-14 08:04:22 0 收藏

【hive】hive数据类型及数据类型转换的注意事项

hive数据类型及数据类型转换的注意事项

overfit同步小助手 2023-07-14 00:04:16 0 收藏

hadoop集群slave节点jps后没有datanode解决方案

3.切换到slave节点，将/usr/local/hadoop/tmp/dfs/data/current里的VERSION文件中的clusterID替换成与master的VERSION文件中clusterID一致。2.找到安装hadoop的文件夹，我的是(/usr/local/hadoop)再找到里

overfit同步小助手 2023-07-14 00:03:51 0 收藏

【大数据基础】基于信用卡逾期数据的Spark数据处理与分析

本次实验采用pandas库对数据进行预处理。在实验中，不对信用卡和个人信贷额度的总余额、负债比率、未偿还贷款数量、逾期90天以上的次数这4个属性进行处理分析。（2）查看数据是否具有重复值，去除重复值。（3）查看各字段缺失率，缺失值以均值填充。（4）选取要研究的属性，删除不研究的属性。（5）保存文件到

overfit同步小助手 2023-07-13 22:04:42 0 收藏

大数据技术分享 4.HDFS常用命令

（15）-getmerge ：合并下载多个文件，比如hdfs的目录 /aaa/下有多个文件:log.1, log.2,log.3,…（9）-chgrp 、-chmod、-chown：linux文件系统中的用法一样，修改文件所属权限。（10）-copyFromLocal：从本地文件系统中拷贝文件到h

overfit同步小助手 2023-07-13 06:04:00 0 收藏

Hive表的基础查询操作

通过实操流程重点阐述表的基本查询、连接查询方法。

overfit同步小助手 2023-07-13 00:04:25 0 收藏

ssh: connect to host master port 22: No route to host

出现ssh: connect to host master port 22: No route to host后先看看ip是否变动

overfit同步小助手 2023-07-12 19:03:54 0 收藏

数据仓库是什么？

对于大数据的学习者来讲，深入理解数据仓库是很重要的。本文将对数据仓库的基本概念进行讲解，大家可以在看完数据仓库的概念、主要特征以及分层架构之后，真正理解数据仓库是什么。数据仓库，全称是Data Warehouse，简写DWH。数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持。它出于分

overfit同步小助手 2023-07-12 17:04:22 0 收藏

hadoop报错ERROR: Cannot set priority of namenode process

overfit同步小助手 2023-07-12 02:04:25 0 收藏

Hadoop部署本地模式

本地模式，即运行在单台机器上。没有分布式的思想，使用的是本地文件系统。使用本地模式主要是用于对MapReduce的程序的逻辑进行调试，确保程序的正确性。由于在本地模式下测试和调试MapReduce程序较为方便，因此，这种模式适合用在开发阶段。上传JDK安装包到指定的路径。上传Hadoop到指定的

overfit同步小助手 2023-07-11 23:04:17 0 收藏

HDFS文件系统创建和删除文件

overfit同步小助手 2023-07-11 20:04:36 0 收藏

Centos6系统中yum源的配置

在file-other-select a wizard中创建MapReduce项目。在编辑区-run as- run configuration。在hdfs中的output子目录下查看输出文件。2022年10月10日08:49:17。

overfit同步小助手 2023-07-11 18:04:48 0 收藏

1、apache-hive-3.1.2简介及部署（三种部署方式-内嵌模式、本地模式和远程模式）及验证详解

Apache Hive是一款建立在Hadoop之上的开源数据仓库系统，可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表，基于表提供了一种类似SQL的查询模型，称为Hive查询语言（HQL），用于访问和分析存储在Hadoop文件中的大型数据集。Hive核心是将HQL转换为Ma

overfit同步小助手 2023-07-11 17:04:09 0 收藏