Hadoop - overfit.cn

HIVE总结

一：hive作用Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。Hive本质：将HQL转化成MapReduce程序（1）Hive处理的数据存储在HDFS（2）Hive分析数据底层的实现是MapReduce（3）执行程序运行在Yarn上1.1：

overfit同步小助手 2023-06-08 17:03:42 0 收藏

基于Hadoop的项目实战-职位数据综合分析

一、数据采集（selenium）from selenium import webdriverimport timeimport reimport pandas as pdimport os在爬取的过程中可能会有登陆弹窗，要先定义一个处理弹窗的函数def close_windows(): #如果

overfit同步小助手 2023-06-08 07:03:49 0 收藏

hive表新增字段，指定新增字段位置，删除字段

经验证，hive中修改字段顺序并没有将字段对应的值移动，只是单纯的修改字段名，如果是空表（没有数据），可以使用以上两步；其中CASCADE选项为选填的字段，但是对于分区表，一定要加上，否则其历史分区的元数据信息(metadata)将无法正常更新，导致访问历史分区时会报莫名的错误。背景：项目中，客户使

overfit同步小助手 2023-06-08 06:03:50 0 收藏

hive表数据更新insert overwrite/merge into

根据甲方要求，需要对大数据平台指定表(hive、impala表)的历史数据[2021-01-01至2023-03-29]指定字段进行批量更新，然后把表同步到Oracle。hive有8张表更新，其中4张大表【分区表】（数据量分别为：1038738976、260958144、25860509、28670

overfit同步小助手 2023-06-08 04:03:34 0 收藏

docker快速部署hue+hue集成hive

首先需要安装hive，hive的安装在安装完成之后，使用脚本命令启动hdfs和hive的相关服务。

overfit同步小助手 2023-06-07 22:03:38 0 收藏

⼤数据采集和可视化系统实现

前言本篇博客用来记录 2022年春季大数据课程结课大作业（大三下，前8周，小组作业）非常感谢小组同学的付出和积极配合！文章目录1. 实验目的2. 实验环境3. 实验要求4. 实验内容4.1 准备工作4.2 数据的采集和发送4.2.1 流程介绍4.2.2 实验过程4.2.3 源码解析4.3 数据的消费

overfit同步小助手 2023-06-07 17:04:10 0 收藏

HIVE选择题总结

hive选择题总结

overfit同步小助手 2023-06-07 17:03:39 0 收藏

Hive 连接及使用

有三种方式连接 hive：cli：直接输入 bin/hive 就可以进入 clihiveserver2、beelinewebui

overfit同步小助手 2023-06-07 13:03:40 0 收藏

矿井水除氟——高矿化度矿井水氟化物深度降解的技术方案

高矿化度矿井水是指含有高浓度溶解性矿物质的废水，通常指的是含有高浓度钠、钙、镁、铁、铝、钾等离子的废水。近年来高矿化度和含特殊组分矿井水逐年增多给矿井水处理带来新挑战，同时经过多年的高强度开采，目前大部分矿井已开始转向下层煤开采，随着开采深度的增加，矿井水中的矿化度和氟化物含量也有明显升高，目前已

overfit同步小助手 2023-06-07 07:04:49 0 收藏

大数据技术(林子雨版）——期末复习知识点

HBase针对谷歌Big Table的开源实现，是一个高可靠、高性能、面向列、可伸缩的分布式数据库，存储非结构化和半结构化的松散数据。②个核心：1、分布式存储：HDFS、HBase、NoSQL；NoSQL数据库：应用于互联网企业、传统企业的非关键业务（数据分析），对数据量和并发读写要求较高的场景。行

overfit同步小助手 2023-06-06 20:03:53 0 收藏

zookeeper安装

进入/export/software目录，将zookeeper软件包导入该目录下。解压zookeeper软件包到/export/servers目录下，并重命名为zookeeper。将zookeeper/conf下的zoo_sample.cfg文件修改为zoo.cfg，并配置zoo.cfg文件。在/

overfit同步小助手 2023-06-06 07:03:50 0 收藏

Windows Kerberos客户端配置并访问CDH

1.Windows安装 Kerberos 客户端;2.配置 krb5.ini3.执行 kinit 发起认证4.浏览器可信配置,在浏览器输入about:config打开配置:输入 `network.auth.use-sspi`，并点击切换到 `false`;输入 `network.negotiate-

overfit同步小助手 2023-06-06 03:03:45 0 收藏

漫谈大数据 - HiveSQL总结（二）查询操作

导语：HiveSQL各关键字详解，hive函数大全，类似于个人记录工具书，后续遇到其他的也会继续加进来。

overfit同步小助手 2023-06-05 17:03:48 0 收藏

【i阿极送书——第三期】《Hadoop大数据技术基础与应用》

本书由浅入深地介绍了Hadoop技术生态的重要组件，让读者能够系统地了解大数据相关技术。第1章主要从整体上介绍了Hadoop大数据技术，并搭建Hadoop运行环境。

overfit同步小助手 2023-06-05 04:03:41 0 收藏

Hadoop之Hive的安装配置（详细步骤）

配置前准备下载apache-hive-2.1.1-bin.tar.gz安装包并上传到XShell在XShell上解压

overfit同步小助手 2023-06-05 02:03:50 0 收藏

02.hadoop上课笔记之ssh和复习linux

1.ssh(secure shell)使用了加密处理私钥在客户端公钥在服务端。linux vim 的4dd从光标开始复制4行,粘贴p。2.linux vim提升效率。3.查看目录本身权限。

overfit同步小助手 2023-06-04 07:04:47 0 收藏

Sqoop 从入门到精通

Sqoop是Hadoop和关系数据库服务器之间传送数据的一种工具。它是用来从关系数据库如：MySQL，Oracle到Hadoop的HDFS，并从Hadoop的文件系统导出数据到关系数据库。传统的应用管理系统，也就是与关系型数据库的使用RDBMS应用程序的交互，是产生大数据的来源之一。这样大的数据，由

overfit同步小助手 2023-06-03 20:04:11 0 收藏

第1关：数据清洗MapReduce综合应用案例 — 招聘数据清洗

overfit同步小助手 2023-06-03 18:03:45 0 收藏

安装和配置HBase

一、下载阿里云镜像下载比较快。https://mirrors.aliyun.com/apache/hbase/2.4.12/二、安装1、解压解压安装包hbase-2.4.12-bin.tar.gz至路径 /usr/local2、把hbase目录权限赋予给hadoop用户3、配置环境变量将hbase下

overfit同步小助手 2023-06-03 16:04:01 0 收藏

大数据平台运维（hadoop入门（保姆篇））----概述及基本环境配置(HA-1)

大数据运维基础

overfit同步小助手 2023-06-03 15:03:49 0 收藏