大数据 Hadoop - overfit.cn

hive数据仓库--Hive介绍

hive

overfit同步小助手 2023-06-09 07:03:42 0 收藏

IDEA配置Hadoop环境-非maven配置版（图文详细）

overfit同步小助手 2023-06-09 01:03:40 0 收藏

什么是大数据？大数据有哪些应用场景？

大数据技术的发展已经改变了我们对数据的认知和处理方式，大数据是一种新型的数据处理技术，它涵盖了多个领域，包括计算机科学、网络通信、算法理论、应用统计学等。简要来说，大数据可以定义为处理规模庞大复杂度高数据时所需的技术和方法。

overfit同步小助手 2023-06-09 00:03:43 0 收藏

实验7 Spark初级编程实践

1. Spark读取文件系统的数据2.编写独立应用程序实现数据去重对于两个输入文件A和B，编写Spark独立应用程序（推荐使用Scala语言），对两个文件进行合并，并剔除其中重复的内容，得到一个新文件C。下面是输入文件和输出文件的一个样例，供参考。3.编写独立应用程序实现求平均值问题每个输入文件表示

overfit同步小助手 2023-06-08 23:04:03 0 收藏

大数据：HBase安装、配置及使用

大数据大数据，HBase，python大数据：HBase安装、配置及使用一、下载二、安装和配置1. 搭建hadoop环境2. 安装3. 验证4. 安装模式配置1) 伪分布式模式配置（1）编辑 `/usr/local/hbase/conf/hbase-env.sh` 文件（2）编辑 `/usr/loc

overfit同步小助手 2023-06-08 21:03:50 0 收藏

HIVE总结

一：hive作用Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。Hive本质：将HQL转化成MapReduce程序（1）Hive处理的数据存储在HDFS（2）Hive分析数据底层的实现是MapReduce（3）执行程序运行在Yarn上1.1：

overfit同步小助手 2023-06-08 17:03:42 0 收藏

基于Hadoop的项目实战-职位数据综合分析

一、数据采集（selenium）from selenium import webdriverimport timeimport reimport pandas as pdimport os在爬取的过程中可能会有登陆弹窗，要先定义一个处理弹窗的函数def close_windows(): #如果

overfit同步小助手 2023-06-08 07:03:49 0 收藏

hive表新增字段，指定新增字段位置，删除字段

经验证，hive中修改字段顺序并没有将字段对应的值移动，只是单纯的修改字段名，如果是空表（没有数据），可以使用以上两步；其中CASCADE选项为选填的字段，但是对于分区表，一定要加上，否则其历史分区的元数据信息(metadata)将无法正常更新，导致访问历史分区时会报莫名的错误。背景：项目中，客户使

overfit同步小助手 2023-06-08 06:03:50 0 收藏

hive表数据更新insert overwrite/merge into

根据甲方要求，需要对大数据平台指定表(hive、impala表)的历史数据[2021-01-01至2023-03-29]指定字段进行批量更新，然后把表同步到Oracle。hive有8张表更新，其中4张大表【分区表】（数据量分别为：1038738976、260958144、25860509、28670

overfit同步小助手 2023-06-08 04:03:34 0 收藏

docker快速部署hue+hue集成hive

首先需要安装hive，hive的安装在安装完成之后，使用脚本命令启动hdfs和hive的相关服务。

overfit同步小助手 2023-06-07 22:03:38 0 收藏

⼤数据采集和可视化系统实现

前言本篇博客用来记录 2022年春季大数据课程结课大作业（大三下，前8周，小组作业）非常感谢小组同学的付出和积极配合！文章目录1. 实验目的2. 实验环境3. 实验要求4. 实验内容4.1 准备工作4.2 数据的采集和发送4.2.1 流程介绍4.2.2 实验过程4.2.3 源码解析4.3 数据的消费

overfit同步小助手 2023-06-07 17:04:10 0 收藏

HIVE选择题总结

hive选择题总结

overfit同步小助手 2023-06-07 17:03:39 0 收藏

Hive 连接及使用

有三种方式连接 hive：cli：直接输入 bin/hive 就可以进入 clihiveserver2、beelinewebui

overfit同步小助手 2023-06-07 13:03:40 0 收藏

大数据技术(林子雨版）——期末复习知识点

HBase针对谷歌Big Table的开源实现，是一个高可靠、高性能、面向列、可伸缩的分布式数据库，存储非结构化和半结构化的松散数据。②个核心：1、分布式存储：HDFS、HBase、NoSQL；NoSQL数据库：应用于互联网企业、传统企业的非关键业务（数据分析），对数据量和并发读写要求较高的场景。行

overfit同步小助手 2023-06-06 20:03:53 0 收藏

zookeeper安装

进入/export/software目录，将zookeeper软件包导入该目录下。解压zookeeper软件包到/export/servers目录下，并重命名为zookeeper。将zookeeper/conf下的zoo_sample.cfg文件修改为zoo.cfg，并配置zoo.cfg文件。在/

overfit同步小助手 2023-06-06 07:03:50 0 收藏

Windows Kerberos客户端配置并访问CDH

1.Windows安装 Kerberos 客户端;2.配置 krb5.ini3.执行 kinit 发起认证4.浏览器可信配置,在浏览器输入about:config打开配置:输入 `network.auth.use-sspi`，并点击切换到 `false`;输入 `network.negotiate-

overfit同步小助手 2023-06-06 03:03:45 0 收藏

漫谈大数据 - HiveSQL总结（二）查询操作

导语：HiveSQL各关键字详解，hive函数大全，类似于个人记录工具书，后续遇到其他的也会继续加进来。

overfit同步小助手 2023-06-05 17:03:48 0 收藏

【i阿极送书——第三期】《Hadoop大数据技术基础与应用》

本书由浅入深地介绍了Hadoop技术生态的重要组件，让读者能够系统地了解大数据相关技术。第1章主要从整体上介绍了Hadoop大数据技术，并搭建Hadoop运行环境。

overfit同步小助手 2023-06-05 04:03:41 0 收藏

Hadoop之Hive的安装配置（详细步骤）

配置前准备下载apache-hive-2.1.1-bin.tar.gz安装包并上传到XShell在XShell上解压

overfit同步小助手 2023-06-05 02:03:50 0 收藏

Sqoop 从入门到精通

Sqoop是Hadoop和关系数据库服务器之间传送数据的一种工具。它是用来从关系数据库如：MySQL，Oracle到Hadoop的HDFS，并从Hadoop的文件系统导出数据到关系数据库。传统的应用管理系统，也就是与关系型数据库的使用RDBMS应用程序的交互，是产生大数据的来源之一。这样大的数据，由

overfit同步小助手 2023-06-03 20:04:11 0 收藏