大数据 - overfit.cn

docker推送镜像到Docker Hub完整教程

通过这些步骤，已经成功地将镜像推送到Docker Hub，使其能够在公开的仓库中共享给其他人。请确保的镜像遵循Docker Hub的使用规范，并且不包含敏感信息。在推送之前，需要将要推送的镜像标记为Docker Hub的仓库地址。默认情况下，Docker Hub的仓库地址为。在Docker Hub网

overfit同步小助手 2023-11-11 01:04:04 0 收藏

Spark--经典SQL50题

创建DataFrame。、查询本周过生日的学生。、查询下周过生日的学生。、查询本月过生日的学生。、查询下月过生日的学生。

overfit同步小助手 2023-11-10 23:03:45 0 收藏

大数据知识合集之预处理方法

总结来看，常用的做法是：先用Python中的pandas.isnull.sum() 检测出变量的缺失比例，考虑删除或者填充，若需要填充的变量是连续型，一般采用均值法和随机差值进行填充，若变量是离散型，通常采用中位数或哑变量进行填充。数据中不同特征的量纲可能不一致，数值间的差别可能很大，不进行处理可能

overfit同步小助手 2023-11-10 22:03:51 0 收藏

内部表与外部表——头歌

Hive 默认创建内部表（managed table），存储位置在 hive.metastore.warehouse.dir 设置，默认位置是 /user/hive/warehouse。导入数据到内部表的时候是将文件剪切（移动）到指定位置，即原有路径下文件不再存在。删除外部表时，仅元数据被删除，HD

overfit同步小助手 2023-11-10 21:03:46 0 收藏

Flink---14、Flink SQL（SQL-Client准备、流处理中的表、时间属性、DDL）

Flink SQL（SQL-Client准备、流处理中的表、时间属性、DDL）

overfit同步小助手 2023-11-10 21:03:43 0 收藏

Hadoop服务启动出现Permission denied (publickey,password)

如果还要输入密码的话，那就是你ssh没有配置好。这里要说一下的是ssh7.0之后就关闭了dsa的密码验证方式，如果你的秘钥是通过dsa生成的话，需要改用rsa来生成秘钥。如果不需要输入密码，说明ssh配置好了。接下来可以运行start-all.sh文件了。办法：需要设置免密连接登录。

overfit同步小助手 2023-11-10 20:03:44 0 收藏

HIVE建表详细教程

hadoop.hive.serde2.lazy.LazySimpleSerDe，这其实就是^A分隔符，hive中默认使用^A(ctrl+A)作为列分割符，如果用户需要指定的话，等同于row format delimited fields terminated by '\001'，因为^A八进制编码体

overfit同步小助手 2023-11-10 19:03:30 0 收藏

Hadoop3.0大数据处理学习4（案例：数据清洗、数据指标统计、任务脚本封装、Sqoop导出Mysql）

由于原始数据涉及多个需要统计的字段，可以将这些字段统一的记录在一个自定义的数据类型中，方便使用import org/*** @description 自定义数据类型，为了保存主播相关核心字段，方便后期维护} }/*** @description 自定义数据类型，为了保存主播相关核心字段，方便后期维护

overfit同步小助手 2023-11-10 19:03:20 0 收藏

2023_Spark_实验十四：SparkSQL入门操作

Spark SQL 基础操作，读取文件，注册临时表，Spark SQL基础语法，查看执行计划

overfit同步小助手 2023-11-10 18:03:20 0 收藏

CentOS 搭建 Hadoop3 高可用集群

在/etc/systemd/system/文件夹下创建一个启动脚本zookeeper-3.service。上传本地测试文件 wcdata.txt 到 HDFS 上 /wordcount/input。在 HDFS 上创建目录 /wordcount/input。浏览器访问:http://spark01:

overfit同步小助手 2023-11-10 14:03:38 0 收藏

Docker下如何构建包含延迟插件的RabbitMQ镜像

overfit同步小助手 2023-11-10 13:03:43 0 收藏

三、eureka-server端和客户端配置文件讲解

通过这张图理解为什么要进行文件配置。

overfit同步小助手 2023-11-10 12:03:40 0 收藏

hive字段关键字问题处理

最近在xxl_job部署shell调度任务时,发现在编写Hql时，对一些使用关键字命名的字段无法解析，按开发规范，字段命名不应该有关键字,但是数据来源是第三方,无法修改,需要通过flume对从kafka的数据到hdfs上，数据是json格式,所以需要对关键字字段进行处理,最初是通过 `,',",‘

overfit同步小助手 2023-11-10 11:03:45 0 收藏

hadoop面试题（大数据）（附答案）

Hadoop是一个开源分布式计算平台架构，基于apache（阿帕奇）协议发布，由java语言开发。主要包括运行模式：单机版、伪分布式模式、完全分布式模式

overfit同步小助手 2023-11-10 10:03:44 0 收藏

大数据库可视化模版16：矿产资源大数据监管平台

Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者，CSDN博客专家，在线教育专家，CSDN钻石讲师；专注大学生毕业设计教育和辅导。所有项目都配有从入门到精通的基础知识视频课程，免费项目配有对应开发文档、开题报告、任务书、PPT、论文模版等项目都录了发布和功能操作演示视频；项目的界面和功

overfit同步小助手 2023-11-10 10:03:13 0 收藏

Java(115)Java通过jdbc接口连接hive3.1.2

Java(115)Java通过jdbc接口连接hive

overfit同步小助手 2023-11-10 08:03:43 0 收藏

第2.4章：StarRocks表设计--分区分桶与副本数

StarRocks采用Range-Hash的组合数据分布方式，也就是我们一直在提的分区分桶方式。

overfit同步小助手 2023-11-10 07:03:48 0 收藏

Flink写入数据到ClickHouse

使用Flink将流式数据写入到ClickHouse

overfit同步小助手 2023-11-10 07:03:43 0 收藏

什么是ES(Elasticsearch)?详解+操作

搜索引擎

overfit同步小助手 2023-11-10 07:03:29 0 收藏

大数据｜Spark介绍

park为了解决以往分布式计算框架存在的一些问题(重复计算、资源共享、系统组合)，提出了一个分布式数据集的抽象数据模型：RDD(Resilient Distributed Datasets)弹性分布式数据集。

overfit同步小助手 2023-11-10 05:03:37 0 收藏