大数据 - overfit.cn

spark--JSON数据的处理

Spark SQL能够自动将JSON数据集以结构化的形式加载为一个DataFrame读取一个JSON文件可以用SparkSession.read.json方法指定DataFrame的schema1，通过反射自动推断，适合静态数据2，程序指定，适合程序运行中动态生成的数据重要的方法2，get_json

overfit同步小助手 2023-04-04 00:04:30 0 收藏

zookeeper

一、配置和安装(1)下载zookeeper-3.4.6.tar.gz 解压 tar xf zookeeper-3.4.6.tar.gz 一般放在opt目录下 mkdir/opt/ly mv zookeeper-3.4.6 /opt/ly(2) yum安装的jdk是开源的openJDK，最好

overfit同步小助手 2023-04-04 00:04:21 0 收藏

Parquet文件详解

Apache Parquet是Apache Hadoop生态系统的一种免费的开源面向列的数据存储格式。它类似于Hadoop中可用的其他列存储文件格式，如RCFile格式和ORC格式。本文将简单介绍一下Parquet文件的结构。数据首先写入文件，元数据最后写入单遍（single pass）写入。首先让

overfit同步小助手 2023-04-04 00:04:18 0 收藏

手把手实战PyTorch手写数据集MNIST识别项目全流程

手把手实战PyTorch手写数据集MNIST识别项目全流程MNIST手写数据集是跑深度学习模型中很基础的、几乎所有初学者都会用到的数据集，认真领悟手写数据集的识别过程对于深度学习框架有着弥足重要的意义。然而目前各类文章中关于项目完全实战的记录较少，无法满足广大初学者的要求，故本文受B站Tommy启发

overfit同步小助手 2023-04-04 00:04:15 0 收藏

kettle连接hive

要替换kettle文件的位置：D:\programfile\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp30。注意是要放在hdp30目录下的lib文件夹，而不是像把Oracle/MySQL驱动一样

overfit同步小助手 2023-04-04 00:04:10 0 收藏

【SpringCloud负载均衡】【源码+图解】【二】LoadBalancer配置

overfit同步小助手 2023-04-04 00:04:06 0 收藏

【分享】“飞书第三方“在集简云平台集成应用的常见问题与解决方案

以下是服务端常用错误码列表，部分未列入的错误码可以在具体 API 接口文档中查询到。你也可以通过右上角搜索功能，全局查找错误码说明和排查建议。答：每次调用接口时，可能出现错误码。可根据错误码信息调试接口，排查错误。...

overfit同步小助手 2023-04-04 00:03:59 0 收藏

4.kafka--生产调优

无

overfit同步小助手 2023-04-04 00:03:55 0 收藏

120年奥运历史数据分析

该数据集整理了从1896年雅典奥运会至2016年里约热内卢奥运会120年的奥林匹克运动会的历史数据。需要注意的是，在1896年-1992年期间，冬季奥运会与夏季奥运会都是在同一年举行的。在这之后，冬季与夏季的奥运会才被错开举办，冬季奥运会从1994年开始4年举办一次，夏季奥运会从1996开始4

overfit同步小助手 2023-04-03 23:05:01 0 收藏

docker-compose安装带SASL认证的kafka

本篇文章会介绍使用使用`docker-compose`安装带SASL认证的Kafka消息队列。为啥会有这篇文章主要是网上一些文章太折磨人了，都是互抄的而且都是错的。我配合`SpringBoot`调试搞了我一天。为啥要搞SASL认证也主要是为了安全考虑。如果不加认证，`Kafka`应用就是裸露在外面的

overfit同步小助手 2023-04-03 23:04:56 0 收藏

rabbitmq开启web界面教程

首先我们进入服务器先执行rabbitmq的web界面插件的命令。执行rabbitmq-plugins enable rabbitmq_management 命令我们查询rabbitmq服务现在的状态为正在启动的，所有我们可以根据url打开网页，访问地址是：http://服务器的ip:15672很不幸

overfit同步小助手 2023-04-03 23:04:43 0 收藏

Tableau概述

雨果·莫雷斯在福布斯网站上说：“数据分析主要是通过从数据中获得真相和意义，为企业赋能，驱动业务增长。”当今社会，商务智能（Business Intelligence，BI）已被广泛地应用于各行各业，并在辅助企业的分析决策中扮演着举足轻重的角色。但随着企业数据量不断膨胀，IT环境日益复杂，业务需求灵活

overfit同步小助手 2023-04-03 23:04:40 0 收藏

Flink的重启策略

Flink重启策略

overfit同步小助手 2023-04-03 23:04:33 0 收藏

hive之left semi join（左半连接）使用方法

目录一、建表数据准备二、语法三、left semi join例子四、left semi join、join、left join的区别1、left semi join2、left join3、join结语一、建表数据准备参考hive之full outer join（全连接）使用方法_IMezZ的博客-

overfit同步小助手 2023-04-03 23:04:26 0 收藏

Rabbitmq死信队列

死信队列概念死信，就是无法被消费的消息，一般来说, producer将消息投递到broker或者直接到queue里了, consumer从queue取出消息进行消费,但某些时候由于特定的原因导致queue中的某些消息无法被消费，这样的消息如果没有后续的处理，就变成了死信，有死信自然就有了死信队列。应

overfit同步小助手 2023-04-03 23:04:23 0 收藏

Hive的动态分区与静态分区（区别及详解）

Hive的动态分区与静态分区

overfit同步小助手 2023-04-03 21:05:10 0 收藏

【大数据】HADOOP-Yarn集群界面UI指标项详解（建议收藏哦）

HADOOP-Yarn的UI界面指标项及参数配置详解。方便进行资源配置，任务监控，资源告警，日常运维

overfit同步小助手 2023-04-03 21:04:59 0 收藏

Hive SQL时间函数及用法

函数： last_day(string date)返回值：string返回该日期所属的月份的最后一天(截至Hive 1.1.0)。date为字符串，格式为“yyyy-MM-dd HH:mm:ss”或“yyyy-MM-dd”。日期的时间部分被忽略。

overfit同步小助手 2023-04-03 21:04:56 0 收藏

数据中心IDC、ODC、EDC、DC分别是什么

对IDC、EDC的数据中心都包含了基础设施的运维和自有业务系统的运行维护，即使同一类型的数据中心各自个性化的自有系统的运行维护的要求都是有很大的差异，比如不同银行的金融数据中心研发和测试、运行的环境、对外服务的要求都大不相同。提供场地出租、设备托管、资源出租等；企业数据中心（EDC--Enter

overfit同步小助手 2023-04-03 21:04:47 0 收藏

Ubuntu虚拟机以及hadoop的安装

此时会有如下提示(SSH首次登陆提示)，输入 yes。然后按提示输入密码，这样就登陆到本机了。安装openjdk也可以。点击 20.04.5，desktop，livedvd，下载iso。设置4G内存，40G虚拟硬盘，32M显存，2个虚拟CPU。命令，无需输入密码就可以直接登陆了，如下图所示。在虚拟机

overfit同步小助手 2023-04-03 21:04:45 0 收藏