大数据 - overfit.cn

河北工业大学数据挖掘实验一数据预处理

河北工业大学数据挖掘实验实验一数据预处理实验报告

overfit同步小助手 2023-04-04 00:04:35 0 收藏

查询所有HIVE表分区数据量

查询HIVE表分区的数据占用和行数，用于数据治理通常，每天一个分区；通常，今天查看昨天分区数据量本文日期分区字段为ymd

overfit同步小助手 2023-04-04 00:04:32 0 收藏

spark--JSON数据的处理

Spark SQL能够自动将JSON数据集以结构化的形式加载为一个DataFrame读取一个JSON文件可以用SparkSession.read.json方法指定DataFrame的schema1，通过反射自动推断，适合静态数据2，程序指定，适合程序运行中动态生成的数据重要的方法2，get_json

overfit同步小助手 2023-04-04 00:04:30 0 收藏

Parquet文件详解

Apache Parquet是Apache Hadoop生态系统的一种免费的开源面向列的数据存储格式。它类似于Hadoop中可用的其他列存储文件格式，如RCFile格式和ORC格式。本文将简单介绍一下Parquet文件的结构。数据首先写入文件，元数据最后写入单遍（single pass）写入。首先让

overfit同步小助手 2023-04-04 00:04:18 0 收藏

手把手实战PyTorch手写数据集MNIST识别项目全流程

手把手实战PyTorch手写数据集MNIST识别项目全流程MNIST手写数据集是跑深度学习模型中很基础的、几乎所有初学者都会用到的数据集，认真领悟手写数据集的识别过程对于深度学习框架有着弥足重要的意义。然而目前各类文章中关于项目完全实战的记录较少，无法满足广大初学者的要求，故本文受B站Tommy启发

overfit同步小助手 2023-04-04 00:04:15 0 收藏

kettle连接hive

要替换kettle文件的位置：D:\programfile\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp30。注意是要放在hdp30目录下的lib文件夹，而不是像把Oracle/MySQL驱动一样

overfit同步小助手 2023-04-04 00:04:10 0 收藏

【分享】“飞书第三方“在集简云平台集成应用的常见问题与解决方案

以下是服务端常用错误码列表，部分未列入的错误码可以在具体 API 接口文档中查询到。你也可以通过右上角搜索功能，全局查找错误码说明和排查建议。答：每次调用接口时，可能出现错误码。可根据错误码信息调试接口，排查错误。...

overfit同步小助手 2023-04-04 00:03:59 0 收藏

120年奥运历史数据分析

该数据集整理了从1896年雅典奥运会至2016年里约热内卢奥运会120年的奥林匹克运动会的历史数据。需要注意的是，在1896年-1992年期间，冬季奥运会与夏季奥运会都是在同一年举行的。在这之后，冬季与夏季的奥运会才被错开举办，冬季奥运会从1994年开始4年举办一次，夏季奥运会从1996开始4

overfit同步小助手 2023-04-03 23:05:01 0 收藏

Tableau概述

雨果·莫雷斯在福布斯网站上说：“数据分析主要是通过从数据中获得真相和意义，为企业赋能，驱动业务增长。”当今社会，商务智能（Business Intelligence，BI）已被广泛地应用于各行各业，并在辅助企业的分析决策中扮演着举足轻重的角色。但随着企业数据量不断膨胀，IT环境日益复杂，业务需求灵活

overfit同步小助手 2023-04-03 23:04:40 0 收藏

hive之left semi join（左半连接）使用方法

目录一、建表数据准备二、语法三、left semi join例子四、left semi join、join、left join的区别1、left semi join2、left join3、join结语一、建表数据准备参考hive之full outer join（全连接）使用方法_IMezZ的博客-

overfit同步小助手 2023-04-03 23:04:26 0 收藏

SFP、SFP＋、SFP28、QSFP＋和QSFP28光模块之间区别

SFP、SFP+、SFP28、QSFP+和QSFP28这些都是光模块的封装类型，这些可热拔插光模块都可用于连接网络交换机和其他网络设备（如服务器等）进行数据传输。在弄清楚这些封装类型的区别之前，需要了解SFP，SFP+，SFP28，QSFP和QSFP28这些封装是什么，下面就给大家分别介绍下这些封装

overfit同步小助手 2023-04-03 21:09:19 0 收藏

Hive的动态分区与静态分区（区别及详解）

Hive的动态分区与静态分区

overfit同步小助手 2023-04-03 21:05:10 0 收藏

【大数据】HADOOP-Yarn集群界面UI指标项详解（建议收藏哦）

HADOOP-Yarn的UI界面指标项及参数配置详解。方便进行资源配置，任务监控，资源告警，日常运维

overfit同步小助手 2023-04-03 21:04:59 0 收藏

数据中心IDC、ODC、EDC、DC分别是什么

对IDC、EDC的数据中心都包含了基础设施的运维和自有业务系统的运行维护，即使同一类型的数据中心各自个性化的自有系统的运行维护的要求都是有很大的差异，比如不同银行的金融数据中心研发和测试、运行的环境、对外服务的要求都大不相同。提供场地出租、设备托管、资源出租等；企业数据中心（EDC--Enter

overfit同步小助手 2023-04-03 21:04:47 0 收藏

elasticsearch设置密码

elasticlasearch

overfit同步小助手 2023-04-03 21:04:42 0 收藏

ESG数据更新 | 商道融绿ESG评级（2015-2022年）

4]王晓红,栾翔宇,张少鹏.企业研发投入，ESG表现与市场价值——企业数字化水平的调节效应[J/OL].科学学研究:1-16[2023-03-01].DOI:10.16192/j.cnki.1003-2053.20220606.001.[3]王波,杨茂佳.ESG表现对企业价值的影响机制研究——来自我

overfit同步小助手 2023-04-03 21:04:37 0 收藏

大数据开发工程师必备技能有哪些？

大数据开发工程师必备技能有哪些？随着全行业数字化转型和新基建时代的到来，对技术人才提出了更高的要求。不管是面试还是实际工作过程中，数据工程师要时时刻刻面对这些层出不穷的技术演进。随着数据的爆发式增长以及指标维度多元化，T+1 的数据报表早已无法满足需求。在保证高时效性的同时，让数据发挥更大的价值是筛

overfit同步小助手 2023-04-03 21:04:23 0 收藏

Spark常见错误剖析与应对策略

工作中spark 的常见问题以及发生的原因和应对策略

overfit同步小助手 2023-04-03 20:04:42 0 收藏

Python 数据处理数据挖掘（一）：CSV文档数据处理

目录一、读取CSV文件二、数据清洗1、识别并处理缺失值 2、识别并处理异常值3、识别并处理重复值三、分组处理1、设置行索引：data.set_index("Index")2、数据分组统计：groupBy()声明：本文为学习笔记，侵权删所用函数：pandas.read_csv(file_path)数据

overfit同步小助手 2023-04-03 20:04:30 0 收藏

hadoop historyserver启动，无法访问，查看报错等问题

记录下hadoop遇到的问题。

overfit同步小助手 2023-04-03 20:04:21 0 收藏