大数据 - overfit.cn

第五届“泰迪杯”数据分析技能赛经验代码分享

在各类学科竞赛中，常常要求参赛者提交Excel或/和PDF格式的竞赛作品。本赛题以某届数据分析竞赛作品的评阅为背景，要求参赛者根据给定的评分准则和标准答案，使用Python编程完成竞赛作品的自动评判。本届竞赛于2022年9月5日正式开始，至2022年11月13日结束，历时两个半月。技能赛共计有来自全

overfit同步小助手 2023-11-11 13:03:20 0 收藏

Spark实战

Spark基于内存计算，整合了内存计算单元，提高了大数据处理的实时性。它兼具高容错性和可伸缩性，因此相对于Hadoop的集群处理方法，Spark在性能方面更具优势。从另一角度看，Spark可被看作MapReduce的一种扩展。在计算的各个阶段，MapReduce无法进行有效的资源共享，因此不擅长迭代

overfit同步小助手 2023-11-11 08:03:27 0 收藏

大数据-Storm流式框架（二）--wordcount案例

storm软件包中lib目录下的所有jar包。

overfit同步小助手 2023-11-11 07:03:49 0 收藏

hadoop之MapReduce简介

hadoop之MapReduce的一些简介，架构和分析

overfit同步小助手 2023-11-11 06:03:43 0 收藏

头歌大数据MapReduce基础编程

头歌测试题目MapReduce基础编程

overfit同步小助手 2023-11-11 03:03:37 0 收藏

hadoop配置

在各种配置文件中，我们都是以root用户进行操作的，普通用户hadoop并没有操作权限，现在我们需要对普通用户hadoop进行授权。配置hadoop-env.sh，这个文件作用主要是Hadoop运行的环境变量。在确保所用node都给Hadoop用户进行授权之后，格式化整个文件系统。在node2、no

overfit同步小助手 2023-11-11 01:02:59 0 收藏

Git切换用户常用命令

然而，git config --global --replace-all user.name "yourName"这个命令会替换所有的user.name配置项。git config --global user.name "yourName"和git config --global --replace

overfit同步小助手 2023-11-11 00:04:27 0 收藏

大数据知识合集之预处理方法

总结来看，常用的做法是：先用Python中的pandas.isnull.sum() 检测出变量的缺失比例，考虑删除或者填充，若需要填充的变量是连续型，一般采用均值法和随机差值进行填充，若变量是离散型，通常采用中位数或哑变量进行填充。数据中不同特征的量纲可能不一致，数值间的差别可能很大，不进行处理可能

overfit同步小助手 2023-11-10 22:03:51 0 收藏

内部表与外部表——头歌

Hive 默认创建内部表（managed table），存储位置在 hive.metastore.warehouse.dir 设置，默认位置是 /user/hive/warehouse。导入数据到内部表的时候是将文件剪切（移动）到指定位置，即原有路径下文件不再存在。删除外部表时，仅元数据被删除，HD

overfit同步小助手 2023-11-10 21:03:46 0 收藏

Flink---14、Flink SQL（SQL-Client准备、流处理中的表、时间属性、DDL）

Flink SQL（SQL-Client准备、流处理中的表、时间属性、DDL）

overfit同步小助手 2023-11-10 21:03:43 0 收藏

2023_Spark_实验十四：SparkSQL入门操作

Spark SQL 基础操作，读取文件，注册临时表，Spark SQL基础语法，查看执行计划

overfit同步小助手 2023-11-10 18:03:20 0 收藏

生物识别：即使用生物特征来标识用户身份，能够提供额外的安全保障。例如，指纹和虹膜技术。

作者：禅与计算机程序设计艺术 1.简介什么是生物识别生物识别（Biometric Identification）也称为生物特征识别（Biometric Fingerprinting），是利用生物特征进行身份认证的一项重要技术。通过对生物特征的比对，可以确定

overfit同步小助手 2023-11-10 17:07:11 0 收藏

hadoop面试题（大数据）（附答案）

Hadoop是一个开源分布式计算平台架构，基于apache（阿帕奇）协议发布，由java语言开发。主要包括运行模式：单机版、伪分布式模式、完全分布式模式

overfit同步小助手 2023-11-10 10:03:44 0 收藏

大数据库可视化模版16：矿产资源大数据监管平台

Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者，CSDN博客专家，在线教育专家，CSDN钻石讲师；专注大学生毕业设计教育和辅导。所有项目都配有从入门到精通的基础知识视频课程，免费项目配有对应开发文档、开题报告、任务书、PPT、论文模版等项目都录了发布和功能操作演示视频；项目的界面和功

overfit同步小助手 2023-11-10 10:03:13 0 收藏

Java(115)Java通过jdbc接口连接hive3.1.2

Java(115)Java通过jdbc接口连接hive

overfit同步小助手 2023-11-10 08:03:43 0 收藏

第2.4章：StarRocks表设计--分区分桶与副本数

StarRocks采用Range-Hash的组合数据分布方式，也就是我们一直在提的分区分桶方式。

overfit同步小助手 2023-11-10 07:03:48 0 收藏

什么是ES(Elasticsearch)?详解+操作

搜索引擎

overfit同步小助手 2023-11-10 07:03:29 0 收藏

大数据｜Spark介绍

park为了解决以往分布式计算框架存在的一些问题(重复计算、资源共享、系统组合)，提出了一个分布式数据集的抽象数据模型：RDD(Resilient Distributed Datasets)弹性分布式数据集。

overfit同步小助手 2023-11-10 05:03:37 0 收藏

【Flink实战】Flink 商品销量统计-实战Bahir Connetor实战存储数据到Redis6.X

Redis环境说明 redis6使用docker部署redis6.x 看个人主页docker相关文章编码实战数据源static {list.add("spring boot2.x课程");list.add("微服务SpringCloud课程");list.add("RabbitMQ消息队列");l

overfit同步小助手 2023-11-10 05:03:24 0 收藏

使用Flume-KafkaSource实时采集Avro格式数据

在上面的配置文件中，我们定义了一个名为source1的KafkaSource，它会从指定的Kafka主题（your_topic）中消费Avro格式的数据。在启动Flume Agent后，它将开始从Kafka中消费Avro格式的数据，并将其传输到Sink（这里使用的是logger Sink）进行日志输

overfit同步小助手 2023-11-10 03:03:45 0 收藏