大数据 - overfit.cn

spark基本原理&UI界面解读

一级入口重点内容executors不同executors之间，是否存在负载倾斜不同executors之间，是否存在负载倾斜storage分布式数据集的缓存级别，内存，磁盘缓存比例SQL初步了解不同执行计划的执行时间，确实是否符合预期jobs初步感知不同jobs的执行时间，确实是否符合预期stage初

overfit同步小助手 2024-05-24 03:04:21 0 收藏

每天十分钟学会Spark【期末必看系列】

小白学大数据Spark编程第3课

overfit同步小助手 2024-05-24 03:04:11 0 收藏

大数据开发之离线数仓项目（4-1电商数据仓库系统）（可面试使用）

事实表作为数据仓库维度建模的核心，紧紧围绕着业务过程来设计。其包含与该业务过程有关的维度引用（维度表外键）以及该业务过程的度量（通常是可累加的数据类型字段）事务事实表用来记录各业务过程，它保存的是各业务过程的原子操作事件，即最细粒度的操作事件。粒度是指事实表中一行数据所表达的业务细节程度。周期快照事

overfit同步小助手 2024-05-24 03:03:54 0 收藏

【大数据】分布式文件系统HDFS

一文快速聊明白HDFS的核心概念

overfit同步小助手 2024-05-24 03:03:48 0 收藏

Flink WordCount实践

overfit同步小助手 2024-05-24 02:03:59 0 收藏

【大数据】bigtable，分布式数据库的鼻祖

看懂这一篇，就能理解分布式数据库的核心，详聊分布式数据库的鼻祖bigtable。

overfit同步小助手 2024-05-24 02:03:56 0 收藏

【C++练级之路】【Lv.20】位图和布隆过滤器（揭开大数据背后的神秘面纱）

是由布隆（Burton Howard Bloom）在1970年提出的一种紧凑型的、比较巧妙的。这种特性其实说两面一体的，既能带来优势（精准快速判断一定不存在），也会带来缺陷（存在会误判）。它不再是一一映射的关系，而是将一个值映射到多个地址，从而降低了值与值之间冲突的概率。，其中运用最多的是str

overfit同步小助手 2024-05-24 02:03:44 0 收藏

实验五 Spark Streaming编程初级实践

注意，上面命令中，“localhost:9092 wordsender 3 5”是提供给KafkaWordProducer程序的4个输入参数，第1个参数“localhost:9092”是Kafka的Broker的地址，第2个参数“wordsender”是Topic的名称，我们在KafkaWordCo

overfit同步小助手 2024-05-24 02:03:35 0 收藏

docker启动镜像报错的解决方案

Docker是一个流行的容器化平台，允许开发者将应用程序及其依赖项打包到一个可移植的容器中，并在任何机器上运行。然而，在启动Docker镜像时，有时可能会遇到报错。这些报错可能源于多种原因，包括镜像不存在、配置错误、资源限制、端口冲突等。以下将从报错问题、报错原因和解决方案三个方面对Docker启动

overfit同步小助手 2024-05-24 01:04:34 0 收藏

二百二十九、离线数仓——离线数仓Hive从Kafka、MySQL到ClickHouse的完整开发流程

离线数仓Hive从Kafka、MySQL到ClickHouse的完整开发流程

overfit同步小助手 2024-05-24 01:04:25 0 收藏

大数据技术12：Hive简介及核心概念

Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。这样，熟悉数据库的数据分析师和工程师便可以无门槛地使用大数据进行数据分析和处理了，Hive出现后大大降低了Hadoop的使用难度，迅速得到开发者和企业的追

overfit同步小助手 2024-05-24 01:04:19 0 收藏

认识Hadoop

Hadoop由Apache基金会开发，开源的、可靠的、可拓展的、用于分布式计算的分布式系统基础架构或框架。MapReduce是Hadoop的核心计算框架——是用于大规模数据集（大于1TB）并行运算的编程模型，主要包括Map（映射）和Reduce（规约）两个阶段。MapReduce的核心思想是—

overfit同步小助手 2024-05-24 01:04:14 0 收藏

第十届统计建模大赛 ——大数据与人工智能时代的统计研究数据解析

聚类是按照某个特定标准(如距离、密度等)把一个数据集分割成不同的类或簇，同一类的数据尽可能聚集到一起，不同类数据尽量分离，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。(2)SPSS: 用于统计分析，围绕统计学知识的一些基本应用，包括描述统计

overfit同步小助手 2024-05-24 01:04:08 0 收藏

HDFS常用操作以及使用Spark读取文件系统数据

在HDFS中的“/user/hadoop”目录下，创建子目录input，把HDFS中“/user/hadoop”目录下的test.txt文件，复制到“/user/hadoop/input”目录下；删除HDFS中“/user/hadoop”目录下的test.txt文件，删除HDFS中“/user/ha

overfit同步小助手 2024-05-24 01:04:03 0 收藏

太原理工大学大数据期末简答题

第一个节点在接收到数据写入本地的同时，会把数据传给第二个数据节点，同时第二个数据节点接收到数据时，会在写入的同时将数据发送给第三个节点，以此类推。第二名称节点会要求第一名称节点停止使用EditLog，将新到达的操作写入EditLog.new中，然后把FsImage和EditLog拉回本地，将两者进行

overfit同步小助手 2024-05-24 01:04:00 0 收藏

云粒智慧实时数仓的架构演进分享：OceanBase + Flink CDC

4月20日，在2024 OceanBase开发者大会上，云粒智慧的高级技术专家付大伟，分享了云粒智慧实时数仓的构建历程。他讲述了如何在传统数仓技术框架下的相关努力后，选择了OceanBase + Flink CDC架构的实时数仓演进历程。

overfit同步小助手 2024-05-24 00:04:32 0 收藏

zookeeper入门

谈到面试，其实说白了就是刷题刷题刷题，天天作死的刷。。。。。为了准备这个“金三银四”的春招，狂刷一个月的题，狂补超多的漏洞知识，像这次美团面试问的算法、数据库、Redis、设计模式等这些题目都是我刷到过的并且我也将自己刷的题全部整理成了PDF或者Word文档（含详细答案解析）66个Java面试知识点

overfit同步小助手 2024-05-24 00:04:29 0 收藏

大数据技术原理及应用课实验3 ：熟悉常用的HBase操作

在本次实验中，我更加进一步理解了HDFS在Hadoop体系结构中的角色并能使用HDFS操作常用的Shell命令以及HDFS操作常用的Java API。在本次实验的第一题是用编程Java API实现指定功能，并用Hadoop提供的HBase Shell命令完成相同任务。在本题中学习了列出HBase所有

overfit同步小助手 2024-05-24 00:04:10 0 收藏

基于Zookeeper 简单实现分布式任务协调组件

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键

overfit同步小助手 2024-05-24 00:04:07 0 收藏

【大数据】分布式数据库HBase下载安装教程

一文详解HBase下载安装教程。

overfit同步小助手 2024-05-24 00:03:59 0 收藏