大数据 - overfit.cn

大数据技术——HBase

HBase是一个分布式的、面向列的开源数据库，主要用于存储海量的非结构化数据，其设计思想来源于Google的BigTable论文。作为一个高可靠性、高性能的数据库，HBase利用Hadoop HDFS作为其文件存储系统，并借助ZooKeeper实现集群管理和协调服务。

overfit同步小助手 2024-07-22 14:03:36 0 收藏

一文看尽：各大数据公司和 AI 结合进展

自主研发的云原生湖仓一体数据智能平台 KeenData Lakehouse，采用国际领先的湖仓一体架构重复分融合了数据湖和数据仓库各自的优势，实现一套数据、一套任务在湖和仓之上无缝调度和管理，面对不同行业的 AI 大模型 KeenData Lakehouse 提供数据集成、数据标注、数据算法、数据分

overfit同步小助手 2024-07-22 11:03:27 0 收藏

2024年电子商务与大数据经济国际会议 (EBDE 2024)

2024年电子商务与大数据经济国际会议即将在厦门召开。本次会议旨在汇聚全球电子商务与大数据经济领域的专家学者，共同探讨电子商务与大数据经济的创新与发展趋势。会议将围绕电子商务的新模式、大数据经济的应用与挑战以及两者之间的融合与创新等议题展开深入研讨。参会者将有机会分享最新的研究成果和实践经验，交流行

overfit同步小助手 2024-07-22 10:03:32 0 收藏

如何学习MySQL：糙快猛的大数据之路（万字长文，建议收藏）

"糙快猛"学习法源于一个简单而深刻的道理:学习就应该糙快猛,不要一下子追求完美,在不完美的状态下前行才是最高效的姿势。快速入门,不拘小节持续实践,边学边用勇于尝试,不怕犯错这种学习方法特别适合在当今快速变化的技术环境中学习新技能,比如MySQL。在这个技术日新月异的时代，MySQL和整个数据库领域都

overfit同步小助手 2024-07-22 08:03:31 0 收藏

Flink调优详解：案例解析（第42天）

本文主要详解常见的Flink优化策略。

overfit同步小助手 2024-07-22 08:03:17 0 收藏

摸鱼大数据——Kafka——Kafka的shell命令使用

Kafka本质上就是一个消息队列的中间件的产品，主要负责消息数据的传递。也就说学习Kafka 也就是学习如何使用Kafka生产数据，以及如何使用Kafka来消费数据。

overfit同步小助手 2024-07-22 07:03:19 0 收藏

大数据-Hadoop-基础篇-第十章-Spark

Spark是一种通用的大数据计算框架,是基于RDD(弹性分布式数据集)的一种计算模型。那到底是什么呢？可能很多人还不是太理解，通俗讲就是可以分布式处理大量集数据的，将大量集数据先拆分，分别进行计算，然后再将计算后的结果进行合并。SparkSQL。

overfit同步小助手 2024-07-22 05:03:37 0 收藏

如何学习Hadoop：糙快猛的大数据之路（利用GPT 学习）

请记住，技术工具在不断evolve，"糙快猛"的学习方法可以让你快速掌握新技术的要领。每当你解决了一个难题，克服了一个障碍，你就离你的目标更近了一步。保持热情，保持好奇，继续前进！保持"糙快猛"的学习态度，快速掌握新技术通过实战项目深化对技术的理解。

overfit同步小助手 2024-07-22 05:03:20 0 收藏

Hadoop3：HDFS-通过配置黑白名单对集群进行扩缩容，并实现数据均衡（实用）

Hadoop

overfit同步小助手 2024-07-22 02:03:38 0 收藏

Mac M1安装配置Hadoop+Flink SQL环境

Flink 1.18.1+ Hadoop 3.4.0

overfit同步小助手 2024-07-22 00:03:29 0 收藏

【Spark生态】--Spark环境搭建

Spark环境安装部署，Local模式和PySpark库的安装

overfit同步小助手 2024-07-22 00:03:23 0 收藏

Hadoop发展史和生态圈介绍

Hadoop是由Apache基金会所开发的分布式系统基础架构，旨在解决海量数据存储和计算分析问题。Hadoop HDFS(Hadoop Distributed File System):分布式文件存储系统，解决海量数据存储问题。Hadoop Yarn:集群资源管理和任务调度框架，解决资源任务调度问题

overfit同步小助手 2024-07-21 23:03:37 0 收藏

大数据学习之Spark基础

后一个RDD中的分区数据，除KV函数以外，对应的是前一个RDD中的分区数据所进行逻辑处理后的结果。当重复触发相同的执行的时候，对于同一个DAG有向无环图而言，会直接从shuffle之后的RDD开始执行（省略从前一个RDD写数据到磁盘中的过程），可以直接从磁盘读取数据。1）窄依赖前一个RDD中的某一

overfit同步小助手 2024-07-21 23:03:33 0 收藏

Spark Delta Lake

【代码】Spark Delta Lake。

overfit同步小助手 2024-07-21 23:03:18 0 收藏

数据湖表格式 Hudi/Iceberg/DeltaLake/Paimon TPCDS 性能对比（Spark 引擎）

当前，业界流行的集中数据湖表格式 Hudi/Iceberg/DeltaLake，和最近出现并且在国内比较火的 Paimon。我们现在看到的很多是针对流处理场景的读写性能测试，那么本篇文章我们将回归到大数据最基础的场景，对海量数据的批处理查询。本文主要介绍通过 TPC-DS 3TB 的数据的99个SQ

overfit同步小助手 2024-07-21 22:03:19 0 收藏

【大数据】什么是数据湖？一文揭示数据湖的本质

本文探讨了数据湖和数据仓库在企业数据管理中的角色与差异。数据湖作为容纳结构化与非结构化数据的新兴模式，强调灵活性和探索性分析能力，适应了现代企业对多样数据处理和快速决策的需求。相比之下，传统的数据仓库以其稳定的数据模型和标准化报表服务，仍然在特定场景中发挥重要作用。随着数据量和类型的不断增加，以及企

overfit同步小助手 2024-07-21 20:03:36 0 收藏

大数据之Hadoop平台的搭建

三台虚拟机。

overfit同步小助手 2024-07-21 16:03:52 0 收藏

大数据之路读书笔记 Day5 数据同步遇到的问题与解决方案

overfit同步小助手 2024-07-21 16:03:43 0 收藏

李彦宏：没有应用，AI模型一文不值

7月4日周四，2024年世界人工智能大会（WAIC 2024）在上海正式开幕。本届大会以“以共商促共享，以善治促善智”为主题，将聚焦全球人工智能领域的前沿技术和创新应用，致力于展示人工智能如何改变世界、塑造未来。下午13:30开始的产业发展主论坛上，百度创始人、董事长兼CEO李彦宏出席发表主题演讲。

overfit同步小助手 2024-07-21 16:01:41 0 收藏

Spark概念及运行模式

目的：点击yarn（8088）上spark任务的history按钮，进入的是spark历史服务器（18080），而不再是yarn历史服务器（19888）。Spark弊端：过于依赖内存，且因为数据倾斜，当内存资源较少时，容易出错。集群模式下，spark会先向HDFS上传spark库，然后yarn会下载

overfit同步小助手 2024-07-21 15:03:43 0 收藏