大数据 - overfit.cn

【头歌】Hive表DDL操作（一）答案

【头歌】Hive表DDL操作（一）答案第1关：Create/Alter/Drop 数据库第2关：Create/Drop/Truncate 表第3关：Alter 表/列第4关：表分区

overfit同步小助手 2024-11-06 23:03:34 0 收藏

【Hadoop】【hdfs】【大数据技术基础】实践一利用Java API与HDFS进行交互

在该界面中，需要在“Select type”下面的文本框中输入“HDFSFileIfExist”，Eclipse就会自动找到相应的类“HDFSFileIfExist-(default package)”（注意：这个类在后面的导出JAR包操作中的Launch configuration中会被用到），然

overfit同步小助手 2024-11-06 19:04:10 0 收藏

Flink On Yarn运行模式：会话模式部署、单作业模式部署、应用模式部署

YARN上部署的过程是：客户端把Flink应用提交给Yarn的ResourceManager，Yarn的ResourceManager会向Yarn的NodeManager申请容器。在这些容器上，Flink会部署JobManager和TaskManager的实例，从而启动集群。Flink会根据运行在J

overfit同步小助手 2024-11-06 14:03:49 0 收藏

大数据-201 数据挖掘机器学习理论 - 决策树局部最优剪枝分裂二叉分裂

而训练集、测试集和验证集的划分通常遵照 6:2:2 的比例进行划分，当然也可以根据实际需求适当调整划分比例，但无论如何，测试集和验证集数据量都不宜过多也不宜过少，该二者数据集数据均不参与建模，若占比太多，则会对模型的构建过程造成较大的影响（欠拟合），而若划分数据过少，训练集数据量较大，则又可能造成过

overfit同步小助手 2024-11-06 14:03:38 0 收藏

大数据新视界 -- 大数据大厂之提升 Impala 查询效率：重写查询语句的黄金法则（下）（4/30）

本文聚焦提升 Impala 查询效率的重写查询语句法则。阐述其重要性及与索引、分区关联，讲解明确目标、条件过滤和连接操作优化法则，含丰富代码示例。通过电商、金融案例展示优化前后效果，含性能对比与资源分析。文末互动并引出下一篇 Impala 内存管理避免瓶颈内容。

overfit同步小助手 2024-11-06 11:04:33 0 收藏

大数据-查询引擎(trino)-云原生化设计思路

大数据场景里面，针对Trino/Presto的云原生化方案的设计思路。利用容器化技术，解决解决了查询引擎扩展性不足的问题。

overfit同步小助手 2024-11-06 08:03:19 0 收藏

python大数据基于Django的短视频推荐可视化分析系统的爬虫设计与实现 56f5v

大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法，重点关注爬虫的设计、数据抓取策略及其法律和道德约束。接着，我们

overfit同步小助手 2024-11-06 06:03:46 0 收藏

安装Spark-单机部署,Standalone集群部署,Spark on Yarn实现

SparkSession也是Spark程序中的一个类，功能类似于SparkContext，Spark2.0以后推出的，如果Hadoop生态的程序，例如MR、Hive、Sqoop、Oozie等使用YARN来计算。2-存储实时工具元数据。资源管理和任务调度：将所有从节点的资源在逻辑上合并为一个整体，将任

overfit同步小助手 2024-11-06 01:03:42 0 收藏

Python毕业设计选题：基于大数据的旅游景区推荐系统_django

本文拟采用PyCharm开发工具，Python语言、Django框架进行开发，后台使用MySQL数据库进行信息管理，设计开发的旅游景区推荐系统。通过调研和分析，系统拥有管理员和用户两个角色，主要具备注册登录、个人信息修改、用户、景点分类、景点信息、旅游景区等功能模块。将纸质管理有效实现为在线管理，极

overfit同步小助手 2024-11-05 23:02:02 0 收藏

剖析Spark Shuffle原理（图文详解）

Shuffle 是指数据从一个节点重新分布到其他节点的过程，主要发生在需要重新组织数据以完成某些操作时。

overfit同步小助手 2024-11-05 20:04:04 0 收藏

flink与kafka基础知识

Flink是一个分布式实时计算框架。用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行，并能以内存速度和任意规模进行计算。有状态：有状态计算是将当前批次结果加上上一批次计算的结果。无界流有定义流的开始，但没有定义流的结束(没有边界)。它们会无休止地产生数据。流处理。

overfit同步小助手 2024-11-05 17:04:12 0 收藏

大数据新视界 -- 大数据大厂之提升 Impala 查询效率：索引优化的秘籍大揭秘（上）（3/30）

本文围绕 Impala 查询效率展开，详述索引优化，包括索引原理（如 B - 树、位图索引）、优化策略（选列、避过度索引）、企业案例（金融和互联网巨头）、代码优化（通用和错误处理），还展望新版本特性。分享经验并引导读者互动，提及查询困境与优化经验分享。同时自然引出下一篇将探讨的重写查询语句主题。

overfit同步小助手 2024-11-05 15:03:26 0 收藏

Kafka技术详解[3]: 生产与消费数据

一旦消息主题创建完成，就可以通过Kafka客户端向Kafka服务器的主题中发送消息。Kafka生产者客户端是一套API接口，任何能够通过这些接口连接Kafka并发送数据的组件都可以称为Kafka生产者。通常，也可通过Java程序来生产数据。同样地，可以通过Java程序来消费数据。一旦消息通过生产者客

overfit同步小助手 2024-11-05 13:03:41 0 收藏

hadoop_hdfs详解

一文读懂HDFS，全程干货无废话

overfit同步小助手 2024-11-05 12:03:49 0 收藏

ZooKeeper笔记，深入浅出ZooKeeper原理、paxos算法、ZAB协议，涵盖集群搭建和管理

本文围绕 Zookeeper 展开，详细阐述了其核心概念与特性。介绍了 Zookeeper 在分布式系统中的重要作用，如数据一致性保障、分布式协调等。深入探讨了其工作原理，包括 ZAB 协议的运行机制。还涵盖了 Zookeeper 的应用场景，如服务注册与发现、配置管理等。同时，提及了相关的实践要点

overfit同步小助手 2024-11-05 10:03:40 0 收藏

大数据-203 数据挖掘机器学习理论 - 决策树 sklearn 剪枝参数样本不均匀问题

剪枝参数一定能够提升模型在测试集上的表现吗？调参是没有绝对的答案的，一切都需要看数据的本身。无论如何，剪枝参数的默认值会让树无尽的生长，这些树在某些数据集上可能非常巨大，对内存的消耗也非常巨大。属性是模型训练之后，能够调用查看的模型的各种性质，对决策树来说，最重要的是 feature_importa

overfit同步小助手 2024-11-05 09:03:30 0 收藏

大数据新视界 -- 大数据大厂之 Impala 性能优化：数据存储分区的艺术与实践（下）（2/30）

本文将 Impala 数据存储分区类比宇宙探索，阐述其在大数据中的应用。包括分区策略（时间序列、地域、多级分区）、分区管理（动态增减、数据迁移更新）、分区对查询性能影响（与 Hive 对比、优化技巧）、跨国电商和大型互联网企业案例、鼓励读者分享经验，还介绍下一篇索引优化内容，为数据处理提供指引。

overfit同步小助手 2024-11-05 09:03:12 0 收藏

头歌大数据实训（总结）

HDFS,HBase,MapReduce,SparkRDD,SparkSQL

overfit同步小助手 2024-11-05 07:03:54 0 收藏

【Spark 实战】基于spark3.4.2+iceberg1.6.1搭建本地调试环境

iceberg+spark搭建阅读本地调试环境

overfit同步小助手 2024-11-05 05:03:43 0 收藏

flinksql-Queries查询相关实战

-例如，ROLLUP(a, b, c) 会生成 (a, b, c), (a, b), (a), 和 ()，而不会像 CUBE() 那样生成所有的可能组--合。--CUBE() 是一种扩展的 GROUP BY 操作，允许你针对多列进行分组聚合，并生成每种可能的维度组合的聚合结果。--如果使用了 CUB

overfit同步小助手 2024-11-05 04:03:19 0 收藏