大数据 - overfit.cn

大数据之数据仓库的分层：ODS/DWD/DWS/ADS

ETL层（Extract-Transform-Load）：数据清洗层，存原始数据；ODS层（Operational Data Store）：操作数据源层；CDM层（Common Dimensional Model）：公共维度模型层，主要包括DWD层（Data Warehouse Detail 数据明

overfit同步小助手 2024-11-20 09:03:25 0 收藏

大数据-220 离线数仓 - 数仓基本概念数仓特征与数据库进行对比

面向主题的数据组织方式，就是在较高层次上对分析对象的数据的一个完整、一致的描述，能完整、统一地刻画各个分析对象所涉及的企业的各项数据，以及数据之间的联系。数据仓库中的数据是分析服务的，而分析需要多种广泛的不同数据源以便进行比较、鉴别，数据仓库中的数据会从多个数据源中获取，这些数据源包括多种类型数据库

overfit同步小助手 2024-11-20 06:03:31 0 收藏

flink支持的数据类型

类型信息工厂允许插件式地将用户定义的类型信息整合进 Flink 的类型系统中。你需要实现接口以返回自定义的类型信息。在类型提取阶段，如果相应的类型注解了注解，那么就会调用该工厂。类型信息工厂可以在 Java 和 Scala API 中使用。在一个类型层次结构中，最接近的工厂将会在向上遍历时

overfit同步小助手 2024-11-19 23:03:46 0 收藏

【kafka】大数据编写kafka命令使用脚本，轻巧简洁实用kafka

这个脚本提供了一个用户友好的界面，整合了常见的 Kafka 操作功能，包括主题操作、生产者操作、消费者操作、配置操作、消费者组操作以及生产者和消费者的性能测试。通过简单的数字选择，用户可以轻松地进入相应的操作菜单，执行所需的命令，大大提高了操作效率。

overfit同步小助手 2024-11-19 18:03:26 0 收藏

大数据面试题--kafka夺命连环问（前15问）

kafka面试题

overfit同步小助手 2024-11-19 17:03:40 0 收藏

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

本文介绍了EMR团队在Spark Native Codegen方向的探索实践，限于篇幅若干技术点和优化没有展开，后续可另开文详解，例如:1.极致Native算子优化2.数据转换详解3.Weld Dict优化大家感兴趣的任何内容欢迎沟通: )EMR Spark-SQL性能极致优化揭秘 Native C

overfit同步小助手 2024-11-19 15:03:44 0 收藏

gRPC 一种现代、开源、高性能的远程过程调用（RPC）可以在任何地方运行的框架

gRPC 是一种现代开源高性能远程过程调用（RPC）可以在任何环境中运行的框架。它可以有效地连接服务在数据中心内和数据中心之间，具有对负载平衡、跟踪、运行状况检查和身份验证。它也适用于最后一英里分布式计算，用于连接设备、移动应用程序和浏览器后端服务。与许多 RPC 系统一样，gRPC 基

overfit同步小助手 2024-11-19 13:04:22 0 收藏

在Hadoop中如何优化MapReduce作业的执行时间？

在Hadoop中优化MapReduce作业的执行时间是一个多方面的过程，涉及到了解作业的特点、配置优化、硬件资源调配、数据预处理等多个方面。

overfit同步小助手 2024-11-19 13:03:57 0 收藏

大数据新视界 -- 大数据大厂之 Impala 性能优化：集群资源动态分配的智慧（上）（23 / 30）

本文围绕 Impala 集群资源动态分配，阐述其重要性、与其他技术关联，介绍负载感知算法、自适应机制等核心技术，通过广告、电商、金融、电信案例展示效果，分析资源竞争、预测准确性挑战与应对。

overfit同步小助手 2024-11-19 09:03:27 0 收藏

大数据技术Kafka详解 ① | 消息队列（Messages Queue）

大数据技术Kafka详解 ① | 消息队列

overfit同步小助手 2024-11-19 08:03:11 0 收藏

spark-on-k8s 介绍

spark客户端提交任务到apiserver，创建driverdriver根据配置，创建指定数量的executordriver调度task到指定的executor计算数据域和计算域都在executor任务结束之后，driver销毁所有executor，同时自己也退出，也可以根据配置选择保留exe

overfit同步小助手 2024-11-19 06:03:52 0 收藏

从 Hadoop 迁移到数据 Lakehouse 的架构师指南

从 Hadoop 到数据湖仓一体架构的演变代表了数据基础架构的重大飞跃。虽然 Hadoop 曾经以其强大的批处理能力统治着大数据领域，但如今的组织正在寻求更敏捷、更具成本效益和现代化的解决方案。尤其是当他们越来越多地开始实施 AI 计划时。根本没有办法让 Hadoop 为 AI 服务。相反，越来越多

overfit同步小助手 2024-11-19 02:03:08 0 收藏

大数据-223 离线数仓 - 数仓概念篇业务分析数据埋点指标体系维度拆解

类似某东、某宝、某猫，电商网站采用商家入驻的方式，商家入驻平台提交申请。网站前台，网站首页、商家首页、商品详情页、搜索页、会员中心、订单与支付相关、秒杀频道运营商后台，运营人员的管理平台，主要功能包括：商家审核、品牌管理、规格管理、模板管理、商品分类管理、商品审核、广告类型管理、广告管理、订单查询、

overfit同步小助手 2024-11-18 22:03:28 0 收藏

hive4.0.0部署以及与MySQL8.4连接

在开始之前，需要在主机上准备好MySQL数据库，并且已经完成了hdfs和yarn的部署。

overfit同步小助手 2024-11-18 20:03:30 0 收藏

大数据回归分析

回归分析是一种统计学方法，主要用于探究变量间的相互关系。它旨在揭示一个或多个自变量（独立变量）如何影响因变量（依赖变量）的变化。通过构建回归模型，我们可以描述数据间的内在联系，并预测因变量的未来值。该方法基于数理统计原理，通过对大量数据进行数学处理，确定因变量与某些自变量的相关性，建立回归方程，并用

overfit同步小助手 2024-11-18 19:03:46 0 收藏

基于大数据+爬虫技术+数据可视化的国漫推荐系统设计和实现(源码+论文+部署讲解等)

国漫推荐系统是一款专为中国动漫爱好者设计的个性化推荐系统，旨在提供精准的内容推荐，满足用户多样化的观看需求。该系统通过分析用户的视频分类、国漫视频、视频信息、漫画信息、投票信息等数据，利用机器学习和数据挖掘技术构建用户画像和内容标签体系。结合实时更新的国漫资源库，系统能够为用户推荐最新、最热、最符合

overfit同步小助手 2024-11-18 18:03:52 0 收藏

Hadoop的安装

由于Hadoop不直接支持Windows系统，因此，需要修改一些配置才能运行。进到目录：E:\hadoop-3.4.0\etc\hadoop。PS：此文件中已有标签，可以直接覆盖掉。PS：此文件中已有标签，可以直接覆盖掉。PS：此文件中已有标签，可以直接覆盖掉。PS：此文件中已有标签，可以直接覆盖掉

overfit同步小助手 2024-11-18 18:03:25 0 收藏

（计算机毕设选题推荐）基于python爬虫对大数据招聘岗位的分析与研究

摘要随着互联网技术的迅猛发展，大数据已成为企业核心竞争力的关键要素之一，大数据相关岗位的需求也随之激增。为了深入理解当前大数据招聘市场的现状、趋势及岗位需求特点，本文利用Python爬虫技术，从主流招聘网站中爬取了大量大数据相关岗位的招聘信息。通过对这些数据进行清洗、处理和分析，本文揭示了大数据岗位

overfit同步小助手 2024-11-18 16:03:58 0 收藏

大数据-226 离线数仓 - Flume 优化配置自定义拦截器拦截原理拦截器实现 Java

前面FlumeAgent的配置使用了本地时间，可能导致数据存放的路径不正确。要解决上面的问题就需要使用自定义拦截器。Agent用于测试自定义拦截器，source => logger sink# a1是agent的名称。source、channel、sink的名称分别为：r1 c1 k1# sourc

overfit同步小助手 2024-11-18 14:03:17 0 收藏

Spark 程序开发与提交：本地与集群模式全解析

本文将深入探讨 Spark 程序在本地开发并远程提交到集群测试的过程，以及使用 spark - submit 脚本在集群模式下提交程序的相关知识，包括参数配置、运行模式等内容。

overfit同步小助手 2024-11-18 11:03:57 0 收藏