大数据 - overfit.cn

Apache Flink的本地调试模式

Flink 的 Local 模式是用于开发、调试和小规模数据处理的理想环境。通过 IDE 或命令行工具，可以快速运行 Flink 作业，并调试代码逻辑。

overfit同步小助手 2024-11-23 16:04:17 0 收藏

Flink 实时数仓（二）【DIM 层搭建】

Flink 实时数仓 DIM 层搭建

overfit同步小助手 2024-11-23 15:03:54 0 收藏

大数据Spark Streaming、Spark、MapReduce、Impala 和 Hive

大数据的SparkStreaming Spark，mapreduce等概念

overfit同步小助手 2024-11-23 13:04:42 0 收藏

【大数据·hadoop】项目实践：IDEA实现WordCount词频统计项目

我们知道，在hdfs分布式系统中，MapReduce这部分程序是需要用户自己开发，我们在ubuntu上安装idea也是为了开发wordcount所需的Map和Reduce程序，最后打包，上传到hdfs上。在ubuntu上安装idea的教程我参考的是这篇。

overfit同步小助手 2024-11-23 12:03:43 0 收藏

【大数据技术基础 | 实验十二】Hive实验：Hive分区

本实验介绍掌握Hive分区的用法，加深对Hive分区概念的理解，了解Hive表在HDFS的存储目录结构。

overfit同步小助手 2024-11-23 09:03:24 0 收藏

基于Spark的信用卡逾期数据分析与可视化项目【大数据期末作业】

了解逾期情况，尤其是分析导致逾期的因素，可以帮助金融机构更好地了解客户行为，改善信贷政策，降低不良贷款率，提高金融服务的质量。## 房产无抵押共有56188人，逾期4672人，没逾期51516人。# 房产抵押共有93812人，逾期5354人，不逾期88458人。# 两个记录都有的人有4393人，逾期

overfit同步小助手 2024-11-23 08:03:43 0 收藏

大数据新视界 -- Hive 数据仓库：架构深度剖析与核心组件详解（上）（1 / 30）

本文聚焦 Hive 数据仓库，开篇回顾 Impala 成果后深入阐述 Hive 起源发展、与传统数据库差异，深度剖析其架构核心组件（元数据存储与运行时引擎）及多种数据存储格式（Parquet、ORC），结合多行业案例展示应用，提供代码示例，结尾设互动并预告后续内容，为 Hive 数据仓库应用提供全面

overfit同步小助手 2024-11-23 08:01:49 0 收藏

Hadoop的汽车销量数据分析系统

随着大数据技术的快速发展，基于大数据的分析应用日益普及。本论文针对汽车行业，本论文设计并实现了一个基于Hadoop的汽车销量数据分析系统，旨在提供汽车行业的决策支持和市场洞察。系统首先通过网络爬虫和API等方式采集汽车销量数据，然后利用Hadoop生态系统中的HDFS组件进行数据清洗、存储和处理。在

overfit同步小助手 2024-11-23 00:03:45 0 收藏

AI赋能电商：从个性化推荐到智能化运营

个性化推荐系统是AI技术在电商中最常见的应用之一。通过分析用户的浏览历史、购买记录、搜索行为等数据，AI算法能够精准地预测用户的兴趣和需求，从而向用户推荐最符合其偏好的商品。这种个性化的推荐不仅能够提高用户的购买转化率，还能增强用户的黏性和满意度。案例分析：亚马逊的个性化推荐亚马逊是最早应用个性化推

overfit同步小助手 2024-11-22 23:01:47 0 收藏

HIVE4.0.1在Hadoop HA部署hiveserver2模式

HIVE的远程模式部署

overfit同步小助手 2024-11-22 20:03:31 0 收藏

Spark快速入门与实战案例解析

在当今的大数据时代，数据处理速度与效率成为了竞争的关键。作为一款开源的分布式计算框架，Apache Spark 以其高效的内存计算和简洁的编程模型，迅速成为数据工程师和科学家们的必备工具。无论是批量数据处理，还是实时数据流分析，Spark 都可以游刃有余地胜任。本篇文章将围绕【Spark 快速入门】

overfit同步小助手 2024-11-22 17:03:47 0 收藏

使用Python实现对接Hadoop集群（通过Hive）并提供API接口

安装必要的库首先，确保已经安装了以下库：代码实现。

overfit同步小助手 2024-11-22 16:03:29 0 收藏

Hadoop架构

大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，是需要新的处理模式才能具备更强的决策能力、洞察发现能力和流程优化能力的海量、高增长率和多样化的信息资产数据。简而言之，就是数据量非常大，大到无法用常规工具处理，如关系型数据库、数据仓库等。这里的“大”又是一个什么量级呢?

overfit同步小助手 2024-11-22 15:02:46 0 收藏

初探Flink的序列化

Flink未直接使用Java序列化，而是自研了一套高效的序列化机制。

overfit同步小助手 2024-11-22 13:03:50 0 收藏

基于大数据的电信诈骗行为可视化系统含预测研究【lightGBM，XGBoost，随机森林】

本项目旨在开发一个综合性的电信诈骗预测与分析系统,通过对海量电信诈骗数据的深入分析和机器学习模型的应用,实现对潜在诈骗行为的有效识别和预防。该系统不仅提供了多维度的数据可视化分析,还集成了先进的机器学习算法,为电信运营商、监管机构以及普通用户提供了一个强大的反诈骗工具。

overfit同步小助手 2024-11-22 12:03:51 0 收藏

大数据新视界 -- Impala 性能优化：分布式环境中的优化新视野（下）（28 / 30）

本文聚焦分布式环境下 Impala 性能优化。深入剖析数据传输开销与节点资源竞争对查询性能影响，详述数据布局优化（分区策略、数据本地化）与资源管理优化（动态资源分配、查询队列管理）策略，并以互联网金融、物流、国际连锁酒店案例展示成效。借助 Ganglia、Prometheus 等监控工具跟踪查询执行

overfit同步小助手 2024-11-22 12:02:03 0 收藏

大数据新视界 -- 大数据大厂之 Impala 性能优化：融合人工智能预测的资源预分配秘籍（上）（29 / 30）

本文聚焦于 Impala 性能优化，深入探讨人工智能预测技术在其资源预分配中的应用。剖析大数据下 Impala 面临的挑战，阐述数据收集（含查询日志、系统性能指标、业务数据特征）、预处理（缺失值、异常值处理与标准化）、模型构建（如神经网络）及资源预分配策略。以社交媒体和电商巨头案例展示优化成效，显著

overfit同步小助手 2024-11-22 11:03:47 0 收藏

Git 基础使用--权限管理--用户和用户组授权

😀前言本篇博文是关于Git 基础使用–权限管理–用户和用户组授权，希望你能够喜欢🧑个人简介：大家好，我是晨犀，希望我的文章可以帮助到大家，您的满意是我的动力😉😉。

overfit同步小助手 2024-11-22 06:04:21 0 收藏

HDFS 频繁进入安全模式的原因及解决方案

HDFS安全模式频繁触发影响Hadoop集群稳定性？本文深入剖析HDFS安全模式机制，提供全面优化方案。从基础调整到高级系统调优，包括数据块修复、NameNode配置、网络优化、JVM调优、自动化监控等。学习如何提升DataNode性能，实现智能数据平衡，优化元数据管理。掌握这些技巧，显著减少安全模

overfit同步小助手 2024-11-22 04:06:57 0 收藏

【大数据】基于Spark WebUI定位数据倾斜与Spark调优

【大数据】基于Spark WebUI定位数据倾斜与Spark调优文章脉络数据倾斜现象数据倾斜出现原因数据倾斜问题排查与定位初步认知问题定位查看key的数据分布情况解决数据倾斜(Spark调优) 基本思路 (首选尝试)解决方案一：提高Shuffle操作的并行度 (其次

overfit同步小助手 2024-11-22 04:03:49 0 收藏