大数据 - overfit.cn

|动漫爬取|001_djangodjango基于Spark的国漫推荐系统的设计与实现2024_tpd6q1o4

博主介绍：CodeMentor毕业设计领航者、全网关注者30W+群落，InfoQ特邀专栏作家、技术博客领航者、InfoQ新星培育计划导师、Web开发领域杰出贡献者，博客领航之星、开发者头条/腾讯云/AWS/Wired等平台优选内容创作者、深耕Web开发与学生毕业设计实战指导，与高校教育者/资深讲师/

overfit同步小助手 2024-11-17 05:03:47 0 收藏

Hadoop完全分布式环境搭建步骤

本文介绍Hadoop完全分布式环境搭建方法，这个Hadoop环境用于安装配置Spark。假设读者已经安装好Visual Box 7.0.6虚拟环境与一个CentOS 7虚拟机（如果熟悉这两个步骤不，可以反馈给博主，博主将另外上个博文讲解）。下面直接从Linux的统一配置开始讲解。

overfit同步小助手 2024-11-17 04:03:42 0 收藏

python基于校园学生行为大数据的精准分析管理系统

结合用户的使用需求，本系统采用运用较为广泛的Python语言，DJANGO框架，vue语言等关键技术，并在pycharm开发平台上设计与研发本系统。同时，使用MySQL数据库，设计实体-联系图和数据表格，用于更好的存储和管理数据信息的数据仓库。以文档data.csv里面的数据进行分析操作用户需求（要

overfit同步小助手 2024-11-17 02:03:37 0 收藏

基于Hadoop的豆瓣电子图书推荐系统

基于Hadoop的豆瓣电子图书推荐系统是一款强大的智能推荐工具。它依托Hadoop的分布式存储和计算能力，能够高效处理豆瓣海量的电子图书数据。利用Hadoop的MapReduce编程模型，对大规模数据进行并行处理，快速找出图书之间的潜在关联和用户的兴趣模式。基于这些分析结果，系统为用户精准推荐符合其

overfit同步小助手 2024-11-17 01:04:11 0 收藏

Spark on YARN：Spark集群模式之Yarn模式的原理、搭建与实践

本文将深入探讨为什么要将 Spark 程序运行在 YARN 上而不是 Spark 自带的 Standalone 集群上，详细介绍 Spark 的 YARN 集群搭建过程，以及在 YARN 模式下不同 deploy mode 的区别，并结合实际测试案例，帮助读者全面理解 Spark on YARN 这

overfit同步小助手 2024-11-16 22:03:21 0 收藏

基于Python+大数据的共享单车数据可视化辅助分析系统设计与实现

今天带来的是基于Python+大数据的共享单车数据可视化辅助分析系统设计与实现，在全球经济快速发展的背景下，共享单车作为一种新兴的共享经济模式，已经成为现代城市生活中不可或缺的一部分。随着共享单车规模的不断扩大，海量的骑行数据被产生，包括骑行轨迹、用户行为、车辆分布等信息。这些数据背后蕴含着丰富的有

overfit同步小助手 2024-11-16 20:03:46 0 收藏

大数据-222 离线数仓 - 数仓数仓模型事实表维度表雪花模型事实星座元数据

但是它们之间也有着不同，周期快照事实记录的确定的周期的数据，而积累快照事实记录的不确定的周期的数据。事实数据通常包含大量的行，事实数据表的主要特点是包含数字数据（事实），并且这些数字信息可以汇总，以提供有关单位作为历史的数据，事实表的粒度决定了数据仓库中数据的详细程度。在大数据平台中，元数据贯穿大数

overfit同步小助手 2024-11-16 16:05:20 0 收藏

大数据-221 离线数仓 - 数仓数据集市建模方法数仓分层 ODS DW ADS

数据仓库层次的划分不是固定不变的，可以根据实际需求进行适当裁剪或者是添加，如果业务相对简单和独立，可以将DWD、DWS进行合并。数据仓库（DW）是一种反映主题的全局性数据组织，但全局性数据仓库往往太大，在实际应用中他们按部门或业务分别建立反映各个子主题的局部性数据组织，即数据集市（Data Mart

overfit同步小助手 2024-11-16 12:04:17 0 收藏

Flink 实时湖仓，为汽车行业数字化加速！

本文整理自阿里云产品专家李鲁兵在阿里云实时计算 Flink 产品介绍中的分享。聚焦汽车行业实时处理和在线采集，覆盖销售、经营、车联网及自动驾驶等领域。

overfit同步小助手 2024-11-16 10:03:48 0 收藏

Hadoop(YARN)

YARN是Hadoop集群的资源管理和调度系统，它负责为各种分布式计算任务分配和管理资源,包含以下组件：ResourceManager，NodeManager，ApplicationMaster， Container。

overfit同步小助手 2024-11-16 09:03:55 0 收藏

设计师必备网站，素材、灵感一手抓

设计师都在哪些地方找素材，找灵感？分享8个设计师必备网站，素材免费下载，还能看到很多国内外大神的设计之作，赶紧收藏起来吧~包图网_专注原创商用设计图片下载，会员免费设计素材模板独家图库国内高质量素材网站，涵盖设计、新媒体、视频、图片、插画等超多素材，设计师找素材必备的网站，这里能找到各种设计类元素，

overfit同步小助手 2024-11-16 09:03:05 0 收藏

防爆智能巡检机器人助力石化行业打造高效安全智能巡检系统

同时，机器人与物联网、大数据、云计算等技术的深度融合，将推动石油化工行业的智能化转型，使企业能够更加高效、安全、可持续地运营。亚太市场：亚太地区，尤其是中国、印度和东南亚国家，随着工业化进程的加速以及智能制造的普及，防爆智能巡检机器人市场需求也在迅速增长。防爆智能巡检机器人作为工业自动化的一部分，能

overfit同步小助手 2024-11-16 08:07:16 0 收藏

【大数据技术基础 | 实验十一】Hive实验：新建Hive表

本实验介绍Hive的DDL操作，能够在Hive中新建，显示，修改和删除表等功能。

overfit同步小助手 2024-11-16 08:03:31 0 收藏

毕业设计项目基于大数据人才岗位数据分析

这里是毕设分享系列，学长分享优质毕业设计项目，今天要分享的是🚩基于大数据人才岗位数据分析毕业设计基于大数据人才岗位数据分析🧿 项目分享:见文末!

overfit同步小助手 2024-11-16 08:03:28 0 收藏

大数据新视界 -- 大数据大厂之 Impala 性能提升：高级执行计划优化实战案例（下）（18/30）

本文围绕 Impala 高级执行计划优化实战案例展开，包括金融风险评估、电商营销分析、医疗疾病预测等，阐述优化过程与效果、面临挑战与应对策略，含丰富代码与表格。

overfit同步小助手 2024-11-16 08:03:24 0 收藏

大数据新视界 -- 大数据大厂之 Impala 性能飞跃：动态分区调整的策略与方法（上）（21 / 30）

本文围绕 Impala 动态分区调整，阐述其意义，对比传统分区，介绍基于时间、业务规则、混合策略，结合社交媒体、电信案例，还有性能监控与优化，含丰富代码，助力性能提升。

overfit同步小助手 2024-11-16 08:03:14 0 收藏

GitHub Spark：GitHub 推出零代码开发应用的 AI 编程产品

GitHub Spark 是一个基于 AI 的大模型编程产品，允许用户通过自然语言描述来创建和分享微应用程序，无需编写代码，即可在桌面和移动端使用。

overfit同步小助手 2024-11-16 05:03:48 0 收藏

【大数据】Spark Executor内存分配原理与调优

【大数据】Spark Executor内存管理与调优 Executor内存总体布局统一内存管理堆内内存 (On-heap Memory) 堆外内存 (Off-heap Memory) Execution 内存和 Storage 内存动态占用机制任务内存管理(Task Memory M

overfit同步小助手 2024-11-16 05:03:22 0 收藏

【头歌】Hive基本查询操作（二）答案

【头歌】Hive基本查询操作（二）答案第1关：Hive排序第2关：Hive数据类型和类型转换第3关：Hive抽样查询

overfit同步小助手 2024-11-16 03:03:27 0 收藏

大数据-218 Prometheus 插件 exporter 与 pushgateway 配置使用监控服务使用场景

Prometheus Pushgateway 是一个用于帮助 Prometheus 监控短期任务和批处理任务的组件。在 Prometheus 的原生拉取模型中，它通常通过定期从各服务中“拉取”指标。然而，对于一些存在于短时间内的工作任务或批处理任务，比如脚本或批处理作业，它们可能在 Promethe

overfit同步小助手 2024-11-16 02:04:27 0 收藏