大数据 - overfit.cn

大数据新视界 -- 大数据大厂之优化大数据计算框架 Tez 的实践指南

从影视娱乐大数据应用引入，深入剖析大数据计算框架 Tez，包括其架构、原理、优势与应用场景。阐述资源管理、任务调度、数据本地化等优化策略，结合某互联网公司和电信运营商案例。探讨数据倾斜、复杂依赖关系问题及应对方法。总结优化成果，展望 Tez 与新兴技术融合等未来发展方向。

overfit同步小助手 23 天前 0 收藏

大数据新视界 -- 大数据大厂之大数据在能源行业的智能优化变革与展望

本文深入剖析大数据在能源行业的智能优化应用。从大数据与能源融合背景入手，阐述其在能源生产、传输和消费环节的应用，如通过算法优化发电效率、保障电网稳定、调整消费策略。详细分析经典案例，并探讨数据质量安全、技术融合与人才短缺问题及解决方案，强调复合型人才培养和跨学科合作的重要性。展望大数据与新兴技术在能

overfit同步小助手 24 天前 0 收藏

基于Hadoop的天气预报数据爬取与可视化分析系统(源码+lw+部署文档+讲解等)

背景：天气预报对于人们的日常生活、农业、交通等各个领域都至关重要。随着大数据技术的发展，获取和分析大量的天气预报数据变得更加可行。Python 是一种功能强大的编程语言，Django 是高效的 Web 开发框架，Hadoop 则在大数据处理方面具有卓越的能力。意义：为用户提供准确、实时的天气预报信息

overfit同步小助手 24 天前 0 收藏

顶级赛事重磅回归！2024 CCF 大数据与计算智能大赛首批赛题开放报名！

CCF大数据与计算智能大赛（CCF Big Data & Computing Intelligence Contest，简称CCF BDCI）由中国计算机学会于2013年创办，是大数据与人工智能领域的算法、应用和系统大型挑战赛事。大赛面向重点行业和应用领域征集需求，以前沿技术与行业应用问题为导向，以

overfit同步小助手 24 天前 0 收藏

基于Java Web的动漫畅聊平台设计与实现(需求文档)

陈湘青（2023）认为随着在线学习的逐渐兴起和规模的扩大，各种在线学习平台和相关资讯也在不断增多，各种类型课程也在快速增多，类型越来越丰富，但缺少与用户交流的功能，多以用户为主导，由用户主动去直接搜索，很少有对用户进行个性化推荐的功能，这些存在一定的局限性，从而可能造成课程平台的用户流失问题。个性化

overfit同步小助手 24 天前 0 收藏

Flink+Paimon+StarRocks(Doris)构建实时湖仓OLAP分析

基于FlinkSQL + Paimon + StarRocks/ Doris实现的实时（分钟级）数据入湖，并通过StarRocks/Doris外表查询Paimon秒级OLAP查询，达到极致效率的湖仓OLAP分析。

overfit同步小助手 24 天前 0 收藏

Flink 的时间属性及原理解析

Event Time，不会来回穿越。在使用时间的时候我们要充分利用这个特性。假设我们有这么一些记录，然后我们来分别看一下还有Event Time对于时间的处理。【1】对于，因为我们是使用的是本地节点的时间（假设这个节点的时钟同步没有问题），我们每一次取到的肯定都是递增的，递增就代表着有序，所以说我们

overfit同步小助手 24 天前 0 收藏

【大数据】FP-growth算法

FP-growth算法是一种用于发现数据集中频繁项集的高效算法。它由Jiawei Han等人提出，旨在解决Apriori算法在大数据集上效率低下的问题。FP-growth算法的核心思想是通过构建一个称为FP树（Frequent Pattern Tree）的数据结构来压缩数据集，并利用这个结构来发现频

overfit同步小助手 24 天前 0 收藏

FlinkSQL中的双流JOIN

Flink SQL 中的流与流JOIN是基于窗口和状态管理的复杂操作。通过维护两个流的键控状态，并结合事件时间和水印机制，Flink 可以处理无界数据流中的JOIN操作。底层通过窗口机制、状态存储以及异步事件驱动模型来处理流数据的匹配和关联。在实现中，状态的管理和清理、水印驱动的窗口触发、以及事件时

overfit同步小助手 24 天前 0 收藏

大数据新视界 -- 大数据大厂之大数据重塑影视娱乐产业的未来（4 - 4）

本文聚焦影视发行环节，阐述大数据在地区差异化发行策略和全球排片、票价调整中的应用。还总结大数据对影视娱乐产业的重塑经验，包括决策优化、满足观众需求、资源配置等。同时展望大数据与新兴技术融合、实时互动、全球市场挖掘、人才培养、产业协同等发展方向，展现大数据对影视娱乐产业的全方位影响。

overfit同步小助手 24 天前 0 收藏

基于Python大数据的王者荣耀战队数据分析及可视化系统

【2025最新】基于大数据+大屏可视化+Python+Django+Vue+MySQL的王者荣耀战队数据分析及可视化系统。

overfit同步小助手 24 天前 0 收藏

【已解决】【Hadoop】HDFS操作时:未找到命令的解决办法

任务：解决命令无法识别的问题，并成功执行Hadoop的文件系统操作命令。hdflshdf4-toolshfs：1.3.Hadoop未正确配置如果命令格式正确但仍然出现错误，可能是因为Hadoop没有正确安装，或者Hadoop的可执行文件没有添加到系统的PATH环境变量中。第三种。

overfit同步小助手 24 天前 0 收藏

大数据新视界 -- 大数据大厂之大数据重塑影视娱乐产业的未来（4 - 3）

本文深入影视后期制作与营销环节，阐述大数据的关键作用。在后期制作中，介绍特效制作依据观众评价数据优化，音效设计参考反馈数据营造氛围。在营销环节，讲述通过整合多平台数据构建用户画像实现精准营销，以及依据广告效果数据优化营销渠道与时机。含大量代码示例与案例，展现大数据对影视娱乐产业的重塑力量。

overfit同步小助手 24 天前 0 收藏

Flink 1.18安装及配置 postgres12 同步到mysql5.7（Flink sql 方式）

解决方案：在flink的flink-conf.yaml文件中添加classloader.resolve-order: parent-first 改成parent-first，重启集群即可。flink 下载地址：https://flink.apache.org/downloads/下载 flink 安

overfit同步小助手 24 天前 0 收藏

SeaTunnel Web1.0.0安装

注：安装SeaTunnel Web1.0.1没区别，步骤全部都一样。安装的SeaTunnel为2.3.7版本。

overfit同步小助手 25 天前 0 收藏

[实时计算flink]数据库实时入仓快速入门

实时计算Flink版提供了丰富强大的数据实时入仓能力。通过Flink的全增量自动切换、元信息自动发现、表结构变更自动同步和整库同步等功能，简化了数据实时入仓的链路，使得实时数据同步更加高效便捷。本文介绍如何快速构建一个从MySQL到Hologres的数据同步作业。

overfit同步小助手 25 天前 0 收藏

【大数据】DolphinScheduler将上游Task执行结果传递给下游Task

DolphinScheduler将上游Task执行结果传递给下游Task，实现Task上下游之间的参数动态传递与使用。

overfit同步小助手 25 天前 0 收藏

大数据毕业设计选题推荐-白酒销售数据分析-Python数据可视化-Hive-Hadoop-Spark

中国白酒作为中国传统的蒸馏酒，历史悠久，品种繁多，深受国内外消费者的喜爱。近年来，随着居民收入水平的提升和消费结构的升级，白酒市场呈现出快速增长的趋势。据中国产业信息网发布的数据显示，2023年中国白酒行业市场规模已突破6000亿元人民币，且预计未来几年仍将保持稳定增长。在这一背景下，白酒企业之间的

overfit同步小助手 25 天前 0 收藏

Spark总结

spark，hadoop学习笔记，超细节！

overfit同步小助手 25 天前 0 收藏

git clone完整使用手册

git clone 最全用法

overfit同步小助手 25 天前 0 收藏

大数据新视界 -- 大数据大厂之优化大数据计算框架 Tez 的实践指南

大数据新视界 -- 大数据大厂之大数据在能源行业的智能优化变革与展望

基于Hadoop的天气预报数据爬取与可视化分析系统(源码+lw+部署文档+讲解等)

顶级赛事重磅回归！2024 CCF 大数据与计算智能大赛首批赛题开放报名！

基于Java Web的动漫畅聊平台设计与实现(需求文档)

Flink+Paimon+StarRocks(Doris)构建实时湖仓OLAP分析

Flink 的时间属性及原理解析

【大数据】FP-growth算法

FlinkSQL中的双流JOIN

大数据新视界 -- 大数据大厂之大数据重塑影视娱乐产业的未来（4 - 4）

基于Python大数据的王者荣耀战队数据分析及可视化系统

【已解决】【Hadoop】HDFS操作时:未找到命令的解决办法

大数据新视界 -- 大数据大厂之大数据重塑影视娱乐产业的未来（4 - 3）

Flink 1.18安装及配置 postgres12 同步到mysql5.7（Flink sql 方式）

SeaTunnel Web1.0.0安装

[实时计算flink]数据库实时入仓快速入门

【大数据】DolphinScheduler将上游Task执行结果传递给下游Task

大数据毕业设计选题推荐-白酒销售数据分析-Python数据可视化-Hive-Hadoop-Spark

Spark总结

git clone完整使用手册

作者榜

资讯小助手

内容小助手

Deephub

奕凯