大数据 - overfit.cn

Hadoop生态圈框架部署伪集群版（七）- Hive部署

随着大数据技术的不断发展，数据处理和分析的需求日益增长。Apache Hive作为基于Hadoop的一个数据仓库工具，能够极大地简化对大规模数据集的查询和管理过程。它允许用户使用类似于SQL的HiveQL语言查询数据，这使得那些熟悉关系型数据库管理系统（RDBMS）的开发者可以轻松地转移到大数据平台

overfit同步小助手 2024-12-14 01:03:34 0 收藏

Flink 开发工程应加载哪些依赖

讲解flink打包时依赖相关配置

overfit同步小助手 2024-12-14 00:03:42 0 收藏

小蒋聊技术 - Spark 不只是技术：如何在商业中释放大数据的超级价值？

在大数据时代，Apache Spark 已成为推动企业数据创新和业务转型的核心技术之一。然而，许多人对于 Spark 的认知停留在技术层面，忽视了它在真实商业场景中的巨大潜力。本文将深入探讨 Spark 如何在企业中发挥真正的价值，帮助业务解决实际问题，提升决策效率与资源利用率。通过结合真实的商业案

overfit同步小助手 2024-12-13 18:03:49 0 收藏

推进国产化安全应用：德承工控机DV-1100+银河麒麟操作系统Kylin V10 安装教程

德承工控机DV-1100，搭载12代Intel® Core® i7-12700 CPU和银河麒麟操作系统 V10，图像化的操作界面和Windows十分相似，有多款常用到的办公软件，还提供多种应用的SDK供二次开发，不仅能够部署在办公环境作为办公电脑使用，也能够部署在嵌入式应用的工控机上，是一款多维度

overfit同步小助手 2024-12-13 13:07:20 0 收藏

git本地分支推送到远程和远程pull到本地

在推送到远程仓库之前，你也可能想要先执行 git fetch 和 git pull 以确保你的本地分支是最新的。要将本地分支推送到远程仓库的某个分支（可以是同名的分支，也可以是不同名的分支），你可以使用 git push 命令。git push --set-upstream origin 本地分支名

overfit同步小助手 2024-12-13 13:04:16 0 收藏

电商平台架构：构建高效、安全、可扩展的在线交易体系

电商平台架构是指在电商平台中搭建整体架构的过程，包括从软件架构到硬件架构的设计和实施。这一过程旨在构建一个高效、安全、可扩展的在线交易体系，以满足用户日益增长的购物需求。

overfit同步小助手 2024-12-13 12:06:48 0 收藏

Python大数据可视化：基于spark的短视频推荐系统的设计与实现_django+spider

本文介绍了一个基于Django框架和Spark技术的短视频推荐系统的设计与实现。该系统使用Spark进行大数据处理和分析，实现了个性化推荐功能；使用Django框架进行后端开发，实现了用户注册、登录、修改个人信息等基础功能；使用HTML、CSS、JavaScript等技术进行前端开发，实现了良好的用

overfit同步小助手 2024-12-13 08:03:43 0 收藏

flink cdc mysql pipeline connector参数scan.startup.mode解读

在 Flink CDC 中，参数用于指定启动时从哪个位置开始读取数据。initial：这是默认的启动模式。当你首次启动 CDC 任务时，它会从最早的可用 binlog 位置开始读取数据，并执行一个初始快照，然后继续读取最新的 binlog。：如果你希望 CDC 在每次启动时从最新的 binlog 位

overfit同步小助手 2024-12-13 06:03:31 0 收藏

正则表达式【详细解读】

正则表达式，如瑞士军刀般多功能而精巧，它在字符串的密林中开辟路径，既是文本处理的利器，也是数据挖掘的宝藏钥匙。掌握这把万能钥匙，解锁编程与数据处理的无限可能。

overfit同步小助手 2024-12-13 03:02:22 0 收藏

Flink四大基石之CheckPoint(检查点) 的使用详解

在大数据流式处理领域，Apache Flink 凭借其卓越的性能和强大的功能占据重要地位。而理解 Flink 中的 Checkpoint（检查点）、重启策略以及 SavePoint（保存点）这些关键概念，对于保障流处理任务的稳定性、容错性以及可维护性至关重要。本文将深入剖析它们的原理、用法，并结合实

overfit同步小助手 2024-12-13 00:03:41 0 收藏

Hadoop 完全分布式部署

用于配置 YARN 的相关参数，如 ResourceManager 的地址、NodeManager 的资源分配等。

overfit同步小助手 2024-12-12 20:03:31 0 收藏

Hadoop搭建（概述及环境搭建）详细版

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要结局，海量数据的存储和海量数据的分析计算问题。广义上来说，Hadoop通常是指一个更广泛的概念 —Hadoop生态圈。NameNode（nn）：存储文件的元数据，如文件名、文件目录结构、文件属性（生成时间、副本数、文件权限），以及

overfit同步小助手 2024-12-12 17:03:44 0 收藏

Hadoop 集群搭建与配置：从入门到精通

搭建和配置 Hadoop 集群虽然步骤较多，但只要按照本文的步骤细心操作，就能够成功搭建起自己的 Hadoop 集群。这为后续的大数据处理和分析工作奠定了坚实的基础，开启了大数据之旅的重要一步。随着对 Hadoop 使用的深入，还可以根据实际需求进一步优化集群配置，提高集群性能。

overfit同步小助手 2024-12-12 14:04:28 0 收藏

Data+AI━━解码新范式：数据要素驱动智能经济新引擎

overfit同步小助手 2024-12-12 13:01:45 0 收藏

大数据-241 离线数仓 - 电商核心交易业务数据表结构订单、产品、分类、店铺、支付表

电商平台通过大数据技术进行数据的实时采集、处理和分析，从而优化核心交易环节，提高转化率和用户满意度。以下是几个大数据在电商核心交易中的关键应用：精准推荐：基于用户的浏览、加购物车、历史购买等行为数据，通过机器学习和数据挖掘算法，电商平台可以为用户推荐其可能感兴趣的商品。精准推荐不仅提升了用户体验，也

overfit同步小助手 2024-12-12 12:03:10 0 收藏

【大数据】实时数据仓库方案

本篇文章详细介绍了实时数据仓库方案的设计理念与架构，揭示了如何通过流处理和批处理技术（如Kafka、Flink、Spark Streaming）实现准实时数据分析。通过生动案例展示实时数据仓库在金融、电商等行业中的应用，并附带代码示例、架构图表，分析该方案如何帮助企业获得秒级或分钟级数据反馈。文章从

overfit同步小助手 2024-12-12 10:04:10 0 收藏

【Flink】-- flink新版本发布：v2.0-preview1

Apache Flink 社区已于2024-10-23发布了 Flink 2.0版本，这是自 Flink 1.0 发布以来的首个重大更新。Flink 2.0 将引入多项激动人心的功能和改进，包括存算分离状态管理、物化表、批作业自适应执行等，同时也包含了一些不兼容的变更。目前提供的预览版旨在让用户提前

overfit同步小助手 2024-12-12 06:04:02 0 收藏

《基于 PySpark 的电影推荐系统分析及问题解决》

基于 PySpark 的电影推荐系统实现与分析在当今数字化时代，个性化推荐系统在各个领域中都发挥着至关重要的作用，尤其是在娱乐行业，如电影推荐。本文将详细介绍如何使用 PySpark 构建一个简单的电影推荐系统，并对代码进行深入分析。一、环境准备在开始我们的电影推荐之旅前，需要正确配置运行环境。这涉

overfit同步小助手 2024-12-12 03:03:36 0 收藏

大数据-234 离线数仓 - 异构数据源 DataX 将数据从 HDFS 到 MySQL

DataX 是阿里巴巴开源的一款分布式数据同步工具，用于实现各种异构数据源之间高效、稳定的数据同步。其主要功能包括数据的批量导入、导出和实时传输，支持多种主流数据源，例如关系型数据库、NoSQL 数据库、大数据存储系统等。DataX 的核心思想是“插件化架构”，通过灵活的 Reader 和 Writ

overfit同步小助手 2024-12-12 03:03:31 0 收藏

用Selenium爬取天气数据实践（附代码）

本文运用Selenium动态爬取和Xpath进行元素定位对气象网站进行数据爬取

overfit同步小助手 2024-12-12 01:05:33 0 收藏