大数据 - overfit.cn

Hadoop HDFS 命令行工具 hadoop fs 和 hdfs dfs 基本使用指南

hadoop fs 和 hdfs dfs 是两个命令行工具，它们的功能和用途基本相同，都是用来与Hadoop的分布式文件系统（HDFS）进行交互的。这两个命令实际上是同一个工具的不同调用方式。

overfit同步小助手 2024-12-04 08:03:38 0 收藏

Flink介绍

Apache Flink 是一个开源的流处理框架，用于处理。它具有高吞吐量、低延迟和容错性强的特点，适用于各种实时数据处理场景，如实时分析、事件驱动应用和数据管道等。Flink 提供了丰富的 API，支持 Java、Scala 和 Python 等编程语言，并且可以与 Hadoop、Kafka 等大

overfit同步小助手 2024-12-04 05:03:43 0 收藏

大数据-236 离线数仓 - 会员活跃度 WDS 与 ADS 导出到 MySQL 与广告业务需求分析

互联网平台通行的商业模式是利用免费的基础服务来吸引大量用户，并利用这些用户开展广告或其他增值业务实现盈利从而反哺支撑免费服务的生存和发展。广告收入不仅成为互联网平台的重要收入之一，更决定了互联网平台的发展程度。电商平台本身就汇聚了海量的商品、店铺的信息，天然适合进行商品的推广。对于电商和广告主来说，

overfit同步小助手 2024-12-04 04:03:35 0 收藏

mybatis批量更新

sql语句for循环效率其实相当高的，因为它仅仅有一个循环体，只不过最后update语句比较多，量大了就有可能造成sql阻塞。case when虽然最后只会有一条更新语句，但是xml中的循环体有点多，每一个case when 都要循环一遍list集合，所以大批量拼sql的时候会比较慢，所以效率问题严

overfit同步小助手 2024-12-04 03:03:33 0 收藏

数据仓库还是数据集市？这俩怎么选？

数据仓库和数据集市作为支持决策分析的两种不同方式，根据各自的特点和优势，有不同的应用场景，今天就来探讨下数据集市和数据仓库该怎么选？

overfit同步小助手 2024-12-04 03:03:28 0 收藏

使用flink编写WordCount

1. env-准备环境2. source-加载数据转换4. sink-数据输出5. execute-执行。

overfit同步小助手 2024-12-04 01:03:49 0 收藏

科技为翼助残向新高德地图无障碍导航规划突破1.5亿次

随着 “红色文化” 地图无障碍导航服务上线，用户在上海可以在高德地图 App 搜索到红色文化资源，查询其所在位置，并实现无障碍导航，让残疾人也能方便地体验红色文化、海派文化的精髓。全国60家银泰百货的无障碍设施和服务信息被接入高德地图，用户在搜索目标商场时，高德地图主页会出现红色提示“该商场提供无障

overfit同步小助手 2024-12-03 20:04:31 0 收藏

Linux中的软硬链接文件详解

在Linux文件系统中，软连接（Symbolic Link）和硬连接（Hard Link）是两种重要的文件链接方式。它们都可以创建指向相同文件内容的多个“链接”，但在实现方式和特性上有所不同。特性软连接硬连接是否共享inode否是跨文件系统支持不支持指向类型文件或目录文件失效情况目标文件删除则失效目

overfit同步小助手 2024-12-03 19:06:27 0 收藏

Hadoop分布式文件系统(一)

HDFS简介

overfit同步小助手 2024-12-03 18:03:53 0 收藏

Flink Python作业快速入门

本文带您快速体验Flink Python流作业和批作业的创建、部署和启动，以了解实时计算Flink版Python作业的操作流程。

overfit同步小助手 2024-12-03 18:03:40 0 收藏

全球氮循环领域最新《Nature》正刊！

但所有其他氮化合物（科学上称为活性氮）都会对全球气候产生直接或间接的影响，并引发增暖或冷却效应：例如，一氧化二氮，俗称笑气，主要由富氮土壤和化石燃料燃烧排放，其温室效应几乎是二氧化碳的 300 倍。同时，大气中的活性氮沉降到陆地上，使植物生长得更茂盛，从而从大气中吸收更多的二氧化碳，这也具有冷却效果

overfit同步小助手 2024-12-03 18:03:33 0 收藏

Group By、Having用法总结（常见踩雷点总结—SQL）

常见踩雷点总结

overfit同步小助手 2024-12-03 18:02:41 0 收藏

【问题解决】Flink在linux上运行成功但是无法访问webUI界面

在搭建Flink的时候，已经在linux服务器上运行了./start-cluster.sh，而且日志显示已经成功了。正常来说应该能通过ip:8081来访问(8081是Flink WebUI的默认端口)，但是访问的时候，显示访问拒绝。然后就可以通过ip:8081端口（可以在上面修改rest.port

overfit同步小助手 2024-12-03 16:03:49 0 收藏

hadoop集成hive的部署方式

在已经安装完hadoop，mysql的基础上可以进行hive的安装之前部署的hadoop版本为3.2.4，mysql版本为8.0.39，详细部署流程。

overfit同步小助手 2024-12-03 15:03:41 0 收藏

大数据必知必会系列_开源组件总结（2）：数据存储层

采集数据之后，一般先存储再计算。对于离线系统通常先存于消息队列中，再存入文件系统，而对于实时系统，一般存放在消息中间件（如kafka)直接计算（减小时延）消息中间件是用于在分布式系统中传递消息的中间件，它们在不同的应用程序或服务之间提供可靠的消息传递机制。总之，消息队列提供高效、可靠的数据暂存功能。

overfit同步小助手 2024-12-03 14:03:44 0 收藏

大数据新视界 -- 大数据大厂之 Hive 数据压缩算法对比与选择（下）（20 / 30）

本文承前启后，深度剖析 Hive 数据压缩算法（原理、实操代码），详析选择因素（含数据、业务、资源、兼容），分享多案例实践及进阶考量（分布式协同、机器学习融合、动态调整），助选优算法，邀探窗口函数。

overfit同步小助手 2024-12-03 12:03:27 0 收藏

Flink本地模式安装详解

本文开头对flink的几种安装模式都做了介绍，并且详细的介绍了我们开发的时候会使用到的本地模式的安装启动停止过程，并且用了一个demo验证集群是否可用，本地模式是比较方便轻量的安装模式，便于我们开发调试使用。

overfit同步小助手 2024-12-03 10:03:59 0 收藏

【大数据技术基础 | 实验十四】Kafka实验：订阅推送示例

本实验介绍Kafka的安装部署，Kafka的topic创建及如何生成消息和消费消息，Kafka和Zookeeper之间的关系，了解Kafka如何保存数据及加深对Kafka相关概念的理解。

overfit同步小助手 2024-12-03 08:03:30 0 收藏

大数据技术Kafka详解 ② | Kafka基础与架构介绍

本文详细介绍开源高吞吐量分布式消息中间件kafka的架构与组件构成。

overfit同步小助手 2024-12-03 08:03:23 0 收藏

【Spark】【大数据技术基础】课程实验七 Spark基础编程实验

环境配置问题：最初在配置环境变量时，由于路径错误导致无法启动Spark Shell。通过检查并修正.bashrc文件中的SPARK_HOME路径，我解决了这个问题。程序编译错误：在编写数据去重程序时，由于对Scala语法不熟导致编译错误。通过查阅文档和示例代码，我逐步修正了代码中的语法错误。运行时性

overfit同步小助手 2024-12-03 04:03:38 0 收藏