大数据 - overfit.cn

{'deviceID': 'device_1_1', 'deviceType': '油烟机', 'deviceSignal': 23, 'time': '1668848417'} {'deviceID': 'device_0_4', 'deviceType': '洗衣机', 'deviceSigna

overfit同步小助手 2024-07-26 06:03:39 0 收藏

大数据基础：Hadoop之MapReduce重点架构原理

Reduce端每个Reduce task会从每个map task所在的节点上拉取落地的磁盘文件对应的分区数据，对于每个Reduce task来说，从各个节点上拉取到多个分区数据后，每个分区内的数据按照key分组有序，但是总体来看这些分区文件中key数据不是全局有序状态（分区数据内部有序，外部无序）。

overfit同步小助手 2024-07-26 04:03:50 0 收藏

安装Apache Flink的步骤

以上就是下载并安装Apache Flink的详细步骤。

overfit同步小助手 2024-07-25 22:03:45 0 收藏

当在使用flinksql的left join出现撤回流该如何解决？

在 Flink SQL 中，INNER JOIN、RIGHT JOIN 和 FULL OUTER JOIN 操作会因为数据变化而产生撤回流。这是为了确保流处理的结果一致性和准确性。在设计流处理应用时，需要考虑这些撤回流的影响，选择合适的 sink connector，例如 upsert-kafka，

overfit同步小助手 2024-07-25 21:03:44 0 收藏

hadoop离线与实时的离线与实时的电影推荐系统毕业设计-附源码10338

系统采用了B/S结构，将所有业务模块采用以浏览器交互的模式，选择MySQL作为系统的数据库，开发工具选择My eclipse来进行系统的设计。基本实现了离线与实时的电影推荐系统应有的主要功能模块，本系统有管理员、用户两大功能模块，管理员：首页、网站管理（轮播图、公告消息）人员管理（管理员、普通用户

overfit同步小助手 2024-07-25 20:03:24 0 收藏

Spark-广播变量详解

Spark广播变量

overfit同步小助手 2024-07-25 19:03:41 0 收藏

68、Flink DataStream Connector 之文件系统详解

Flink DataStream Connector 之文件系统详解

overfit同步小助手 2024-07-25 19:03:31 0 收藏

Spark实现电商消费者画像案例

overfit同步小助手 2024-07-25 17:03:44 0 收藏

DataX自动化生成配置json,创建ODS表,多线程调度脚本[mysql--＞hive]

结合Dolphinscheduler,自动化生成datax抽取任务json文件,自动化创建ods表,自动化多线程执行任务,支持创建hive分区表,自动创建分区,修复分区,支持kerberos认证,mysql多库多表配置

overfit同步小助手 2024-07-25 15:03:34 0 收藏

如何学习Kafka：糙快猛的大数据之路（快速入门到实践）

在这个"糙快猛"的Kafka学习之旅中，我们从基础概念出发，逐步深入到高级特性和实战应用。我们探讨了Kafka的核心组件、工作原理、生产者-消费者模型，以及与大数据生态系统的集成。我们还深入研究了Kafka的高级特性，如事务、幂等性和位移管理，同时学习了性能调优的技巧。通过实际案例，我们看到了Kaf

overfit同步小助手 2024-07-25 14:03:36 0 收藏

RFID 门禁系统：安全与便捷的完美融合

随着技术的不断进步，RFID 门禁系统将继续发展和完善，为我们创造更加安全、智能的环境。RFID 门禁系统的硬件部分主要包括 RFID 模块、门禁控制器、门锁、电源等。RFID 模块用于读取 RFID 标签的信息，门禁控制器负责对读取到的信息进行处理和判断，并控制门锁的开关。通过实际测试，本 RFI

overfit同步小助手 2024-07-25 13:07:24 0 收藏

大数据领域的常用开发语言详解

这些语言在大数据开发领域各有其独特的优点和缺点，开发者需要根据具体的应用场景和需求来选择合适的语言。

overfit同步小助手 2024-07-25 13:03:47 0 收藏

Spark常见算子详解

groupByKey 和groupby 的区别是前者是确定以key为分组，所以只返回value的迭代器，程序上后者不确定以什么来分组，所以返回[(String,Int) (K,V)]定义：countByKey算子统计K-v类型的数据中的Key的次数，countByValue统计所有的value出现的

overfit同步小助手 2024-07-25 10:03:51 0 收藏

git和gitee的基本操作

IT行业近十几年的发展史，从web1.0到3.0，大数据、元宇宙、比特币，区块链、AIGC....到底什么是出路

Flink 数据源

Flink 角色指南：了解各组件的职责与功能

10分钟入门Flink--安装

数据仓库中的数据治理

京东百万级调度系统(Buffalo)架构解密

摸鱼大数据——Spark Structured Steaming——物联网数据分析案例