大数据 - overfit.cn

【全部更新完毕】2024钉钉杯大数据建模挑战赛A题详细思路代码文章成品手把手教学-烟草营销案例数据分析

针对问题一和问题二，通过构建两种不同类型的时间序列预测模型——ARIMA模型和LSTM模型，分别预测A1和A2两个香烟品牌的未来销量以及预测A3和A4两个香烟品牌的未来销售金额。而LSTM模型则通过其在处理长时间依赖性和非线性关系方面的优势，提供了对销量趋势的平稳且保守的预测，适合历史数据波动大且趋

overfit同步小助手 2024-08-16 09:03:56 0 收藏

如何在数据埋点中发现和修复数据上报逻辑错误

【数据埋点优化指南】提升数据质量，助力精准决策！本文深入探讨数据埋点全流程优化，包括：1)快速发现并修复上报逻辑错误；2)建立统一规范，实现自动化测试；3)构建实时监控预警机制。通过TypeScript、Jest、Apache Flink等工具，结合机器学习异常检测，打造高效数据埋点体系。掌握分层告

overfit同步小助手 2024-08-16 09:03:51 0 收藏

Flink-StarRocks详解:第二部分(第52天)

本文为Flink-StarRocks详解后续章节：主要详解StarRocks表设计，聚合，更新，主键三大数据模型。由于篇幅过长，后续接着下面进行详解： StarRocks分区分桶 StarRocks查询数据湖 实现即席查询案例。

overfit同步小助手 2024-08-16 08:04:16 0 收藏

中国云计算技术（一）

本文讲解中国云计算技术，包括国内云计算发展概况和国产云存储技术，例如淘宝分布式文件系统TFS、云创存储cStor分布式文件系统和A8000超低功耗云存储一体机。

overfit同步小助手 2024-08-16 08:04:12 0 收藏

MYSQL调优详解：案例解析（第40天）

MySQL的优化是一个涉及多个层面的复杂过程，主要包括数据库设计优化、查询优化、架构优化等。本文通过案例方式详解关键的MySQL优化策略。

overfit同步小助手 2024-08-16 08:04:09 0 收藏

一篇搞定，Hadoop高可用集群搭建及API调用，超详细

在Hadoop1中NameNode存在一个单点故障问题，如果NameNode所在的机器发生故障，整个集群就将不可用(Hadoop1中虽然有个SecorndaryNameNode，但是它并不是NameNode的备份，它只是NameNode的一个助理，协助NameNode工作，SecorndaryNam

overfit同步小助手 2024-08-16 04:03:55 0 收藏

flink车联网项目前篇：项目设计（第64天）

本文介绍车联网项目设计，数仓分层，数仓主题，数据建模。

overfit同步小助手 2024-08-15 21:03:38 0 收藏

学习大数据DAY35 利用 echarts 的开源图表和 python 异常处理优化网站

经过4天的早九晚八豆瓣开发，我又一次感受到了程序员的不容易，这都是想从事IT行业要经历的。测试添加电影类型的编号，整数（系统异常）及正整数（自定义异常）显示统计报表：统计各分数的数量，使用柱状图和饼状图分别实现。注：录制豆瓣网完整视频传到班级微信群。可以根据需要自行选择需要的模版。根据自己选择的模版

overfit同步小助手 2024-08-15 18:04:37 0 收藏

大数据-63 Kafka 高级特性分区副本机制宕机恢复 Leader选举

上节完成kafka-topics基本参数和使用，涉及创建、查看、修改等等内容。本节学习Kafka的高级特性：分区，包含副本机制、宕机恢复、Leader的选举。副本之间的关系并不是固定不变的，在Leader所在的Broker发生故障的时候，就需要进行分区的Leader副本和Follower副本之间的切

overfit同步小助手 2024-08-15 18:03:55 0 收藏

大数据-67 Kafka 高级特性分区分配策略 Ranger、RoundRobin、Sticky、自定义分区器

上节Kafka高级特性分区-副本数量调整，业务中遇到副本调整需求，但是无法直接修改，需要JSON+脚本的方式来进行配置。本节分区-分区策略，有Ranger、RoundRobin、Sticky等策略，最后实现自定义分区器。需要实现org.apache.kafka.clients.consumer.in

overfit同步小助手 2024-08-15 16:03:23 0 收藏

Spark Structured Streaming窗口聚合和非窗口聚合

两者都用于对数据进行聚合操作，支持类似的聚合函数（如求和、平均值等）窗口聚合基于时间窗口进行计算，适用于流处理；非窗口聚合对整个数据集进行计算，适用于批处理，你可以这样理解，离线计算本身就是一个非常大的窗口计算，窗口大到容纳下所有的数据，而事实计算的窗口是比较小的窗口，也就是计算结果只是数据集上的一

overfit同步小助手 2024-08-15 11:03:43 0 收藏

大数据-42 Redis 功能扩展发布/订阅模式事务相关的内容 Redis弱事务

上节使用了Redis的bitmap、geohash、Stream类型。本节对Redis功能进行扩展：发布/订阅模式、事务相关的概念。订阅发布的功能，可以用于消息的传输发布者和订阅者都是Redis的客户端Channel则为Redis的服务端。发布者将消息发送到某个频道，订阅了这个频道的订阅者就能收到这

overfit同步小助手 2024-08-15 11:03:28 0 收藏

大数据-65 Kafka 高级特性分区 Broker自动再平衡 ISR 副本宕机恢复再重平衡实测

上节完成模拟Kafka集群中的分区重新分配，当线上Kafka节点不够用时，新增节点后，分区不会分配，需要脚本来重新分配。本节我们继续研究分区中Broker的自动再平衡，当Broker宕机再恢复后，分区也不会恢复，需要脚本进行自动再重平衡。

overfit同步小助手 2024-08-15 10:03:31 0 收藏

大数据-80 Spark 简要概述系统架构部署模式与Hadoop MapReduce对比

上节我们终于到了Kafka最后一个内容，集群的可视化方案，JConsole、Kafka Eagle等内容，同时用JavaAPI获得监控指标。本节研究Spark的简要概述，系统架构、部署模式、与MapReduce进行对比。MapReduce 昨天Spark 今天Flink 未来MapReduce和Sp

overfit同步小助手 2024-08-15 10:03:17 0 收藏

Hadoop-未授权访问-内置配合命令执行RCE

overfit同步小助手 2024-08-15 07:03:47 0 收藏

中电金信：四川农担X中电金信大数据智能风控平台护航金融服务乡村振兴

其中，与中电金信联合打造的四川农担大数据智能风控平台，通过运用大数据、人工智能等信息科技手段，增强涉农业务风险防控能力，实现信贷投放和风险防控两手抓，同时为“三农”大数据线上化、智能化提供高效平台服务，提高金融服务乡村振兴的可持续性。针对农村居民信息来源匮乏，导致金融可得性差，风险分析识别难的问题，

overfit同步小助手 2024-08-15 07:03:42 0 收藏

大数据-72 Kafka 高级特性稳定性-事务 (概念多枯燥) 定义、概览、组、协调器、流程、中止、失败

上节完成了Kafka高级特性的磁盘存储部分，涉及到零拷贝、磁盘文件传输、JavaNIO、mmap、sendfile等概念信息。本节继续Kafka高级特性：事务（概念较多很枯燥。生产者可以显式的发起事务会话，在这些会话中发送（事务）消息，并提交或中止事务。原子性：消费者的应用程序不应暴露于未提交的消息

overfit同步小助手 2024-08-15 04:03:49 0 收藏

【大数据】大数据技术栈详尽解析

数据采集是大数据旅程的起点，涉及从不同源头获取数据的过程，包括传感器、日志文件、以及APIs等。这一环节的高效运作对于后续的数据处理和分析至关重要。如MapReduce，MapReduce工作流程分为Map阶段（将输入数据切分成独立块并应用映射函数提取键值对）、Shuffle阶段（对Map输出进行排

overfit同步小助手 2024-08-15 04:03:36 0 收藏

Spark内核的设计原理

同时Spark有任务级别的内存管理，任务的计算属于执行内存的一部分。包括检查点支持，易于使用（支持Java，Scala，Python等编程语言），交互式（Spark Shell）和SQL分析（借鉴了ANSI SQL等标准的实用语法和功能），批流一体，丰富的数据支持，高可用，丰富的文件格式支持。DAG

overfit同步小助手 2024-08-15 03:03:48 0 收藏

阶段三：项目开发---大数据开发运行环境搭建:任务2：安装配置ZooKeeper

安装配置ZooKeeper：安装配置ZooKeeper：无ZooKeeper是一个开源分布式协调服务，其独特的Leader-Follower集群结构，很好的解决了分布式单点问题。目前主要用于诸如：统一命名服务、配置管理、锁服务、集群管理等场景。大数据应用中主要使用ZooKeeper的集群管理功能。

overfit同步小助手 2024-08-14 23:03:43 0 收藏