大数据 - overfit.cn

数据仓库-离线集市概述

数据集市（Datamart）是数据仓库的一个逻辑子集，专注于满足特定业务部门或领域的数据需求。与全面覆盖整个企业数据需求的数据仓库相比，数据集市更加聚焦和简洁，通常用于解决特定部门的业务问题或支持特定的分析需求。它可以看作是一个小型的数据仓库，具有独立的数据模型和存储方案，以便于更快速和高效地处理特

overfit同步小助手 2024-08-16 13:03:32 0 收藏

【独立站经验分享】独立站品牌运营模式最全解析！全篇干货！

我们也可以。

overfit同步小助手 2024-08-16 12:04:16 0 收藏

中国云计算技术（二）

本文讲解中国云计算技术的国产大数据库技术，包括阿里巴巴OceanBase和云创存储数据立方（DataCube）。

overfit同步小助手 2024-08-16 11:04:25 0 收藏

避雷！这7本计算机工程SCIE期刊被标记为“On Hold”状态！

近一年“On Hold”期刊频出，就在刚刚过去的7月，便有6本On Hold期刊被数据库剔除！目前处于On Hold状态的7本计算机工程领域SCI期刊，请大家谨慎投稿，避免踩雷！

overfit同步小助手 2024-08-16 11:04:22 0 收藏

Apache Flink中TaskManager，SubTask，TaskSlot，并行度之间的关系

另外一个方面是在Flink中运行的task对CPU资源的占用不同，有CUP密集型task 操作和CPU非密集型task操作情况，例如在Flink集群中source和map操作只是读数据后转换，对CPU占用短，但是window这种穿口计算聚合操作设计大量数据计算，占用CPU资源长，这就导致运行时候so

overfit同步小助手 2024-08-16 11:04:18 0 收藏

大数据-82 Spark 集群模式启动 Hadoop HDFS Spark 与 HelloWorld！

上节完成了Spark的环境配置，集群配置，并且通过分发把服务分发到了别的服务器上等内容。本节我们对集群进行启动和测试，需要HDFS和Spark的环境。这里Spark提供了一个官方的HelloWorld（前提你配置好环境变量，不然你需要到指定目录执行）我们通过查看 h121 的日志，可以看到是 808

overfit同步小助手 2024-08-16 11:04:02 0 收藏

Flink-StarRocks详解:第三部分StarRocks分区分桶(第53天)

本文为Flink-StarRocks详解后续章节：主要详解StarRocks分区分桶由于篇幅过长，后续接着下面进行详解： StarRocks查询数据湖 实现即席查询案例需要显式列出每个 List 分区所包含的枚举值列表，并且值不需要连续，区别于包含连续日期或者数值范围的 Range 分区。当新数

overfit同步小助手 2024-08-16 11:03:38 0 收藏

大数据-76 Kafka 高级特性稳定性-消费重复生产者、Broker、消费者导致的重复消费问题

上节研究了Kafka的稳定性-一致性保证，而且研究了LEO和HW，以及Leader和Follower何时更新LEO和HW。本节研究消费消息重复，出现数据重复的环节有：生产者阶段、Broker阶段、消费者阶段。以及给出对应阶段的解决方案。

overfit同步小助手 2024-08-16 10:04:01 0 收藏

VMware虚拟机硬盘扩容详细教程【亲测有效】

项目做到一半虚拟机空间不足怎么办？VMware虚拟机硬盘扩容详细教程，不需要再重新安装虚拟机哦！

overfit同步小助手 2024-08-16 10:03:56 0 收藏

互联网数字化商品管理浪潮思考：从信息化到精准运营

从技术角度来看，从运营百万商家到管理数十亿商品，平台必须依靠数据化手段进行商品管理。通过数据化重构人、货、场的关系，优化流量分配和精准营销，使数据成为连接商业环节的最佳语言，最终提升平台的整体流量价值和用户体验。通过这些策略的实施，电商平台能够实现从“商”到“品”的成功转型，更好地满足市场需求，提升

overfit同步小助手 2024-08-16 09:04:20 0 收藏

【全部更新完毕】2024钉钉杯大数据建模挑战赛A题详细思路代码文章成品手把手教学-烟草营销案例数据分析

针对问题一和问题二，通过构建两种不同类型的时间序列预测模型——ARIMA模型和LSTM模型，分别预测A1和A2两个香烟品牌的未来销量以及预测A3和A4两个香烟品牌的未来销售金额。而LSTM模型则通过其在处理长时间依赖性和非线性关系方面的优势，提供了对销量趋势的平稳且保守的预测，适合历史数据波动大且趋

overfit同步小助手 2024-08-16 09:03:56 0 收藏

如何在数据埋点中发现和修复数据上报逻辑错误

【数据埋点优化指南】提升数据质量，助力精准决策！本文深入探讨数据埋点全流程优化，包括：1)快速发现并修复上报逻辑错误；2)建立统一规范，实现自动化测试；3)构建实时监控预警机制。通过TypeScript、Jest、Apache Flink等工具，结合机器学习异常检测，打造高效数据埋点体系。掌握分层告

overfit同步小助手 2024-08-16 09:03:51 0 收藏

Flink-StarRocks详解:第二部分(第52天)

本文为Flink-StarRocks详解后续章节：主要详解StarRocks表设计，聚合，更新，主键三大数据模型。由于篇幅过长，后续接着下面进行详解： StarRocks分区分桶 StarRocks查询数据湖 实现即席查询案例。

overfit同步小助手 2024-08-16 08:04:16 0 收藏

中国云计算技术（一）

本文讲解中国云计算技术，包括国内云计算发展概况和国产云存储技术，例如淘宝分布式文件系统TFS、云创存储cStor分布式文件系统和A8000超低功耗云存储一体机。

overfit同步小助手 2024-08-16 08:04:12 0 收藏

MYSQL调优详解：案例解析（第40天）

MySQL的优化是一个涉及多个层面的复杂过程，主要包括数据库设计优化、查询优化、架构优化等。本文通过案例方式详解关键的MySQL优化策略。

overfit同步小助手 2024-08-16 08:04:09 0 收藏

一篇搞定，Hadoop高可用集群搭建及API调用，超详细

在Hadoop1中NameNode存在一个单点故障问题，如果NameNode所在的机器发生故障，整个集群就将不可用(Hadoop1中虽然有个SecorndaryNameNode，但是它并不是NameNode的备份，它只是NameNode的一个助理，协助NameNode工作，SecorndaryNam

overfit同步小助手 2024-08-16 04:03:55 0 收藏

flink车联网项目前篇：项目设计（第64天）

本文介绍车联网项目设计，数仓分层，数仓主题，数据建模。

overfit同步小助手 2024-08-15 21:03:38 0 收藏

学习大数据DAY35 利用 echarts 的开源图表和 python 异常处理优化网站

经过4天的早九晚八豆瓣开发，我又一次感受到了程序员的不容易，这都是想从事IT行业要经历的。测试添加电影类型的编号，整数（系统异常）及正整数（自定义异常）显示统计报表：统计各分数的数量，使用柱状图和饼状图分别实现。注：录制豆瓣网完整视频传到班级微信群。可以根据需要自行选择需要的模版。根据自己选择的模版

overfit同步小助手 2024-08-15 18:04:37 0 收藏

大数据-63 Kafka 高级特性分区副本机制宕机恢复 Leader选举

上节完成kafka-topics基本参数和使用，涉及创建、查看、修改等等内容。本节学习Kafka的高级特性：分区，包含副本机制、宕机恢复、Leader的选举。副本之间的关系并不是固定不变的，在Leader所在的Broker发生故障的时候，就需要进行分区的Leader副本和Follower副本之间的切

overfit同步小助手 2024-08-15 18:03:55 0 收藏

大数据-67 Kafka 高级特性分区分配策略 Ranger、RoundRobin、Sticky、自定义分区器

上节Kafka高级特性分区-副本数量调整，业务中遇到副本调整需求，但是无法直接修改，需要JSON+脚本的方式来进行配置。本节分区-分区策略，有Ranger、RoundRobin、Sticky等策略，最后实现自定义分区器。需要实现org.apache.kafka.clients.consumer.in

overfit同步小助手 2024-08-15 16:03:23 0 收藏