大数据 - overfit.cn

Hadoop 面试题（六）

1. 简述Google三驾马车是Hadoop等分布式系统的基石，其中论文()不属于三驾马车之一？2. 简述现有一个安装 2.6.5 版本的 Hadoop 集群，在不修改默认配置的情况下，存储 200 个每个 200M 的文本文件，请问最终会在集群中产生多少个数据块（包括副本）？3. 假设有Had

overfit同步小助手 2024-08-13 22:03:47 0 收藏

Hadoop，ActiveMQ，RabbitMQ，Springboot Actuator未授权访问漏洞（附带修复方法）

Hadoop是⼀个由Apache基⾦会所开发的分布式系统基础架构，由于服务器直接在开放了Hadoop 机器 HDFS 的 50070 web 端⼝及部分默认服务端⼝，⿊客可以通过命令⾏操作多个⽬录下的数据，如进⾏删除，下载，⽬录浏览甚⾄命令执⾏等操作，产⽣极⼤的危害。在 Actuator 启⽤的情况

overfit同步小助手 2024-08-13 20:03:49 0 收藏

Flink 实时数仓（七）【DWS 层搭建（一）流量域汇总表创建】

Flink 实时数仓，流量域汇总表创建：流量域来源关键词粒度页面浏览各窗口汇总表，流量域版本-渠道-地区-访客类别粒度页面浏览各窗口汇总表

overfit同步小助手 2024-08-13 20:03:42 0 收藏

大数据计算模式之流处理和交互式计算

总结来说，交互式计算关注于对已有数据的快速查询和分析，以支持决策和探索；而流式计算则侧重于对实时数据流的即时处理，以捕捉数据中的瞬时变化和趋势，两者在大数据处理中扮演着互补的角色。日常工作中，我们一般会先把数据存储在表，然后对表的数据进行加工、分析。既然先存储在表中，那就会涉及到时效性概念。如果我们

overfit同步小助手 2024-08-13 17:03:51 0 收藏

大数据-74 Kafka 高级特性稳定性 - 控制器、可靠性副本复制、失效副本、副本滞后多图一篇详解

上节研究了Kafka的事务相关配置、幂等性、Java实现仅保证一次发送的方案等等。本节我们研究Kafka稳定性-控制器、可靠性副本复制、失效副本、副本滞后内容。Kafka集群包含若干个Broker，broker.id 指定broker的编号，编号不要重复。Kafka集群上创建的主题，包含若干个分区

overfit同步小助手 2024-08-13 17:03:16 0 收藏

69、Flink 的 DataStream Connector 之 Kafka 连接器详解

Flink 的 DataStream Connector 之 Kafka 连接器详解

overfit同步小助手 2024-08-13 16:03:33 0 收藏

基于大数据+爬虫的高校毕业生就业信息可视化系统设计与实现

今天带来的是高校毕业生就业信息可视化系统设计与实现，随着信息技术的迅猛发展，大数据已经渗透到各行各业，对就业市场也产生了深远的影响。高校毕业生作为就业市场的重要参与者，其就业信息的管理和匹配成为了一个亟待解决的问题。传统的就业信息管理方式往往存在数据分散、处理效率低下、信息匹配不准确等问题，难以满足

overfit同步小助手 2024-08-13 15:03:49 0 收藏

数据仓库: 2- 数据建模

星型模型是一种简单、高效的数据仓库设计模型, 使用与各种数据分析和商业智能应用;其易于理解、查询性能高和易于扩展的特性使其成为构建数据仓库的首选方案之一;雪花模型是一种数据库设计模型, 其中维度表被进一步规范化, 形成多层结构, 看起来像雪花的形状;事实表和维度表的设计是数据仓库建设的基础, 需要根

overfit同步小助手 2024-08-13 11:03:52 0 收藏

Python中高效处理大数据的几种方法

Pandas是Python中一个强大的数据分析库，提供了快速、灵活和表达式丰富的数据结构，旨在使“关系”或“标签”数据的处理既简单又直观。Pandas非常适合于处理表格数据，如CSV、Excel等。NumPy是Python的一个库，支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库

overfit同步小助手 2024-08-13 11:03:47 0 收藏

大数据中的电商数仓项目：探秘业务的核心

电商数仓系统不仅仅是一个数据存储和处理的系统，更是电商平台背后的“智慧大脑”。通过对海量数据的高效管理和深入分析，数仓系统为电商业务的各个环节提供了强有力的支持，让电商平台能够更加高效、精准地运营。在这个大数据时代，电商数仓的作用无疑是至关重要的。未来，随着技术的发展，电商数仓将会变得更加智能化和高

overfit同步小助手 2024-08-13 03:03:42 0 收藏

flink standalone部署模式

flink standalone

overfit同步小助手 2024-08-13 03:03:23 0 收藏

如何学习Linux：糙快猛的大数据之路（只讲大数据开发用到的）

想要快速掌握Linux和大数据技能？本文介绍"糙快猛"学习法，助你从入门到精通！涵盖Linux基础、Shell脚本、系统优化到Hadoop、Spark等大数据技术。通过实际案例和高级故障排除指南，让你迅速应对工作挑战。还有性能调优、容器化、监控日志等进阶主题，以及最新的边缘计算、服务网格技术。无论你

overfit同步小助手 2024-08-13 03:03:20 0 收藏

大数据架构：数据库、数据湖、数据仓库、数据集市、湖仓一体、数据中台

数据库、数据湖、数据仓库、数据集市、湖仓一体、数据中台

overfit同步小助手 2024-08-13 02:03:49 0 收藏

6、Flink Standalone-HA高可用集群模式

在 Zookeeper 的帮助下，一个 Standalone的Flink集群会同时有多个活着的 JobManager，其中只有一个处于工作状态，其他处于 Standby 状态。当工作中的 JobManager 失去连接后(如宕机或 Crash)，Zookeeper 会从 Standby 中选一个新的

overfit同步小助手 2024-08-12 19:03:47 0 收藏

大数据-70 Kafka 高级特性物理存储日志存储日志清理: 日志删除与日志压缩

上节完成Kafka的日志索引文件的解析，包含物理存储、消息偏移、偏移量存储的内容。本节研究物理存储中日志存储的：日志清理中的日志删除和日志压缩的方式。比如，我们在Spark、Flink中做实时计算时，需要在内存中维护一些数据，这些数据可能是通过聚合了一天或者一周的日志得到的，这些数据一旦由于异常（内

overfit同步小助手 2024-08-12 18:03:52 0 收藏

Spark-第一周

Spark 应用程序作为集群上独立的进程集运行，由SparkContext 主程序（称为驱动程序）中的对象进行协调。具体来说，为了在集群上运行，SparkContext 可以连接到多种类型的集群管理器（Spark 自己的独立集群管理器、Mesos、YARN 或 Kubernetes），这些集群管理

overfit同步小助手 2024-08-12 18:03:25 0 收藏

【一文了解大数据及数据要素，浅说隐私计算、联邦学习】

区分大数据，数据要素，隐私计算等基础概念

overfit同步小助手 2024-08-12 17:03:50 0 收藏

基于Hadoop的超市进货推荐系统设计与实现【springboot案例项目】

基于Hadoop的超市进货推荐系统旨在优化超市商品库存管理和采购流程。该系统利用Hadoop的强大数据处理能力，通过大数据分析和机器学习算法，对超市的销售数据、顾客行为及市场趋势进行深入分析。系统可以为超市管理者提供智能的商品进货建议，预测不同商品的需求量，从而帮助超市减少库存积压和缺货情况。系统还

overfit同步小助手 2024-08-12 15:03:44 0 收藏

Flink-DataWorks第五部分：数据开发（第61天）

本文主要详解了DataWorks的数据开发（后续），为第五部分：由于篇幅过长，分章节进行发布。后续： 数据运维

overfit同步小助手 2024-08-12 15:03:34 0 收藏

Flink 实时数仓（九）【DWS 层搭建（三）交易域汇总表创建】

Flink 实时数仓，DWS 层搭建，旁路缓存、异步IO读取维表来查询优化

overfit同步小助手 2024-08-12 13:03:28 0 收藏