大数据 - overfit.cn

HADOOP的配置

hadoop的配置详解

overfit同步小助手 2024-01-23 18:03:53 0 收藏

什么是HBase？终于有人讲明白了

在 HBase 表中，一条数据拥有一个全局唯一的键(RowKey)和任意数量的列(Column)，一列或多列组成一个列族(Column Family)，同一个列族中列的数据在物理上都存储在同一个 HFile 中，这样基于列存储的数据结构有利于数据缓存和查询。HBase Client 为用户提供了访问

overfit同步小助手 2024-01-23 12:03:46 0 收藏

2023年大数据场景智能运维实践总结

本文将探讨在大数据场景下，通过DataOps和AIOps的结合，建设符合业务需要的智能运维平台，以满足大数据产品在自动化、智能化运维方面的诉求。

overfit同步小助手 2024-01-23 11:03:47 0 收藏

Flink（十三）【Flink SQL（上）SqlClient、DDL、查询】

Flink SQL sql-client、DDL语句、查询语句

overfit同步小助手 2024-01-23 10:03:45 0 收藏

【flink番外篇】9、Flink Table API 支持的操作示例（1）-完整版

一、Flink 专栏Flink 专栏系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分，比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。

overfit同步小助手 2024-01-23 08:03:42 0 收藏

【大数据】Zookeeper 数据写入与分布式锁

无论是 Zookeeper 自带的客户端 zkCli.sh，还是使用 Python（或者其它语言）实现的客户端，本质上都是连接至集群，然后往里面读写数据。那么问题来了，集群在收到来自客户端的写请求时，是怎么写入数据的呢？

overfit同步小助手 2024-01-23 07:03:44 0 收藏

深入理解 Flink（四）Flink Time+WaterMark+Window 深入分析

Event Time + WaterMark 是 Flink 处理乱序数据的有效机制，本章节将深入分析 Flink 的 Time 与 WaterMark，使读者对其有更为深刻的理解。

overfit同步小助手 2024-01-23 04:03:40 0 收藏

国家急救日倡议活动暨120急救大课堂公益培训在京成功举办

随后，北京急救中心与香港医疗健康学会签署急救培训战略合作协议仪式，包括学术交流、讲师认证、急救培训三部分。该倡议书建议将每年1月20日设立为“国家急救日”，以推动社会广泛关注急救，加强城乡专业急救体系建设，提升社会急救能力，促进我国急救体系不断完善，为“健康中国”保驾护航。最高人民检察院“益心为公”

overfit同步小助手 2024-01-23 01:06:25 0 收藏

大数据工作岗位需求分析

随着大数据需求的增多，许多中小公司和团队也新增或扩展了大数据工作岗位；但是却对大数据要做什么和能做什么，没有深入的认识；往往是招了大数据岗位，搭建起基础能力后，就一直处于重复开发和任务运维的状态；后续大数据人员也做了其他很多工作，仿佛什么都在做，就是不知道集中精力该往哪个方向努力。本文从基础大数据开

overfit同步小助手 2024-01-23 01:03:40 0 收藏

大数据---34.HBase数据结构

Region是HBase数据管理的基本单位，每个HRegion由多个Store构成，每个Store保存一个列族（Columns Family），表有几个列族，则有几个Store，每个Store由一个MemStore和多个StoreFile组成，MemStore是Store在内存中的内容，写到文件后就

overfit同步小助手 2024-01-23 01:03:37 0 收藏

大数据Doris（四十七）：Doris的动态分区介绍

根据 time_unit 属性的不同，以当天（星期/月）为基准，分区范围在此偏移之前的分区将会被删除。在某些使用场景下，用户会将表按照天进行分区划分，每天定时执行例行任务，这时需要使用方手动管理分区，否则可能由于使用方没有创建分区导致数据导入失败，这给使用方带来了额外的维护成本。动态分区的时区，如果

overfit同步小助手 2024-01-23 00:03:43 0 收藏

Spark-RDD详解

rdd中封装了各种算子方便进行计算，主要分为两类转化算子对rdd数据进行转化计算得到新的rdd，定义了一个线程任务action执行算子触发计算任务，让计算任务进行执行，得到结果触发线程执行的。

overfit同步小助手 2024-01-22 21:03:49 0 收藏

Zookeeper的集群健康监测与报警

1.背景介绍Zookeeper是一个开源的分布式协调服务，用于构建分布式应用程序的基础设施。它提供了一组简单的原子性操作来管理分布式应用程序的数据，并确保数据的一致性。Zookeeper的核心功能包括：集群管理：Zookeeper可以管理一个集群中的节点，并确保集群中的节点数量始终保持在预定的数量内

overfit同步小助手 2024-01-22 18:03:33 0 收藏

大数据数仓建模基础理论【维度表、事实表、数仓分层及示例】

数据仓库建模（Data Warehouse Modeling）是指在数据仓库（Data Warehouse）中组织和设计数据的过程，以便支持数据分析、报告和决策制定。数据仓库是一个集成的、主题导向的数据存储，用于存储来自不同来源的数据，经过清洗、转换和集成，以支持业务分析和决策。主要目标是创建一个能

overfit同步小助手 2024-01-22 16:03:55 0 收藏

【flink番外篇】13、Broadcast State 模式示例（完整版）

系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分，比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和S

overfit同步小助手 2024-01-22 15:03:42 0 收藏

“五位一体”的业务安全体系

通过全链路的产品，分析操作者行为、习惯、环境、设备等，发现异常行为和异常特征。随着风险威胁的瞬息万变，企业需要建立一个覆盖全流程、多场景的、层层递进的、塔防式的防护体系。因此，一个完整的业务安全体系包含数据、特征、策略、模型、运营，五位一体，缺一不可。通过运用机器学习和数据挖掘等技术，可以对数据进行

overfit同步小助手 2024-01-22 13:07:23 0 收藏

Flink TaskManager内存管理机制介绍与调优总结

overfit同步小助手 2024-01-22 12:03:48 0 收藏

大数据开发之Hive（企业级调优）

创建测试用例1、建大表、小表和JOIN后表的语句2、分别向大表和小表中导入数据。

overfit同步小助手 2024-01-22 12:03:42 0 收藏

网约车大数据综合项目——数据分析Hive

【代码】网约车大数据综合项目——数据分析Hive。

overfit同步小助手 2024-01-22 11:03:13 0 收藏

大数据开发之Zookeeper

它负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些数据的状态发生变化，Zookeeper 就将负责通知这些已经在 Zookeeper 上注册的那些观察者做出相应的反应。

overfit同步小助手 2024-01-22 09:03:42 0 收藏