大数据 - overfit.cn

Spark RDD结课总结

生成的RDD中保存的是T的值，Seq[String]部分的数据会按照Seq[(T,Seq[String])]的顺序存放到各个分区中，一个Seq[String]对应存放至一个分区，并为数据提供位置信息，通过preferredLocations()方法可以根据位置信息查看每一个分区的值。reduceBy

overfit同步小助手 2024-07-30 03:03:51 0 收藏

ZooKeeper 搭建详细步骤之二（伪集群模式）

ZooKeeper 伪集群是指在一个单一的物理或虚拟机环境中模拟出一个由多个 ZooKeeper 节点构成的集群。尽管这些节点实际上运行在同一台机器上，但它们通过配置不同的端口、数据目录和配置文件，以模拟在真实分布式环境下不同服务器上运行的效果。

overfit同步小助手 2024-07-29 22:03:33 0 收藏

CDH6.3.2之升级spark-3.3.1

CDH中Spark默认版本2.4.0，我们对Hive升级到3.1.3版本，由于并未找到对应的 spark-hive 包，于是尝试使用Spark-3.3.1。spark3.3.1 for CDH6.3.2 包下载链接。

overfit同步小助手 2024-07-29 21:03:52 0 收藏

大数据SQL题47 打车问题

注：不同时段定义：早高峰 [07:00:00 , 09:00:00)、工作时间 [09:00:00 , 17:00:00）、晚高峰 [17:00:00 ,20:00:00）、休息时间 [20:00:00 , 07:00:00）时间区间左闭右开（即7:00:00算作早高峰，而9:00:00不算做早高

overfit同步小助手 2024-07-29 18:03:35 0 收藏

kafka 常用命令

Kafka 基本的使用命令总结。

overfit同步小助手 2024-07-29 17:03:47 0 收藏

编排微服务交响曲：Eureka在分布式容器编排中的妙用

通过本文的详细步骤和代码示例，你应该能够理解如何在Eureka中实现服务的分布式容器编排。Eureka的服务发现能力为容器编排提供了坚实的基础，使得服务的注册、发现、健康检查和负载均衡变得更加智能和自动化。在微服务的浪潮中，Eureka与容器编排工具的结合，为分布式系统的稳定运行提供了强大的支持。希

overfit同步小助手 2024-07-29 13:03:35 0 收藏

未来智能生态：大数据与AI融合的新纪元

大数据与AI的融合，正推动着智能生态网络进入一个新的纪元。物联网（IoT）、大数据、人工智能（AI）和区块链等前沿技术的融合，不仅改变了人们的生活方式，也在深刻地影响着各行各业的发展轨迹。医疗设备和可穿戴设备采集患者的健康数据，AI分析这些数据，提供个性化的健康建议和诊疗方案。传感器和无人机采集土壤

overfit同步小助手 2024-07-29 10:03:35 0 收藏

湖仓一体架构解析：数仓架构选择（第48天）

本文解析了Lambda 架构，Kappa 架构，以及在大数据场景中，如何选择架构。

overfit同步小助手 2024-07-29 09:01:59 0 收藏

如何学习Presto：糙快猛的大数据之路（建立整体框架）

想要快速掌握Presto这个强大的分布式SQL查询引擎吗？我们的"糙快猛"学习指南带你从入门到精通！本文涵盖Presto基础知识、核心概念、高级特性和实际应用场景。无论你是大数据新手还是经验丰富的开发者，都能在这里找到有价值的内容。从基本SQL查询到性能优化，从跨源数据分析到未来趋势，我们都有详细讲

overfit同步小助手 2024-07-29 07:03:39 0 收藏

Elastic 及阿里云 AI 搜索 Tech Day 将于 7 月 27 日在上海举办

参加 Elastic 原厂与阿里云联合举办的 Generative AI 技术交流分享日。借助 The Elastic Search AI Platform，使用开放且灵活的企业解决方案，以前所未有的速度获得搜索最相关的结果。借助强大搜索功能和生成式 AI 的合力，加速商业转化和业务成果。

overfit同步小助手 2024-07-29 07:01:37 0 收藏

Flink SQL kafka连接器

overfit同步小助手 2024-07-29 04:03:47 0 收藏

Kylin系列（十一）安全与权限管理：保护你的 Kylin 数据

在现代数据驱动的企业环境中，数据安全和权限管理变得越来越重要。Kylin作为一个强大的OLAP引擎，其安全性和权限管理对于保护数据和确保合规性至关重要。本篇文章将深入探讨Kylin的安全与权限管理，包括用户认证、权限分配、数据加密以及最佳实践。

overfit同步小助手 2024-07-29 03:07:19 0 收藏

大数据与人工智能：数据隐私与安全的挑战

1.背景介绍随着人工智能(AI)和大数据技术的不断发展，我们的生活、工作和社会都在不断变化。这些技术为我们提供了许多好处，但同时也带来了一系列挑战，其中数据隐私和安全是最为关键的之一。数据隐私和安全问题的出现，主要是因为大数据技术的特点和人工智能算法的运行过程。大数据技术的特点包括数据量的庞大、数据

overfit同步小助手 2024-07-29 00:07:08 0 收藏

Flink中定时器的使用

我们在其processElement()方法中注册Timer，然后覆写其onTimer()方法作为Timer触发时的回调逻辑。基于处理时间或者事件时间处理过一个元素之后，注册一个定时器，然后在指定的时间运行。监控水位传感器的水位值，如果水位值在（处理时间）5秒内连续上上，则报警。当水位线大于等于定时

overfit同步小助手 2024-07-28 14:03:56 0 收藏

spark运行的基本流程

Stage的DAG通过最后执行Stage为根进行广度优先遍历，遍历到最开始执行的Stage执行，如果提交的Stage仍有未完成的父母Stage，则Stage需要等待其父Stage执行完才能执行。我们都知道， spark计算模型是在分布式的环境下计算的，这就不可能在单进程空间中容纳所有的计算数

overfit同步小助手 2024-07-28 11:03:20 0 收藏

大数据期末复习——hadoop、hive等基础知识

Hadoop提供了高可用性的解决方案，如HDFS的NameNode HA(高可用性)机制和VARN的ResourceManager HA机制，确保即使在节点故障的情况下，集群仍能保持高可用性，不影响作业的执行。2）Flume：Flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统

overfit同步小助手 2024-07-28 10:03:51 0 收藏

Stable Diffusion【真人模型】：SD1.5人像模型新高度，超级逼真的AI真人模型：AWPortaint

今天和大家分享一个基于SD1.5基础模型训练的人像大模型AWPortrait。该模型在真人写实摄影方面效果超级逼真，能够模拟在真实摄影中的光影效果、皮肤纹理质感、甚至是人物的表情和妆容。目前最新的版本是V1.4，在V1.3版本的基础上升级而来，对大模型进行了更新。（1）最新版本基于1.3训练更新升级

overfit同步小助手 2024-07-28 10:01:35 0 收藏

Flink集群搭建教程最详细最简单一看就会

Flink集群搭建

overfit同步小助手 2024-07-28 08:04:14 0 收藏

大数据在网约车行业应用（46天）

大数据在网约车行业应用

overfit同步小助手 2024-07-28 08:03:41 0 收藏

Flink-CDC解析（第47天）

本文主要概述了Flink-CDC

overfit同步小助手 2024-07-28 08:03:34 0 收藏