大数据 - overfit.cn

Flink1.17实战教程（第七篇：Flink SQL）

1）创建数据库（1）语法（2）案例2）查询数据库（1）查询所有数据库（2）查询当前数据库3）修改数据库4）删除数据库RESTRICT：删除非空数据库会触发异常。默认启用CASCADE：删除非空数据库也会删除所有相关的表和函数。5）切换当前数据库系统函数尽管庞大，也不可能涵盖所有的功能；如果有系统函数

overfit同步小助手 2024-02-04 20:03:32 0 收藏

RabbitMQ之Window中安装配置与使用

overfit同步小助手 2024-02-04 17:03:50 0 收藏

hiveSql解析DolphinScheduler调度系统7位crontab表达式

先说下我们数仓大致的数据链路。各个业务系统的数据库 -> hive -> doris -> 报表/邮件/系统hive里ods层几乎所有的数据都依赖于从业务库拉取，但是偶尔也难以避免的会遇到拉取失败或者集群（主要是业务库）宕机的情况，导致ods层数据大批量的拉取失败，从而影响到dwd层、dws层、ad

overfit同步小助手 2024-02-04 15:03:32 0 收藏

Hive权限管理

基于存储的授权 - 可以对Metastore中的元数据进行保护，但是没有提供更加细粒度的访问控制（例如：列级别、行级别）。基于SQL标准的Hive授权 - 完全兼容SQL的授权模型，推荐使用该模式。hive默认授权 - 设计目的仅仅只是为了防止用户产生误操作，而不是防止恶意用户访问未经授权的数据。

overfit同步小助手 2024-02-04 14:03:46 0 收藏

Apache Flink中keyBy三种方式指定key

overfit同步小助手 2024-02-04 13:03:45 0 收藏

RabbitMQ 参数配置说明

【代码】RabbitMQ 参数配置说明。

overfit同步小助手 2024-02-04 13:03:32 0 收藏

CentOS安装kafka单机部署

1.解压kafka压缩包# 当前机器在集群中的唯一标识，和zookeeper的myid性质一样# 套接字服务器监听的地址。如果没有配置，主机名将等于的值# 当前kafka对外提供服务的端口默认是9092port=9092# 这个是borker进行网络处理的线程数# 这个是borker进行I/O处理的

overfit同步小助手 2024-02-04 13:03:27 0 收藏

Zookeeper与Eureka集成

1.背景介绍Zookeeper和Eureka都是分布式系统中常用的组件，它们各自具有不同的功能和应用场景。Zookeeper是一个开源的分布式协调服务，用于管理分布式应用程序的配置、服务发现、集群管理等功能。Eureka则是一个开源的服务发现平台，用于在微服务架构中自动发现和调用服务。在现代分布式系

overfit同步小助手 2024-02-04 12:03:53 0 收藏

【美团】交易系统平台-数据仓库研发工程师

更新时间：2024/01/28｜工作地点：北京市｜事业群：到家事业群｜工作经验：3年到家研发平台秉承“零售+科技”战略，致力于推动餐饮、零售需求侧和供给侧数字化升级，构建了超大规模的在线交易平台和实时调度系统，保障了百万商家和亿级用户的高效安全交易，实现了对百万骑手所在物理世界全链路的数字化。随着万

overfit同步小助手 2024-02-04 12:03:33 0 收藏

深入了解 Flink 的检查点机制

1.背景介绍Flink 是一个流处理框架，用于实时数据处理。检查点(checkpoint)机制是 Flink 的一个核心组件，用于保证流处理作业的可靠性和容错性。在这篇文章中，我们将深入了解 Flink 的检查点机制，涵盖其核心概念、算法原理、实例代码以及未来发展趋势。1.1 Flink 的检查点机

overfit同步小助手 2024-02-04 12:03:19 0 收藏

删除Kafka的Topic（提示：marked for deletion）

kafka存储目录由"server.properties"文件中的"log.dirs"参数指定，默认为"/tmp/kafka-logs"。删除topic时标记删除marked for deletion但未真正的删除。4.继续操作，通过zookeeper客户端zkCli.sh删除。5.查看topics

overfit同步小助手 2024-02-04 11:03:52 0 收藏

flink如何写入es

Flink sink流数据到es5和es7的简单示例。flink写入es5和es7 的区别是引入不同的flink-connector-elasticsearch,es7已没有type的概念故无需再设置type。

overfit同步小助手 2024-02-04 11:03:44 0 收藏

Spark

可以使用persist()方法将一个RDD标记为持久化。之所以说“标记为持久化”，是因为出现persist()语句的地方，并不会马上计算生成RDD并把它持久化，而是要等到遇到第一个Action操作触发真正计算以后，才会把计算结果进行持久化。中的data用来指定创建DataFrame对象的数据，可以是

overfit同步小助手 2024-02-04 11:03:25 0 收藏

Python网络爬虫实战——实验8：Python爬虫项目部署与kafka消息队实战

根据环境变量 ‘django_env’ 的值选择 Kafka 服务器地址，如果 ‘django_env’ 的值为’production’，则使用 192.168.0.151:9092否则，使用 192.168.0.228:9092。连接成功后，点击Mappings配置路径映射，local path

overfit同步小助手 2024-02-04 10:03:44 0 收藏

kafka的基本使用--学习笔记

kafka基本使用，消息队列解释，以及使用kafka写入数据的方式

overfit同步小助手 2024-02-04 10:03:35 0 收藏

数据仓库与Hadoop：如何实现大规模数据处理

1.背景介绍数据仓库和Hadoop都是处理大规模数据的重要技术，它们在现代数据科学和人工智能中发挥着至关重要的作用。数据仓库是一种用于存储和管理大量历史数据的系统，主要用于数据分析和报告。而Hadoop是一个开源的分布式文件系统和数据处理框架，主要用于处理大规模、分布式的实时数据。在本文中，我们将深

overfit同步小助手 2024-02-04 09:03:24 0 收藏

RabbitMQ问题总结

::info使用场景。

overfit同步小助手 2024-02-04 08:03:43 0 收藏

[hive] sql中distinct的用法和注意事项

在 Hive SQL 中，DISTINCT用于去重查询结果中的行。它返回唯一的行，消除结果集中的重复项。以下是DISTINCT。

overfit同步小助手 2024-02-04 07:03:24 0 收藏

Spark的内核调度

本文介绍了Spark的内核调度中的RDD的依赖,DAG有向无环图的形成和Stage的划分,以及Stage内部流程,还有Spark Shuffle的发展历程Hash Shuffle和Sort Shuffle,还包含了Job的调度流程,以及Spark RDD的并行度

overfit同步小助手 2024-02-04 06:03:46 0 收藏

消息队列-RabbitMQ（一）

rabbirMq

overfit同步小助手 2024-02-04 06:03:38 0 收藏