大数据 - overfit.cn

Flink端到端的精确一次（Exactly-Once）

Flink端到端的精确一次。

overfit同步小助手 2024-06-16 07:04:06 0 收藏

基于flink-clients的微服务大数据采集系统设计

胡弦，视频号2023年度优秀创作者，互联网大厂P8技术专家，Spring Cloud Alibaba微服务架构实战派(上下册)和RocketMQ消息中间件实战派(上下册)的作者，资深架构师，技术负责人，极客时间训练营讲师，四维口袋KVP最具价值技术专家，技术领域专家团成员，2021电子工业出版社年度

overfit同步小助手 2024-06-16 04:03:59 0 收藏

Flink 实时数仓（一）【实时数仓&离线数仓对比】

实时数仓和离线数仓的对比

overfit同步小助手 2024-06-16 04:03:49 0 收藏

「Kafka」Broker篇

Kafka存储数据、Zookeeper 在 Kafka 中的作用、Broker 总体工作流程、节点服役和退役、Kafka 副本 Leader 选举、Leader 和 Follower 故障处理细节、文件存储、高效读写等。

overfit同步小助手 2024-06-16 04:03:41 0 收藏

安装Kibana，kibana的使用教程

Kibana是一个针对ElasticSearch的开源分析及可视化平台，用来搜索、查看交互存储在ElasticSearch索引中的数据。使用Kibana，可以通过各种图表进行高级数据分析及展示。Kibana让海量数据更容易理解。它操作简单，基于浏览器的用户界面可以快速创建仪表板（dashboard）

overfit同步小助手 2024-06-16 03:03:50 0 收藏

Kafka安全性与访问控制

Kafka安全性与访问控制1.背景介绍Apache Kafka是一个分布式流处理平台,被广泛应用于大数据领域。随着越来越多的企业采用Kafka作为关键的数据管道,确保Kafka的安全性和访问控制变得至关重要。本文将深入探讨Kafka安全性和访问控制的核心概念、实现原理和最佳实践。

overfit同步小助手 2024-06-16 02:03:47 0 收藏

Flink Async I_O原理与代码实例讲解

Flink Async I/O 原理与代码实例讲解1. 背景介绍在现代数据处理系统中,I/O操作通常是性能瓶颈之一。传统的同步I/O方式会导致大量线程阻塞,浪费系统资源。Apache Flink 通过异步I/O模型来解决这一问题,提高系统的吞吐量和资源利用率。

overfit同步小助手 2024-06-16 02:03:36 0 收藏

【大数据篇】Spark转换算子（Transformations）和行动算子（Actions）详解

Apache Spark 提供了大量的算子（操作），这些算子大致可以分为两类：转换算子（Transformations）和行动算子（Actions）。转换算子用于创建一个新的RDD，而行动算子则对RDD进行操作并产生结果。

overfit同步小助手 2024-06-15 22:03:52 0 收藏

Flink｜checkpoint 超时报错问题处理（FlinkRuntimeException）

Flink 的 checkpoint 的超时时间时 600 秒，但是这个任务需要 11 分钟才能完成。另一方面也可能是因为线上运行时，对 MySQL 请求时走的是内网请求，而本地运行走的是外网请求。为了评估一个 Flink 程序的处理效果，我使用本地模式启动了 Flink 程序，并在上游表中一次性插

overfit同步小助手 2024-06-15 21:03:52 0 收藏

Outlook备份与Archive

1. 先备份邮件文件：File -> Open&Export -> Import/Export -> Export to a file -> Next ->Outlook Data file (.pst) ->Next ->OK。2. Archive设置：File ->Tools ->Cleanup

overfit同步小助手 2024-06-15 21:03:45 0 收藏

云计算、大数据、人工智能、物联网、虚拟现实技术、区块链技术

ChatGPT是一种由OpenAI训练的大型语言模型。它的原理是基于Transformer架构，通过预训练大量文本数据来学习如何生成人类可读的文本，然后通过接受输入并生成输出来实现对话。ChatGPT的用途非常广泛，可以用于自然语言处理（NLP）任务，如对话生成、问答系统、文本生成等。如果你想使用C

overfit同步小助手 2024-06-15 21:03:22 0 收藏

从零开始学Spring Boot系列-集成Kafka

Apache Kafka是一个开源的分布式流处理平台，由LinkedIn公司开发和维护，后来捐赠给了Apache软件基金会。Kafka主要用于构建实时数据管道和流应用。它类似于一个分布式、高吞吐量的发布-订阅消息系统，可以处理消费者网站的所有动作流数据。这种动作流数据包括页面浏览、搜索和其他用户的行

overfit同步小助手 2024-06-15 20:03:54 0 收藏

hive图形化客户端工具

并且重启hive服务时，要以root用户登录，使用命令 hive --service hiveserver2 启动hive服务。hive部署完成后，路径$HIVE_HOME/jdbc/hive-jdbc-3.1.3-standalone.jar有有完整的hive的jdbc驱动，直接使用即可。dbea

overfit同步小助手 2024-06-15 20:03:44 0 收藏

Flink系列之：Flink SQL Gateway

SQL Gateway 捆绑在常规 Flink 发行版中，因此可以开箱即用。它只需要一个正在运行的Flink集群，可以在其中执行表程序。根据端点的类型，用户可以使用不同的实用程序进行连接。凭借灵活的架构，用户可以通过调用来启动具有指定端点的SQL Gateway。注意：如果 Flink 配置文件中还

overfit同步小助手 2024-06-15 20:03:21 0 收藏

数据仓库—建模方法论—纬度建模星型模型与雪花模型

综上所述，星型模型适用于简单的分析需求和对查询性能有较高要求的场景，而雪花模型适用于复杂的业务需求和对存储空间和灵活性有较高要求的场景。可以发现数据仓库大多数时候是比较适合使用星型模型构建底层数据Hive表，通过大量的冗余来提升查询效率，星型模型对OLAP的分析引擎支持比较友好，这一点在Kylin中

overfit同步小助手 2024-06-15 19:03:49 0 收藏

【Hadoop大数据技术】——Hive数据仓库（学习笔记）

Hive起源于Facebook，Facebook公司有着大量的日志数据，而Hadoop是实现了MapReduce模式开源的分布式并行计算的框架，可轻松处理大规模数据。然而MapReduce程序对熟悉Java语言的工程师来说容易开发，但对于其他语言使用者则难度较大。因此Facebook开发团队想设计一

overfit同步小助手 2024-06-15 19:03:35 0 收藏

Flinkcdc监测mysql数据库，自定义反序列化，利用flinkApi和flinkSql两种方式

CDC (Flink Change Data Capture)（Flink中改变数据捕获）是基于数据库的日志 CDC 技术，实现了全增量一体化读取的数据集成框架。搭配Flink计算框架，Flink CDC 可以高效实现海量数据的实时集成。改变你们的一个误区，cdc只有检测功能，不能对数据库中的数据

overfit同步小助手 2024-06-15 19:03:32 0 收藏

Hive切换引擎(MR、Tez、Spark)

hive切换计算引擎 mr tez spark

overfit同步小助手 2024-06-15 18:03:36 0 收藏

kettle从入门到精通第五十三课 ETL之kettle MQTT/RabbitMQ consumer实战

其实这里的topic是RabbitMQ中的routing key（另外这里的routing key 一定不要绑定队列，否则MQTT consumer步骤无法接收数据）。指定此步骤将连接的 MQTT 服务器的地址，如127.0.0.1:1883（注意这里的端口是1883，不是5672）在每收集到‘X’

overfit同步小助手 2024-06-15 18:03:33 0 收藏

Hadoop搭建

Hadoop是一个开源的、可运行与Linux集群上的分布式计算平台，用户可借助Hadoop存有基础环境的配置（虚拟机安装、Linux安装等），Hadoop集群搭建，配置和测试。

overfit同步小助手 2024-06-15 17:03:50 0 收藏