大数据 - overfit.cn

sparkSQL解析json格式数据相关操作

overfit同步小助手 2023-04-03 05:04:38 0 收藏

大数据Hadoop之——Apache Hudi 与 Presto/Trino集成

Apache Hudi是一个快速增长的数据湖存储系统，可帮助组织构建和管理PB级数据湖。Hudi通过引入诸如升序、删除和增量查询之类的原语，将流式处理引入到批处理式大数据中。这些功能有助于在统一服务层上更快、更新鲜的数据。Hudi表可以存储在Hadoop分布式文件系统（HDFS）或云存储上，并与流行

overfit同步小助手 2023-04-03 05:04:31 0 收藏

Zookeeper应用场景

ZooKeeper是一个典型的发布/订阅模式的分布式数据管理与协调框架，我们可以使用它来进行分布式数据的发布与订阅。另一方面，通过对ZooKeeper中丰富的数据节点类型进行交叉使用，配合Watcher事件通知机制，可以非常方便地构建一系列分布式应用中都会涉及的核心功能，如数据发布/订阅、命名服务、

overfit同步小助手 2023-04-03 05:04:28 0 收藏

认识DataX及简单入门

overfit同步小助手 2023-04-03 05:04:24 0 收藏

Hive架构简述及工作原理

Hive是基于Hadoop的一个数据仓库管理工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL（HQL）查询功能。本质是将SQL转换为MapReduce程序（默认）。直接使用Hadoop MapReduce处理数据所面临的问题：学习成本高，MapReduce实现复杂查询功能开发难度大，

overfit同步小助手 2023-04-03 05:04:21 0 收藏

有关flink数据消费速度的问题

1、反压产生的场景反压经常出现在促销、热门活动等场景。短时间内流量陡增造成或者。Flink会因为数据堆积和处理速度变慢超时，而checkpoint是Flink保证数据一致性的关键所在，最终会。

overfit同步小助手 2023-04-03 04:05:28 0 收藏

RabbitMQ集群部署教程（Linux）

RabbitMq集群部署&&配置SSL证书

overfit同步小助手 2023-04-03 04:05:21 0 收藏

FlinkSQL-- sql-client及源码解析 -- flink-1.13.6

flink sql client及源码解析

overfit同步小助手 2023-04-03 04:05:18 0 收藏

Elasticsearch：高级数据类型介绍

在本文中，我们学习了高级数据类型，如 object、nested、flattened 以及其他如 geo_point 和 search_as_you_type。有关其他数据类型的更多详细信息以及深入的讨论和代码示例，请详细参阅 “Elastic：开发者上手指南。

overfit同步小助手 2023-04-03 04:05:14 0 收藏

hive源码之get_json_object

大家好，我是老六。在数据开发中，我们有大量解析json串的需求，我们选用的UDF函数无非就是：get_json_object和json_tuple。但是在使用get_json_object函数过程中，老六发现get_json_object无法解析key为中文的key:value对。带着这个问题，老六

overfit同步小助手 2023-04-03 04:05:11 0 收藏