sparkSQL解析json格式数据相关操作

sparkSQL解析json格式数据相关操作

大数据Hadoop之——Apache Hudi 与 Presto/Trino集成

Apache Hudi是一个快速增长的数据湖存储系统,可帮助组织构建和管理PB级数据湖。Hudi通过引入诸如升序、删除和增量查询之类的原语,将流式处理引入到批处理式大数据中。这些功能有助于在统一服务层上更快、更新鲜的数据。Hudi表可以存储在Hadoop分布式文件系统(HDFS)或云存储上,并与流行

Zookeeper应用场景

ZooKeeper是一个典型的发布/订阅模式的分布式数据管理与协调框架,我们可以使用它来进行分布式数据的发布与订阅。另一方面,通过对ZooKeeper中丰富的数据节点类型进行交叉使用,配合Watcher事件通知机制,可以非常方便地构建一系列分布式应用中都会涉及的核心功能,如数据发布/订阅、命名服务、

认识DataX及简单入门

认识DataX及简单入门

Hive架构简述及工作原理

Hive是基于Hadoop的一个数据仓库管理工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL(HQL)查询功能。本质是将SQL转换为MapReduce程序(默认)。直接使用Hadoop MapReduce处理数据所面临的问题: 学习成本高,MapReduce实现复杂查询功能开发难度大,

有关flink数据消费速度的问题

1、反压产生的场景反压经常出现在促销、热门活动等场景。短时间内流量陡增造成或者。Flink会因为数据堆积和处理速度变慢超时,而checkpoint是Flink保证数据一致性的关键所在,最终会。

RabbitMQ集群部署教程(Linux)

RabbitMq集群部署&&配置SSL证书

FlinkSQL-- sql-client及源码解析 -- flink-1.13.6

flink sql client及源码解析

Elasticsearch:高级数据类型介绍

在本文中,我们学习了高级数据类型,如 object、nested、flattened 以及其他如 geo_point 和 search_as_you_type。有关其他数据类型的更多详细信息以及深入的讨论和代码示例,请详细参阅 “Elastic:开发者上手指南。

hive源码之get_json_object

大家好,我是老六。在数据开发中,我们有大量解析json串的需求,我们选用的UDF函数无非就是:get_json_object和json_tuple。但是在使用get_json_object函数过程中,老六发现get_json_object无法解析key为中文的key:value对。带着这个问题,老六

什么是数据治理?

本文认真地辨析了数据治理、数据管理的概念,并说明了在国内语境下,数据治理与数据管理的使用习惯。

Java(100):Java操作elasticsearch增删查(按条件查删)(RestHighLevelClient)

Java操作ES增删查(RestHighLevelClient)

HDFS架构概述

HDFS架构概述

【学习记录】SPSS问卷调查表分析法

SPSS问卷调查分析:以“生物医学工程(中外合作办学)对人才培养调查结果分析”为例

Hadoop集群的部署,安装和管理(头歌)

我们已经掌握了 Hadoop 单节点的安装与部署,那么分布式集群怎么搭建呢?接下来我们学习 Hadoop 分布式集群搭建。

clickhouse使用clickhouse-keeper代替zookeeper

clickhouse进入只读模式,使用clickhouse-keeper代替zookeeper

Groovy的规则脚本引擎实战

Groovy的规则脚本引擎实战

【笔记】使用Twitter API V2进行数据爬取的经验总结

这篇笔记主要是基于自己使用API过程中遇到的问题以及不断的尝试形成的经验总结,欢迎大家参考和交流

【2023】Prometheus-相关知识点(面试点)

整理了一些prometheus相关的知识点,面试点

一文告诉你什么是财务数据治理?

干货满满!

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈