【湖仓一体尝试】MYSQL和HIVE数据联合查询

爬了两天大大小小的一堆坑,今天把一个简单的单机环境的流程走通了,记录一笔

Spark编程实验三:Spark SQL编程

本实验的目的是掌握Spark SQL的基本编程方法,熟悉RDD到DataFrame的转化方法,熟悉利用Spark SQL管理来自不同数据源的数据。

HIVE笔记

返回两个表中满足关联条件的记录。

Python量化投资——金融数据最佳实践: 使用qteasy+tushare搭建本地金融数据仓库并定期批量更新【附源码】

需要大量使用金融历史数据做量化交易的同学们看过来!使用qteasy量化交易工具包,只需要做简单的配置,就可以用几行代码将网上的大量金融数据统统下载到本地,建立一个本地数据仓库。股票、基金、指数、上市公司信息、财务报表、宏观经济。。。一应俱全!

算法毕业设计分享 基于大数据的b站数据分析

本文主要运用Python的第三方库SnowNLP对弹幕内容进行情感分析,使用方法很简单,计算出的情感score表示语义积极的概率,越接近0情感表现越消极,越接近1情感表现越积极。从数据可视化中可以看到,播放量排名前三的分别是生活类、动画类、鬼畜类,让人诧异的是以动漫起家的B站,播放量最多的视频分类竟

虚拟机安装单机hive以及简单使用hive

hive是我打算了解的有一个大数据方面的一个技术栈,上一篇介绍了Hadoop和hbase,有兴趣的朋友可以点击“文章”浏览,今天要介绍的hive也是要基于hadoop的,安装hive也要提前安装好hadoop。刚了解这块的朋友肯定就会疑问这三者之间的关系是什么呢,从我这段时间对它们的简单了解,我的理

Spark 基本知识介绍

spark基本概念理解

[spark] RDD, DataFrame和DataSet是什么?如何相互转化

简而言之,RDD 是最基本的抽象,DataFrame 是对结构化数据的更高层次抽象,而 Dataset 是在 DataFrame 基础上提供了类型安全性的扩展。在实际使用中,通常优先选择使用 DataFrame 或 Dataset,因为它们更适合进行结构化数据处理和利用 Spark 的优化能力。在

从零开始了解大数据(二):Hadoop篇

Hadoop是一个开源的分布式计算框架,主要用于处理大规模数据集。本文将介绍Hadoop集群的主要组成部分,包括HDFS分布式文件系统和YARN资源管理器,并探讨它们在大数据处理中的作用和功能。

【1-3章】Spark编程基础(Python版)

大数据技术概述、Spark设计与运行原理、Spark环境搭建和使用方法

为什么每一个爬虫工程师都应该学习 Kafka

上面描述的功能,实际上有不少 MQ 都能实现。但为什么是 Kafka 而不是其他呢?因为Kafka 集群的性能非常高,在垃圾电脑上搭建的集群能抗住每秒10万并发的数据写入量。而如果选择性能好一些的服务器,每秒100万的数据写入也能轻松应对。这篇文章通过两个例子介绍了 Kafka 在爬虫开发中的作用。

Flink cdc3.0同步实例(动态变更表结构、分库分表同步)

基于 Flink CDC 3.0 同步 MySQL 到 Doris ,来体验整库同步、表结构变更同步和分库分表同步等功能。

字节跳动 Spark 支持万卡模型推理实践

在云原生化的发展过程中 Kubernetes 由于其强大的生态构建能力和影响力,使得包括大数据、AI 在内越来越多类型的负载应用开始向 Kubernetes 迁移,字节内部探索 Spark 从 Hadoop 迁移到 Kubernetes 对作业的云原生化运行。字节跳动的大数据资源管理架构和 Spar

一百八十二、大数据离线数仓完整流程——步骤一、用Kettle从Kafka、MySQL等数据源采集数据然后写入HDFS

大数据离线数仓完整流程——步骤一、用Kettle从Kafka、MySQL等数据源采集数据然后写入HDFS

Hive DDL语法

Hive的语法和MySQL大部分都相同。

打包与解包:Go 中 archive 库的实战应用

经过对 Go 语言中archive库的深入探讨,我们了解了如何使用和进行文件的打包、压缩和解压缩。archive库作为 Go 标准库的一部分,为文件的打包和压缩处理提供了强大而灵活的工具,对于优化数据存储和传输具有重要意义。archive。

注册中心Eureka

注册中心Eureka

Kafka中的fetch-min-size、fetch-max-wait和request.timeout.ms配置

Kafka中的fetch-min-size和fetch-max-wait配置

SpringCloud 整合 Canal+RabbitMQ+Redis 实现数据监听

Canal 指的是阿里巴巴开源的数据同步工具,用于数据库的实时增量数据订阅和消费。它可以针对 MySQL、MariaDB、Percona、阿里云RDS、Gtid模式下的异构数据同步等情况进行实时增量数据同步。当前的 canal 支持源端 MySQL 版本包括 5.1.x , 5.5.x , 5.6.

大数据平台/大数据技术与原理-实验报告--部署ZooKeeper集群和实战ZooKeeper

在上步修改配置文件zoo.cfg中,将存放数据快照和事务日志的目录设置为目录data和datalog,因此需要在master机器上创建这两个目录,使用如下命令实现,假设当前目录为以上步骤操作后的所在目录“/opt/so/apache-zookeeper-3.9.1-bin”。由于ZooKeeper集

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈