Hive01_安装部署

上传mysql jdbc驱动到hive安装包lib下。在hdfs创建hive存储目录(如存在则不用操作)解决Hive与Hadoop之间guava版本差异。

利用新媒体平台,彩妆化妆工具市场如何挖掘潜在客户

新媒体平台可以为企业提供一个良好的线上营销平台。企业可以利用新媒体平台展示自己的产品,向消费者展示产品特点,增加消费者对产品的兴趣,更好地推广产品。

数据仓库BW与大数据平台,到底如何取舍?

刷到这篇文章的同学,对这个问题有困惑,看看我说清楚了没有。

数据仓库-数据治理小厂实践

数据治理贯穿数仓中数据的整个生命周期,从数据的产生、加载、清洗、计算,再到数据展示、应用,每个阶段都需要对数据进行治理,像有些比较大的企业都是有自己的数据治理平台或者会开发一些便捷的平台,对于没有平台的公司,这里根据自己的亲身实践简单整理一下。

spark与scala的对应版本查看

https://mvnrepository.com/artifact/org.apache.spark/spark-core总结

rabbitMQ引入死信队列

指的是,从队列当中取出来的消息,到达消费方后,因为某些原因导致消息并没有被正常消费掉,这些没有被后续处理的消息就是“死信”,而保存死信的队列,就是死信队列。

Flink实时电商数仓(九)

gitee仓库地址:(https://gitee.com/langpaian/gmall2023-realtime)统计各窗口加购独立用户数,写入Doris。

Nacos与Eureka的区别

Nacos是一个易于构建云原生应用的动态服务发现、配置管理和服务管理平台。服务发现:Nacos支持基于DNS和RPC的服务发现,提供原生SDK、OpenAPI等多种服务注册方式和DNS、HTTP与API等多种服务发现方式。它还支持对服务的实时健康检查,阻止向不健康的主机或服务实例发送请求。动态配置服

Hadoop YARN CGroup 实践

Hadoop YARN CGroup 生产实践

Kafka内容分享(七):Kafka 数据清理和配额限速

Kafka日志管理器中会有一个专门的日志删除任务来定期检测和删除不符合保留条件的日志分段文件,这个周期可以通过broker端参数log.retention.check.interval.ms来配置,默认值为300,000,即5分钟。日志删除任务会检查当前日志的大小是否超过设定的阈值来寻找可删除的日志

Hadoop-3.3.6完全分布式集群搭建

右击创建好的虚拟机hadoop base,选择管理-克隆-点击下一步-虚拟机中的当前状态-下一步-创建完整克隆-下一步-设置克隆机名称,安装位置-完成。设置静态ip,与主节点ljl的hosts文件保持一致,设置成功重启网络。首先进入hadoop所在配置文件目录/usr/local/src/Hadoo

Linux离线arm环境安装部署docker详细教程

把这些复制到创建的文件中(注意需要修改insecure-registry=192.168.205.230,ip地址修改为当前机器的地址)通过官网下载docker安装包,找arm环境的安装包,如果是x86环境可以下载对应的安装包。上传成功后解压 tar -xvf docker-24.0.6.tgz。3

如何在Flink SQL中轻松实现高效数据处理:最佳实践揭秘Protobuf自定义格式

在Flink SQL中,自定义数据格式是一个强大的功能,它允许用户将外部系统中的数据以特定的格式读取到Flink中,并在Flink SQL中进行处理。本文将结合提供的链接内容,探讨如何在Flink SQL中自定义Protobuf格式,并介绍其背后的原理和实现过程。

re:Invent 2023 | 使用与 Flink CDC 的实时同步,打破数据孤岛

这段视频探讨了如何利用Apache Flink的变更数据捕获(CDC)功能来解决数据孤岛问题并实现实时数据同步。演讲者首先概述了传统数据集成方法所面临的挑战,即采用每日批处理ETL作业的方式。这种方法存在较高的延迟和有限的并行性问题。随后,他解释了一种更优的解决方案,即通过使用CDC技术捕捉数据更改

【湖仓一体尝试】MYSQL和HIVE数据联合查询

爬了两天大大小小的一堆坑,今天把一个简单的单机环境的流程走通了,记录一笔

Spark编程实验三:Spark SQL编程

本实验的目的是掌握Spark SQL的基本编程方法,熟悉RDD到DataFrame的转化方法,熟悉利用Spark SQL管理来自不同数据源的数据。

HIVE笔记

返回两个表中满足关联条件的记录。

Python量化投资——金融数据最佳实践: 使用qteasy+tushare搭建本地金融数据仓库并定期批量更新【附源码】

需要大量使用金融历史数据做量化交易的同学们看过来!使用qteasy量化交易工具包,只需要做简单的配置,就可以用几行代码将网上的大量金融数据统统下载到本地,建立一个本地数据仓库。股票、基金、指数、上市公司信息、财务报表、宏观经济。。。一应俱全!

算法毕业设计分享 基于大数据的b站数据分析

本文主要运用Python的第三方库SnowNLP对弹幕内容进行情感分析,使用方法很简单,计算出的情感score表示语义积极的概率,越接近0情感表现越消极,越接近1情感表现越积极。从数据可视化中可以看到,播放量排名前三的分别是生活类、动画类、鬼畜类,让人诧异的是以动漫起家的B站,播放量最多的视频分类竟

虚拟机安装单机hive以及简单使用hive

hive是我打算了解的有一个大数据方面的一个技术栈,上一篇介绍了Hadoop和hbase,有兴趣的朋友可以点击“文章”浏览,今天要介绍的hive也是要基于hadoop的,安装hive也要提前安装好hadoop。刚了解这块的朋友肯定就会疑问这三者之间的关系是什么呢,从我这段时间对它们的简单了解,我的理

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈