数据湖系列之一 | 你一定爱读的极简数据平台史,从数据仓库、数据湖到湖仓一体

随着企业数据量的爆炸式增长,以及越来越多的企业上云,数据平台面临的数据存储、数据处理的挑战越来越大,采用什么样的技术来构建和迭代这个平台一直是业界研究的热点,新技术和新思路不断涌现。数据湖提倡所有的数据,不管是数据库的结构化数据,还是视频、图片、日志这类非结构化的数据,都以它们原始的格式存储到一个统

大数据招聘信息数据分析:基于Python网络爬虫的IT招聘就业岗位数据分析可视化推荐系统

本项目旨在开发一个基于Python网络爬虫技术的IT招聘就业岗位可视化分析推荐系统。数据来源于Boss直聘招聘网站,采集到的各种岗位数据信息量合计在70万左右,数据精确真实可靠,本项目主要利用selenium、requests爬虫以及BeautifulSoup、numpy和Pandas等库进行数据的

什么是RabbitMQ?

RabbitMQ支持不同类型的交换机,其中最常用的类型之一是扇出交换机(Fanout Exchange),它会将消息广播到与之绑定的所有队列,无视消息的路由键。在RabbitMQ中,消息代理指的就是RabbitMQ服务器,它是一个中间件软件,负责接收、存储和转发消息,充当了消息的中介。请求/响应模型

搭建PyFlink环境(2)

搭建PyFlink环境(2)

数据仓库基本理论Ⅰ

什么是数据仓库;三种模型;事实表

BI 数据分析,数据库,Office,可视化,数据仓库

AIGC ChatGPT 职场案例AI 绘画 与 短视频制作PowerBI 商业智能 68集Mysql 8.0 54集Oracle 21C 142集Office 2021实战应用Python 数据分析实战,ETL Informatica 数据仓库案例实战 51集Excel 2021实操 100集,E

Spark 提交命令和参数介绍

参考:spark官网配置介绍:Configuration - Spark 3.5.0 Documentationspark-sql参数一、提交命令 参数名格式参数说明--packages包含在driver和executor的classpath下的jar包逗号分隔的”groupId:artifac

Hive实战:网址去重

在本次实战任务中,我们利用Hive大数据处理框架对三个文本文件(ips01.txt、ips02.txt、ips03.txt)中的IP地址进行了整合与去重。首先,在虚拟机上创建了这三个文本文件,并将它们上传至HDFS的目录下作为原始数据源。接着,启动了Hive Metastore服务和客户端,以管理和

计算机毕设分享 基于SpringCloud+Hadoop+Vue的企业级网盘系统设计与实现

基于SpringCloud+Hadoop+Vue的企业级网盘系统设计与实现提示:适合用于课程设计或毕业设计,工作量达标,源码开放。

kafka-splunk数据通路实践

鉴于目前网络上没有完整的kafka数据投递至splunk教程,通过本文操作步骤,您将实现kafka数据投递至splunk日志系统。

RabbitMQ监控方法以及核心指标

探讨rabbitmq的监控数据采集方式以及需要关注的核心指标,便于日常生产进行监控和巡检。

HBase与Phoenix:高性能SQL数据库

1.背景介绍1. 背景介绍HBase 是一个分布式、可扩展、高性能的列式存储系统,基于 Google 的 Bigtable 设计。它是 Hadoop 生态系统的一部分,可以与 HDFS、ZooKeeper 等组件集成。HBase 的核心特点是提供低延迟、高吞吐量的随机读写访问,适用于实时数据处理和分

【大数据】Flink SQL 语法篇(四):Group 聚合、Over 聚合

Group 聚合定义(支持 Batch / Streaming 任务):Flink 也支持 Group 聚合。Group 聚合和上面介绍到的窗口聚合的不同之处,就在于 Group 聚合是按照数据的类别进行分组,比如年龄、性别,是横向的;而窗口聚合是在时间粒度上对数据进行分组,是纵向的。如下图所示,就

Kafka的核心原理

Kafka核心原理介绍

Windows安装和使用kafka

由于kafka依赖jdk和zookeeper,安装kafka之前需要先安装jdk和zookeeper,也可以使用kafka自带的zookeeper。,此处使用kafka自带的zookeeper,不单独安装。下面在Windows系统中安装kafka时使用的ip地址是192.168.10.188,这是我

【用户画像】ClickHouse简介、特点、安装和部署

之前数仓和画像的处理都是批处理,一般在夜间进行,花费时间很长,按照脚本和调度去完成,后来的处理称为即时处理,即时处理要求计算的时间非常之短,存放在hive中,肯定是不行的,这种需求既要求从一定的数据量中提取(如果是小数量可以从MySQL提取),同时需要速度快。这种数据库就需要在hive中和OLAP中

消息队列-RabbitMQ:延迟队列、rabbitmq 插件方式实现延迟队列、整合SpringBoot

延时队列内部是有序的,最重要的特性就体现在它的延时属性上,延时队列中的元素是希望在指定时间到了以后或之前取出和处理,简单来说,延时队列就是用来存放需要在指定时间被处理的元素的队列。rabbitmq_delayed_message_exchange 插件

RabbitMQ专栏目录

ActiveMQ、RabbitMQ、Kafka、RocketMQ、ZeroMQ消息中间件选型消息中间件应用场景1.RabbitMQ消息队列介绍2.RabbitMQ下载及其安装配置3.RabbitMQ UI管理界面使用(用户、虚拟主机)4.RabbtiMQ消息队列常用命令5.RabbitMQ消息队列类

Flink|《Flink 官方文档 - 部署 - 命令行界面 - 提交 PyFlink 作业》学习笔记

提交的 Python 作业,Flink 会执行 python 命令。因此,在启动 Python 作业前,需要先确定当前环境中的 python 命令指向 3.7+ 版本的 Python。命令将 PyFlink 作业提交到 native Kubernetes cluster,这需要一个已经安装了 PyF

Flink与Kafka集成

1.背景介绍Flink与Kafka集成是一种常见的大数据处理技术,它可以帮助我们实现实时数据处理和分析。Flink是一个流处理框架,可以处理大量数据并提供实时分析功能。Kafka是一个分布式消息系统,可以用于构建实时数据流管道。在本文中,我们将深入了解Flink与Kafka集成的背景、核心概念、算法

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈