Python模块之psutil详解
psutil是一个跨平台库,能够轻松实现获取系统运行的进程和系统利用率(包括CPU、内存、磁盘、网络等)信息。它主要用来做系统监控,性能分析,进程管理。
Ubuntu下搭建Hadoop分布式集群
应学校课程要求,这学期学习到了云计算与大数据,这次实验就是让我们在ubuntu中配置好hadoop分布式集群,这两天就从网上一边各种搜寻教程结合课本(课本上是使用的centos,而且版本较老,不太适用)一边自己动手做,顺便自己也写一篇教程记录一下,其中也包含一些遇到的问题及解决方法。因为第一次接触到
大数据 | Hadoop集群搭建(完全分布式)
一学就会,Hadoop完全分布式(集群)搭建
Kafka常见topic命令
Kafka常见topic命令
Hive时间日期函数一文详解+代码实例
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。Hive中的表示纯逻辑表,只有表的定义等,即表的元数据(存储于MySQL中)。本质就是Hadoop的目录/文件,这种设计方式实现了元数据与数据存储分离。Hive本身不存储数据,它完全依赖HDFS
大数据之Hadoop图解概述
文章目录1 Hadoop是什么2 Hadoop 发展历史(了解)3 Hadoop 三大发行版本(了解)3.1 Apache Hadoop(常用)3.2 Cloudera Hadoop3.3 Hortonworks Hadoop4 Hadoop 优势(4 高)5 Hadoop 组成(面试重点)5.1
土地利用/土地覆盖数据整理
土地利用/土地覆盖数据是开展地理、生态、环境等研究的基础数据,本文对目前主流且开源的土地利用数据进行整理,随时更新,欢迎补充!
Spark大数据分析与实战课后答案
Spark大数据分析实战课后答案
大数据时代下:标签体系的应用
大数据时代下:标签体系的应用凄凄切切凄凄切切群群群
windows安装hadoop教程,带截图
windows安装hadoop
spark3.3.1 for CDH6.3.2 打包
因为 CDH 在 6.3.2 之后开始收费,而自带的spark版本太低,还阉割了 spark-sql 功能。所以我们直接外挂spark3.3.1,使用 CDH 6.3.2 相关的 hadoop lib。
dbeaver连接impala,window10环境
dbeaver连接impala。window10环境,不需要密码,使用证书连接。凡事事出都有因。本以为dbeaver连接impala应该也和其他一样,不会太复杂。最多就是下载一个jar包导入即可。谁知道里面的坑还不少。本文分三大部分:一、正确的解决过程二、解决错误记录三、附录:1、打开Dbeaver
深入浅出理解什么是HTAP
关于HTAPHTAP(Hybrid Transactional/Analytical Processing)混合事务 / 分析处理。这里的HTAP就是常见的比较经典的OLAP和OLTP的处理场景的结合体。即可解决OLTP在线事务处理场景,还可以解决OLAP在线分析场景。Gartner也认为HTAP数
Flink学习20:聚合算子(sum,max,min)
常见的聚合算子 sum,max,min等聚合算子可以在在keyedStream 流上进行滚动的聚合(即累计的操作),而且同一个 keyedStream 流上只能调用一次 聚合算子。
目前常用 心电数据库ECG:MITBIH,AHA,CSE,ST-T,PTB,PAF 详细介绍+下载
首先声明是转载的文章,原文指路:https://blog.csdn.net/zsg2063/article/details/76615924担心原文链接失效,所以这里自己复制了一份。一、四大数据库概述目前国际上最重要的,具有权威性的心电数据库有四个:美国麻省理工学院与Beth Israel医院联合建
kafka消息重复消费解决方案
Kafka消费者以消费者组(Consumer Group)的形式消费一个topic,发布到topic中的每个记录将传递到每个订阅的消费者组中的一个消费者实例。Consumer Group 之间彼此独立,互不影响,它们能够订阅相同的一组主题而互不干涉。......
数据治理系列:数仓建模之数仓主题与主题域
数仓主题是什么?主题域又是什么?二者有什么区别和联系?主题与主题域如何划分?本文可以解答这些问题,
HDFS基础知识(个人总结)
声明: 1. 本文为我的个人复习总结, 并非那种从零基础开始普及知识 内容详细全面, 言辞官方的文章  
【Flink】Flink 和 Kafka 连接时的精确一次保证
【Flink】Flink 和 Kafka 连接时的精确一次保证
拉链表详解
拉链表产生背景在数据仓库的数据模型设计过程中,经常会遇到这样的需求:1、数据量比较大;2、表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等;3、需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态,比如,查看某一个用户在过去某一段时间