数据治理(九):Atlas界面操作

Atlas界面操作安装好Atlas之后,可以操作Atlas页面这里主要查看导入Hive的元数据信息。一、查看同步过来的Hive表二、 查看表的properties:三、查看表的Lineage,这里首次导入看不到血缘关系:四、查看表的关系:五、查看表类别:六、查看表审计信息,包含修改时间,详情等:七、

ElasticSearch基本操作

文章目录1.ElasticSearch 简介2.索引库操作2.1.mapping 属性2.2.索引库CRUD3.文档操作3.1.新增文档1.ElasticSearch 简介Elasticsearch 是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。

Ceph Swift 实践运用(四)

Ceph Swift 实践运用一、Ceph封装与自动化装配1、创建ceph-starter自动化工程:2、pom文件依赖: <dependencies> <!-- Spring Boot 自定义启动器的依赖 --> <dependenc

大数据-kafka学习(三)——Kafka Broker

Kafka Broker工作流程Leader 和 Follower 故障处理细节

SpringBoot整合Kafka消息队列并实现发布订阅和消费

SpingBoot整合Kafka,实现基本的订阅与消费pom依赖 --版本和springboot相关 <dependency> <groupId>org.springframework.kafka</groupId> <artifact

echarts地图数据与世界地图中英文转换

echarts地图数据与世界地图中英文转换

基于Hadoop的带词频统计的文档倒排索引算法实现

文档倒排索引是一种支持全文检索的数据结构,该索引结构被用来存储某个单词(或词组)在一个文档或者一组文档中存储位置的映射,即提供了一种根据内容来查找文档的方式。一个倒排索引由大量的postings列表构成,每一个posting列表与一个单词term相关联,由多个posting的列表组成,每一个post

springboot 整合hbase

springboot 整合hbase

Spark开发环境的搭建

(1)在/opt目录下建立 software,module两个文件,software用来下载安装包,下载或的安装包可以解压到module文件。小编下载spark的版本是:spark-2.3.2-bin-hadoop2.7.tgz。所以下载spark版本到software文件后,解压到module文件

九十四、Spark-SparkSQL(整合Hive)

读取本地文件上传至Hive数据仓库

阿里一面,说说你对zookeeper中ZAB协议的理解?

又到了金三银四的时候,我在这里给大家分享下之前面试中遇到的一个知识点(ZAB协议),ZAB协议虽然舍弃分布式协议中的可用性,但却是一致性的经典代表。

百度用户增长SQL面试题

🌹今天我们来刷点sql题,先说一下这几道题的侧重点吧,主要有常考点留存率、连续登陆天数的问题,以及其他像用户分级、最大观看时长的统计。对往期内容感兴趣的同学可以参考如下内容👇:链接: 牛客SQL大厂真题——某音短视频.链接: 京东数据分析SQL面试题.🌰话不多说,让我们开始今日份的学习吧。目录

linux单机部署storm

linux单机部署stormcd /data#下载wget http://mirror.bit.edu.cn/apache/storm/apache-storm-1.2.2/apache-storm-1.2.2.tar.gz#解压tar -zxvf apache-storm-1.2.2.tar.gz

大数据面试题

一.SQL1、查询出每门课程的及格人数和不及格人数2、使用分段[100-80],[80-60][‹60]来统计各科成绩,分别统计:各分数段人数,课程号和课程名称3、下面是学生的成绩表(表名score,列名:学号、课程号、成绩)5.查询没有学全所有课的学生的学号、姓名6.查询两门以上不及格课程的同学的

HBase集群搭建记录 | 云计算[CentOS7] | Maven项目访问HBase

本文目录写在前面step1 Maven的下载与配置1. 下载解压2.环境变量设置3. 查看安装4. 设置阿里云镜像[加速jar包下载]step2 Maven项目的创建写在前面本系列文章索引以及一些默认好的条件在 传送门默认使用master节点并用root用户登录终端进行操作默认在操作本篇博客时HBa

FlinkSQL+HDFS+Hive+SparkSQL实现业务数据增量进入数据仓库

目录0. 相关文章链接1. 为什么要实现将业务数据实时写入到数据仓库中2.架构设计3.FlinkSQL将binlog写入到HDFS中4.创建增量外部表(binlog表)5.创建全量历史表6.创建Spoop任务同步商品表数据7.历史数据和增量数据合并8.Java的nanoTime()9.创建视图完成按

【云计算平台】Hadoop全分布式模式环境搭建

Centos7环境 – Hadoop全分布式模式部署此前搭建了hadoop的单机模式与伪分布式模式:单机模式部署伪分布式模式部署中间拖得有点久了,今天索性做个了结,把hadoop的全分布式模式部署的操作也简单地记录一下,算是一个系统性的学习吧。伪分布式模式是学习阶段最常用的模式,它可以将进程都运行在

DataFrame行列表查询操作详解+代码实战

前言文章接上章:一文速学-数据分析之Pandas数据结构和基本操作代码上文详细介绍了Series和DataFrame作为两种Pandas基本数据结构中的创建、转换和操作。由于数据处理和分析基本都是用DataFrame实现多表操作,故关于DataFrame的操作也十分的多,不如单独拿出一篇来讲。这里我

MySQL-进阶CRUD

进阶增删查改一.数据库约束1.约束类型2.null约束3.unique约束4.default约束5.primary约束一.数据库约束1.约束类型not null - 指示某列不能存储 null 值。unique - 保证某列的每行必须有唯一的值。default - 规定没有给列赋值时的默认值。pri

(6) 多表查询

1 多表关系项目开发中,在进行数据库表结构设计时,会根据业务需求及业务模块之间的关系,分析并设计表结构,由于业务之间相互关联,所以各个表结构之间也存在着各种联系,基本上分为三种:一对多(多对一) 多对多 一对一1.1 一对多例:部门 与 员工 的关系关系:一个部门对应多个员工,一个员工对应一个部门实

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈