3. 大数据存储与管理

北理工大数据技术导论学习笔记

普通Java工程师 VS 优秀架构师

只懂技术还远远不够,懂技术/懂业务/懂管理的综合型人才,才是技术团队中的绝对核心。工作3年之后,同行之间的薪资差距越来越大,差距背后对应的是综合能力的差异。不仅仅是架构师,所有的技术高端岗位,对人才的综合能力都有较高的标准。深厚的技术功底与大局观,始终保持对先进技术的敏感。具备根据业务特点,找到架构

kafka 的使用原理及通过spring-kafka 自定义封装包的原理

1).点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除) 点对点模型通常是一个基于拉取或者轮询的消息传送模型,这种模型从队列中请求信息, 而不是将消息推送到客户端。这个模型的特点是发送到队列的消息被一个且只有一个接收者接收处理,即使有多个消息监听者也是如此。2).发布/订阅模式(一对多,数

Hudi数据湖-基于Flink、Spark湖仓一体、实时入湖保姆级教学

Hudi数据湖-Flink、Spark湖仓一体、实时入湖保姆级教学

数据仓库相关面试题

数据仓库相关面试题

【微服务|Eureka】eureka技术分享

Eureka是由Netflix公司提供的,它是基于REST实现注册和发现的。曾经Eureka是Spring Cloud中非常重要的组件之一,但是官方对它已经对外停更了,至今有一年半时间了,但是目前并不影响我们使用它。

windows下安装pyspark及pycharm配置最完整详细教程

一、安装jdk1.81.jdk下载首先要保证电脑上安装了jdk,这里下载jdk1.8,可以去官网下载,也可以使用我分享的文件链接:https://pan.baidu.com/s/1MErkVhORho7tp3Eg97a9Aw提取码:1234下载后完成后全部无脑下一步就行,不用修改安装路径,占不了多少

SQL 时间范围和时间粒度

大多数情况下,我们需要根据计算时间和时间范围,计算出业务数据的开始时间和结束时间,用于过滤业务数据;然后再根据业务数据的业务时间和时间粒度,计算出业务时间点,用于分组统计业务数据。

kafka多线程消费

kafka 多线程消费、__consumer_offsets

卷积神经网络——inception网络及python实现

Inception网络结构及python实现

RabbitMQ入门系列01----RabbitMQ简介

MQ:是在消息的传输过程中保存消息的容器。用于分布式系统之间进行通信AMQP:是一个网络协议,是应用层协议的一个开放标准,为面向消息的中间件设计

Hadoop生态系统全面介绍

Hadoop作为大数据的分布式计算框架,发展到今天已经建立起了很完善的生态,本文将一一介绍基于Hadoop生态的一系列框架和组件。Flume简介:Flume 是一个分布式、高可用的服务,用于高效收集、聚合和移动大量日志数据。作用:Flume 主要承载的作用是收集各个数据源的事件或日志数据,然后将其S

HBase---HBase基础语法

HBase基础语法

VMware vSphere 8.0 正式版下载

vSphere 8.0 在发布数周后,终于可以下载正式版了,了解新增功能请访问:https://sysin.org/blog/vmware-vsphere-8-whats-new/

智慧农业大数据平台:农业中的“大智慧”

智慧农业大数据平台:农业中的“大智慧”

数据同步工具—Sqoop

Sqoop 作为一个数据同步工具,主要用于关系型数据库和Hadoop的数据相互同步。table 模式query 模式job 主要解决了增量同步的元数据(last-value)维护问题,当然本身也可以用来做非增量的同步,ETL 中更常用的增量模式是通过query 来完成的,这是因为query 模式更加

【了解Jira Issue types】

介绍Jira中的5中issue types

分布式一致性算法——Paxos 和 Raft 算法

本文主要围绕Paxos算法和Raft算法进行了讨论。我们首先介绍了分布式一致性算法的概念和必要性,然后分别从算法基本原理、角色和状态、基本流程、选举过程、优缺点等方面详细介绍了Paxos算法和Raft算法。同时,我们也对这两种算法进行了比较和区分,并讨论了如何选择合适的算法以满足不同场景下的需求和限

全世界游客访问最多的城市,重庆以5.9亿游客量排名第一

从全球旅游总收入相当于GDP的比例来看,2020年之前,全球旅游总收入相当于GDP的比例接近7%,2020年降至3.7%,2021年达到3.8%,与疫情前的2019年占比6.9%相比,下降了3.1个百分点。还有武汉、西安、成都、天津、广州、贵阳、杭州、昆明等国内城市,以及巴黎、纽约、东京等海外城市。

【云原生】Spark on k8s 讲解与实战操作

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapRe

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈