2022字节跳动数据仓库实习面经
先和大家说一下情况,3月4号面试的字节跳动数据研发岗位直接把我挂了,我满脸疑惑,但是抱着学习和提升自我的心态,打电话问问hr,像看看面试官给我面试的评价,hr说,就两行,第一句肯定,第二句说我专业知识不够。以下是我上次的面试经历👇:链接: 2022暑期实习字节跳动数据研发面试经历.链接: 2022
忙碌的一个月
自2月9日至今,我已经在新的环境里学习和工作满了一个月了。我想记录下这个月里的所见所闻和自己的一些心得感受,算作是月度总结吧!虽然有三个月的学习培养或成长其,但第一个月的总体的感受就一个词:忙碌。那到底忙碌些什么呢?具体有如下几个方面:一方面是适应新环境,学习新环境各种办公所需软硬件。所谓软件,不仅
使用canal解决Mysql和ElasticSearch数据同步问题
前言在上一章《Canal实现Mysql和Redis数据同步》我们使用Canal对Mysql和Redis进行数据同步,这一章我们学习使用Canal对Mysql和ElasticSearch进行数据同步工作原理分析我不知道你是否了解Mysql主从,根据2/8原则,80%的性能问题都在读上面,当我们数据库的
【Kafka从入门到成神系列 三】Kafka 生产者消息分区及压缩算法
作者简介:大家好,我是爱敲代码的小黄,独角兽企业的Java开发工程师,Java领域新星创作者。个人公众号:爱敲代码的小黄。系列专栏:Java设计模式、数据结构和算法、Kafka从入门到成神。如果文章知识点有错误的地方,请指正!和大家一起学习,一起进步。如果感觉博主的文章还不错的话,请三连支持一下博主
Hadoop 集群安装
Hadoop 集群安装
over 与lateral view 的hive、spark sql执行计划
建表语句create table test_over ( user_id string, login_date string)COMMENT '测试函数使用,可以删除' row format delimited fields terminated by '\t';over 执行计划
Kafka集群搭建(使用自带zookeeper,多节点)
1-Kafka集群搭建1.安装包解压至相应目录/home/ZX/soft/kafka_2.12-3.0.02.搭建三个节点IP broker.id myid10.103.105.91 1
Hadoop三大组件之MapReduce
从前我们还有着无拘无束的梦想,后来发现,那只是梦,不努力怎敢想。
客快物流大数据项目(六十一):将消费的kafka数据同步到Kudu中
目录将消费的kafka数据同步到Kudu中一、导入表名映射关系类二、编写数据解析器根据表名解析成具体的POJO对象三、扩展自定义POJO的隐式转换实现四、转换Ogg和Canal对应主题的数据为具体的POJO对象五、实现Kudu表的自动创建工具类六、将数据写入
ElasticSearch安装及使用
什么是Elasticsearch Elasticsearch是一个实时的分布式存储、搜索、分析的引擎。为什么要用Elasticsearch在学习一项技术之前,必须先要了解为什么要使用这项技术。所以,为什么要使用Elasticsearch呢?我们在日常开发中,数据库也能做到(实时、存储、搜索、分析)。
ZooKeeper客户端源码(一)——向服务端建立连接+会话建立+心跳保持长连接
ZooKeeper客户端如何向服务端建立连接?如果连接断了如何重试?会话建立的流程是怎样的?如何保持长连接?心跳?
大数据主要应用领域
一、大数据产业中国大数据产业 2018年,对于中国大数据产业而言,是一个具有重要标志的年份。大数据产业园大数据产业的聚集区 产业化项目的孵化区二、大数据的主要应用农业大数据 工业互联网 服务业应用(一)农业大数据(1)大数据理论和技术在农业上的应用和实践,是指运用大数据理念、技术和方法,解决农业或涉
Flink总结
Flink总结一、初步了解什么是Flink?Flink是一个实时的流式计算引擎,与sparkStreaming不同的是底层是流式引擎,并且有用事件窗口和时间窗口两种窗口,可以进行离线和实时计算,有着完美的容错机制,以及数据延迟机制,在支持高吞吐的同时保证低延迟,并提出了时间语义的概念,将数据分为有界
hive的几种join到底有何区别
hive中,几种join的区别数据:tom,1jey,2lilly,7lilly,8tom,1lilly,3may,4bob,5以上两个为数据,没有什么意义,全是为了检测join的使用看一下两张表,其实可以看出来,在name一行有重复的,也有不重复的,在id一行1表完全包含2表left joinle
SpringCloud微服务框架一套就够(下集)
SpringCloud微服务框架一套就够(下集)
kafka 分区分配及再平衡总结
kafka 分区分配及再平衡总结
canal实现同步mysql至es
一、canal 简介早期阿里巴巴因为杭州和美国双机房部署,存在跨机房同步的业务需求,实现方式主要是基于业务 trigger 获取增量变更。从 2010 年开始,业务逐步尝试数据库日志解析获取增量变更进行同步,由此衍生出了大量的数据库增量订阅和消费业务。基于日志增量订阅和消费的业务包括数据库镜像 数据
Hadoop安装服务器-CDH6.2离线安装与Web界面安装
Hadoop装服务器-CDH6.2离线安装1. 概述2. 安装的步骤2.1 安装CDH前的安装包准备2.2 编辑/etc/hosts文件(每个节点)2.3 关闭防火墙、禁止防火墙开机自启(每个节点)2.4 ssh无密码登录2.5 配置NTP服务(所有节点)2.6. 修改Linux swappines
Hbase安装步骤
hbase安装步骤
elasticsearch 7.6.2 - 索引管理
小伙伴们,你们好呀,我是老寇,跟我一起学习es 7.6.2一.创建索引及参数解析1.创建索引 (语法及例子)1).新建索引语法PUT 索引名称{ "setting" : { ...}, "mapping" : { "properties" : { "field1" : { "t