大数据 - overfit.cn

Spark流处理日志+SSM前端展示（详细）

Spark流处理日志加SSM前端展示

overfit同步小助手 2022-04-18 09:40:00 0 收藏

【面经】数据开发一面-美团暑期实习

美团数据开发工程师暑期实习生招聘一面面经。同学们一定不要等准备好了再去面试。先投递简历进行面试，将面试中每次被问到的问题都记录下来并针对性学习，可以发现自己成长非常快。下面给出面试中遇到的问题。自我介绍介绍自己研究生阶段的研究方向，做过的项目，毕业时间，本科生阶段的情况，为什么想要投递这个岗位。

overfit同步小助手 2022-04-17 09:01:46 0 收藏

大数据-kafka学习（八）—— 生产调优、硬件配置选择

一、场景说明100万日活，每人每天100条日志，每天总共的日志条数上100万*100条=1亿条1亿/24小时/60分/60秒=1150条/每分钟每条日志大小：0.5K-2K（取1K）1150条/每分钟*1K≈ 1m/s高峰期每分钟：1150条*20倍 = 23000条。每秒多少数据量：20MB/s。

overfit同步小助手 2022-04-17 09:01:26 0 收藏

大数据-kafka学习（五）——消费者

一、KAfka消费方式1、pull（拉）模式：consumer 采用从broker中主动拉取数据，Kafka 采取这种方式2、push（推）模式：Kafka 没有采用这种方式，是因为由broker决定消费发生速率，很难适应所有消费者的消费速率。例如推送的速度是50m/sConsumer1、Consu

overfit同步小助手 2022-04-16 07:38:24 0 收藏

大数据-kafka学习（六）——简单代码实现生产者消费者

maven依赖导入 <dependencies> <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.12</artif

overfit同步小助手 2022-04-16 07:38:20 0 收藏

使用Flink1.14.3与Kafka、Fine BI练习搜狗日志实时BI小项目

overfit同步小助手 2022-04-15 09:37:49 0 收藏

Spark框架-离线数据统计

数据清洗任务简介:第一步：输出日志(使用spark默认的log4j配置文件)第二步：创建SparkSession对象(关闭严格模式,否则创建静态分区)第三步:拿出所有的表并进行清洗第四步：删除分区并且统计第五步：将对于字段的日期改为timestamp类型第六步：去除重复字段并创建临时视图第七步：查看

overfit同步小助手 2022-04-14 07:38:26 0 收藏

【MySQL8入门到精通】基础篇-客户端工具的使用

本系列要是我们团队20多人从事MySQL DBA 多年的工作经验中总结提炼而成，每周更新2篇

overfit同步小助手 2022-04-13 07:39:03 0 收藏

Spark框架——离线数据抽取(样题实例超详细)

模块B离线数据抽取任务简介具体步骤简介第一步：开启动态分区第二步：提取前一天时间第三步：读取MYSQL数据第四步：全量写入数据第五步：Main第六步：打包集群第七步：找到jar包第八步：把jar包打包到集群目录下第九步：进入Master目录下运行任务简介具体步骤简介第一步：开启动态分区val spa

overfit同步小助手 2022-04-13 07:38:19 0 收藏

【源码解读】|SparkContext源码解读

本文针对于SparkContext 初始化总线，来阐述了Spark接收到任务时的一系列操作，让读者可以随时溯源

overfit同步小助手 2022-04-12 07:38:36 0 收藏

Flink实时数仓项目—项目初了解

Flink实时数仓项目—项目初了解前言一、实时数仓分层介绍1.普通的实时计算与实时数仓比较2.实时电商数仓分层规划二、实时数仓需求概览1.离线计算和实时计算的比较2.实时需求种类2.1 日常统计报表或分析图中需要包含当日部分2.2 实时数据大屏监控2.3 数据预警或提示2.4 实时推荐系统三、数仓架

overfit同步小助手 2022-04-12 07:38:29 0 收藏

SpringBoot整合Kafka消息队列并实现发布订阅和消费

SpingBoot整合Kafka，实现基本的订阅与消费pom依赖 --版本和springboot相关 <dependency> <groupId>org.springframework.kafka</groupId> <artifact

overfit同步小助手 2022-04-12 07:38:10 0 收藏

数据治理（五）：元数据管理

目录元数据管理一、大数据中为什么要元数据管理二、元数据管理工具-Atlas三、Atlas架构原理四、Atlas特性1、元数据类型 & 实例2、分类3、血缘4、搜索/发现5、安全和数据屏蔽元数据管理一、大数据中为什么要元数据管理元数据（Metadata），通常的定义为"描述数据的数据"。元数据

overfit同步小助手 2022-04-08 07:59:46 0 收藏

【大数据】一文带你了解并使用阿里的增量日志解析工具canal

一、简介canal [kə’næl]，译意为水道/管道/沟渠，主要用途是基于 MySQL 数据库增量日志解析，提供增量数据订阅和消费早期阿里巴巴因为杭州和美国双机房部署，存在跨机房同步的业务需求，实现方式主要是基于业务 trigger 获取增量变更。从 2010 年开始，业务逐步尝试数据库日志解析获

overfit同步小助手 2022-04-08 07:59:40 0 收藏

INFINI Gateway：Elasticsearch 极限网关入门手册

最近，我有幸接触到 medcl 大神的杰作：极限网关（INFINI GATEWAY）。INFINIGateway 有很多优点，也有很多应用的场景。你可以在官方网站上进行阅读。简单说来，极限网关（INFINI Gateway）是一个面向 Elasticsearch 的高性能应用网关，它包含丰富的特性，

overfit同步小助手 2022-04-08 07:59:32 0 收藏

Windows环境安装及启动Zookeeper详细历程（含闪退、找不到JAVA_HOME及无限报错原因）

详细历程1.jdk安装2.下载Zookeeper3.解压文件4.创建文件夹5.修改配置文件6.运行闪退问题7.Error: JAVA_HOME is not set8.无限报错9. 启动成功

overfit同步小助手 2022-04-07 07:59:12 0 收藏

MapReduce on Yarn（包含MapReduce执行详细流程）

1. MapReduce1.1 MapReduce任务在Yarn中执行流程MapReduce作为一种分布式计算框架，它在Yarn中执行的流程为：（1）客户端提交job；细节：① org.apache.hadoop.mapreduce.Job类配置job；② mapred-site.xml中mapre

overfit同步小助手 2022-04-06 08:54:42 0 收藏

数据治理（一）：为什么要数据治理

为什么要数据治理在大数据各个企业数据积累过程中，很多公司都注重了数据的“量”，很少有公司关注数据的“质”，仿佛只要有了海量的数据就可以解决所有问题。真实的情况是公司有了海量的数据，如果不能够保证一定的数据质量不但不能够解决问题，反而还会制造更多的麻烦，例如：企业数据标准、命名规则不一致、企业数据口径

overfit同步小助手 2022-04-05 07:54:37 0 收藏

linux安装zookeeper集群保姆教程，包括集群启停脚本

三台机器安装zookeeper集群注意事项：安装前三台机器一定要保证时钟同步说明：我这里是有3台服务器，分别hostname为node01、node02、node03。三台机器已经配置好了ssh。zookeeper使用的是cdh5的zookeeper包，没有使用原生zookeeper项目的包。三台机

overfit同步小助手 2022-04-04 08:28:10 0 收藏

大数据调度平台Airflow（八）：Airflow分布式集群搭建及测试

目录Airflow分布式集群搭建及测试一、节点规划二、airflow集群搭建步骤1、在所有节点安装python3.72、在所有节点上安装airflow三、初始化Airflow1、每台节点安装需要的python依赖包2、在node1上初始化Airflow 数据库四、创建管理员用户信息五、

overfit同步小助手 2022-04-03 09:28:13 0 收藏