大数据 - overfit.cn

开发技术都只学了点皮毛，怎么办？

对于一个即将毕业找工作的大学生来说，其实你要真实地去思考自己焦虑的根源，大学生的焦虑都在于能否能找到自己想要从事的工作，但你要清楚，那是焦虑的结果，而不是焦虑的根源，想要解决焦虑的结果就必须经历正确的过程，要是这个过程没有经历，或者经历了错误的过程，那才是焦虑的根源。首先作为大学生们要明白，软件企业

overfit同步小助手 2022-04-23 11:41:31 0 收藏

大数据A环境搭建--HADOOP--Ubuntu

模块A环境搭建一、安装JDK1.更改主机名字2.配置密钥免密登录3.映射地址4 .解压并移动5.配置环境变量6.分发到各个节点二、安装HADOOP1.解压并且移动2.配置环境变量3.配置.sh和.xml文件i.创建临时文件ii.配置hadoop-env.shiii.配置core-site.xmlV

overfit同步小助手 2022-04-23 11:41:24 0 收藏

【大话云原生】消息队列与快递柜之间妙不可言的关系（带视频）

提到消息队列可能一些朋友经常听别人说起一些名词，比如：服务程序解耦，处理流量削峰，通过异步处理提升用户体验，缓冲批处理提高处理性能。笔者擅于白话解说，所以我就不用专业的术语去解释专业的问题了。我一直觉得消息队列的功能和快递柜的功能非常相似，怎么个相似法呢？让我来详细给你说说。

overfit同步小助手 2022-04-23 11:41:18 0 收藏

记一次重大的生产事故

高高兴兴上班来，突闻任务大面积报错，经过一番排查，服务器上某个用户不见了。

overfit同步小助手 2022-04-22 08:08:23 0 收藏

Kafka3.1安装配置，配置Kafka集群，Zookeeper集群

1.下载Kafka安装包Kafka官网下载地址：https://kafka.apache.org/downloads2.解压压缩包tar -zxvf kafka_2.12-3.1.0.tgz -c kafka3.进入配置文件目录cd kafka/config4.配置kafka配置文件vim serv

overfit同步小助手 2022-04-22 08:08:21 0 收藏

使用最新版flink tidb cdc 同步数据到StarRocks

Flink CDC 2.2 版本新增了 OceanBase CE，PolarDB-X，SqlServer，TiDB 四种数据源接入。其中新增 OceanBase CDC，SqlServer CDC，TiDB CDC 三个连接器，而 PolarDB-X 的支持则是通过对 MySQL CDC 连接器进行

overfit同步小助手 2022-04-22 08:08:17 0 收藏

Flink相关API开发及运行架构和实现原理详解

overfit同步小助手 2022-04-22 08:08:14 0 收藏

【Kafka SASL认证】

条件：注：先安装Zookeeper和Kafka链接：https://blog.csdn.net/ZhongYuxuanGKafka配置SASL认证：1.创建文件中配置用户①.kafka/config/下创建kafka_client_jaas.conf文件：KafkaClient { org.apa

overfit同步小助手 2022-04-22 08:08:08 0 收藏

CDH6.3.1安装指南

CDH安装指南！！！！CDH简介CDH基于Web的用户界面,支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 HBase、Zookeeper、Sqoop，简化了大数据平台的安装、使用难度。Cloudera Manager的功能：管理：对集群进行管理，如添加、删除节点等

overfit同步小助手 2022-04-22 08:08:05 0 收藏

Spark SQL底层执行流程详解

本文目录一、Apache Spark二、Spark SQL发展历程三、Spark SQL底层执行原理四、Catalyst 的两大优化完整版传送门：Spark知识体系保姆级总结，五万字好文！一、Apache SparkApache Spark是用于大规模数据处理的统一分析引擎，基于内存计算，提高了在大

overfit同步小助手 2022-04-22 08:08:00 0 收藏

【源码解读】|SparkEnv源码解读

【源码解读】|SparkEnv源码解读导读SparkEnv 创建入口SparkEnv 架构组件前置创建SecurityManager安全管理器创建RPCEnv 环境创建SerializerManager序列化管理器创建BroadcastManager广播管理器创建mapOutputTracker创建

overfit同步小助手 2022-04-21 07:08:32 0 收藏

Hive建表时，使用Array和Map类型以及数据导入

在Hive建表时，我们是可以指定数据类型为Array和Map类型的。除此之外还有Struct类型，这里就不对此做过多延伸。参考：Hive增删改查建表：CREATE TABLE test001( id STRING COMMENT '', address ARRAY<string> CO

overfit同步小助手 2022-04-21 07:08:26 0 收藏

flink-1.12.0版Yarn安装部署

overfit同步小助手 2022-04-21 07:08:23 0 收藏

Elasticsearch 基本概念

文章目录1.存储结构indextypedocumentfieldmapping2.其他重要概念clusternodeshardreplica3.查看版本信息4.小结参考文献1.存储结构要想学会使用 ES，完成对 ES 的增删改查，必须先了解一下 ES 的存储结构。大家对 MySQL 的存储结构应该是

overfit同步小助手 2022-04-21 07:08:19 0 收藏

初步认识Hadoop

学习目的· 了解大数据的概念及其特征· 了解Hadoop发展· 掌握Hadoop的生态体系Hadoop作为一个能够对大量数据进行分布式处理的软件框架，用户可以利用Hadoop生态体系开发和处理海量数据。由于Hadoop可靠及高效的处理性能，逐渐称为分析大数据的领先平台。1.1 什么是大数据从

overfit同步小助手 2022-04-21 07:08:13 0 收藏

各大互联网公司实时数仓实践

各大公司实时数仓实践1.1 网易实时数仓实践此架构是基于Kudu的实时数据数仓，通过Data Stream自己写的数据采集工具来采集日志数据写入Kafka，使用NDC(类似CDC)服务可以将binlog数据推送到Kafka，通过Flink读取Kafka数据结果写入Kudu,基于Kudu构建实时数仓好

overfit同步小助手 2022-04-21 07:08:10 0 收藏

【操作系统入门到成神系列二】磁盘比内存慢几万倍？

大家好，我是爱敲代码的小黄，独角兽企业的Java开发工程师，Java领域新星创作者。这是我的系列专栏：操作系统从入门到成神。如果文章知识点有错误的地方，请指正！和大家一起学习，一起进步。如果感觉博主的文章还不错的话，请三连支持一下博主哦。

overfit同步小助手 2022-04-21 07:08:07 0 收藏

springboot集成mqtt

文章目录一、MQTT说明1.1、mqtt文档1.2、MQTT消息服务质量1.1.1、归纳二、MQTT环境搭建三、boot集成原生mqtt1.1、项目结构1.2、依赖1.3、application.properties配置1.4、实体类1.5、mqtt配置类1.6、mqtt发布接口1.7、mqtt接收

overfit同步小助手 2022-04-20 10:08:44 0 收藏

通俗理解大数据及其应用价值

在大数据这个概念兴起之前，信息系统存储数据的方法主要是我们熟知的关系型数据库，关系型数据库，关系型模型之父 Edgar F. Codd，在 1970 年 Communications of ACM 上发表了《大型共享数据库数据的关系模型》的经典论文，从此之后关系模型的语义设计达到了 40 年来普世、

overfit同步小助手 2022-04-20 10:08:40 0 收藏

sbt安装配置与打包

一：安装配置1.下载安装包官网下载地址：sbt - Download将下载好的sbt-1.6.1.tgz解压到相应目录：/home/kyj/soft，这里我们使用版本为1.6.1，注意版本的选择2.解压安装包并放在/home/kyj/soft中：tar -zxvf sbt-1.6.1.tgz sbt

overfit同步小助手 2022-04-20 10:08:37 0 收藏