大数据 - overfit.cn

flume自定义拦截器开发步骤

步骤如下：1、新建一个java项目，不需要依赖spring等一系列依赖。只需要加上你用的工具类的依赖。flume的依赖不用加，因为服务器里面有。2、实现Interceptor接口，重写里面的intercept方法，把你的逻辑写好，然后返回event。3、打包，打的包是很小的那种，没有其他杂七杂八的

overfit同步小助手 2022-05-05 11:01:28 0 收藏

RDD的处理过程

Spark用scala语言实现了RDD的API，程序开发者可以通过调用API对RDD进行操作处理。下图为RDD的处理过程：RDD经过一些列的“转换”操作，每一次转换都会产生不同的RDD，以供给下一次“转换”操作使用，直到最后一个RDD经过“行动”操作才会被真正计算处理，并输出到外部数据源中，若中间的

overfit同步小助手 2022-05-05 11:01:13 0 收藏

第2篇: Elasticsearch的相关名称解释

目前国内有大量的公司都在使用 Elasticsearch，包括阿里、京东、滴滴、今日头条、小米、vivo等诸多知名公司。除了搜索功能之外，Elasticsearch还结合Kibana、Logstash、Elastic Stack还被广泛运用在大数据近实时分析领域，包括日志分析、指标监控等多个领域。

overfit同步小助手 2022-05-05 11:01:07 0 收藏

数据中台建设（三）：数据中台架构介绍

数据中台要求全企业共用一个数据技术平台、共建数据体系、共享数据服务能力。实际上一个企业中由于各个业务线发展不均衡，各自都有独立的数据处理架构，导致共享数据非常困难，所以要构建数据中台不仅是对技术架构的改变，同时还是对整个企业业务运转模式的改变，需要企业在组织架构和资源方面给予支持。数据中台是一个企业

overfit同步小助手 2022-05-01 09:52:57 0 收藏

腾讯云TDSQL-MYSQL备份恢复实战详细截图

十年DB两茫茫、不思量，自难忘。漫漫长夜，加班话沧桑。纵使相逢应不识，尘满面，鬓如霜。writer : starhuTDSQL-MYSQL简介腾讯云数据库(TencentDB)是腾讯提供的高可靠、高可用、可弹性伸缩的云数据库服务产品的总称，在公有云和专有云领域提供全行业数据库解决方案，可轻松运维主流

overfit同步小助手 2022-04-30 08:04:21 0 收藏

【极简spark教程】spark聚合函数

spark进阶内容，手把手教你实现UDAF，实现自己的average聚合函数

overfit同步小助手 2022-04-28 08:21:26 0 收藏

大数据笔记（四）：HDFS集群搭建-HA模式概念

HDFS集群搭建-HA模式概念，伪分布式到完全分布式，HDFS- Federation解决方案等知识点的讲解。

overfit同步小助手 2022-04-28 08:21:19 0 收藏

hadoop伪分布式安装（超详细）

hadoop伪分布式安装

overfit同步小助手 2022-04-27 08:21:40 0 收藏

【kafka专栏】消息队列通用消息传递模型(带视频)

两种消费模型及消费者组模式讲解：Point-to-Point(P2P)，一条消息由一个消费者消费；Publish/Subscribe(Pub/Sub)，一条消息被多个消费者消费。

overfit同步小助手 2022-04-27 08:21:31 0 收藏

Hadoop完全分布式环境部署(一看就会）

Hadoop完全分布式环境部署

overfit同步小助手 2022-04-27 08:21:22 0 收藏

python数据分析实战之用户分析及RFM模型分析

利用python进行用户分析和产品分析：用户画像分析：地区、性别、年龄分布，不同分类下的下单数量及消费金额对比，二八定律，用户分层模型(RFM模型)及销量最高的10个品牌。思路清晰，注释全面详细。

overfit同步小助手 2022-04-26 08:21:34 0 收藏

【kafka专栏】核心概念篇-broker、主题、分区、消费者组、分区副本

本节为大家介绍一下kafka的一些基础概念，这些概念将在后续的学习中不断的被提到，所以有必要清晰明了。**本节内容是应用kafka消息队列最核心的理论知识内容，初学者请务必研读揣摩。** 第一遍读不懂往后学一学，再回来都这一篇文章，总之反复揣摩，这篇是kafka的理论知识核心。

overfit同步小助手 2022-04-26 08:21:29 0 收藏

记一次基于CBO的Oracle SQL调优

overfit同步小助手 2022-04-25 07:21:44 0 收藏

大数据笔记（三）：HDFS集群搭建-伪分布式模式

HDFS集群搭建-伪分布式模式

overfit同步小助手 2022-04-25 07:21:31 0 收藏

大数据，请把它推给还不会单链表的人（数据结构）

每一个不曾起舞的日子,都是对生命的辜负! --------尼采目录：链表的基本介绍二：单链表的基本操作单链表只要有人和你将过左值和右值问题，单链表so easy一.基本介绍：1.链表的每一个结点都包含..

overfit同步小助手 2022-04-24 07:21:06 0 收藏

【Spark】(task6)Spark RDD完成统计逻辑

文章目录一、Spark RDD二、使用RDD functions完成任务2的统计逻辑Reference一、Spark RDDRDD：resilient distributed dataset (RDD)每个spark程序都有一个driver program运行main函数，在cluster集群上执行

overfit同步小助手 2022-04-23 11:41:44 0 收藏

大数据A环境搭建--HADOOP--Ubuntu

模块A环境搭建一、安装JDK1.更改主机名字2.配置密钥免密登录3.映射地址4 .解压并移动5.配置环境变量6.分发到各个节点二、安装HADOOP1.解压并且移动2.配置环境变量3.配置.sh和.xml文件i.创建临时文件ii.配置hadoop-env.shiii.配置core-site.xmlV

overfit同步小助手 2022-04-23 11:41:24 0 收藏

CDH6.3.1安装指南

CDH安装指南！！！！CDH简介CDH基于Web的用户界面,支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 HBase、Zookeeper、Sqoop，简化了大数据平台的安装、使用难度。Cloudera Manager的功能：管理：对集群进行管理，如添加、删除节点等

overfit同步小助手 2022-04-22 08:08:05 0 收藏

Spark SQL底层执行流程详解

本文目录一、Apache Spark二、Spark SQL发展历程三、Spark SQL底层执行原理四、Catalyst 的两大优化完整版传送门：Spark知识体系保姆级总结，五万字好文！一、Apache SparkApache Spark是用于大规模数据处理的统一分析引擎，基于内存计算，提高了在大

overfit同步小助手 2022-04-22 08:08:00 0 收藏

关于建立开放的学术论文共享平台的倡议

如果您赞同，欢迎动动手指转发！近日“中科院因续订费用不堪重负，停用中国知网数据库”的消息让我们大吃一惊。中科院是我国论文成果产出最多的单位，据传闻中科院每年要花千万元购买知网里的论文访问权限。且不论里面的版权细节，这事情的逻辑是不通的。“中国政府采购网上显示，2022年，上海师范大学以79.8万元的

overfit同步小助手 2022-04-22 08:06:30 0 收藏