大数据 - overfit.cn

程序员写博客如何赚钱「5大盈利方向」

现在不少的网站都有介绍用户消费可以提成的制度，提成 3%~8% 不等，赚取提成的方式也很简单，只要注册成推广员后，加个链接地址就可以了。现在不少的网站都有介绍用户消费能够提成的准则，提成 3%~8% 不等，赚取提成的方式也很简略，只要注册成推行员后，加个链接地址就能够了。下图展现的是，他创立的付

overfit同步小助手 2023-04-07 09:03:31 0 收藏

大数据Flink进阶（十五）：Flink On Yarn任务提交

Flink On Yarn任务提交支持Session会话模式、Per-Job单作业模式、Application应用模式。下面分别介绍这三种模式的任务提交命令和原理。为了能演示出不同模式的效果，这里我们编写准备Flink代码形成一个Flink Application，该代码中包含有2个job。

overfit同步小助手 2023-04-07 08:03:55 0 收藏

kafka的消息数据积压处理方案详解（两个方向）

通过架构图展示kafka的消息数据积压处理方案，两个原因，两个思路。

overfit同步小助手 2023-04-07 08:03:18 0 收藏

PySpark入门

1，通过pyspark进入pyspark单机交互式环境。这种方式一般用来测试代码。也可以指定jupyter或者ipython为交互环境。2，通过spark-submit提交Spark任务到集群运行。这种方式可以提交Python脚本或者Jar包到集群上让成百上千个机器运行任务。这也是工业界生产中通常使

overfit同步小助手 2023-04-07 06:03:23 0 收藏

hadoop之MapReduce框架原理

MapReduce是分为两个阶段的，MapperTask阶段，和ReduceTask阶段。Mapper阶段，可以通过选择什么方式（K,V的选择对应不同的方法）来读取数据，读取后把数据交给Mapper来进行后续的业务逻辑（用户写），让后进入Reduce阶段通过Shuffle来拉取Mapper阶段的数据

overfit同步小助手 2023-04-07 05:03:43 0 收藏

Hive截取指定位子或字符后面的数据

Hive截取指定字符后面的数据，博客中分别介绍了三种不同的方法，其中包含substr()函数，instr()函数，字符串反转函数reverse()，regexp_extract()正则匹配函数，split()分割函数的使用

overfit同步小助手 2023-04-07 03:03:20 0 收藏

flink内存管理，设置思路，oom问题，一文全

flink内存管理与资源大小设置思路，并行度，slot，taskmanager数量三者的数量关系

overfit同步小助手 2023-04-07 02:03:47 0 收藏

Kibana操作ES 全覆盖基础查询 DSL查询

Kibana 操作索引文档，复合查询，分页查询

overfit同步小助手 2023-04-07 02:03:31 0 收藏

MapReduce概述及工作流程

Map：1、根据业务需求处理数据并映射为KV模型2、并行分布式3、计算向数据移动Reduce：1、数据全量/分量加工2、Reducer中可以包含不同的key 分区的范围大于分组3、相同分区的Key汇聚到一个Reducer中4、“相同”的Key调用一次reduce方法5、排序和比较实现key的

overfit同步小助手 2023-04-06 20:03:42 0 收藏

数据预处理概述

为什么我们要进行数据预处理？

overfit同步小助手 2023-04-06 20:03:34 0 收藏

尚硅谷YYDS (课件资料)

尚硅谷大数据技术之基于虚拟机 CDH5.12.1(Kerberos、Sentry 等)尚硅谷大数据项目之实时数仓项目 13 天(spark+clickhouse+es)尚硅谷大数据技术之 Structured Steaming。尚硅谷大数据技术之 Kubernetes、Zabbix。尚硅谷大数据技术

overfit同步小助手 2023-04-06 20:03:25 0 收藏

毕业设计-基于大数据技术的旅游推荐系统-python

毕业设计-基于大数据技术的旅游推荐系统-python:随着我国旅游产业规模不断扩大，旅游信息呈现爆炸性增长，导致游客很难获取有价值的信息，旅游服务开始从传统的信息化向智能化转变。智慧旅游推荐系统从海量旅游信息资源中发现游客感兴趣的信息，并将个性化需求信息推荐给对应的游客用户，因此推荐系统的

overfit同步小助手 2023-04-06 18:04:16 0 收藏

Spark（3）：Spark运行环境

自己学习时，每次都需要启动虚拟机，启动集群，这是一个比较繁琐的过程，并且会占大量的系统资源，导致系统执行变慢，不仅仅影响学习效果，也影响学习进度，Spark 非常暖心地提供了可以在 windows 系统下启动本地集群的方式，这样，在不使用虚拟机的情况下，也能学习 Spark 的基本使用。所谓的 Lo

overfit同步小助手 2023-04-06 17:04:37 0 收藏

ambari全攻略流程，认识ambari（一）

ambari介绍Apache Ambari 项目旨在通过开发用于供应、管理和监控 Apache Hadoop 集群的软件来简化 Hadoop 管理。Ambari 提供了一个直观、易于使用的 Hadoop 管理 Web UI，由其 RESTful API 提供支持。Ambari 使系统管理员能够：配置

overfit同步小助手 2023-04-06 17:04:24 0 收藏

云原生大数据平台零信任网络安全实践技术稿

近年来星环科技围绕着数据安全做了大量的工作，形成了一个数据安全的产品体系。本文主要给大家介绍下星环数据云基于零信任安全理念在网络安全上的思考与实践。

overfit同步小助手 2023-04-06 16:08:26 0 收藏

Elasticsearch通过RestHighLevelClient实现聚合分组及聚合计算查询

overfit同步小助手 2023-04-06 16:04:38 0 收藏

dolphinscheduler3.x本地启动

海豚调度源码启动以及二次开发。

overfit同步小助手 2023-04-06 16:04:24 0 收藏

【大数据技术】终于有人把数据质量管理讲明白了！数据质量：数据治理的核心

导读随着业务发展和数据量的增加，大数据应用开发已成为部门应用开发常用的开发方式，由于部门业务特点的关系，spark和hive应用开发在部门内部较为常见。当处理的数据量达到一定量级和系统的复杂度上升时，数据的唯一性、完整性、一致性等等校验就开始受到关注，而通常做法是根据业务特点，额外开发job如报表或

overfit同步小助手 2023-04-06 16:04:19 0 收藏

云原生|kubernetes|搭建部署一个稳定高效的EFK日志系统

采集器fluentd的部署。【整体关键字段介绍】【部分关键变量介绍】

overfit同步小助手 2023-04-06 16:04:11 0 收藏

CDGA考试-2022年最新模拟题一套100道题（含答案）

DAMA,数据治理工程师，CDGA考试-2022年最新模拟题一套100道题（含答案），最新考试题每道题四个答案。

overfit同步小助手 2023-04-06 15:08:15 0 收藏