大数据 - overfit.cn

安装部署Apache Doris集群

搭建doris

overfit同步小助手 2023-03-31 13:04:17 0 收藏

完全解析分布式存储，带你了解HDFS的块

在大数据的学习过程中，我们经常会听到“分布式”这三个字，那个所谓的“分布式”到底是什么意思？我们看到一些古装电视剧电影，在古代，生产力比较低下，没有现在的各种便捷的交通工具。人们需要运输一些货物的时候，最常见的方式就是套马车，用马来拉动车。如果需要拉的货物比较多，一匹马拉不动呢？人们的做法并不是训练

overfit同步小助手 2023-03-31 13:04:10 0 收藏

7z压缩包有可能被破解吗，需要多久，暴力穷举和字典破解分别的速度分析

根据调查发现，每50年，人类平均寿命提升30岁，日本作为目前最长寿的国际，平均寿命为83.7岁，那么假设我们现在出生，50年后，我们的平均寿命为113.7岁，那么我们那时50岁，100年后，平均143.7岁，我们100岁，150年后，我们150岁，平均寿命为173.7岁，200年后，我们200岁，而

overfit同步小助手 2023-03-31 13:04:02 0 收藏

mysql 批量数据插入很慢（kettle 输入输出组件）性能优化办法

最近在做数仓重构项目，遇到一些性能瓶颈，这里记录一下解决办法。随着业务数据每天都在增加，几年前开发的etl任务开始跑不动了。大表一般是通过增量的方式插入，但是修复bug 或者每月/季度跑一次的情况需要跑全量，原来的etl任务可能需要跑几个小时，甚至出现超时失败的情况。因此需要优化，下面介绍一些优化

overfit同步小助手 2023-03-31 12:04:44 0 收藏

如何轻松做数据治理？开源技术栈告诉你答案

搭建一套数据治理体系耗时耗力，但或许我们没有必要从头开始搞自己的数据血缘项目。本文分享如何用开源、现代的 DataOps、ETL、Dashboard、元数据、数据血缘管理系统构建大数据治理基础设施。

overfit同步小助手 2023-03-31 12:04:41 0 收藏

学习OSPF，有这一篇就够了

算法——SPF算法最短路径优先算法，SPF算法将每一个路由器作为根（ROOT）来计算其到每一个目的地路由器的距离，每一个路由器根据一个统一的数据库会计算出路由域的拓扑结构图，该结构图类似于一棵树，在SPF算法中，被称为最短路径树

overfit同步小助手 2023-03-31 12:04:27 0 收藏

Zookeeper启动流程浅析

zookeeper服务端启动流程

overfit同步小助手 2023-03-31 12:04:15 0 收藏

flink三种集群运行模式的优缺点对比

Flink 三种集群运行模式

overfit同步小助手 2023-03-31 12:04:08 0 收藏

Hadoop 简介

Hadoop 生态圈是指围绕 Hadoop 软件框架为核心而出现的越来越多的相关软件框架，这些软件框架和 Hadoop 框架一起构成了一个生机勃勃的 Hadoop 生态圈

overfit同步小助手 2023-03-31 12:04:04 0 收藏

Flink on Yarn模式部署

独立（Standalone）模式由 Flink 自身提供资源，无需其他框架，这种方式降低了和其他第三方资源框架的耦合性，独立性非常强。但我们知道，Flink 是大数据计算框架，不是资源调度框架，这并不是它的强项；所以还是应该让专业的框架做专业的事，和其他资源调度框架集成更靠谱。而在目前大数据生态中，

overfit同步小助手 2023-03-31 11:05:08 0 收藏

世界杯数据可视化分析

世界杯已经告一段落，作为一个学习大数据的学生，就像借此来做做分析玩，本次数据来源于天池大赛官网，大家可以去天池大赛官网自己下载，也可以通过我的网盘，链接放下面了。

overfit同步小助手 2023-03-31 11:05:04 0 收藏

flink-sql所有数据类型-1.13

本文基于 flink 1.13 官网中的 flink sql 数据类型部分翻译整理，内容十分全面。

overfit同步小助手 2023-03-31 11:05:01 0 收藏

CDH集群集成外部Flink（改进版-与时俱进）

参考文章中，给出的cdh编译后的flink，已经下架，所以我们得想办法，编译。参考别人的文章不可怕，怕的是，不思进取，我们可以参考别人的文章，并且对不足之处，进行改进，将优秀的地方，进行学习，这样我们国家和民族的技术文章和社区，才能不断进步。可能有一天我不干程序员了，但是技术更新了，那时，我也希望，

overfit同步小助手 2023-03-31 11:04:57 0 收藏

【微服务】SpringCloud-Nacos注册中心

Nacos是SpringCloudAlibaba的组件，而SpringCloudAlibaba也遵循SpringCloud中定义的服务注册、服务发现规范。因此使用Nacos和使用Eureka对于微服务来说，并没有太大区别。

overfit同步小助手 2023-03-31 11:04:55 0 收藏

极氪获得51亿元A轮融资：动力系统故障频现，值得安聪慧重视

2023年2月11日，对于部分用户反馈的动力系统问题，极氪汽车回应称，前针对市场上反馈的动力系统故障，经过排查确认，是系统初始化时各模块自检，有一定概率发生系统自检校验时序上的偏差，从而误判为不满足动力系统启动运行条件。同日，吉利汽车发布公告称，“董事会欣然宣布，于2023年2月12日，极氪与五名

overfit同步小助手 2023-03-31 11:04:39 0 收藏

HMM隐马尔可夫模型最详细讲解与代码实现

首先就要说到中文分词现阶段的分词手法一般有三大流派1.基于规则：前后向最大匹配2.基于统计:HMM, CRF3.基于深度学习：Bilstm+crf 那么我们今天重点要讲的就是其中之一HMM隐马尔可夫模型再说一下为什么要进行分词？1.更好的理解语义（能够提高模型性能）2.为了更重要的任务如

overfit同步小助手 2023-03-31 11:04:34 0 收藏

hadoop 3.x大数据集群搭建系列5-安装Flink

hadoop 大数据平台搭建Flink 大数据平台搭建Flink on yarn

overfit同步小助手 2023-03-31 11:04:30 0 收藏

大数据Flink进阶（一）：Apache Flink是什么

在当前数据量激增的时代，各种业务场景都有大量的业务数据产生，对于这些不断产生的数据应该如何进行有效的处理，成为当下大多数公司所面临的问题。Flink中的基本操作，流数据即无边界数据流，在Flink中处理所有事件都可看成流事件，批数据可以看成是一种特殊的流数据，即有边界数据流，这与Spark计算框架截

overfit同步小助手 2023-03-31 11:04:23 0 收藏

spark3.3.0安装&部署过程

spark安装&部署过程

overfit同步小助手 2023-03-31 11:04:20 0 收藏

《Hadoop篇》------HDFS与MapReduce

Namenode：接受客户端的请求，维护整个HDFS集群目录树，元数据信息的存储由namenode负责Datanode：主要是负责数据块的存储，定期向namenode汇报block：SecondaryNamenode不是第二个namenode，当namenode宕机时，不能由SecondaryNam

overfit同步小助手 2023-03-31 11:04:17 0 收藏