大数据 - overfit.cn

数据同步工具DataX从Mysql同步数据到HDFS实战

会先写入临时文件，如果成功，则将临时文件rename，再删除临时文件；如果失败，直接删除临时文件。会在该文件名后添加随机的后缀，作为每个线程写入的实际文件名。我自己在下面的模板文件中添加了一些说明注释。

overfit同步小助手 2023-04-22 04:03:33 0 收藏

大数据FLINK实时数仓项目实战

普通的实时计算优先考虑时效性，所以从数据源采集经过实时计算直接得到结果。如此做时效性更好，但是弊端是由于计算过程中的中间结果没有沉淀下来，所以当面对大量实时需求的时候，计算的复用性较差，开发成本随着需求增加直线上升。实时数仓基于一定的数据仓库理念，对数据处理流程进行规划、分层，目的是提高数据的复用性

overfit同步小助手 2023-04-22 02:03:39 0 收藏

Hadoop集群配置及运行

本文章基于尚硅谷Hadoop 3.x视频进行总结，仅作为学习交流使用

overfit同步小助手 2023-04-22 00:05:54 0 收藏

kafka使用时常见的几个错误汇总

kafka常见错误

overfit同步小助手 2023-04-22 00:05:49 0 收藏

跨越DDD从理论到工程落地的鸿沟

DDD作为一种优秀的设计思想，的确为复杂业务治理带来了曙光。然而因为DDD本身难以掌握，很容易造成DDD从理论到工程落地之间出现巨大的鸿沟。就像电影里面的桥段，只谈DDD理论姿势很优美，一...

overfit同步小助手 2023-04-22 00:04:43 0 收藏

遥感生态指数（RSEI）计算教程

遥感生态指数RSEI（Risk-Screening Environmental Indicators）分布数据是一种基于卫星遥感影像反演计算得到的数据产品。生态环境质量评价在一定程度上反映一个地区生态环境系统的好坏,也可以在一定程度上反映人类社会活动和环境质量的关系,其对可持续发展具有重要影响,对一

overfit同步小助手 2023-04-21 23:03:47 0 收藏

电影推荐系统

本文电影推荐系统是为了给顾客提供方便快捷的热门电影推荐以及查询电影资讯而建立的，主要包括以下功能:电影分类、热门电影、最新上映、评分最高等信息。本文主要描述系统的分析与设计部分，包含了系统的业务分析、功能需求分析、数据流分析、非功能需求分析等内容。设计部分，包含了架构设计、功能结构设计、主要功能模块

overfit同步小助手 2023-04-21 22:04:06 0 收藏

SQL Server用户定义的函数（UDF）使用详解

模块化编程。可以创建一次函数，将其存储在数据库中，并在程序中调用它任意次数。可以独立于程序源代码修改用户定义的函数。执行速度更快。与存储过程类似，Transact-SQL 用户定义函数通过缓存计划并重用它们进行重复执行来降低 Transact-SQL 代码的编译成本。这意味着用户定义的函数不需要在每

overfit同步小助手 2023-04-21 22:04:00 0 收藏

Liunx安装JDK1.8下载、安装及环境配置的步骤详情

overfit同步小助手 2023-04-21 22:03:45 0 收藏

Flink通过Native Kubernetes(k8s)方式Session模式和Application模式进行部署

目录1. Session模式1.1 安装Java1.2 下载Flink并解压1.3 在所有k8s的所有node节点下载flink镜像1.4 创建namespace、service账号和给账号授权1.5 启动flink的jobmanager1.6 访问Flink Web页面1.7 向Flink集群提交

overfit同步小助手 2023-04-21 21:03:47 0 收藏

Monitor 监控架构

采集器: 负责采集监控数据的，采集到数据之后传输给服务端，通常是直接写入时序库对时序库的数据 :- 分析部分: 告警规则判断, 并进行通知- 可视化: 通过各种图表来合理地渲染各类监控数据

overfit同步小助手 2023-04-21 19:03:53 0 收藏

Impala：大数据交互查询工具

Impala是由Cloudera公司开发的一款开源的大数据交互查询工具，能够对存储在HDFS、HBase上的数据进行快速的交互式SQL查询。Impala可以实现对PB级别的数据的实时分析，其查询速度比基于MapReduce的Hive高出3到90倍。Impala使用了类似于传统的MPP数据库技术，避免

overfit同步小助手 2023-04-21 18:04:08 0 收藏

hive修改spark版本重新编译，hive3.1.3 on spark3.3.0

overfit同步小助手 2023-04-21 17:03:38 0 收藏

Raft协议详解

Raft 协议是一种分布式一致性算法，由 Diego Ongaro 和 John Ousterhout 在 2013 年提出。它通过一种领导者选举机制，将一个集群中的节点组织成一个虚拟的共享日志，从而实现分布式系统的一致性。Raft 协议的核心思想是将一组节点分为三种角色：领导者（leader）、跟

overfit同步小助手 2023-04-21 17:03:35 0 收藏

基于SEIR模型对美国COVID-19疫情传播的预测和分析

为预测美国COVID-19疫情传播情况，本文主要分为4个部分。第一部分：建立SEIR模型，在原始模型基础上进行改进，以提高精度和准度。第二部分：模型求解，获取数据并进行数据预处理，运用最小二乘拟合进行参数估计，进而预测分析确诊感染人数。第三部分：模型分析，对模型的可行性和灵敏度进行分析，确定模型的精

overfit同步小助手 2023-04-21 14:04:01 0 收藏

logstash-8.2集群部署

logstash集群

overfit同步小助手 2023-04-21 14:03:40 0 收藏

一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】

一文看懂大数据生态圈完整知识体系

overfit同步小助手 2023-04-21 12:03:49 0 收藏

Zookeeper和Nacos的区别

当客户端接收到请求后，follower会先将请求给到leader，2.然后我们的leader进行处理生成Proposal——>3.发送给follower（收到过半follower针对这个Proposal的消息）——>leader让follower进行提交。通过最新的 xid来选举出新的leader，

overfit同步小助手 2023-04-21 12:03:38 0 收藏

从0到1搭建大数据平台之调度系统

大数据调度系统。

overfit同步小助手 2023-04-21 11:03:42 0 收藏