大数据 - overfit.cn

Flink与Spring Boot集成实践：搭建实时数据处理平台

在当今数据风暴的时代，实时数据处理已经成为众多企业关注的热点。Apache Flink作为一个高性能、可扩展的实时计算框架，在实时数据处理领域占据着举足轻重的地位。Spring Boot则以其快速开发、简化配置而广受欢迎，将两者结合，我们可以快速地搭建起一个实时数据处理平台。本文将详细讲述如何将Fl

overfit同步小助手 2024-03-31 15:03:47 0 收藏

《生物识别技术：面对安全挑战的绝佳选择？》

生物识别技术是一种利用个体独特的生理特征或行为特征进行身份验证和识别的技术。与传统的身份验证方式（如密码、身份证）相比，生物识别技术更加安全、便捷和准确，因为每个人的生物特征都是独一无二的，难以被冒用或伪造。指纹识别是利用个体手指上的皮肤纹路图案进行识别的技术。指纹识别系统通过扫描、提取和比对指纹图

overfit同步小助手 2024-03-31 08:07:06 0 收藏

数据仓库概述

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策，它是一种与时间相关的、不可修改的数据集合。

overfit同步小助手 2024-03-31 07:03:51 0 收藏

Spark—GraphX实战 OneID

ID Mapping 是OneID 的提前，OneID 是ID Mapping 的结果，所以要想做OneID必须先做ID MappingOneID 是为了打通整个数据体系的数据，所以OneID 需要以服务的方式对外提供服务，在数仓里面就是作为基础表使用，对外的话我们就需要提供接口对外提供服务。

overfit同步小助手 2024-03-31 04:03:48 0 收藏

数据治理——滴滴大数据成本治理实践

overfit同步小助手 2024-03-31 03:03:35 0 收藏

【快捷部署】002_Flink（1.17.2）

快捷部署系列，本期带来的是Flink，快速体验、学习

overfit同步小助手 2024-03-31 02:03:53 0 收藏

隐私和安全是首要考虑？Zoho ToDo的任务管理工具适合您

数据隐私适用于所有人，但你的数据则不然。确保你的任务管理工具不会向不需要的实体提供“太多信息”，并切换到更安全、更安全的解决方案-由Zoho ToDo提供支持的Zoho Mail中的任务。

overfit同步小助手 2024-03-31 01:07:05 0 收藏

git快速入门，新手理解必看

git基础入门

overfit同步小助手 2024-03-31 00:04:32 0 收藏

Spark-Scala语言实战（6）

今天我会给大家带来如何在IDEA中导入jars包，以及使用SparkRDD，并正确使用它们同时也会给大家讲解一道实训题例。希望在本篇文章中，大家有所收获。也欢迎朋友们到评论区下一起交流学习，共同进步。

overfit同步小助手 2024-03-31 00:03:49 0 收藏

【神经网络模型】——AI大模型学习

根据任务类型（如分类、回归、序列生成等），选择合适的损失函数（如交叉熵损失、均方误差损失等）和优化器（如 SGD、Adam、RMSprop 等）。学习各种类型的大模型架构和算法，如BERT、GPT、Transformer、ResNet等，理解它们的原理、优缺点和适用场景。迁移学习和模型蒸馏是训练 A

overfit同步小助手 2024-03-31 00:01:25 0 收藏

Hadoop的UI页面介绍

本文将介绍Hadoop分布式文件系统（HDFS）和YARN的用户界面（UI）页面。通过这些UI页面，用户可以方便地查看集群的状态、节点信息、应用程序运行情况等，提高管理和监控效率。了解和使用HDFS和YARN的UI页面对于有效地管理和利用Hadoop集群至关重要。概述页面包括hadoop集群的概述信

overfit同步小助手 2024-03-30 16:04:31 0 收藏

Flink on Yarn安装配置

Apache Flink，作为一个开源的分布式处理引擎，近年来在大数据处理领域崭露头角，其独特的流处理和批处理一体化模型，使得它能够在处理无界和有界数据流时展现出卓越的性能。本文旨在对Flink进行简要的前言性介绍，以及他的安装配置。

overfit同步小助手 2024-03-30 16:03:38 0 收藏

Flink 调度源码分析1：拓扑图创建与提交过程

在Flink中，拓扑图提交过程是将用户编写的数据处理逻辑转换为实际可执行的作业并提交到集群运行的过程。首先，用户编写Flink程序，定义数据源、转换操作和输出目标等。然后，Flink会将这些操作转换为一个有向无环图(DAG)，表示数据处理流程。接着，Flink会将DAG图优化并生成作业图，包括任务的

overfit同步小助手 2024-03-30 14:03:53 0 收藏

云上大数据初学

大数据的定义是指规模庞大、多样化、高速度的数据集合。与传统的数据不同，大数据以及从中提取的信息可以改变人们的行为和决策。大数据的特点主要有以下几点。第一，大数据的规模庞大。传统数据的收集、处理和存储都需要考虑到计算资源的有限性，但是大数据的规模已经远远超过了传统数据的处理能力。它们可以来自多个来源，

overfit同步小助手 2024-03-30 13:03:42 0 收藏

解析线上HBase集群CPU飙高的原因与解决方案

jstack是Java开发工具包（JDK）中提供的一个命令行工具，用于生成Java虚拟机（JVM）中所有线程的堆栈跟踪信息。使用jstack命令可以获取以下信息：所有线程的堆栈跟踪：jstack命令会输出JVM中所有线程的堆栈跟踪信息，包括线程ID、状态、执行方法和行号等。这些信息可以用于分析线程的

overfit同步小助手 2024-03-30 10:03:51 0 收藏

大数据开发（Hadoop面试真题-卷八）

YARN是Apache Hadoop生态系统中的一个集群资源管理器。它的主要目的是管理和分配集群中的资源，并为运行在Hadoop集群上的应用程序提供资源。YARN的架构基于两个主要组件：ResourceManager（资源管理器）和NodeManager（节点管理器）。负责整个集群的资源管理和调度。

overfit同步小助手 2024-03-30 10:03:46 0 收藏

Hadoop 专栏

Hadoop 是使用 Java 编写，允许分布在集群，使用简单的编程模型的计算机大型数据集处理的Apache 的开源框架。也是我们最早常用的开源的大数据框架，以至于到现在很多大数据的技术框架底层或者生态都是依赖它的，也是我们学习大数据或者从事互联网的人学习的第一个大数据框架。而且它的思想至今也是很多

overfit同步小助手 2024-03-30 09:03:47 0 收藏

Spark Map 和 FlatMap 的比较

本节将介绍Spark中map(func)和两个函数的区别和基本使用。

overfit同步小助手 2024-03-30 09:03:30 0 收藏

从零开始学习Spark大数据技术与应用

Spark是一种快速、通用、可扩展的大数据分析引擎，项目是用Scala进行编写。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、Spark Streaming、GraphX、MLib、SparkR等子项目，Spark是基于内存计算的大数据并行计算框架。除了扩展

overfit同步小助手 2024-03-30 06:03:49 0 收藏

记一次Flink任务无限期INITIALIZING排查过程

环境：Flink-1.16.1，部署模式：Flink On YARN，现象：Flink程序能正常提交到 YARN，Job状态是 RUNNING，而 Task状态一直处于 **INITIALIZING**，排查思路有...

overfit同步小助手 2024-03-30 04:03:37 0 收藏