大数据 - overfit.cn

Spark核心知识要点（八）Shuffle配置调优

overfit同步小助手 2024-08-23 12:03:45 0 收藏

大数据-89 Spark 集群 RDD 编程-高阶编写代码、RDD依赖关系、RDD持久化/缓存

上节研究了Spark的RDD的Super Word Count程序，实现了将计算结果写入到MySQL中。本节研究Spark的高阶编码、RDD的依赖关系，RDD的持久化、RDD的缓存机制。RDD任务切分中间分为：Driver program、Job、Stage(TaskSet) 和 Task。Dri

overfit同步小助手 2024-08-23 12:03:37 0 收藏

大数据-Big Data（一）：概述与基础

在当今数字化时代，大数据（Big Data）已成为各行各业的核心驱动力。从商业决策到科学研究，数据的规模和复杂性日益增加。本文旨在深入探讨大数据的概念、基础技术及其在各个领域的应用，帮助读者全面理解大数据的基本理论和实践方法。

overfit同步小助手 2024-08-23 09:03:53 0 收藏

大数据-54 Kafka 安装配置环境变量配置启动服务 Ubuntu配置 ZooKeeper

上节我们看了Kafka的核心架构概念，Producer、Consumer、Topic等等，本节我们下载安装配置部署Kafka服务器，并启动Kafka，前置依赖需要Java和ZooKeeper。Kafka在3版本以下都是需要ZooKeeper来做协调器的，在3版本以上，Kafka实现了自己的协议去做高

overfit同步小助手 2024-08-23 09:03:28 0 收藏

Hologres+Flink企业级实时数仓核心能力介绍

overfit同步小助手 2024-08-23 08:03:55 0 收藏

git远程仓库限额的解决方法——大文件瘦身

Git作为世界上最优秀的分布式版本控制工具，也是优秀的文件管理工具，它赋予了项目成员对项目进行远程协同开发能力，因此受到越来越多的行业从业人员的喜爱。很多优秀的项目管理平台，比如国内的Gitee，国外的Github，也都是以Git为核心操作。

overfit同步小助手 2024-08-23 07:04:17 0 收藏

新型大数据架构之湖仓一体（Lakehouse）架构特性说明——Lakehouse 架构（一）

数据仓库和数据湖一直是实现数据平台最流行的架构，然而，过去几年，社区一直在努力利用不同的数据架构方法来实现数据平台。本文就是对当下非常流行的湖仓一体架构的特性说明。

overfit同步小助手 2024-08-23 04:02:31 0 收藏

Spark-SparkContext类解析

SparkDriver 的初始化始终围绕着 SparkContext 的初始化。SparkContext 可以算得上是 Spark 应用程序的发动机引擎，SparkContext 初始化完毕，才能向 Spark 集群提交应用程序，而 SparkContext 的配置参数则由 SparkConf 负责

overfit同步小助手 2024-08-23 03:03:26 0 收藏

Elastic：监控不同于可观察性的 3 个原因

监控是收集、提取和分析应用程序、基础设施和/或云遥测数据以评估系统运行状况的过程。监控依赖于指标，例如 CPU 或内存使用率和网络流量、日志和跟踪。这些数据使 IT 团队能够实时跟踪其基础设施和应用程序的性能和可用性。监控工具和平台可以提供仪表板和警报，并具有报告功能，以帮助 IT 团队监控组件、识

overfit同步小助手 2024-08-22 23:03:17 0 收藏

基于Python大数据的电商产品评论的情感分析设计与实现，包括lda主题分析和情感分析

这样的数据分析和可视化思路旨在深入挖掘评论数据的信息，了解评论的特点、趋势和群体分布，为进一步的业务决策提供有价值的参考和支持。通过使用requests库实现了网络请求和数据获取，使用json库实现了JSON数据的解析，使用csv库实现了数据的写入，结合for循环和函数的调用，实现了对电商产品评论数

overfit同步小助手 2024-08-22 21:04:00 0 收藏

（一）Java日志大数据（单机环境）学习笔记——开篇

overfit同步小助手 2024-08-22 18:03:59 0 收藏

《数据资产管理核心技术与应用》读书笔记-第三章：数据血缘

Hive 自身的血缘在其源码中主要通过org.apache.hadoop.hive.ql.hooks.LineageLogger.java 来输出，org.apache.hadoop.hive.ql.hooks.LineageLogger.java代码中主要处理的过程如下图所示，血缘主要通过edge

overfit同步小助手 2024-08-22 17:04:17 0 收藏

全国各城市POI数据汇总（2012-2023年）

全国各城市-POI兴趣点数据，POI是“Point of Interest”的缩写，也被称为“兴趣点”。这个概念广泛应用于地理信息系统、导航软件、地图服务以及一些社交媒体和商业平台中。POI是指地图上标记的特定地点，这些地点对用户具有一定的兴趣或实用性，比如医疗、汽车、文化、交通、酒店、餐饮等。：P

overfit同步小助手 2024-08-22 17:04:11 0 收藏

Flink1.19源码深度解析-ClusterEntrypoint

如果一个main()方法中有多个env.execute()/executeAsync()，在Application模式下，这些作业会被视为属于同一个应用，在同一个集群中执行（如果在Per-Job模式下，就会启动多个集群）。对于per-job模式，jar包的解析、生成JobGraph是在客户端上执行的

overfit同步小助手 2024-08-22 17:03:51 0 收藏

Azkaban-3.84.4集群部署——安装篇（文章结尾附带网盘下载链接）

overfit同步小助手 2024-08-22 16:03:56 0 收藏

MLP简介

定义：MLP是一种前馈神经网络，由多个神经元层组成，包括输入层、一个或多个隐藏层以及输出层。每一层的神经元都与下一层的所有神经元全连接，通过权重和偏差进行信息传递。结构：MLP至少包含三层网络结构，即输入层、隐藏层（可以有多个）和输出层。输入层负责接收原始数据，隐藏层负责对数据进行中间特征的提取，输

overfit同步小助手 2024-08-22 15:03:43 0 收藏

Dinky 让Flink作业纵享丝滑

Dinky的部署方式还有很多：二进制可执行包部署，源码编译部署，docker-compose部署，k8s部署等，支持多种flink模式提交任务，使用flink支持整库同步、增量和实时CDC数据同步，还集成DolphinScheduler(小海豚调度平台)，支持主流的关系型数据库、OLAP数据库和数据

overfit同步小助手 2024-08-22 13:03:48 0 收藏

数据加密存储：重要文件怎么加密?一文全搞懂!

数据已成为企业和个人最宝贵的资产之一。然而，随着网络攻击和数据泄露事件的频发，如何保护数据安全成为了每个人都需要面对的重要问题。数据加密存储作为保障数据安全的重要手段之一，其重要性不言而喻。本文将详细介绍数据加密存储的基本概念、常见的加密方式以及如何对重要文件进行加密，帮助您全面理解并掌握数据加密存

overfit同步小助手 2024-08-22 11:03:54 0 收藏

SQL插入、更新和删除数据

TRUNCATE是删除表中所有记录的另一种语句，与DELETE语句相比，其运行效率非常高，因为使用TRUNCATE语句时，DBMS不会写入任何内容，换个角度说，就是TRUNCATE语句所做的修改是不能回滚的。如果创建的视图对用户用户隐藏列，则隐藏的列的值都为NULL，也会导致在视图中查不到新插入的记

overfit同步小助手 2024-08-22 10:03:51 0 收藏

Hadoop 简介（五）

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力，解决海量数据的存储及海量数据的分析计算问题。广义上的Hadoop是指Hadoop的整个技术生态圈；狭义上的Hadoop指的是其核心三大组件，包括HDFS、YA

overfit同步小助手 2024-08-22 10:03:42 0 收藏