大数据 - overfit.cn

高可用分布式部署Spark、完整详细部署教程

spark的分布式高可用部署方案

overfit同步小助手 2024-01-15 01:03:50 0 收藏

曹操出行基于 Hologres+Flink 的实时数仓建设

在整个流程中，涉及到的数据将会在我们的业务系统中流转，主要包括有营销、订单、派单、风控、支付、履约这些系统。这些系统产生的数据将存储在RDS中，并进一步流入实时数仓中以进行分析和处理。最终数据会进入到不同的使用场景中，比如实时的标签，实时大屏、多维BI分析，还有实时业务监控以及实时算法决策。

overfit同步小助手 2024-01-14 23:03:44 0 收藏

大数据之Spark架构设计与工作流程

通过上述组件的协作，Spark 实现了一个高度灵活且容错性强的大数据处理框架，能够支持批处理、流处理、机器学习等多种应用场景。

overfit同步小助手 2024-01-14 21:03:16 0 收藏

大数据本地环境搭建-Linux基础环境搭建

链接：https://pan.baidu.com/s/1sV8Rkz3hR8Z7MS-KQ2pDbQ?在平时使用www.baidu.com域名访问时，最终会同dns服务器将域名解析为ip地址访问。版本应该对应java上的版本(这个是从别的地方copy的图,摆个样子)分别在 node1/node2/n

overfit同步小助手 2024-01-14 20:03:48 0 收藏

2024.1.4 Spark Core ,RDD ,算子

构建RDD, setMaster 的local 数量 ,minPartitions , 文件的具体数量 ,都会影响分区的数量, 当设置了minPartitions的时候,7 .RDD 的分区数据量受到多个因素,例如:机器Cpu的核数 , 调用的算子 , 算子中参数的设置, 集群的类型等 . 实际中一

overfit同步小助手 2024-01-14 20:03:36 0 收藏

Kafka安全认证机制详解之SASL_SCRAM

SASL/SCRAM 通过将认证用户信息保存在 ZooKeeper 的方式，避免了动态修改需要重启 Broker 的弊端。在实际使用过程中，可以使用 Kafka 提供的命令动态地创建和删除用户，无需重启整个集群。因此，如果打算使用 SASL/PLAIN，不妨改用 SASL/SCRAM 试试。不过要注

overfit同步小助手 2024-01-14 19:03:49 0 收藏

Flink standalone集群部署配置

Flink Standalone 部署详细步骤和主要参数配置

overfit同步小助手 2024-01-14 17:03:30 0 收藏

毕业设计：热门旅游景点大数据分析系统+可视化 +贝叶斯预测模型旅游大数据（附源码）✅

overfit同步小助手 2024-01-14 16:03:50 0 收藏

使用python语言编写Hadoop Mapreduce程序

它将从STDIN读取mapper.py的结果（故mapper.py的输出格式和reducer.py预期的输入格式必须匹配），然后统计每个单词出现的次数，最后将结果输出到STDOUT中。这是因为在不同操作系统上编辑的文件可能使用不同的换行符格式，为了确保在Unix/Linux环境中正确解释脚本，可能需

overfit同步小助手 2024-01-14 16:03:47 0 收藏

ES相关命令

ES命令大全

overfit同步小助手 2024-01-14 15:03:12 0 收藏

Hadoop之MapReduce 详细教程

为了开发我们的 MapReduce 程序，一共可以分为以上八个步骤，其中每个步骤都是一个 class 类，我们通过 job 对象将我们的程序组装成一个任务提交即可。为了简化我们的 MapReduce 程序的开发，每一个步骤的 class 类，都有一个既定的父类，让我们直接继承即可，因此可以大大简化我

overfit同步小助手 2024-01-14 10:04:09 0 收藏

Apache Flink 进阶教程（六）：Flink 作业执行深度解析

overfit同步小助手 2024-01-14 08:03:50 0 收藏

为什么flink那么受欢迎？

我们知道，Storm已经不流行了，目前几乎没有公司用。对于大数据开发，主流的就是Hadoop Spark和Flink，一般学习顺序也都是Hadoop——spark——Flink。现在也有很多人说Spark已经不行了，更倾向于学习和使用Flink。那是因为一些大厂例如阿里主要是使用Flink，双十一这

overfit同步小助手 2024-01-14 08:03:46 0 收藏

元壤教育黎跃春万字长文：从AI视角解读罗振宇跨年演讲 ——提出正确的问题，往往等于解决了问题的大半

变成自己行业的竞争力”。**我的呼吁：**① 一定要拥抱AIGC ，一定要学习AIGC，一定要应用AIGC。② 一定要学习AIGC在各个行业的基本功。③ **通过举一反三，将AIGC在其他行业的应用能力和基本功变成自己行业的竞争力。

overfit同步小助手 2024-01-14 07:01:39 0 收藏

Hive On Spark性能调优

我们公司yarn node节点的可用资源配置为：单台node节点可用资源数：核数33cores、内存110G。Hive on Spark任务的基础配置，主要配置对象包括：Executor和Driver内存，Executor配额，任务并行度。

overfit同步小助手 2024-01-14 05:03:45 0 收藏

【Kafka架构及应用】

总之，Kafka在大数据中的应用非常广泛，它为实时数据流处理、消息传递、日志收集和分析等场景提供了强大的支持。配置Kafka：在配置Kafka之前，需要了解和确定一些关键参数，如Kafka集群的名称、端口、数据存储目录等。通过将数据复制到多个Kafka集群中的主题，可以实现数据的冗余存储和容错性。选

overfit同步小助手 2024-01-14 04:03:50 0 收藏

第八章：AI大模型的安全与伦理 8.2 模型安全

1.背景介绍随着人工智能技术的发展，AI大模型已经成为了我们生活中不可或缺的一部分。这些模型在处理大规模数据和复杂任务方面表现出色，但同时也带来了一系列安全和伦理问题。在本章中，我们将深入探讨AI大模型的安全和伦理问题，并提出一些解决方案。1.1 AI大模型的安全问题AI大模型

overfit同步小助手 2024-01-14 02:07:14 0 收藏

数据中心建设之——理解基于 Hadoop 生态的大数据技术架构

转眼间，一年又悄然而逝，时光荏苒，岁月如梭。当回首这段光阴，不禁感叹时间的匆匆，仿佛只是一个眨眼的瞬间，一年的旅程已成为过去，而如今又到了画饼的时刻了！

overfit同步小助手 2024-01-14 02:03:12 0 收藏

大数据学习之Hadoop

。

overfit同步小助手 2024-01-14 02:03:09 0 收藏

大数据-Linux基础命令（下篇）

用户相关命令、文件/文件夹权限、软件安装、控制服务开启关闭、软链接|硬链接、网络相关命令、进程管理、系统资源、上传下载、压缩解压、shell脚本

overfit同步小助手 2024-01-14 01:03:46 0 收藏