大数据 - overfit.cn

为什么flink那么受欢迎？

我们知道，Storm已经不流行了，目前几乎没有公司用。对于大数据开发，主流的就是Hadoop Spark和Flink，一般学习顺序也都是Hadoop——spark——Flink。现在也有很多人说Spark已经不行了，更倾向于学习和使用Flink。那是因为一些大厂例如阿里主要是使用Flink，双十一这

overfit同步小助手 2024-01-14 08:03:46 0 收藏

元壤教育黎跃春万字长文：从AI视角解读罗振宇跨年演讲 ——提出正确的问题，往往等于解决了问题的大半

变成自己行业的竞争力”。**我的呼吁：**① 一定要拥抱AIGC ，一定要学习AIGC，一定要应用AIGC。② 一定要学习AIGC在各个行业的基本功。③ **通过举一反三，将AIGC在其他行业的应用能力和基本功变成自己行业的竞争力。

overfit同步小助手 2024-01-14 07:01:39 0 收藏

Hive On Spark性能调优

我们公司yarn node节点的可用资源配置为：单台node节点可用资源数：核数33cores、内存110G。Hive on Spark任务的基础配置，主要配置对象包括：Executor和Driver内存，Executor配额，任务并行度。

overfit同步小助手 2024-01-14 05:03:45 0 收藏

【Kafka架构及应用】

总之，Kafka在大数据中的应用非常广泛，它为实时数据流处理、消息传递、日志收集和分析等场景提供了强大的支持。配置Kafka：在配置Kafka之前，需要了解和确定一些关键参数，如Kafka集群的名称、端口、数据存储目录等。通过将数据复制到多个Kafka集群中的主题，可以实现数据的冗余存储和容错性。选

overfit同步小助手 2024-01-14 04:03:50 0 收藏

第八章：AI大模型的安全与伦理 8.2 模型安全

1.背景介绍随着人工智能技术的发展，AI大模型已经成为了我们生活中不可或缺的一部分。这些模型在处理大规模数据和复杂任务方面表现出色，但同时也带来了一系列安全和伦理问题。在本章中，我们将深入探讨AI大模型的安全和伦理问题，并提出一些解决方案。1.1 AI大模型的安全问题AI大模型

overfit同步小助手 2024-01-14 02:07:14 0 收藏

数据中心建设之——理解基于 Hadoop 生态的大数据技术架构

转眼间，一年又悄然而逝，时光荏苒，岁月如梭。当回首这段光阴，不禁感叹时间的匆匆，仿佛只是一个眨眼的瞬间，一年的旅程已成为过去，而如今又到了画饼的时刻了！

overfit同步小助手 2024-01-14 02:03:12 0 收藏

大数据学习之Hadoop

。

overfit同步小助手 2024-01-14 02:03:09 0 收藏

大数据-Linux基础命令（下篇）

用户相关命令、文件/文件夹权限、软件安装、控制服务开启关闭、软链接|硬链接、网络相关命令、进程管理、系统资源、上传下载、压缩解压、shell脚本

overfit同步小助手 2024-01-14 01:03:46 0 收藏

elasticsearch|大数据|elasticsearch的api部分实战操作以及用户和密码的管理

只在master节点生成，然后拷贝到其它节点即可，scp命令或者什么其它的方式都可以，不得在其它节点自己生成。

overfit同步小助手 2024-01-14 01:03:29 0 收藏

华为云耀云服务器L实例-大数据学习-hadoop 正式部署

它的设计理念使得它适用于在常规硬件上搭建的大规模集群，并为用户提供了一种可靠、高效、可扩展的大数据处理解决方案。Hadoop 具有良好的可扩展性，可以轻松地在集群中添加新的节点以处理不断增长的数据量。hadoop 部署的准备工作基本完成，为了确保安全， hadoop 系统不以 root 用户启动，我

overfit同步小助手 2024-01-13 18:03:47 0 收藏

flink中值得监控的几个指标

flink监控指标

overfit同步小助手 2024-01-13 17:03:46 0 收藏

大数据编程实验四：SparkStreaming编程

大数据编程实验，学习有关Spark Streaming的基本编程方法和利用Spark Streaming处理来自不同数据源的数据以及DStream的各种转换、DStream的数据输出保存到文本文件或MySQL数据库中操作。

overfit同步小助手 2024-01-13 16:03:41 0 收藏

Hadoop精选18道面试题(附回答思路)

Hadoop精选18道面试题

overfit同步小助手 2024-01-13 14:03:29 0 收藏

大数据/人工智能/EXCEL/R语言精品教材推荐

通过采用任务式、项目式等多种教材编写模式，教材内容注重实践能力培养，贴合教师教学实际和学生实践实验，已经被1500余所院校选用为教材。

overfit同步小助手 2024-01-13 13:03:19 0 收藏

Spark SQL

Spark SQL是Spark中用于结构化数据处理的组件，它提供了一种通用的访问多种数据源的方式，可以访问的数据源包括Hive、Avro、Parquet、ORC、JSON和JDBC等。

overfit同步小助手 2024-01-13 11:03:53 0 收藏

Flink CEP完全指南：捕获数据的灵魂，构建智慧监控与实时分析大师级工具

掌握Flink CEP，即时捕捉关键事件，助力企业智慧监控与实时数据分析；深入数据流心脏，创造无限可能。

overfit同步小助手 2024-01-13 08:03:30 0 收藏

Spark在Windows下的环境搭建及pyspark的使用

1、将Spark目录下的pyspark文件夹（D:\Spark\spark-2.2.0-bin-hadoop2.7\python\pyspark）复制到要使用的python环境的安装目录（E:\APP\python3.7.0\Lib\site-packages）里。最好解压到一个盘的根目录下，并重命

overfit同步小助手 2024-01-13 07:03:52 0 收藏

【大数据】Spark学习笔记

Spark学习笔记; 包含了Spark的基本概念/调度器/优化/RDD算子及SparkSQL的相关概念

overfit同步小助手 2024-01-13 05:03:43 0 收藏

Gitee保姆级教程

Git 是一个分布式版本控制工具，通常用来对软件开发过程中的源代码文件进行管理。本地仓库：开发人员自己电脑上的 Git 仓库远程仓库：远程服务器上的 Git 仓库解释说明：commit：提交,将本地文件和版本信息保存到本地仓库push：推送,将本地仓库文件和版本信息上传到远程仓库pull：拉取,将远

overfit同步小助手 2024-01-13 00:05:35 0 收藏

Hive之set参数大全-1

是 Apache Hive 中的一个配置属性，用于控制是否允许在需要时按需加载用户定义函数（UDF）。在 Hive 中，UDFs是用户编写的自定义函数，可以在 Hive SQL 查询中使用。这个配置属性的目的是在查询执行期间动态加载UDFs，而不是在Hive服务器启动时就加载所有UDFs，从而减小启

overfit同步小助手 2024-01-13 00:03:13 0 收藏