大数据 - overfit.cn

【大数据】Apache NiFi 助力数据处理及分发

简单的说，NiFi 就是为了解决不同系统间数据自动流通问题而建立的。虽然 dataflow 这个术语在各种场景都有被使用，但我们在这里使用它来表示不同系统间的自动化的可管理的信息流。自企业拥有多个系统开始，一些系统会有数据生成，一些系统要消费数据，而不同系统之间数据的流通问题就出现了。这些问题出现的

overfit同步小助手 2023-11-05 23:03:52 0 收藏

Top 10 AI Tools You Should Know About

作者：禅与计算机程序设计艺术 1.简介Artificial Intelligence (AI) has been a popular topic in recent years. It is widely used by companies and organi

overfit同步小助手 2023-11-05 20:01:38 0 收藏

CENTOS上的网络安全工具（二十五）SPARK+NetSA Security Tools容器化部署(1)

介绍在容器中安装rwflowpacker、yaf和silk等NetSA 工具集的过程。由于将NetSA工具集和spark组装起来需要更加复杂的操作，所以相关内容将安排在后续同名文章中。。

overfit同步小助手 2023-11-05 19:07:03 0 收藏

AI架构师必知必会系列：机器翻译

机器翻译(Machine Translation)是一种将一种语言的文本自动转换成另一种语言的过程，主要用于翻译口语、书面语等非英文语言到英文或其他语言。目前，深度学习技术已经取得了巨大的进步，实现了对机器翻译领域里大量的数据、模型和计算能力的提升。因此，随着人工智能和自然语言处理领域的快速发展，机

overfit同步小助手 2023-11-05 14:01:15 0 收藏

Hadoop HDFS(分布式文件系统)

为什么要分布式存储数据，假设一个文件有100tb，我们就把文件划分为多个部分，放入到多个服务器，靠数量取胜，多台服务器组合，才能Hold住

overfit同步小助手 2023-11-05 13:03:26 0 收藏

官宣｜Apache Flink 1.18 发布公告

Apache Flink PMC 已正式发布 Apache Flink 1.18.0 版本。与往常一样，这是一个充实的版本，包含了广泛的改进和新功能。总共有 174 人为此版本做出了贡献，完成了 18 个 FLIPs 和 700 多个问题。感谢各位贡献者的支持！Tips：点击「阅读原文」免费领取 5

overfit同步小助手 2023-11-05 12:03:47 0 收藏

【大数据】图解 Hadoop 生态系统及其组件

HDFS是 Hadoop 的分布式文件系统，旨在在廉价硬件上存储大型文件。它具有高度容错能力，并为应用程序提供高吞吐量。 HDFS 最适合那些拥有非常大数据集的应用程序。Hadoop HDFS 文件系统提供 Master 和 Slave 架构。主节点运行 Namenode 守护进程，从节点运行 Da

overfit同步小助手 2023-11-05 11:03:31 0 收藏

Flink + Iceberg打造流批一体的数据湖架构

对于数据湖架构来说，数据文件在HDFS的分布组织是由写入任务决定的，而对于分布式数仓来说，数据一般是通过JDBC写入，数据的存储组织方式是由数仓本身决定的，所以数仓可以按照对于查询更加友好的方式组织数据的存储，比如对数据文件定期compact到合适的大小或者对数据进行合理排序和分组，对于大规模的数据

overfit同步小助手 2023-11-05 04:03:51 0 收藏

Spark入门

回顾：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark 中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集

overfit同步小助手 2023-11-05 04:03:40 0 收藏

Spark中的Driver、Executor、Stage、TaskSet、DAGScheduler等介绍

在 Spark 中，有多个概念和组件相互协作，以实现分布式数据处理。如有错误，欢迎指出！如有错误，欢迎指出！如有错误，欢迎指出！

overfit同步小助手 2023-11-04 22:03:48 0 收藏

flink配置参数

【代码】flink配置参数。

overfit同步小助手 2023-11-04 17:03:47 0 收藏

【Flink】Flink运行指标接入Prometheus+Granfana

手把手教你导出flink运行指标，完成prometheus+grafana监控集成。

overfit同步小助手 2023-11-04 17:03:28 0 收藏

如何判断人工智能学术界和工业界的最新进展？

作者：禅与计算机程序设计艺术 1.简介随着计算机科学、模式识别、智能控制等领域的不断发展和发达，人工智能正在向更广泛的人类活动中迈进。人工智能可以提高生产效率、降低成本、提升工作质量、自动化重复任务、人机交互等方面，已经成为世界上最流行的技术之一。在国内外各个学

overfit同步小助手 2023-11-04 17:01:40 0 收藏

HDFS系统中Browse Directory目录显示WebHDFS已禁用

HDFS系统中Browse Directory目录显示Path does not exist on HDFS or WebHDFS is disabled. Please check your path or enable WebHDFS 问题原因:配置文件错误或目录路径错误这个目录路径不是指lin

overfit同步小助手 2023-11-04 13:03:52 0 收藏

Flume采集端口数据kafka消费

flume采集端口

overfit同步小助手 2023-11-04 12:03:06 0 收藏

Apache Doris 学习笔记

由百度大数据部研发（之前叫百度 Palo，2018年贡献到 Apache 社区后，更名为 Doris ）Apache Doris是一个现代化的MPP （Massively Parallel Processing，即大规模并行处理）分析型数据库产品，仅需亚秒级响应时间即可获得查询结果，有效地支持实时数

overfit同步小助手 2023-11-04 09:06:37 0 收藏

大数据学习：使用Java API操作HDFS

创建、读取、写入

overfit同步小助手 2023-11-04 09:03:47 0 收藏

云计算：从基础架构原理到最佳实践之：云计算网络安全与防护

作者：禅与计算机程序设计艺术 1.简介概述云计算的高速发展带来了新的机遇，也带来了新的挑战。不管是在经济领域还是工程领域都面临着巨大的变革和新挑战。如何保证云计算平台的安全运行、数据的安全传输、用户数据的安全存储，成为一个重中之重的问题。随着云计算的

overfit同步小助手 2023-11-04 05:07:03 0 收藏

elasticsearch-7.13.3 升级log4j 到log4j-2.17.1

2、下载后解压apache-log4j-2.17.1-bin.tar.gz。log4j低版本存在严重漏洞，根据需要升级到安全版本，不一定是最新。进入elasticsearch-7.13.3目录。log4j-2.17.1 jar包下载地址。5、重新启动elasticsearch服务。4、将需要升级的包

overfit同步小助手 2023-11-04 04:03:44 0 收藏

hive lag() 和lead（）函数

Hive 中的LAG和LEAD函数时，通常用于在结果集中获取同一列在前一行（LAG）或后一行（LEAD）的值。这在分析时间序列数据、计算变化率或查找趋势时非常有用。LAG函数用于获取前一行的值。

overfit同步小助手 2023-11-04 02:03:48 0 收藏