大数据 - overfit.cn

Mac查看Gradle安装位置和依赖包存放路径

在Mac上查看Gradle的安装位置和依赖包存放路径，我们可以通过终端命令来实现。通过查找Gradle的安装位置和依赖包存放路径，我们可以更好地理解Gradle的工作原理，并进行相应的配置和管理。在Mac操作系统上，我们可以通过以下步骤来查看Gradle的安装位置以及依赖包的存放路径。在这个输出中，

overfit同步小助手 2024-02-04 13:05:18 0 收藏

深入了解 Flink 的检查点机制

1.背景介绍Flink 是一个流处理框架，用于实时数据处理。检查点(checkpoint)机制是 Flink 的一个核心组件，用于保证流处理作业的可靠性和容错性。在这篇文章中，我们将深入了解 Flink 的检查点机制，涵盖其核心概念、算法原理、实例代码以及未来发展趋势。1.1 Flink 的检查点机

overfit同步小助手 2024-02-04 12:03:19 0 收藏

flink如何写入es

Flink sink流数据到es5和es7的简单示例。flink写入es5和es7 的区别是引入不同的flink-connector-elasticsearch,es7已没有type的概念故无需再设置type。

overfit同步小助手 2024-02-04 11:03:44 0 收藏

数据仓库与Hadoop：如何实现大规模数据处理

1.背景介绍数据仓库和Hadoop都是处理大规模数据的重要技术，它们在现代数据科学和人工智能中发挥着至关重要的作用。数据仓库是一种用于存储和管理大量历史数据的系统，主要用于数据分析和报告。而Hadoop是一个开源的分布式文件系统和数据处理框架，主要用于处理大规模、分布式的实时数据。在本文中，我们将深

overfit同步小助手 2024-02-04 09:03:24 0 收藏

人类思维与AI的潜意识：解密内心世界

人类思维是一种复杂的过程，它涉及到大脑的各个区域的协同工作，包括感知、记忆、推理、情感等。在过去的几十年里，人工智能研究者们试图通过模仿这些过程来构建更加智能的计算机系统。然而，这种尝试并没有达到预期的效果，因为人类思维和计算机思维之间的差异太大。抽象思维：人类可以对事物进行抽象，将复杂的事物简化为

overfit同步小助手 2024-02-04 07:01:18 0 收藏

Spark的内核调度

本文介绍了Spark的内核调度中的RDD的依赖,DAG有向无环图的形成和Stage的划分,以及Stage内部流程,还有Spark Shuffle的发展历程Hash Shuffle和Sort Shuffle,还包含了Job的调度流程,以及Spark RDD的并行度

overfit同步小助手 2024-02-04 06:03:46 0 收藏

大数据与容器化技术指南：Docker、Kubernetes与大数据生态常用命令大全

本书涵盖了Docker和Kubernetes的基本概念及常用命令，以及Zookeeper、HDFS、YARN、YARN资源池、HBase、HBase集成Phoenix、Hive、Kafka、Spark、Flink等大数据技术的常用命令。

overfit同步小助手 2024-02-04 05:03:49 0 收藏

Flink状态容错savepoint与checkpoint

本文目录CheckpointsState BackendsSavepointsCheckpoints 与 Savepoints区别Flink可以保证exactly once，与其容错机制checkpoint和savepoint分不开的。本文主要讲解两者的机制与使用，同时会对比两者的区别。Checkp

overfit同步小助手 2024-02-04 03:03:39 0 收藏

并行计算与大规模数据处理：Hadoop与Spark

1.背景介绍大数据是指由于互联网、物联网等新兴技术的发展，数据量巨大、高速增长、多源性、不断变化的数据。大数据处理技术是指利用计算机科学技术，对大规模、高速、多源、不断变化的数据进行存储、处理和挖掘，以实现数据的价值化。并行计算是指同时处理多个任务或数据，以提高计算效率。大规模数据处理是指处理的数据

overfit同步小助手 2024-02-04 01:03:52 0 收藏

三台CentOS7.6虚拟机搭建Hadoop完全分布式集群（二）

这个是笔者大学时期的大数据课程使用三台CentOS7.6虚拟机搭建完全分布式集群的案例，已成功搭建完全分布式集群，并测试跑实例。

overfit同步小助手 2024-02-04 01:03:43 0 收藏

大数据Doris（五十一）：Colocation Join介绍

Colocation Join 功能，是将一组拥有相同 CGS 的 Table 组成一个 CG。并保证这些 Table 对应的数据分片会落在同一个 BE 节点上。使得当 CG 内的表进行分桶列上的 Join 操作时，可以通过直接进行本地数据 Join，减少数据在节点间的传输耗时。

overfit同步小助手 2024-02-04 00:03:43 0 收藏

【Elasticsearch篇】详解使用RestClient操作索引库的相关操作

Elasticsearch是一个开源的分布式搜索和分析引擎，用于实时搜索、分析和存储大规模数据。它基于Apache Lucene库构建，提供了一个简单而强大的分布式搜索解决方案。

overfit同步小助手 2024-02-03 23:06:16 0 收藏

横扫Spark之 - RDD（Resilient Distributed Dataset）弹性分布式数据集

Spark中最基本的数据抽象 - RDD，既然叫弹性分布式数据集，那如何理解这个弹性、分布式、数据集最后RDD的5个主要特性分别是什么含义

overfit同步小助手 2024-02-03 23:03:49 0 收藏

Flink性能优化小结

可以通过开启缓冲消胀机制来简化 Flink 网络的内存配置调整。您也可能需要调整它。如果这不起作用，您可以关闭缓冲消胀机制并且人工地配置内存段的大小和缓冲区个数。针对第二种场景，我们推荐：使用默认值以获得最大吞吐减少内存段大小、独占缓冲区的数量来加快 checkpoint 并减少网络栈消耗的内存量。

overfit同步小助手 2024-02-03 22:04:29 0 收藏

【git使用】了解三种git commit合并的使用场景（rebase、merge、cherry-pick）

在 dev 上开发了一段时间后要把 master 分支提交的新内容更新到 dev 分支，此时切换到 dev 分支，使用 git rebase master，等 dev 分支开发完成了之后，要合并到上游分支 master 上的时候，切换到 master 分支，使用 git merge dev。reba

overfit同步小助手 2024-02-03 21:04:26 0 收藏

Flink的MySQL集成与应用

1.背景介绍在大数据时代，数据处理和分析的需求日益增长。为了更高效地处理和分析大量数据，许多大数据处理框架和工具已经诞生。Apache Flink是一种流处理框架，它可以处理实时数据流，并提供了一系列高效的数据处理和分析功能。MySQL是一种关系型数据库管理系统，它广泛应用于各种业务场景中。在某些情

overfit同步小助手 2024-02-03 19:03:53 0 收藏

大数据相关软件的安装指南（超详细的图文教程）

大数据相关软件的安装指南

overfit同步小助手 2024-02-03 18:03:26 0 收藏

大数据Doris（十八）：演示单分区和复合分区

上述表通过设置 replication_num 建的都是单副本的表，Doris建议用户采用默认的 3 副本设置，以保证高可用。可以对 Table 增加上卷表（Rollup）以提高查询性能，这部分可以参见高级使用指南关于 Rollup 的描述。将 table1_data 导入 table1 中：vim

overfit同步小助手 2024-02-03 16:03:39 0 收藏

相比于其他流处理技术，Flink的优点在哪？

Apache Flink 是一个开源的流处理框架，用于在高吞吐量和低延迟的情况下进行大规模数据流的处理。Flink 以其在流处理领域的性能而闻名，相比于其他流处理技术，Flink 提供了一些独特的特性和优化，使其在某些情况下更快。

overfit同步小助手 2024-02-03 16:03:28 0 收藏

Flink 内容分享(七)：Flink 读写 HBase 总结

总结 Flink 读写 HBase本文总结了Flink SQL 读写 HBase 的参数配置，解决了在kerberos环境下因 hudi 包 hbase-site.xml 配置冲突引起的异常，学习总结了 Flink SQL 读写 HBase 时加载 HBase 配置的优先级，但是没有详细的分析源码中

overfit同步小助手 2024-02-03 07:03:48 0 收藏