大数据 - overfit.cn

Apache Spark 的基本概念和在大数据分析中的应用

此外，Spark 提供了丰富的编程接口（如 Scala、Java、Python 和 R），可以方便地进行开发和调试。因此，Spark 成为了大数据处理和分析的首选工具之一。Resilient Distributed Datasets (RDDs)：RDD 是 Spark 的核心数据结构，代表了分布式

overfit同步小助手 2024-02-02 22:03:50 0 收藏

Kafka中的Topic

在Kafka中，Topic是消息的逻辑通道，生产者将消息发布到Topic，而消费者从Topic订阅消息。每个Topic可以有多个分区（Partitions），每个分区可以在不同的服务器上，以实现横向扩展。Kafka的Topic是构建实时流数据处理系统的核心组件之一。通过深入了解Topic的创建、配置

overfit同步小助手 2024-02-02 22:03:45 0 收藏

Hadoop与Spark横向比较【大数据扫盲】

大数据场景下的数据库有很多种，每种数据库根据其数据模型、查询语言、一致性模型和分布式架构等特性，都有其特定的使用场景。以下是一些常见的大数据数据库：1. **NoSQL 数据库**：这类数据库通常用于处理大规模、非结构化的数据。它们通常提供简单的查询语言，并强调水平扩展和高可用性。例如：- **键值

overfit同步小助手 2024-02-02 22:03:41 0 收藏

Flink的实时数据流式安全与权限

1.背景介绍1. 背景介绍Apache Flink 是一个流处理框架，用于处理大规模实时数据流。它支持流式计算和批处理，可以处理高速、高吞吐量的数据流。Flink 的安全和权限管理非常重要，因为它处理的数据可能包含敏感信息。本文将讨论 Flink 的实时数据流式安全与权限，以及如何实现它们。2. 核

overfit同步小助手 2024-02-02 20:03:32 0 收藏

【flink番外篇】14、Flink异步I/O访问外部数据示例

系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分，比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和S

overfit同步小助手 2024-02-02 19:03:55 0 收藏

RabbitMQ（不完整版）

RabbitMQ

overfit同步小助手 2024-02-02 19:03:49 0 收藏

【Hive_05】企业调优1（资源配置、explain、join优化）

Explain呈现的执行计划，由一系列Stage组成，这一系列Stage具有依赖关系，每个Stage对应一个MapReduce Job，或者一个文件系统操作等。stage可以对应mr，也可以对应文件系统操作。因为不是所有的sql语句的底层都是mr。比如说load语句，底层就不是mr而是文件系统操作。

overfit同步小助手 2024-02-02 19:03:34 0 收藏

SpringCloud：RabbitMQ兔子消息队列

channel：操作MQ的工具exchange：路由消息到队列中queue：缓存消息virtual host：虚拟主机，是对queue、exchange等资源的逻辑分组基本消息队列（BasicQueue）工作消息队列（WorkQueue）Fanout Exchange：广播Direct Exchan

overfit同步小助手 2024-02-02 19:03:26 0 收藏

HBase的数据安全与访问控制策略

1.背景介绍1. 背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。它是Hadoop生态系统的一部分，可以与HDFS、MapReduce、ZooKeeper等组件集成。HBase具有高可靠性、高性能和高可扩展性等优势，适用于大规模数据存储和实时数据

overfit同步小助手 2024-02-02 19:03:16 0 收藏

大数据AI在生物信息学领域的潜力

1.背景介绍生物信息学是一门研究生物科学、计算科学和信息科学如何相互作用以解决生物学问题的学科。生物信息学涉及到生物序列数据的分析、比较和存储，例如基因组、蛋白质序列和微组学数据。随着科学家们对生物数据的需求日益增长，生物信息学的重要性也在不断提高。在过去的几年里，人工智能(AI)和大数据技术在生物

overfit同步小助手 2024-02-02 17:04:00 0 收藏

【大数据】深入浅出 Apache Flink：架构、案例和优势

总的来说，Apache Flink 有几个显著的优点，使其成为当今最流行的分析引擎之一。它的速度快如闪电，是一个分布式系统，能以容错的方式处理批处理和流式数据，还能处理大型数据集，这些优点使它成为各种应用的理想选择。

overfit同步小助手 2024-02-02 17:03:53 0 收藏

电商系统设计到开发03 引入Kafka异步削峰

电商系统设计到开发01 第一版设计到编码-CSDN博客电商系统设计到开发02 单机性能压测-CSDN博客本篇为大制作，内容有点多，也比较干货，希望可以耐心看看已经开发的代码，并对其下单接口进行了压力测试压力测试，该接口一个请求需要查询数据库4次，更新4次，插入2次，总共访问数据库10次，其中2个事

overfit同步小助手 2024-02-02 17:03:37 0 收藏

大数据基础设施搭建 - Hbase

首先保证Zookeeper和Hadoop正常运行。

overfit同步小助手 2024-02-02 17:03:27 0 收藏

olap/spark-tungsten：codegen

15721这一章没什么好说的，不再贴课程内容了。codegen和simd在工业界一般只会选一种实现。比如phothon之前用codegen，然后改成了向量化引擎。一般gen的都是weld IR/LLVM IR/当前语言，gen成C++的也要检查是不是有本地预编译版本，要不没法用。因为clickhou

overfit同步小助手 2024-02-02 16:03:39 0 收藏

奇技淫巧：如何给项目中的RabbitMQ添加总开关

本文主要分享了如何给项目中的RabbitMQ添加总开关，通过简单配置开/关RabbitMQ。

overfit同步小助手 2024-02-02 16:03:27 0 收藏

使用Apache Kafka进行分布式流处理

1.背景介绍分布式流处理是现代大数据技术中的一个重要领域，它涉及到实时处理大规模数据流，以支持各种应用场景，如实时数据分析、实时推荐、实时监控等。在这些场景中，数据处理需要在高吞吐量、低延迟、高可扩展性和高可靠性等多个方面达到平衡。Apache Kafka 是一个开源的分布式流处理平台，它可以处理实

overfit同步小助手 2024-02-02 12:03:57 0 收藏

Kafka篇——生产者端发送消息配置汇总(ACK配置、重试间隔设置以及发送消息缓冲机制)干货满满！细节满满！

生产者同步发送消息的时候，生产者在获得集群返回的ACK前会一直阻塞，那么集群什么时候给生产者返回ACK呢？在Kafka中，ACK（Acknowledgement）是一种确认机制，用于确保消息的可靠传递。当Producer发送消息给Kafka的一个分区时，Producer可以选择是否等待Broker对

overfit同步小助手 2024-02-02 12:03:39 0 收藏

如何使用 Hive 进行自然语言处理

1.背景介绍自然语言处理(NLP，Natural Language Processing)是人工智能领域的一个重要分支，其主要目标是让计算机能够理解、生成和翻译人类语言。自然语言处理涉及到语音识别、语义分析、语料库构建、情感分析等多个方面。随着大数据技术的发展，自然语言处理领域中的数据量越来越大，传

overfit同步小助手 2024-02-02 12:03:34 0 收藏

【大数据进阶第三阶段之DolphinScheduler学习笔记】DolphinScheduler(海豚调度)的部署指南

只需要更改 dolphinscheduler-worker 服务的镜像.创建一个新的Dockerfile，用于安装 pip:这个命令会安装默认的pip 18.1. 如果你想升级 pip, 只需添加一行构建一个包含 pip 的新镜像:推送 docker 镜像到一个 docker registry 中修

overfit同步小助手 2024-02-02 10:03:47 0 收藏

centos7安装hadoop

点击完成，来到信息安装摘要界面，点击软件选择。默认是最小安装，为了方便我们学习，需要点进去选择一些配置。点击编辑虚拟机设置，点击CD\DVD，选择IOS镜像文件，这个镜像文件就是centos7的镜像文件。在安装的过程中，设置root用户的密码，可根据自己的需求添加普通用户。根据自己的电脑配置，选择处

overfit同步小助手 2024-02-02 09:04:00 0 收藏