大数据 - overfit.cn

Flink的简介以及基本概念

有界流和无界流有状态的流处理。

overfit同步小助手 2024-07-01 15:03:44 0 收藏

Spark与Hive的比较与优势

1.背景介绍1. 背景介绍Apache Spark和Hive都是大数据处理领域的重要工具。Spark是一个快速、高效的大数据处理框架，可以处理批量数据和流式数据。Hive则是一个基于Hadoop的数据仓库系统，可以处理大量结构化数据。在大数据处理领域，选择合适的工具是非常重要的。因此，了解Spark

overfit同步小助手 2024-07-01 15:03:18 0 收藏

一文教你在k8s中部署单机版kafka（保姆级教程）

本文详细阐述了在Kubernetes（k8s）集群中部署单机版Apache Kafka的步骤和注意事项。Kafka是一个分布式流处理平台，广泛应用于大数据处理、实时日志分析、事件驱动微服务等场景。在k8s中部署Kafka可以充分利用其容器编排和自动化管理的优势，提高Kafka集群的可用性和可伸缩性。

overfit同步小助手 2024-07-01 13:03:40 0 收藏

大数据-Hadoop-基础篇-第四章-MapReduce （离线计算引擎）

MapReduce 常用于对大规模数据集(大于 1TB)的并行运算，或对大数据进行加工、挖掘和优化等处理。MapReduce 将并行计算过程高度抽象到了两个函数 map 和reduce 中，程序员只需负责 map和 reduce 函数的编写工作，而并行程序中的其它复杂问题(如分布式存储、工作调度、负

overfit同步小助手 2024-07-01 12:03:51 0 收藏

数据仓库之数据字典

数据字典是描述数据仓库中数据结构、内容、关系及其他元数据的工具。它为数据仓库用户提供了数据仓库中数据的全面视图，帮助他们理解和使用数据。

overfit同步小助手 2024-07-01 12:03:45 0 收藏

centos7下Hadoop集群的mysql5.7以及hive3.1搭建——包对的！

centos7下Hadoop集群的mysql5.7以及hive3.1搭建

overfit同步小助手 2024-07-01 12:03:24 0 收藏

大数据 - Doris系列《四》- Doris常用函数

本文主要介绍doris的常用函数

overfit同步小助手 2024-07-01 11:03:47 0 收藏

揭秘“湖仓一体”——Flink+Paimon+StarRocks，打造实时分析新纪元

数据湖仓是 Flink 流批一体发挥重要作用的场景,使用 Flink + Paimon + starRocks 来构建湖仓一体数据分析.

overfit同步小助手 2024-07-01 00:03:44 0 收藏

系统运维管理制度：确保信息技术系统的高效与安全

通过不断优化运维管理流程，采用先进的技术和工具，企业可以提高系统的稳定性和安全性，为用户提供更高质量的服务。1. 组织结构与职责划分：明确运维团队的结构，包括运维经理、系统管理员、网络管理员、数据库管理员等角色，并明确各自的职责和工作流程。为了确保系统运维管理的有效性和规范性，企业需要制定详细的运维

overfit同步小助手 2024-06-30 21:07:14 0 收藏

大数据复习练习

CAP是一致性（Consistency）、可用性（Availability）和分区容错性（Partition Tolerance）。NameNode：hadoop中的主服务器，管理文件系统名称空间和对集群中存储的文件的访问，保存有元数据。DataNode：负责管理连接到节点的存储。每个存储数据的节点

overfit同步小助手 2024-06-30 20:03:23 0 收藏

hive调优原理详解：案例解析参数配置(第17天）

本文主要详解hive调优，案例解析。

overfit同步小助手 2024-06-30 20:03:14 0 收藏

【大数据复习】第1章大数据概述

9.大数据、云计算和物联网代表了IT领域最新的技术发展趋势,三者相辅相成,既有联系又有区别。过去重因果，有因有果，但是现在注重相关性，你买了车，那我才不管你对屁股垫有没有兴趣，我先给你推了，万一你有了呢，万一你看见了才有了呢？要多不要精了，因为数据实在是太多了，有了大数据后，完全可以直接针对全局数据

overfit同步小助手 2024-06-30 19:03:18 0 收藏

Hadoop核心技术知识总结

Hadoop核心技术的课程总结主要涵盖了Hadoop的基本概念、核心技术模块以及其在大数据处理领域的优势和应用。首先，Hadoop是一个由Apache基金会开发的分布式系统基础架构，主要用于解决大数据集的存储和计算分析问题。它使用Java语言开发，具有跨平台性，并且是开源的。Hadoop运行在廉价机

overfit同步小助手 2024-06-30 18:03:50 0 收藏

【精】hadoop、HIVE大数据从0到1部署及应用实战

ETL，即数据抽取（Extract）、转换（Transform）和加载（Load）的过程，是数据仓库领域中的一个重要概念。简单来说，ETL过程就是从各种数据源中抽取数据，将这些数据按照一定的规则进行转换，并最终将这些数据加载到目标数据仓库或其他数据存储系统中。在ETL过程中，数据抽取阶段主要涉及到从

overfit同步小助手 2024-06-30 17:03:38 0 收藏

【大数据复习】第3章分布式文件系统HDFS（重中之重）

D. 当客户端读取文件的时候,会先读取该信息文件,然后,利用该信息文件对每个读取的数据块进行校验,如果校验出错,客户端就会请求到另外一个数据节点读取该文件块,并且向名称节点报告这个文件块有错误,名称节点会定期检查并且重新复制这个块。B. 当数据节点发生故障,或者网络发生断网时,名称节点就无法收到来自

overfit同步小助手 2024-06-30 10:03:49 0 收藏

大数据之Hadoop的特点是什么？有什么优缺点？有哪些发行版本？

Hadoop 是一个开源的分布式存储和计算框架，由 Apache 软件基金会维护。Hadoop 的这些特点使其成为处理大规模数据集的理想选择，广泛应用于互联网、金融、医疗、科研等领域。

overfit同步小助手 2024-06-30 09:03:51 0 收藏

项目实践---Windows11中安装Zookeeper/Hadoop/Hive

Windows11中安装Hadoop/Hive

overfit同步小助手 2024-06-30 09:03:15 0 收藏

【大数据复习】第4章 HBase（重点）

（2）如果要对hdfs上存储的海量数据进行增删改查,，我要往里面插入数据，还要修改数据，还有删除里面某一行的数据，还要精确的查询某一行数据，这是hdfs做不到的，所以有了HBase。（3）客户端并不是直接从Master主服务器上读取数据，而是通过Zookeeper获得Region的存储位置信息后，直

overfit同步小助手 2024-06-30 08:03:23 0 收藏

大数据技术Hadoop -- Hive的基本操作

（8）查询stocks表中收盘价(price_close)比开盘价(price_open)高得最多的那条记录的交易所(exchange)、股票代码(symbol)、日期(ymd)、收盘价、开盘价及二者差价。（4）创建一个未分区的外部表dividends_unpartitioned，并从divide

overfit同步小助手 2024-06-30 07:03:49 0 收藏

Hadoop一课一得

本文详细介绍了Hadoop课程的内容和学习路径，希望能够帮助读者更好地理解和应用这一强大的大数据处理工具。

overfit同步小助手 2024-06-30 06:03:29 0 收藏