大数据 - overfit.cn

Hive性能调优：Hive优化技术以及Hive集群规划

作者：禅与计算机程序设计艺术 1.简介Apache Hive是一个开源的分布式数据仓库软件，可以用来进行数据提取、转换、加载（ETL）、查询等功能。作为Hadoop生态系统的一员，Hive具有强大的分析能力、灵活的数据定义、数据处理、数据分析和可扩展性，是一个理

overfit同步小助手 2023-11-01 04:03:20 0 收藏

Windows下DataGrip连接Hive

单独开一个窗口先开启这个元数据服务，这个服务是上面操作了hive后，hive又会通过操作元数据的方式操作mysql。单独开一个窗口启动hiveserver2服务，这个服务是beeline连接的，提供jdbc协议帮助操作hive的。

overfit同步小助手 2023-10-31 22:03:45 0 收藏

MacOS安装与卸载Zookeeper

博客MacOS安装/卸载Zookeeper

overfit同步小助手 2023-10-31 22:03:31 0 收藏

多次重新初始化hadoop namenode -format后，DataNode或NameNode没有启动

overfit同步小助手 2023-10-31 20:03:34 0 收藏

学习笔记 --- RabbitMQ

RabbitMQ是一款开源的消息队列中间件，它实现了高级消息队列协议（AMQP）标准。作为一个消息代理，RabbitMQ可以在应用程序之间可靠地传递和存储消息，并支持多种消息传递模式。

overfit同步小助手 2023-10-31 19:03:42 0 收藏

学术前沿 | DMSP-OLS夜间城市灯光数据文献综述

DMSP（Defense Meteorological Satellite Program）是美国国防气象卫星计划。该项目是通过气象卫星搭载的传感器，探测出夜间低强度灯光，例如城市的灯光、车流的灯光、居民小区的灯光等。目前，获取到这些DMSP-OLS夜间灯光数据，已成为研究人类活动的不可多得数据源。

overfit同步小助手 2023-10-31 18:03:42 0 收藏

Spring Boot配置多个Kafka数据源

overfit同步小助手 2023-10-31 18:03:20 0 收藏

spark 与 mapreduce 对比

多进程模型的好处是便于细粒度控制每个任务占用的资源，但每次任务的启动都会消耗一定的启动时间，即MapReduce 的Map Task和Reduce Task是进程级别的，都是 jvm 进程，每次启动都需要重新申请资源，消耗了不必要的时间。所以对于下次再次使用此 RDD时，不用再次计算，而是直接从缓存

overfit同步小助手 2023-10-31 17:03:47 0 收藏

【大数据】Doris 构建实时数仓落地方案详解（三）：Doris 实时数仓设计

有时候我们还会在 DWS 层的基础上增加 DWT（Data Warehouse Topic），作为宽表，但是我们也可以将这一层保留在 DWS 中，作为 DWS 层的一部分。DM 层是数据集市层，在 OLAP 查询不理想的情况下，DM 层是需要大力建设的。现在技术发展了，OLAP 查询不再是瓶颈，我们

overfit同步小助手 2023-10-31 16:03:46 0 收藏

大数据中间件——Kafka

Kafka中间件的安装与启动

overfit同步小助手 2023-10-31 15:03:40 0 收藏

CentOS 7 基于C 连接ZooKeeper 客户端

zookeeper 库文件地址：在/usr/local/lib目录下的libzookeeper_mt(集群模式)/libzookeeper_st（单列模式）以上这些方法的目的是让客户端能够在ZooKeeper的znode树中浏览、读写数据，监控znode状态的改变等等。zookeeper 头文件地址

overfit同步小助手 2023-10-31 14:03:47 0 收藏

大数据技术之Hadoop：HDFS集群安装篇（三）

此为个人学习笔记，包含个人归纳总结以及结合了对网络资源的整理，初衷是为了自己复习巩固。如果能帮到各位是我的荣幸！该总结参考了黑马教程，感兴趣的也可以去观看相关视频。

overfit同步小助手 2023-10-31 09:03:40 0 收藏

【大数据】专业融合型人才迎来发展良机-国家数据局正式揭牌

新华社北京10月26日电《中国证券报》26日刊发文章《国家数据局揭牌数据要素产业进入加速发展期》。文章称，10月25日，国家数据局正式揭牌。业内人士认为，这标志着我国数字经济发展新阶段的开始，预计数据要素配套政策将加快出台，数据要素产业进入加速发展期。

overfit同步小助手 2023-10-31 08:03:16 0 收藏

【大数据Hive】hive 表数据优化使用详解

hive表优化策略详解

overfit同步小助手 2023-10-31 08:03:12 0 收藏

Kafka3.0.0版本——消费者（消费者组初始化流程图解）

overfit同步小助手 2023-10-31 07:03:45 0 收藏

云计算与大数据实验四 HDFS编程

方法能够为需要写入且当前不存在的目录创建父目录，即就算传入的路径是不存在的，该方法也会为你创建一个目录，而不会报错。该方法有很多重载方法，允许我们指定是否需要强制覆盖现有文件，文件备份数量，写入文件时所用缓冲区大小，文件块大小以及文件权限。类有一系列新建文件的方法，最简单的方法是给准备新建的文件制定

overfit同步小助手 2023-10-31 05:03:17 0 收藏

【Rabbitmq详解】

1.消息中间件利用可靠些传递机制进行系统和系统之间的通讯.2.通过提供消息队列传递和消息队列排队机制,它可以在分布式系统架构上扩展进程之间的通讯.

overfit同步小助手 2023-10-31 03:03:46 0 收藏

Hive篇面试题+详解

Hive是一个基于Hadoop的数据仓库工具，它提供了一个类SQL的查询语言（HiveQL）来查询和分析存储在Hadoop集群中的大规模数据。Hive的主要功能是将结构化数据映射到Hadoop的分布式文件系统（HDFS）上，并提供高级查询和分析功能。Hive支持多种存储格式，包括文本文件、序列文件、

overfit同步小助手 2023-10-31 03:03:26 0 收藏

OpenAI API及ChatGPT系列教程1：快速入门

本系列文档的主要内容是官方的翻译，同时加入了更多内容，旨在让读者更轻松地上手ChatGPT。在这些添加的内容中，我会提供更多的例子、技巧和提示，以帮助读者更好地理解 ChatGPT 的使用。此外，我们还会讨论 ChatGPT 的历史和发展，以及它在自然语言处理和人工智能领域的应用。通过这些信息，您可

overfit同步小助手 2023-10-31 01:03:50 0 收藏

docker 安装hive

想练练Hive SQL，但是没有hive shell环境。现在只有一台空的CentOS 7机子，一想要弄jdk、hadoop、mysql、hive就头疼。于是在网上找了找，发现用docker部署hive会快很多，在此记录一下部署过程。以下过程每一步在文末都附有参考文档，出错的朋友可以去看对应的参考文

overfit同步小助手 2023-10-31 01:03:37 0 收藏