大数据 - overfit.cn

Java通过kerberos权限认证集成hive

java通过kerberos权限认证集成hive，并操作hive实现hive库和表、分区表的增删查等功能

overfit同步小助手 2023-10-31 00:03:32 0 收藏

Kafka 监听器详解

是一款 Kafka GUI 管理工具——管理Broker,Topic,Group、查看消费详情、监控服务器状态、支持多种消息格式。

overfit同步小助手 2023-10-30 23:03:55 0 收藏

RabbitMQ中的手动应答和自动应答

当使用RabbitMQ来处理消息时，消息确认是一个重要的概念。RabbitMQ提供了两种不同的消息确认方式：自动应答（Automatic Acknowledgment）和手动应答（Manual Acknowledgment）。这两种方式适用于不同的应用场景，本文将通过Java代码示例来演示它们的区别

overfit同步小助手 2023-10-30 23:03:52 0 收藏

Azure - 机器学习：使用 Apache Spark 进行交互式数据整理

数据整理已经成为机器学习项目中最重要的步骤之一。 Azure 机器学习与 Azure Synapse Analytics 集成，提供对 Apache Spark Pool（由 Azure Synapse 支持）的访问，以便使用 Azure 机器学习笔记本进行交互式数据整理。

overfit同步小助手 2023-10-30 23:03:34 0 收藏

Hadoop3教程（二十六）：（生产调优篇）NameNode核心参数配置与回收站的启用

介绍了hadoop里部分核心参数的配置方式，如NameNode内存相关参数的配置、NameNode心跳并发的配置，并介绍了如何启用hadoop的回收站

overfit同步小助手 2023-10-30 20:03:39 0 收藏

HiveServer2负载均衡

有多个HiveServer2服务时，可以借助Zookeeper服务实现访问HiveServer2的负载均衡，将HiveServer2的压力分担到多个节点上去。本文详细介绍HiveServer2负载均衡的配置及使用方法，请根据EMR集群（普通集群和Kerberos集群）的实际情况进行选择。在zoope

overfit同步小助手 2023-10-30 19:03:14 0 收藏

基于postgresql传统数据仓库搭建

传统数据仓库 postgresql greenplum 数仓分层 ods dw dm dim ads app dolphinScheduler datax magic-api

overfit同步小助手 2023-10-30 17:03:44 0 收藏

「RabbitMQ」实现消息确认机制以确保消息的可靠发送、接收和拒收

RabbitMQ的消息确认机制应用场景非常广泛，尤其是在需要确保消息可靠性和避免消息丢失的场合下更为重要，例如：金融系统、电商交易系统等。

overfit同步小助手 2023-10-30 16:03:50 0 收藏

Apache Hive实战

作者：禅与计算机程序设计艺术 1.简介Hive是一个基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表格，并提供SQL查询功能。由于其高效、易用等特点，越来越多的企业在大数据平台上使用它作为数据仓库。本文将详细介绍Apache Hive的安装

overfit同步小助手 2023-10-30 16:03:40 0 收藏

flink教程

pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-i

overfit同步小助手 2023-10-30 14:03:56 0 收藏

Hadoop：HDFS--分布式文件存储系统

HDFS的基础架构Hadoop由三个部分组成，分别是HDFS、MapReduce和yarn：HDFS由三个角色，主角色、从角色、主角色辅助角色：NameNodeHDFS系统的主角色，是一个独立的进程负责管理HDFS整个文件系统负责管理DataNodeNameNode的辅助，是一个独立进程主要帮助Na

overfit同步小助手 2023-10-30 14:03:48 0 收藏

Kafka原理、部署与实践——深入理解Kafka的工作原理和使用场景，全面介绍Kafka在实际生产环境中的部署

随着互联网的发展，网站的流量呈爆炸性增长，传统的基于关系型数据库的数据处理无法快速响应。而NoSQL技术如HBase、MongoDB等被广泛应用于分布式数据存储与处理，却没有提供像关系型数据库一样的ACID特性、JOIN操作及完整性约束。因此，很多公司或组织开始转向Apache Spark、Flin

overfit同步小助手 2023-10-30 14:03:29 0 收藏

Spring Clould 注册中心 - Eureka，Nacos

视频地址：微服务（SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式）微服务涉及的的知识总结：邮储的物联网项目实用的是apollo作为配置中心，nocos作为注册中心，feign进行服务间调用 SpringClould 与SpringBoot的版本兼容 cloul

overfit同步小助手 2023-10-30 13:03:50 0 收藏

Hive引擎MR、Tez、Spark

不更换引擎hive默认的就是MR。：是一种编程模型，用于大规模数据集（大于1TB）的并行运算。：Hive既作为存储元数据又负责SQL的解析优化，语法是HQL语法，执行引擎变成了Spark，Spark负责采用RDD执行。

overfit同步小助手 2023-10-30 13:03:26 0 收藏

数据库、数据仓库相关

数据库和数据仓库是两种不同的数据存储方式，它们的设计目的和使用场景也有所不同。数据库通常用于存储和管理应用程序的事务性数据，例如用户信息、订单信息、库存信息等。数据仓库则用于存储和管理大量的历史数据和分析数据，例如销售数据、客户数据、市场数据等。它们通常被设计为支持复杂的数据分析和报表查询，需要快速

overfit同步小助手 2023-10-30 12:03:53 0 收藏

大数据有哪些常见的数据类型？

非结构化数据是没有明确结构或组织的数据，通常以文本、图像、音频和视频的形式存在。这种类型的数据需要更复杂的处理和分析技术，以提取有用的信息。半结构化数据不像结构化数据那样具有明确定义的模式，但它包含了标记或标签，使得数据可以被更容易地解释和处理。结构化数据是以表格、行和列的形式组织的数据，通常存储在

overfit同步小助手 2023-10-30 12:03:38 0 收藏

从零开始Hadoop安装和配置，图文手把手教你，定位错误（已部署成功）

写了近一万字，所有的步骤基本都有图，Vmware、centos、jdk、Hadoop以及需要用到的工具里面全有。小唐初学Hadoop学了一个月，也配置了一个月，基本上所有可以踩的坑和不可以踩的都遇到了，当自己配置完成之后，又去重新配置了一遍，已经实现了

overfit同步小助手 2023-10-30 11:03:43 0 收藏

hadoop伪分布式环境搭建，完整的详细步骤

hadoop伪分布式环境搭建，完整的详细步骤一、搭建伪分布式本次实验环境：1、VMware142、一台ubtuntu 18 64位3、主机名位master4、ip 地址：192.168.136.315、本次实验需要的安装包二、伪分布式搭建前的准备1、查看id 地址ip addr2、关闭防火墙命

overfit同步小助手 2023-10-30 10:03:56 0 收藏

Flink 中kafka broker缩容导致Task一直重启

（默认30000），这两个参数来控制kakfa的客户端从服务端请求超时，也就是说每次请求的超时时间是30s，超时之后可以再重试，如果在60s内请求没有得到任何回应，则会报。这里做的事情就是从持久化的State中恢复kafkaTopicOffset信息,我们这里假设是第一次启动。获取到要提交的kafk

overfit同步小助手 2023-10-30 10:03:50 0 收藏

Eureka

大家好我是苏麟今天带来Eureka的使用 .

overfit同步小助手 2023-10-30 10:03:15 0 收藏