大数据 - overfit.cn

Docker容器命令大全：启动、停止、重启，你需要的都在这里

随着云计算和容器化技术的普及，Docker已经成为现代软件开发和运维的标配工具。掌握Docker容器的启动、停止、重启以及各项命令对于有效管理容器化应用至关重要。本文将深入解析Docker容器的生命周期管理，从启动一个容器开始，到优雅地停止和重启容器，再到其他常用命令的实战应用。通过本文的学习，读者

overfit同步小助手 2024-04-08 09:03:48 0 收藏

学习了解Spark和Scala的理论知识以及安装部署

Spark 是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台之一。Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。目前，Spark生态系统已经

overfit同步小助手 2024-04-08 09:03:39 0 收藏

【hive】hive中row_number() rank() dense_rank()的用法

主要是配合over()窗口函数来使用的，通过over(partition by order by )来反映统计值的记录。

overfit同步小助手 2024-04-08 09:03:20 0 收藏

【Ambari】Ansible自动化部署大数据集群

ansible 自动化安装ambari

overfit同步小助手 2024-04-08 09:03:14 0 收藏

【Flink SQL】Flink SQL 基础概念（一）：SQL & Table 运行环境、基本概念及常用 API

Table API 是一种集成在 Java、Scala 和 Python 语言中的查询 API，简单理解就是用 Java、Scala、Python 按照 SQL 的查询接口封装了一层 lambda 表达式的查询 API，它允许以强类型接口的方式组合各种关系运算符（如选择、筛选和联接）的查询操作，然后

overfit同步小助手 2024-04-08 07:03:48 0 收藏

Spark+Flink+Kafka环境配置

overfit同步小助手 2024-04-08 06:03:42 0 收藏

Mac M2芯片 Arm64框架的Linux安装Hive

因为启动Hive之前需要先启动Hadoop集群、MySQL、并且需要JDK，之前有写过M2怎么安装，这里直接引用，需要的可以查看下面跳转一下。将下载好的MySQL的驱动包放置到Hive安装目录lib目录下。

overfit同步小助手 2024-04-08 06:03:25 0 收藏

Hive的时间处理函数from_unixtime和unix_timestamp

hive时间处理函数from_unixtime和unix_timestamp的实现以及实例，从而方便后续的时间处理。

overfit同步小助手 2024-04-08 05:03:55 0 收藏

基于VMware的CentOS 7虚拟机安装+配网+hadoop集群配置（超级详细完整版，适合初学者）

当今社会快速发展，大数据的存储越来越重要，hadoop的组件之一HDFS分布式文件系统就能实现大数据的存储；结合自身的学习经验，该文主要介绍了虚拟机的安装、配网以及hadoop集群搭建的详细过程，给后续的深入学习打下良好的基础。...............

overfit同步小助手 2024-04-08 05:03:47 0 收藏

大数据人工智能在零售行业的应用与优势

1.背景介绍随着大数据技术的不断发展，人工智能在各个行业中的应用也逐渐成为主流。零售行业也不例外。在这篇文章中，我们将深入探讨大数据人工智能在零售行业的应用与优势。1.1 大数据人工智能的概念大数据人工智能(Big Data AI)是指利用大量、多样化、高速生成的零售数据，通过人工智能算法和技术，实

overfit同步小助手 2024-04-08 04:03:53 0 收藏

RabbitMQ消息应答与发布

RabbitMQ一旦向消费者发送了一个消息,便立即将该消息,标记为删除.消费者完成一个任务可能需要一段时间,如果其中一个消费者处理一个很长的任务并仅仅执行了一半就突然挂掉了,在这种情况下,我们将丢失正在处理的消息,后续给消费者发送的消息也就无法接收到了.为了确保消息不丢失,我们引入了消息应答机制.消

overfit同步小助手 2024-04-08 03:03:50 0 收藏

大数据开发（Hive面试真题）

Hive的三种自定义函数包括UDF（User-Defined Function（用户定义函数））、UDAF（User-Defined Aggregate Function（用户定义聚合函数））和UDTF（User-Defined Table-Generating Function（用户定义表生成函数

overfit同步小助手 2024-04-08 03:03:22 0 收藏

RabbitMQ介绍

2.应用解耦：一个系统直接调用其他系统，若其他系统发生故障，则整个流程业务就无法完成，若在两个系统之间加上消息队列，主系统先执行完成后才会发消息给队列，有队列去转达到其他系统，而主系统不收其影响。消息中间件最主要的作用是解耦，中间件最标准的用法是生产者生产消息传送到队列，消费者从队列中拿取消息并处理

overfit同步小助手 2024-04-08 02:03:51 0 收藏

黑马点评用rabbitmq实现优惠券秒杀下单后的异步操作数据库数据

/</</</

overfit同步小助手 2024-04-08 02:03:45 0 收藏

(ROOT)KAFKA详解

在RecordAccumulator中的batchs队列中的每个元素就是ProducerBatch，第一次发送消息的时候会消息所在分区的ProducerBatch队列，并创建ProducerBatch将该条消息追加在ProducerBatch，然后有新的消息发送时，就会追加消息到对应TopicPar

overfit同步小助手 2024-04-08 02:03:26 0 收藏

Spark-Scala语言实战（10）

今天开始的文章，我会带给大家如何在spark的中使用我们的RDD方法，今天学习RDD方法中的cartesian,subtract两种方法。希望我的文章能帮助到大家，也欢迎大家来我的文章下交流讨论，共同进步。

overfit同步小助手 2024-04-08 01:03:44 0 收藏

Zookeeper 实战

Zookeeper 是一个开源的分布式协调服务，它起源于 Google 的 Chubby 项目，并成为 Hadoop 分布式系统的基础组件。Zookeeper 提供了一组简单的原语集，分布式应用程序可以基于这些原语实现同步服务、配置维护和命名服务等。Zookeeper 主要角色是协调器（Contro

overfit同步小助手 2024-04-08 01:03:25 0 收藏

基于 HBase & Phoenix 构建实时数仓（5）—— 用 Kafka Connect 做实时数据同步

安装配置 Kafka connect 插件实现 MySQL 到 Hbase 的实时数据同步。

overfit同步小助手 2024-04-08 00:03:18 0 收藏

数据仓库（数仓）详细介绍

数据仓库（数仓）的详细介绍

overfit同步小助手 2024-04-07 23:03:51 0 收藏

8款大数据后台分析html页面模板

相比于传统图表与数据仪表盘，可视化监控大屏的出现，可以打破数据隔离，通过数据采集、清洗、分析到直观实时的数据可视化，能够多方位、多角度、全景展现各项指标，实时监控，动态一目了然。

overfit同步小助手 2024-04-07 22:03:56 0 收藏