大数据 - overfit.cn

Spark-Scala语言实战（7）

今天开始的文章，我会带给大家如何在spark的中使用我们的RDD方法，今天学习RDD方法中的map,sortby,collect三种方法。希望我的文章能帮助到大家，也欢迎大家来我的文章下交流讨论，共同进步。

overfit同步小助手 2024-04-01 10:03:50 0 收藏

如何在Linux系统部署ONLYOFFICE协作办公利器并实现多人实时编辑文档

如果我们需要长期异地远程访问OnlyOffice，由于刚才创建的是随机的地址，24小时会发生变化。我们就成功在本地搭建了OnlyOffice，但如果想实现出门在外，或者企业之间想在公网同步访问进行工作协作，省去本地部署的步骤，就需要借助cpolar内网穿透工具来实现公网访问了！使用上面的Cpolar

overfit同步小助手 2024-04-01 08:03:07 0 收藏

SpringCloud微服务-SpringAMQP（RabbitMQ）

Spring AMQP是Spring框架对AMQP（Advanced Message Queuing Protocol）的支持库，用于简化在Java应用程序中使用消息队列的开发。通过Spring AMQP，开发人员可以更轻松地与消息代理进行交互，发送和接收消息，以实现异步通信和解耦应用程序组件。Sp

overfit同步小助手 2024-04-01 06:03:46 0 收藏

大数据AI人工智能的挑战与解决：如何应对技术限制

1.背景介绍大数据和人工智能(AI)是当今最热门的技术趋势之一，它们在各个领域都取得了显著的成果。然而，这些技术也面临着一系列挑战，这篇文章将探讨这些挑战以及如何应对它们。大数据是指由于互联网、移动互联网、物联网等技术的发展，产生的数据量巨大、多样性高、速度极快的数据。这些数据可以帮助企业和组织更好

overfit同步小助手 2024-04-01 05:03:45 0 收藏

Spark概述

spark是新一代轻量级大数据处理平台。

overfit同步小助手 2024-04-01 05:03:10 0 收藏

高冷学霸给我送了一周早餐竟是为了...我的Spark笔记？！！

速度快：由于ApacheSpark支持内存计算，并且通过DAG（有向无环图）执行引擎支持无环数据流，所以官方宣称其在内存中的运算速度要比Hadoop的MapReduce快100倍，在硬盘中要快10倍易使用：Spark的版本已经更新到了Spark3.1.2（截止日期2021.06.01），支持了包括J

overfit同步小助手 2024-04-01 04:03:47 0 收藏

Kafka可用与可靠机制

如果一个follower在设定的replica.lag.time.max.ms时间周期内时刻保持与leader的数据更新，则认为该follower是同步的，它将被leader保留在ISR列表中，反之将被从ISR中剔除。是否允许将新leader切换到数据不同步的follower(故障切换时，uncle

overfit同步小助手 2024-04-01 04:03:43 0 收藏

【天衍系列 05】Flink集成KafkaSink组件：实现流式数据的可靠传输 & 高效协同

旨在帮助读者理解Flink的KafkaSink组件的相关知识体系，以及了解是如何实现流式数据的可靠传输 & 高效协同

overfit同步小助手 2024-04-01 03:03:45 0 收藏

深入了解Hadoop：特性与伪分布式运行进程

Hadoop是一个强大的分布式计算框架，它能够对大规模数据进行可靠、高效和可伸缩的处理。随着数据量的不断增长，企业对于处理大规模数据的需求也越来越高，Hadoop因此成为了大数据处理领域的首选技术。本文将深入探讨Hadoop的特性以及伪分布式运行启动后所具有的进程。

overfit同步小助手 2024-04-01 02:03:47 0 收藏

探索 Spotify 的 Docker-Kafka：简化 Kafka 部署与管理

探索 Spotify 的 Docker-Kafka：简化 Kafka 部署与管理项目地址:https://gitcode.com/spotify/docker-kafka在数据密集型应用中，Apache Kafka 是一个广泛使用的分布式流处理平台。它允许开发者以高吞吐量、低延迟的方式处理实时数据流

overfit同步小助手 2024-04-01 02:03:44 0 收藏

zookeeper详解

一 zookeeper介绍首先需要了解zookeeper是什么，zookeeper是一个分布式协调服务。所谓分布式协调主要是来解决分布式系统中多个进程之间的同步限制，防止出现脏读，例如我们常说的分布式锁。zookeeper中的数据是存储在内存当中的，因此它的效率十分高效。它内部的存储方式十分类似于文

overfit同步小助手 2024-03-31 21:03:47 0 收藏

Linux 安装 kafka

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息

overfit同步小助手 2024-03-31 21:03:30 0 收藏

【笔记】RDD算子操作（Spark基础知识）

Spark基础知识、RDD操作笔记

overfit同步小助手 2024-03-31 20:03:39 0 收藏

安装配置Kafka

一个典型的Kafka集群中包含若干Producer（可以是Web前端FET，或者是服务器日志等），若干Broker（Kafka支持水平扩展，一般Broker数量越多，集群吞吐率越高），若干ConsumerGroup，以及一个ZooKeeper集群。Producer使用push模式将消息发布到Brok

overfit同步小助手 2024-03-31 19:03:36 0 收藏

RabbitMQ消息重复的原因与解决方案

对于消息队列（MQ）来说，消息丢失/消息重复/消费顺序/消息堆积是比较常见的问题，都属于消息异常，这几个问题比较重要，面试中也会经常问到。

overfit同步小助手 2024-03-31 18:03:48 0 收藏

如何构建Hive数据仓库Hive 、数据仓库的存储方式以及hive数据的导入导出

官方定义：数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的，这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法。（1）安装hive常规配置，这里不记录安装过程唯一需要注意的地方是有一个hive.metastroe.dirname属性需要配置配置的值是h

overfit同步小助手 2024-03-31 18:03:45 0 收藏

【微服务】Eureka（服务注册，服务发现）

- 引入 eureka-server --> < dependency > < groupId > org.springframework.cloud < artifactId > spring-cloud-starter-netflix-eureka-server

overfit同步小助手 2024-03-31 18:03:14 0 收藏

计算机毕业设计-基于大数据的校园一卡通数据分析与可视化平台

本项目基于国内某高校校园一卡通系统一个月的运行数据，使用数据分析和建模的方法，挖掘数据中所蕴含的信息，对学生在校园内的消费行为、生活习惯和消费金额等方面进行规律分析，同时对学校不同食堂、商铺等销售数据、人流量等维度进行统计分析，并构建 web 交互平台，通过视觉感知，更清晰直观、方便快速地抓住数据的

overfit同步小助手 2024-03-31 17:03:52 0 收藏

Flink通讯模型—Akka与Actor模型

也就是说，它可以被分配，分布，调度到不同的CPU，不同的节点，乃至不同的时间片上运行，而不影响最终的结果。尽管单个的actor是自然有序的，但一个包含若干个actor的系统却是高度并发的并且极具扩展性的。actor线程顺序处理收到的消息。3）call stack的问题当我们编程模型异步化之后，还有

overfit同步小助手 2024-03-31 17:03:49 0 收藏

Zookeeper+Kafka单节点部署

tickTime的默认值为2000毫秒，更低的tickTime值可以更快地发现超时问题，但也会导致更高的网络流量（心跳消息）和更高的CPU使用率（会话的跟踪处理）。1 * tickTime是客户端与zk服务端的心跳时间，2 * tickTime是客户端会话的超时时间。若在外部解压可直接传入相应的文件

overfit同步小助手 2024-03-31 17:03:45 0 收藏