大数据 - overfit.cn

Spark Structured Streaming窗口聚合和非窗口聚合

两者都用于对数据进行聚合操作，支持类似的聚合函数（如求和、平均值等）窗口聚合基于时间窗口进行计算，适用于流处理；非窗口聚合对整个数据集进行计算，适用于批处理，你可以这样理解，离线计算本身就是一个非常大的窗口计算，窗口大到容纳下所有的数据，而事实计算的窗口是比较小的窗口，也就是计算结果只是数据集上的一

overfit同步小助手 2024-08-15 11:03:43 0 收藏

大数据-42 Redis 功能扩展发布/订阅模式事务相关的内容 Redis弱事务

上节使用了Redis的bitmap、geohash、Stream类型。本节对Redis功能进行扩展：发布/订阅模式、事务相关的概念。订阅发布的功能，可以用于消息的传输发布者和订阅者都是Redis的客户端Channel则为Redis的服务端。发布者将消息发送到某个频道，订阅了这个频道的订阅者就能收到这

overfit同步小助手 2024-08-15 11:03:28 0 收藏

大数据-65 Kafka 高级特性分区 Broker自动再平衡 ISR 副本宕机恢复再重平衡实测

上节完成模拟Kafka集群中的分区重新分配，当线上Kafka节点不够用时，新增节点后，分区不会分配，需要脚本来重新分配。本节我们继续研究分区中Broker的自动再平衡，当Broker宕机再恢复后，分区也不会恢复，需要脚本进行自动再重平衡。

overfit同步小助手 2024-08-15 10:03:31 0 收藏

大数据-80 Spark 简要概述系统架构部署模式与Hadoop MapReduce对比

上节我们终于到了Kafka最后一个内容，集群的可视化方案，JConsole、Kafka Eagle等内容，同时用JavaAPI获得监控指标。本节研究Spark的简要概述，系统架构、部署模式、与MapReduce进行对比。MapReduce 昨天Spark 今天Flink 未来MapReduce和Sp

overfit同步小助手 2024-08-15 10:03:17 0 收藏

Hadoop-未授权访问-内置配合命令执行RCE

overfit同步小助手 2024-08-15 07:03:47 0 收藏

中电金信：四川农担X中电金信大数据智能风控平台护航金融服务乡村振兴

其中，与中电金信联合打造的四川农担大数据智能风控平台，通过运用大数据、人工智能等信息科技手段，增强涉农业务风险防控能力，实现信贷投放和风险防控两手抓，同时为“三农”大数据线上化、智能化提供高效平台服务，提高金融服务乡村振兴的可持续性。针对农村居民信息来源匮乏，导致金融可得性差，风险分析识别难的问题，

overfit同步小助手 2024-08-15 07:03:42 0 收藏

大数据-72 Kafka 高级特性稳定性-事务 (概念多枯燥) 定义、概览、组、协调器、流程、中止、失败

上节完成了Kafka高级特性的磁盘存储部分，涉及到零拷贝、磁盘文件传输、JavaNIO、mmap、sendfile等概念信息。本节继续Kafka高级特性：事务（概念较多很枯燥。生产者可以显式的发起事务会话，在这些会话中发送（事务）消息，并提交或中止事务。原子性：消费者的应用程序不应暴露于未提交的消息

overfit同步小助手 2024-08-15 04:03:49 0 收藏

【大数据】大数据技术栈详尽解析

数据采集是大数据旅程的起点，涉及从不同源头获取数据的过程，包括传感器、日志文件、以及APIs等。这一环节的高效运作对于后续的数据处理和分析至关重要。如MapReduce，MapReduce工作流程分为Map阶段（将输入数据切分成独立块并应用映射函数提取键值对）、Shuffle阶段（对Map输出进行排

overfit同步小助手 2024-08-15 04:03:36 0 收藏

Spark内核的设计原理

同时Spark有任务级别的内存管理，任务的计算属于执行内存的一部分。包括检查点支持，易于使用（支持Java，Scala，Python等编程语言），交互式（Spark Shell）和SQL分析（借鉴了ANSI SQL等标准的实用语法和功能），批流一体，丰富的数据支持，高可用，丰富的文件格式支持。DAG

overfit同步小助手 2024-08-15 03:03:48 0 收藏

阶段三：项目开发---大数据开发运行环境搭建:任务2：安装配置ZooKeeper

安装配置ZooKeeper：安装配置ZooKeeper：无ZooKeeper是一个开源分布式协调服务，其独特的Leader-Follower集群结构，很好的解决了分布式单点问题。目前主要用于诸如：统一命名服务、配置管理、锁服务、集群管理等场景。大数据应用中主要使用ZooKeeper的集群管理功能。

overfit同步小助手 2024-08-14 23:03:43 0 收藏

大数据-64 Kafka 高级特性分区分区重新分配实测

上节研究Kafka的分区相关副本机制、同步节点、宕机恢复、Leader选举过程等。本节上机实际测试分区重新分配的全流程过程。向已经部署好的Kafka集群里添加机器，我们需要从已经部署好的Kafka节点中复制相应的配置文件，然后把里边的 BrokerID 修改为全局唯一的，最后启动这个节点即可让它

overfit同步小助手 2024-08-14 23:03:37 0 收藏

大数据-69 Kafka 高级特性物理存储实机查看分析日志存储一篇详解

上节我们研究了Kafka的物理存储，日志存储的概述，日志切分文件，索引切分文件。本节继续研究Kafka的物理存储，日志存储模块，实机查看分析。如果是CreateTime则无法保证顺序。在偏移量索引文件索引中，索引数据都是顺序记录Offset，但时间戳索引文件中每个追加的索引时间戳必须大于之前追加的索

overfit同步小助手 2024-08-14 19:03:33 0 收藏

大数据-73 Kafka 高级特性稳定性-事务相关配置事务操作Java 幂等性仅一次发送

上节研究Kafka事务配置，事务语义、事务协调器等内容，本节继续研究Kafka高级事务，事务操作Java调用，实现生产者仅发送一次消息。只要Producer生产消息，这种场景需要事务的介入消费消息和生产消息并存，比如Consumer&Producer模式，这种场景是一般Kafka项目中比较常见的模式

overfit同步小助手 2024-08-14 12:03:39 0 收藏

【大数据】重塑时代的核心技术及其发展历程

本文旨在全面而简洁地概览大数据技术，深入剖析其基本概念与发展历程。开篇，文章首先阐明了大数据技术的核心概念，即指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，这些数据集合具有海量规模、高速增长和多样化的特点。随后，文章详细探讨了大数据技术如何通过这些特性，在数据存储、处理、分析及

overfit同步小助手 2024-08-14 08:03:31 0 收藏

大数据场景下的Zookeeper集群的搭建

等服务器2启动时，1和2都为自己投一票，1发现2的myid(后续配置)大于自身，把自己的票给服务器2，服务器2有2票还是没有半数以上，两者都looking状态，等服务器3来了，重复操作，服务器3就有3票达到半数以上，服务器3就称为leader,并且服务器1，2改为followeing状态，后续服务器

overfit同步小助手 2024-08-14 06:03:58 0 收藏

工业大数据来自哪里？大数据技术如何助力制造企业数字化转型？

随着工业大数据技术的不断进步和深化应用，我们正站在工业革命的新前沿。从微型传感器到物联网，从云计算到大数据分析，这些技术的融合正在重新定义生产效率、产品质量和企业决策。其中工业大数据将发挥着核心作用，为企业带来前所未有的洞察力和竞争优势。这不仅是技术的胜利，更是对未来工作方式和产业格局的一次深远革新

overfit同步小助手 2024-08-14 05:03:45 0 收藏

详解 Spark 各种运行环境的搭建

Mesos 是 Apache 下的开源分布式资源管理框架Kubernetes（k8s）是目前最为流行的容器管理工具Windows 模式：将解压缩到无中文无空格的路径中执行解压缩文件路径下bin目录中的文件，启动 Spark 本地环境编写 Scala 程序执行或在 DOS 命令行窗口中执行提交指令。

overfit同步小助手 2024-08-14 02:03:46 0 收藏

【IEEE出版 | 往届会后三个月检索】第五届大数据、人工智能与软件工程国际研讨会（ICBASE 2024）

会议旨在为从事大数据、人工智能与软件工程研究的专家学者、工程技术人员、技术研发人员提供一个共享科研成果和前沿技术，了解学术发展趋势，拓宽研究思路，加强学术研究和探讨，促进学术成果产业化合作的平台。大数据分析、深度学习、机器学习、人工智能、模式识别、数据挖掘、云计算技术、物联网、AI应用于物联网、聚类

overfit同步小助手 2024-08-13 23:04:16 0 收藏

数仓架构解析（第45天）

经典数仓架构，传统离线大数据架构背景解析。

overfit同步小助手 2024-08-13 23:02:12 0 收藏

大数据------JavaWeb------Filter&Listener&AJAX&Axios&JSON

Filter、Listener、AJAX、Axios、JSON完整知识点汇总

overfit同步小助手 2024-08-13 22:03:54 0 收藏