大数据 - overfit.cn

【Iceberg分析】Spark与Iceberg集成落地实践（一）

iceberg表管理

overfit同步小助手 2024-10-23 08:03:26 0 收藏

【大数据】Elasticsearch 实战应用总结

Elasticsearch 是一个基于 Apache Lucene 的开源搜索引擎，旨在提供分布式、高可用性和可扩展性的实时数据搜索与分析功能。它特别适合处理大规模的数据集，常用于日志分析、全文搜索和数据挖掘等场景。特点实时搜索：几乎在数据被索引后立即可搜索，这使得用户能够获得最新的信息。这对于需要

overfit同步小助手 2024-10-23 07:03:46 0 收藏

【pyspark学习从入门到精通7】DataFrames_2

通常，您会通过使用 SparkSession（或在 PySpark shell 中调用 spark）导入数据来创建 DataFrame。我们将讨论如何将数据导入到本地文件系统、Hadoop 分布式文件系统（HDFS）或其他云存储系统（例如，S3 或 WASB）。在本文中，我们将专注于在 Spark

overfit同步小助手 2024-10-23 06:03:29 0 收藏

Hadoop3.1.3分布式集群搭建，从零开始，保姆级教程

已经有VMware，已安装Centos7，可以直接跳转到Hadoop集群搭建本教程更适合第一次安装，不了解Linux和hadoop的同学。

overfit同步小助手 2024-10-23 06:03:25 0 收藏

大数据-173 Elasticsearch 索引操作增删改查详细 JSON 操作

索引创建之后，等于有了关系型数据库中的Database，Elasticsearch7.x取消了索引type类型的设置，不允许指定类型，默认为_doc，但字段仍然是有的，我们需要设置字段的约束信息，叫做字段映射（mapping）主要注意的是：修改映射只能是增加字段的操作，其他的更改只能删除索引重新建立

overfit同步小助手 2024-10-23 06:03:22 0 收藏

Kafka 消息丢失如何处理？

监控是最基础的保障手段。很多时候，消息丢失的“锅”其实是消费者自己在消费时出了问题，明明没处理完却偷偷提交了 offset，让 Kafka 以为消息已经处理完毕了。最常见的是消费者拉取了消息，但是业务处理失败，或者消费后没有提交 offset，导致消息“看似”消费了，实际根本没处理。面试官顿时一愣，

overfit同步小助手 2024-10-23 04:03:44 0 收藏

MQ高级：RabbitMQ小细节

RabbitMQ的深入，快来看看吧~

overfit同步小助手 2024-10-23 03:03:51 0 收藏

EUREKA: AI界的“奖励设计大师“横空出世

在人工智能和机器人领域,一个令人瞩目的新星正在冉冉升起。它的名字叫EUREKA,这个由NVIDIA、宾夕法尼亚大学等机构联合开发的AI系统,正在彻底改变我们对强化学习中奖励函数设计的认知。让我们一起来探索这个令人兴奋的突破性成果!

overfit同步小助手 2024-10-23 03:03:48 0 收藏

SparkStreaming

需要继承Receiver，并实现onStart、onStop方法来自定义数据源采集。

overfit同步小助手 2024-10-23 02:04:06 0 收藏

Linux部署RabbitMQ

关闭防火墙，关闭selinux配置yum源头，配置elel扩展源192.168.229.11 设置主机名和域名解析 rabbitmq1192.168.229.12 设置主机名和域名解析 rabbitmq2192.168.229.13 设置主机名和域名解析 rabbitmq3二、开始安装1、安装Er

overfit同步小助手 2024-10-23 01:03:59 0 收藏

springboot项目使用RabbitMQ

本文主要介绍rabbitMQ在Spring Boot项目中的简单使用，通过简单配置快速完成消息收发，还包括消息可靠性机制介绍及示例。

overfit同步小助手 2024-10-23 01:03:56 0 收藏

【大数据】学习大数据开发应该从哪些技术栈开始学习？

学习大数据开发可以从以下几个技术栈和阶段入手。

overfit同步小助手 2024-10-23 01:03:35 0 收藏

Shiro详解

在web.xml文件里配置shiro的过滤器shiroFilter，DelegatingFilterProxy实际上是Filter的一个代理对象，默认情况下，Spring会到IOC容器查找和对应的filter bean，也可以通过targetBeanName的初始化参数来配置filter bean的

overfit同步小助手 2024-10-23 01:03:32 0 收藏

【kafka系列】

分布式系统kafka原理及其快速入门

overfit同步小助手 2024-10-23 01:03:28 0 收藏

构建基于Django、LayUI和HBase的高效文献数据挖掘系统

本文还有配套的精品资源，点击获取简介：本项目是一个结合Django、LayUI和HBase的文献数据挖掘系统，专为高效数据处理和分析而设计。它利用Django强大的后台处理能力、LayUI的直观前端UI设计以及HBase的大数据存储优势，为用户提供了一个全面的数据挖掘平台。通过NLP技术实现数

overfit同步小助手 2024-10-22 23:03:42 0 收藏

Storm 单机和集群环境部署教程

通过以上步骤，我们完成了 Storm 的单机和集群环境部署，并实现了 Java 和 Python 的简单 Topology 示例。Storm 作为一款分布式实时计算系统，能够处理大量的实时数据流，广泛应用于实时数据分析、监控和处理场景。

overfit同步小助手 2024-10-22 23:03:37 0 收藏

Kafka Streams in Action 实战教程

Kafka Streams in Action 实战教程 kafka-streams-in-action Source code for the Kafka Streams in Action Book

overfit同步小助手 2024-10-22 21:03:29 0 收藏

django基于Hadoop的短视频数据分析的设计与实现

Django-Admin来自django.contrib也就是Django的标准库，默认被配置好，只需要激活启用即可，它的优势在于可以快速对数据库的各个表进行增删改查，一行代码即可管理一张数据库表，相比于手动后台1个模型一般需要4个urls，4个视图函数和4个模板，可以说Django完成了一个程序编

overfit同步小助手 2024-10-22 21:03:21 0 收藏

【大数据】聚类算法

聚类算法是一种无监督学习方法，旨在将数据集中的样本根据某种相似性度量划分为多个类别或簇。聚类的目标是使得同一簇内的样本相似度高，而不同簇的样本相似度低。聚类算法广泛应用于数据挖掘、模式识别、图像分析等领域。

overfit同步小助手 2024-10-22 20:04:08 0 收藏

HBase

HBase 是一个分布式、面向列的 NoSQL 数据库，构建于 Hadoop 之上，使用 Hadoop 的 HDFS 作为底层存储，适合处理大规模数据的实时读写和随机访问。HBase 专为处理 PB 级别的大数据量而设计，能够在分布式集群中实现海量数据的存储和快速查询，尤其适合半结构化或非结构化数据

overfit同步小助手 2024-10-22 18:03:51 0 收藏