大数据 - overfit.cn

大数据基础知识【大数据导论】

大数据素养个人大佬的，将是我成长路上阿川水平有限，如，欢迎大佬大数据。

overfit同步小助手 2024-07-05 09:03:35 0 收藏

Flink入门，flink接入kafka数据源，消费数据并处理数据

构建时会提示找不到类，在idea中勾选如图选项，或者在pom文件中修改scope的值为compile。消费者可以收到消息，kafka安装完成，如果没有收到可以检查topic是否一致，ip是否正确。首先先下载kafka的linux版本，可以搜索阿里云的镜像进行下载，速度很快。将文件中的listener

overfit同步小助手 2024-07-05 09:03:26 0 收藏

宝塔面板php7.3&7.4版本不支持ZipArchive手工安装扩展方法

宝塔面板安装的PHP7.3和7.4默认已经不带zip扩展，要手工安装zip扩展首先需要安装libzip

overfit同步小助手 2024-07-05 08:03:48 0 收藏

实战大数据：分布式大数据分析处理系统的开发与应用

大数据和分布式系统的发展为数据驱动的决策和创新提供了强大的工具。未来，随着技术的不断进步，大数据技术将会在更多领域发挥重要作用，推动社会的进步和发展。这篇文章提供了一个全面的框架和具体的实现示例，涵盖了大数据处理的各个方面。如果有任何特定的需求或细节需要补充，请随时告知。

overfit同步小助手 2024-07-05 08:03:26 0 收藏

周周星分享7.3—基于气象大数据的自动站实况联合预测

中国高校计算机能力竞赛-大数据挑战赛，周周星分享。

overfit同步小助手 2024-07-05 08:03:17 0 收藏

深入解析Memcached：内部机制、存储结构及在大数据中的应用

Memcached作为一种轻量级、高性能的内存缓存解决方案，具有简单易用、扩展性强等优点。其在大数据应用中的作用尤为突出，可以显著提升系统的查询和计算效率。通过与Spring Boot框架的集成，可以方便地将Memcached应用于Java项目中，为大数据处理提供高效的缓存支持。

overfit同步小助手 2024-07-05 06:03:52 0 收藏

Zookeeper简介

ZooKeeper 是 Apache 软件基金会的一个软件项目，它为大型分布式计算提供开源的分布式配置服务、同步服务和命名注册等服务。什么是ZooKeeper ，ZooKeeper 的三种模式，ZooKeeper 的主要功能，ZooKeeper 的特点以及什么是CAP ，一致性（Consistenc

overfit同步小助手 2024-07-05 06:03:49 0 收藏

Pyspark+关联规则 Kaggle购物篮分析案例

零售商期望能够利用过去的零售数据在自己的行业中进行探索，并为客户提供有关商品集的建议，这样就能提高客户参与度、改善客户体验并识别客户行为。本文将通过pyspark对数据进行导入与预处理，进行可视化分析并使用spark自带的机器学习库做关联规则学习，挖掘不同商品之间是否存在关联关系。

overfit同步小助手 2024-07-05 06:03:20 0 收藏

基于SpringBoot+Vue+Spark+大数据的在线广告推荐系统设计和实现(源码+LW+部署讲解)

在线广告推荐系统是一个利用用户行为数据和机器学习算法，为用户提供个性化广告内容的智能平台。该系统采用java技术和MySQL数据库技术以及springboot框架进行开发。通过分析用户的历史浏览记录、搜索习惯和消费模式等数据，构建起用户兴趣模型，并据此推送最相关的广告，以提高点击率和转化率。它通常包

overfit同步小助手 2024-07-05 05:03:51 0 收藏

hive获取月初1号以及次月1号

-把系统时间减去目前天数的日期转换为时间戳格式。如系统时间：2024123，即为2024123-23=20231231。--4.系统时间减去系统天数--即上月的最后一天:是否要加unix_timestamp还不确定。--转换为时间：2024-01-01 00:00:00。--1.剖析：获取系统时间的

overfit同步小助手 2024-07-05 05:03:15 0 收藏

（保姆级）Spark气象监测数据分析-步骤2.1筛选六大污染物浓度排名前20的时段

首先这篇博客绝对原创。读者遇到编程中的任何问题可以留言，看到了就会回复。

overfit同步小助手 2024-07-05 02:03:40 0 收藏

Hadoop伪分布式搭建、Hive搭建

防火墙若不关闭可能导致hadoop模块受损。

overfit同步小助手 2024-07-05 02:03:28 0 收藏

从 Hadoop 迁移，无需淘汰和替换

计算节点：Kubernetes 高效管理计算节点上的无状态 Apache Spark 和 Apache Hive 容器，确保资源利用率和动态扩展。存储层：MinIO纠删码和BitRot保护意味着您可能会丢失多达一半的驱动器数量，但仍然可以恢复，所有这些都不需要维护Hadoop所需的每个数据块的三个副

overfit同步小助手 2024-07-05 01:03:50 0 收藏

大数据数据倾斜与数据膨胀的优化与经验总结

本文参考多篇有关大数据的数据倾斜的解决思路.

overfit同步小助手 2024-07-05 01:03:47 0 收藏

Eureka入门

通过以上步骤，你已经成功设置了一个简单的Eureka服务注册和发现系统。Eureka服务器管理服务实例，Eureka客户端注册自身并能够发现其他服务。这是微服务架构中实现服务发现和负载均衡的基础。

overfit同步小助手 2024-07-05 01:03:42 0 收藏

基于Spark3.3.4版本,实现Standalone 模式高可用集群部署

在早期大数据处理中，我们会选择使用MapReduce分析处理海量数据，MapReduce存在计算慢、代码编写复杂、不支持流式计算及性能上的一些问题，Apache Spark计算框架的出现解决了MapReduce计算框架以上各种问题，Apache Spark是新一代的大数据计算框架，支持针对批量数据及

overfit同步小助手 2024-07-05 01:03:15 0 收藏

经验分享|如何查询自己的大数据信用评分？

一、天下信用：天下信用是市面上广告投入比较多的平台，知名度比较高，查询也是比较方便的，但是数据版本比较单一，没有完整的售后服务，如果你是新人想全面了解自己的大数据信用，这种平台建议不用。二、小易大数据：小易大数据是一个大数据报告集成平台，有固定的网址，报告版本也比较多，划分比较详细，最重要的是他们是

overfit同步小助手 2024-07-05 00:03:25 0 收藏

Flink的实时教育数据分析与优化

Flink的实时教育数据分析与优化作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming关键词：Apache Flink, 实时数据流处理, 教育数据分析, 数据仓库优化, 实时反馈机制1.背景介绍

overfit同步小助手 2024-07-04 23:03:46 0 收藏

Spark编程基础：（实验四）Sark SQL编程初级实践

spark = SparkSession.builder.appName("RDD转换成DataFrame").config(conf=SparkConf()).getOrCreate()（2）进入saprk，配置 Spark通过 JDBC 连按数据库 MySQL,编程实现利用 DataFrame

overfit同步小助手 2024-07-04 23:03:22 0 收藏

Spring Boot 集成RabbitMQ：消息队列的使用

RabbitMQ是一个开源的消息队列中间件，基于AMQP（Advanced Message Queuing Protocol）协议实现。它支持消息的异步发送和接收，并提供了丰富的功能，如消息持久化、路由、负载均衡等。

overfit同步小助手 2024-07-04 22:03:51 0 收藏