大数据 - overfit.cn

Spark Streaming实践

作者：禅与计算机程序设计艺术 1.简介随着互联网、移动互联网、物联网等新型网络的飞速发展，数据量日益增长，如何从海量数据中快速获取有价值的信息，变得越来越重要。目前，大数据的处理主要靠离线计算框架MapReduce。随着云计算、大数据处理的发展，基于云平台的分布

overfit同步小助手 2024-05-24 06:04:23 0 收藏

毕业设计项目基于大数据的电影数据爬取分析可视化系统

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩基于大数据的电影数据爬取分析可视化系统🥇

overfit同步小助手 2024-05-24 06:04:20 0 收藏

第一章：JAVA Spark的学习和开发【由浅入深】之搭建windows本地开发环境搭建

最近个人学习了一些大数据相关的开发技术，想分享给那些刚入门，不知道怎么入手开发的小伙伴们。文本主要介绍了如果在windows的环境下搭建单机版spark应用程序【java】基本的搭建步骤都在上面了，有不对的环节或者按步骤搭建完成不能用的同学，欢迎留言评论。

overfit同步小助手 2024-05-24 06:04:14 0 收藏

Kafka源码分析(四) - Server端-请求处理框架

Kafka源码分析，侧重服务端请求处理框架

overfit同步小助手 2024-05-24 06:03:56 0 收藏

使用Python进行大数据处理Dask与Apache Spark的对比

Dask是一个灵活的并行计算库，它允许您以类似于NumPy、Pandas和Scikit-learn的方式处理大规模数据。它提供了类似于这些库的API，同时能够自动分布计算任务到集群上。在本文中，我们对Dask和Apache Spark进行了全面的对比，涵盖了它们的性能、API和生态系统等方面。Das

overfit同步小助手 2024-05-24 06:03:52 0 收藏

HBase Shell 操作：自动拆分和预分区

启动Zookeeper集群。进入hbase shell。创建的表使用自动拆分命令。启动hadoop集群。

overfit同步小助手 2024-05-24 06:03:45 0 收藏

Apache Hive

将SQL语句翻译成MapReduce程序，为用户提供分布式SQL计算的能力。

overfit同步小助手 2024-05-24 05:04:06 0 收藏

Spark重温笔记（一）：一分钟部署PySpark环境，轻松上手Spark配置

Spark 是一种快速、通用、可扩展的大数据分析引擎，2009 年诞生于加州大学伯克利分校。1-速度快：其一、Spark处理数据时，可以将中间处理结果数据存储到内存中其二、spark job调度以DAG方式，每个任务Task以线程Thread方式，而不是mapreduce以进程process方式2-

overfit同步小助手 2024-05-24 05:04:03 0 收藏

kafka可视化工具Kafka Tool安装使用

Kafka Tool是一款 Kafka 的可视化客户端工具，可以非常方便的查看 Topic 的队列信息、消费者信息以及 kafka 节点信息。官网地址: https://www.kafkatool.com/download.html。下载对应系统架构的kafkatool包。连接成功后,查询Topic

overfit同步小助手 2024-05-24 05:03:45 0 收藏

Spark-机器学习（2）特征工程之特征提取

今天的文章，我会带着大家一起了解我们的特征提取和我们的tf-idf，word2vec算法。希望大家能有所收获。同时，本篇文章为个人spark免费专栏的系列文章，有兴趣的可以收藏关注一下，谢谢。同时，希望我的文章能帮助到每一个正在学习的你们。也欢迎大家来我的文章下交流讨论，共同进步。

overfit同步小助手 2024-05-24 05:03:42 0 收藏

大数据机器学习：常见模型评估指标

模型评估是指在机器学习中，对于一个具体方法输出的最终模型，使用一些指标和方法来评估它的泛化能力。这一步通常在模型训练和模型选择之后，正式部署模型之前进行。模型评估不针对模型本身，而是针对问题和数据，因此可以用来评价不同方法的模型的泛化能力，以此决定最终模型的选择。

overfit同步小助手 2024-05-24 05:03:35 0 收藏

docker容器技术篇：集群管理实战mesos+zookeeper+marathon（二）

ZooKeeper是用来给集群服务维护配置信息，提供分布式同步和提供组服务。所有这些类型的服务都使用某种形式的分布式应用程序，本实验中使用zk与mesos结合实现为mesos的master提供配置维护、分布式同步、组服务等，并保证其单点故障问题。

overfit同步小助手 2024-05-24 04:04:20 0 收藏

科大讯飞星火开源大模型iFlytekSpark-13B GPU版部署方法

iFlytekSpark-13B: 讯飞星火开源-13B（iFlytekSpark-13B）拥有130亿参数，新一代认知大模型，一经发布，众多科研院所和高校便期待科大讯飞能够开源。最后说说硬件要求，我做完了以上配置就不报别的错了，只是还是显存溢出了，我的电脑是3090*2的，看来最低只能用40GB单

overfit同步小助手 2024-05-24 04:04:12 0 收藏

在k8s中部署hadoop后的使用，包括服务端及客户端（客户端的安装及与k8s服务的对接）

在和这两篇文章中，说明了如何通过helm和k8s部署hadoop，接下来就看怎么在部署好的集群中使用hadoop了。

overfit同步小助手 2024-05-24 04:04:04 0 收藏

实验五 Spark SQL编程初级实践

实验五 Spark SQL编程初级实践，从零开始，教你安装，有详细图表和注释。新手小白也可以学会

overfit同步小助手 2024-05-24 04:03:49 0 收藏

阿里巴巴瓴羊基于 Flink 实时计算的优化和实践

本⽂整理⾃阿里云智能集团技术专家王柳焮⽼师在 Flink Forward Asia 2023 中平台建设专场的分享。

overfit同步小助手 2024-05-24 04:03:43 0 收藏

Pyspark库以及环境配置

一、pyspark类库类库：一堆别人写好的代码，可以直接导入使用，例如Pandas就是Python的类库。框架：可以独立运行，并提供编程结构的一种软件产品，例如Spark就是一个独立的框架。PySpark是Spark官方提供的一个Python类库，内置了完全的Spark API，可以通过PySpar

overfit同步小助手 2024-05-24 03:04:33 0 收藏

.NET 6 项目整合RabbitMQ实现-应用场景与模式结合实战

RabbitMQ是一个开源的消息中间件，用于在分布式系统中传递和存储消息。它实现了高级消息队列协议（AMQP），提供了可靠的消息传递机制。RabbitMQ基于生产者-消费者模型，其中生产者将消息发送到队列中，而消费者从队列中接收并处理消息。它支持多种消息传递模式，包括点对点、发布/订阅和请求/响应模

overfit同步小助手 2024-05-24 03:04:29 0 收藏

Kafka、ActiveMQ、RabbitMQ、RocketMQ四大消息队列优劣对比与选择指南

在分布式系统架构中，消息队列（Message Queue, MQ）扮演着至关重要的角色，它作为异步通信的核心组件，能够实现系统解耦、削峰填谷、数据缓冲等功能。本文将聚焦于四大主流消息队列——Kafka、ActiveMQ、RabbitMQ、RocketMQ，深度剖析它们各自的优缺点，并在最后提供一份详

overfit同步小助手 2024-05-24 03:04:24 0 收藏