大数据 - overfit.cn

Kafka 和 Spring整合Kafka

Kafka是一个分布式的流媒体平台。早期只是消息队列,慢慢扩充,可以进行很多其他操作,功能很综合,因此称为一个分布式的流媒体平台应用：消息系统(核心) 日志收集用户行为追踪流式处理。kafka是目前来说性能最好的消息队列服务器，能处理TB级别的数据.

overfit同步小助手 2024-04-07 04:03:43 0 收藏

老杨说运维 | 运维大数据价值探索

运维大数据具有其独特的特征，那么该在什么场景下使用才有效？如何更好的利用这些数据？

overfit同步小助手 2024-04-07 03:03:38 0 收藏

HBase Shell基本操作

先在Linux Shell命令行终端执行脚本启动HDFS，再执行脚本启动HBase。如果Linux系统已配置HBase环境变量，可直接在任意目录下执行脚本命令，就可进入HBase Shell的命令行终端环境，exit可以退出HBase Shell（我安装的是伪分布式的HBase）。

overfit同步小助手 2024-04-07 01:03:51 0 收藏

Linux中安装使用RabbitMQ

在Linux中安装RabbitMQ

overfit同步小助手 2024-04-07 01:03:45 0 收藏

Spark Stage

Spark中的一个Stage只不过是物理执行计划其中的一个步骤，它是物理执行计划的一个执行单元。一个Job会被拆分为多组Task，每组任务被称为一个Stage，可以简单理解为MapReduce里面的Map Stage， Reduce Stage。Spark的Job中Stage之间会有依赖关系。可以利

overfit同步小助手 2024-04-07 01:03:22 0 收藏

毕业设计项目基于大数据人才岗位数据分析

这里是毕设分享系列，学长分享优质毕业设计项目，今天要分享的是🚩基于大数据人才岗位数据分析毕业设计基于大数据人才岗位数据分析。

overfit同步小助手 2024-04-07 00:03:47 0 收藏

数据仓库—建模方法论—范式建模

不知道读者们有没有发现，以上所介绍的范式的最终目的都是为了减少我们的工作量呢？所以说，尽管范式是一种很好的指导规范，但在实际应用中，我们也不需要太局限在范式中，更多的是应该从项目中出发，设计出合理的表结构。以下是本篇三范式的简单总结：第一范式（1 NF）：字段不可再拆分。第二范式（2 NF）：表中任

overfit同步小助手 2024-04-06 23:03:43 0 收藏

[flink 实时流基础]源算子和转换算子

所以，source就是我们整个处理程序的输入端。filter转换操作，顾名思义是对数据流执行一个过滤，通过一个布尔条件表达式设置过滤条件，对于每一个流内元素进行判断，若为true则元素正常输出，若为false则元素被过滤掉。flatMap可以认为是“扁平化”（flatten）和“映射”（map）两步

overfit同步小助手 2024-04-06 22:03:35 0 收藏

毕业设计：基于python的电商数据可视化系统大数据

毕业设计：基于python的电商数据可视化系统实现了对电商数据的清洗、处理、分析和可视化。系统提供了多种可视化图表，如柱状图、折线图、饼图、散点图等，能够直观地展示电商数据的关键信息和趋势。为计算机毕业设计提供了一个创新的方向，为毕业生提供了一个有意义的研究课题。对于计算机专业、软件工程专业、人工

overfit同步小助手 2024-04-06 21:03:48 0 收藏

spark-shell（pyspark）单机模式使用和编写独立应用程序

我的是spark-3.3.3版本，日志文件名字为log4j2.properties.template，每个版本的日志文件名字不太一样，具体的，要按照自己安装的版本的日志文件来，复制日志文件。spark有四种部署方式：Local，Standalone，Spark on Mesos，Spark on y

overfit同步小助手 2024-04-06 20:03:59 0 收藏

大数据AI的未来：智能化与自动化

1.背景介绍随着人工智能技术的不断发展，我们的生活和工作已经逐渐被智能化和自动化的技术所取代。大数据AI技术是这一趋势的重要组成部分，它可以帮助我们更有效地处理和分析大量数据，从而提高工作效率和提高生活质量。大数据AI技术的核心概念包括机器学习、深度学习、自然语言处理、计算机视觉等。这些技术可以帮助

overfit同步小助手 2024-04-06 20:03:20 0 收藏

大数据毕设分享大数据B站数据分析与可视化 - python 数据分析大数据

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩大数据B站数据分析与可视化🥇学长这里给一

overfit同步小助手 2024-04-06 19:03:07 0 收藏

大数据毕设分享糖尿病视网膜病变数据据分析

逻辑回归的原理有很多博主写的很好，我就不班门弄斧了，主要说说代码。利用sklearn库提供的LogisticRegression()可以很方便的完成训练和预测。。

overfit同步小助手 2024-04-06 18:03:51 0 收藏

Kimball维度模型之构建数据仓库先决条件

成功的DW/BI项目通常共享上述一系列关键特征，而失败的项目则往往面临各种问题，其中一些问题可以总结自数据仓库专家Kimball的观点。失败的DW/BI项目因素：失败的项目往往出现在业务发起人缺乏深刻业务理解或技术发起人无法有效沟通业务需求的情况下。成功的项目通常建立在业务和技术团队紧密协作的基础上

overfit同步小助手 2024-04-06 18:03:47 0 收藏

如何使用RabbitMQ实现消息延迟发送

1.背景介绍在现代分布式系统中，消息队列是一种常见的异步通信方式，可以帮助系统实现解耦和伸缩。RabbitMQ是一款流行的开源消息队列系统，支持多种消息传输协议，如AMQP、MQTT等。在某些场景下，我们需要实现消息的延迟发送功能，例如在特定时间或事件触发后发送消息。本文将介绍如何使用RabbitM

overfit同步小助手 2024-04-06 16:03:52 0 收藏

毕设分享大数据房价数据分析及可视化(源码分享)

overfit同步小助手 2024-04-06 16:03:20 0 收藏

PrettyZoo-高颜值的Zookeeper可视化工具

overfit同步小助手 2024-04-06 15:03:53 0 收藏

Spark编程实验一：Spark和Hadoop的安装使用

本实验主要目的是熟悉HDFS的基本使用方法，掌握使用Spark访问本地文件和HDFS文件的方法。

overfit同步小助手 2024-04-06 15:03:47 0 收藏

数据挖掘技巧：从大数据中挖掘宝藏

1.背景介绍数据挖掘是指从大量数据中发现新的、有价值的信息和知识的过程。随着互联网和人工智能的发展，数据量越来越大，数据挖掘技术也越来越重要。在这篇文章中，我们将讨论数据挖掘的核心概念、算法原理、具体操作步骤以及数学模型。我们还将通过具体的代码实例来解释这些概念和算法。2. 核心概念与联系数据挖掘的

overfit同步小助手 2024-04-06 13:03:18 0 收藏

大数据分析与内存计算——Spark安装以及Hadoop操作——注意事项

请注意，这些命令需要在 Hadoop 集群的节点上运行，或者你需要通过 SSH 登录到集群中的一个节点。如果你的 Hadoop 集群配置了 Web 界面（如 Hue 或 Ambari），你也可以通过 Web 界面来上传文件和查看文件内容。读取HDFS系统文件“/user/hadoop/test.tx

overfit同步小助手 2024-04-06 12:03:52 0 收藏