大数据 - overfit.cn

Ubuntu的Linux系统部署Hadoop平台

Ubuntu的Linux系统部署Hadoop平台，及其注意事项

overfit同步小助手 2024-11-12 17:03:59 0 收藏

大数据-211 数据挖掘机器学习理论 - 逻辑回归 scikit-learn 实现 max_iter 分类方式选参数

因此，如果在max_iter红条的情况下，模型的训练和预测效果都已经不错了，那我们就不需要再增大max_iter中的数目了，毕竟一切都以模型的预测效果为基准，只要模型预测的效果好，运行又快，那就一切都好。如果模型有 T 类，我们每次在所有的 T 类样本里面选择两类样本出来，不防记为 T1 和 T2，

overfit同步小助手 2024-11-12 15:03:11 0 收藏

Kafka 客户端工具使用分享【offsetexplorer】

前面我们使用 Spring Boot 继承 Kafka 完成了消息发送，有朋友会问 Kafka 有没有好用的客户端工具，RabbitMQ、RocketMQ 都有自己的管理端，那 Kafka 如何去查看发送出去的消息呢？本篇我们就来分享一个好用的工具。offsetexplorer 中数据默认显示是 B

overfit同步小助手 2024-11-12 14:03:21 0 收藏

Kafka 的一些问题，夺命15连问

kafka-中的组成员kafka四大核心生产者API允许应用程序发布记录流至一个或者多个kafka的主题（topics）。消费者API允许应用程序订阅一个或者多个主题，并处理这些主题接收到的记录流StreamsAPI允许应用程序充当流处理器（stream processor），从一个或者多个主题获取

overfit同步小助手 2024-11-12 13:03:54 0 收藏

Spring Boot 整合 RabbitMQ 详解

在消息中间件领域中 RabbitMQ 也是一种非常常见的消息中间件了，本篇简单分享一下 Spring Boot 项目集成 RabbitMQ 的过程。

overfit同步小助手 2024-11-12 13:03:13 0 收藏

Flink讲解与部署与yarn模式

Flink提供了多种状态后端来存储和管理状态，并支持不同的状态模式，如ValueState、ListState、ReducingState等。：随着大数据和实时数据处理需求的增长，Flink不断发展，引入了许多扩展功能，如复杂事件处理、图计算、机器学习等。：Flink支持构建事件驱动的应用程序，可以

overfit同步小助手 2024-11-12 12:03:21 0 收藏

大数据技术及应用期末总结

mapper.pyreducer.py代码示例2 文件去重（使用set）mapper.pyreducer.py代码示例3 挖掘关系（排列组合）mapper.pyreducer.py SparkRDD创建RDD1.集合并行化创建RDD(parallelize)2.读取外部数据集创建RDD(textFi

overfit同步小助手 2024-11-12 11:03:51 0 收藏

远程连接服务器及hbase初步学习

计算可以是简单到从一组空间参考数据中减去另一组数据(例如，确定两个不同季节流感病例的差异)，也可以是复杂到全球气候变化的模型。将轨迹点数据发布到同一个geoserver服务器（10.70.89.161:9090）上，可以调用geoserver的WPS服务或者自定义的算法WPS进行相关的空间分析服务的

overfit同步小助手 2024-11-12 10:03:32 0 收藏

大数据-216 数据挖掘机器学习理论 - KMeans 基于轮廓系数来选择 n_clusters

有时间，当我们 n_cluster 选择不符合数据的自然分布，或者我们为了业务需求，必须要填入与数据的自然分布不合的 n_cluster，提前让迭代停下来反而能够提升模型的表现。初始质心放置的位置不同，聚类的结果很可能也会不一样，一个好的质心选择可以让 KMeans 避免更多的计算，让算法收敛稳定且

overfit同步小助手 2024-11-12 09:03:38 0 收藏

大数据实验3： HDFS基础编程（shell命令、JAVA API使用）

，否则返回文件一行的文本。在 Hadoop 分布式文件系统（HDFS）中的作用是将本地文件系统中的文件 localfile 上传到 HDFS 上的目录 hdfsdir1 中。10、hdfs dfs -cat [path]：显示文件内容，如果路径是一个目录，则显示目录下所有文件的列表。3、hdfs d

overfit同步小助手 2024-11-12 08:03:52 0 收藏

智能电网电力大数据关键技术研究与应用

本文还有配套的精品资源，点击获取简介：智能电网作为现代电力系统的关键发展方向，融合了多种先进技术，其效率、可靠性和可持续性得以显著提升。电力大数据是推动智能电网发展的核心，本研究深入探讨了电力大数据的关键技术，包括高效的数据采集系统设计、可扩展的数据存储与管理解决方案、数据预处理的质量保证步骤

overfit同步小助手 2024-11-12 08:03:26 0 收藏

毕设分享基于大数据的b站数据分析

本文主要运用Python的第三方库SnowNLP对弹幕内容进行情感分析，使用方法很简单，计算出的情感score表示语义积极的概率，越接近0情感表现越消极，越接近1情感表现越积极。从数据可视化中可以看到，播放量排名前三的分别是生活类、动画类、鬼畜类，让人诧异的是以动漫起家的B站，播放量最多的视频分类竟

overfit同步小助手 2024-11-12 07:04:07 0 收藏

主流的大数据框架Hadoop/spark

处理大数据：如果你有成千上万的文件、日志数据，或者每天需要处理几百 GB 的数据量，Spark 是一个理想的工具。在需要反复计算的数据任务中，如迭代式的机器学习算法，它有很大的优势。1、高速处理： Spark 能够将数据加载到内存中进行计算，相比于传统的 Hadoop MapReduce，它的迭代

overfit同步小助手 2024-11-12 07:03:58 0 收藏

HadooPHP 项目常见问题解决方案

HadooPHP 项目常见问题解决方案 HadooPHP A framework for writing Hadoop Streaming jobs in PHP

overfit同步小助手 2024-11-12 07:03:53 0 收藏

（计算机毕设选题推荐）基于Hadoop的汽车销量数据分析与研究

摘要本文聚焦于基于Hadoop平台的汽车销量数据分析与研究。随着大数据技术的快速发展，汽车行业积累了海量销售数据，如何高效处理并利用这些数据以洞察市场趋势、优化销售策略成为企业关注的焦点。本文首先介绍了Hadoop分布式计算框架及其在大数据处理中的优势，随后详细阐述了数据收集、预处理、存储、分析及可

overfit同步小助手 2024-11-12 04:03:53 0 收藏

Blue Archive Logo 生成器项目推荐

Blue Archive Logo 生成器项目推荐 bluearchive-logo A Blue Archive logo generator.

overfit同步小助手 2024-11-12 04:03:48 0 收藏

问题记录-hiveserver2启动了但是端口号10000并没有

归根结底是因为存储到datenode节点的某个文件块损坏了，导致hdfs的namenode节点触发了安全模式，然后安全模式下不能创建目录，导致启动hiveserver2启动不成功，然后一直尝试重新启动，每次尝试都会生成一个session id,然后安全模式不关，hiveserver2启动不了，然后远

overfit同步小助手 2024-11-12 03:03:42 0 收藏

基于Spark的电信用户行为分析系统的设计与实现

一、系统概述该电信用户行为分析系统旨在利用先进的技术手段，深入挖掘电信用户的行为数据，为电信运营商提供决策支持和精准营销服务。系统采用 Spring Boot 框架构建稳定的后端服务，并结合 Spark 强大的大数据处理能力。二、主要功能数据采集：从电信运营商的各种数据源中收集用户行为数据，包括通话

overfit同步小助手 2024-11-12 01:04:11 0 收藏

Hadoop3.x伪分布式详细配置

伪分布式模式也是只需要一台机器，但是与本地模式的不同，伪分布式使用的是分布式的思想，具有完整的分布式文件存储和分布式计算的思想。4.1.1 由于克隆过来的hadoop102与hadoop103的IP地址都是hadoop101的IP地址，因此我们可以在修改hadoop102主机信息的时候，关闭hado

overfit同步小助手 2024-11-12 01:03:55 0 收藏

基于大数据的学生体质健康信息系统的设计与实现(源码+LW+调试文档+讲解)

本项目是一个基于 Spring Boot 和 Vue 的结合大数据技术的学生体质健康信息系统。该系统旨在全面收集、管理和分析学生的体质健康数据，为学校、家长和相关部门提供科学决策依据，以促进学生的健康成长。系统采用前后端分离的架构模式。后端的 Spring Boot 框架提供强大的业务逻辑处理能力和

overfit同步小助手 2024-11-12 00:04:20 0 收藏