大数据 - overfit.cn

大数据之——Window电脑本地配置hadoop系统（100%包避坑！！方便日常测试，不用再去虚拟机那么麻烦）

之前我们的hadoop不管是伪分布式还是分布式，都是配置在虚拟机上，我们有的时候想要运行一些mapreduce、hdfs的操作，又要把文件移到虚拟机，又要上传hdfs，麻烦得要死，那么有的时候我们写的一些java、python的hadoop代码，我们只想在本地运行一下看看有没有问题、会是一个什么结果

overfit同步小助手 2024-11-09 08:03:36 0 收藏

Flink CDC Schema Evolution 详解

flink-cdc 3.0 通过加入了SchemaOperator和MetadataApplier，监控链路上所有消息，当发生schema变更时，同步上下游hang住上游flush下游修改下游schema恢复运行这样实现了自动schema变更多并发会加速存量数据的同步，增量数据的读取还是只能通过一个

overfit同步小助手 2024-11-09 06:03:28 0 收藏

毕业设计项目 python大数据旅游数据分析可视化系统(源码分享)

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩 **基于python的旅游数据分析可视

overfit同步小助手 2024-11-09 05:03:54 0 收藏

【大数据学习 | kafka】kafka的shell操作

【代码】【大数据学习 | kafka】kafka的shell操作。

overfit同步小助手 2024-11-09 04:03:40 0 收藏

【pyspark学习从入门到精通1】理解pyspark_1

Apache Spark 是一个功能强大的开源处理引擎，最初由 Matei Zaharia 在加州大学伯克利分校攻读博士学位期间开发。Spark 的第一个版本于 2012 年发布。自那以后，在 2013 年，Zaharia 联合创立并成为了 Databricks 的首席技术官；他同时也在斯坦福大学担

overfit同步小助手 2024-11-09 04:03:34 0 收藏

Java八股整合（Kafka+RocketMQ+K8S）

用于进程中相互通信的队列放入消息的是生产者，取出消息的是消费者。

overfit同步小助手 2024-11-09 03:03:52 0 收藏

利用ChatGPT完成2024年MathorCup大数据挑战赛-赛道A初赛：台风预测与分析

本次比赛的任务主要是建立一个分类评价模型，以预测不同特征的台风类别、台风路径，并分析台风登陆后的降水量及风速的变化。本文介绍了如何利用ChatGPT辅助完成这项比赛任务，通过逐步分解问题，利用ChatGPT提供的数据处理、模型分析和优化建议，从而高效解决大数据分析任务。最后，通过ChatGPT对夏季

overfit同步小助手 2024-11-09 03:03:46 0 收藏

hive-3.1.3部署文档

我要在192.168.128.131上远程访问上述的192.168.128.130服务器上的hive服务。由于内嵌模式使用场景太少（基本不用），所以仅练习安装查看基础功能。1. 上传hive安装包、解压到指定位置。1. 上传hive安装包、解压到指定位置。1、安装mysql 5.7.18。2、上传m

overfit同步小助手 2024-11-09 02:04:15 0 收藏

Linux+centOS Hadoop——Hive的配置（自学记录）

使用bin/hive启动hive会话时会出现“SLF4J: Class path contains multiple SLF4J bindings”的错误，这是由于在类路径中存在多个SLF4J绑定。链接: https://pan.baidu.com/s/1pbUjVBTHlxD6iFJADlgmuw

overfit同步小助手 2024-11-09 02:03:58 0 收藏

提升Hadoop开发效率的利器：hadoop-eclipse-plugin-2.10.1

提升Hadoop开发效率的利器：hadoop-eclipse-plugin-2.10.1 【下载地址】Hadoop开发环境插件hadoop-eclipse-plugin-2.10.1 本仓库提供了一个用于Hadoop开发环境的Ecl

overfit同步小助手 2024-11-08 22:03:50 0 收藏

java计算机毕业设计基于Java的比亚迪汽车大数据评分系统（开题+程序+论文）

现有的管理模式往往缺乏对海量数据的高效整合与深度分析，在数据的时效性、准确性和全面性方面存在不足。在这样的大背景下，基于Java的比亚迪汽车大数据评分系统的研究应运而生，它能够借助Java的强大功能，有效处理和分析汽车大数据，为比亚迪汽车的发展提供有力支持。再者，对于整个汽车行业来说，该系统的研究可

overfit同步小助手 2024-11-08 21:03:43 0 收藏

3.Hadoop环境搭建之Hadoop的安装和配置

创建目录name:mkdir /home/hadoop/hadoop-2.7.4/hdfs/name。创建目录data:mkdir /home/hadoop/hadoop-2.7.4/hdfs/data。到指定目录：cd /home/hadoop/hadoop-2.7.4/etc/hadoop。到指

overfit同步小助手 2024-11-08 19:03:53 0 收藏

kafka单条消息过大发送失败

在使用Apache Kafka时，如果单条消息过大，可能会导致发送失败。：Kafka的broker配置中，参数定义了broker能接受的最大消息大小（默认是1MB）。如果消息大小超过了这个值，broker会拒绝接受这个消息。：Producer的参数（默认与相同）定义了Producer发送给broke

overfit同步小助手 2024-11-08 19:03:32 0 收藏

【大数据】Hive快速入门

创建数据库：如果数据库已存在，则不执行创建操作。：指定数据库在HDFS上的存储位置。：为数据库添加注释。修改数据库：修改数据库的存储位置。：修改数据库的属性。删除数据库：如果数据库存在，则执行删除操作。[CASCADE]：级联删除，如果数据库中有表，则连同表一起删除。创建表[EXTERNAL]：创建

overfit同步小助手 2024-11-08 18:03:40 0 收藏

大数据-207 数据挖掘机器学习理论 - 多重共线性矩阵满秩线性回归算法

这种高度相关关系下，矩阵的行列式不为 0，但是一个非常接近 0 数，矩阵 A 的逆存在，不过接近于无限大。矩阵 A 中第一行和第三行的关系，被称为：精确相关关系，即完全相关，一行可使另一行为 0，在这种精确相关关系下，矩阵 A 的行列式为 0，则矩阵 A 的逆不可能存在。相对的，矩阵 C 的行之间结

overfit同步小助手 2024-11-08 18:03:26 0 收藏

大数据-206 数据挖掘机器学习理论 - 多元线性回归回归算法实现算法评估指标

这里需要注意的是，当使用矩阵分解来求解多元线性回归方程时，必须添加一列全为 1 的列，用于表征线性方程截距W0。其中 m 为数据集样例个数，以及 RMSE 误差的均方根，为 MSE 开平方后所得结果。在回归分析中，SSR 表示聚类中类似的组间平方和概念，译为：Sum of squares of th

overfit同步小助手 2024-11-08 17:03:29 0 收藏

大数据之写入Doris数据问题

将错误Key columns should be a ordered prefix of the schema. KeyColumns[1] (starts from zero) is aa, but corresponding column is bb in the previous column

overfit同步小助手 2024-11-08 10:03:53 0 收藏

KafkaTool 64位下载说明

KafkaTool 64位下载说明【下载地址】KafkaTool64位下载说明 KafkaTool是一款高效的Apache Kafka管理与连接工具，旨在简化Kafka集群的日常管理和调试工作。通过友好的图形界面，用户可以轻松地进

overfit同步小助手 2024-11-08 10:03:45 0 收藏

RabbitMQ的原理和集成使用

Bean@Bean@BeanRabbitMQ 作为消息队列系统，在微服务系统中能很好地实现异步处理、负载均衡和解耦。通过与 Spring Boot 集成，可以轻松地使用 RabbitMQ 的基本功能和高级特性，适用于消息通知、任务调度等场景。

overfit同步小助手 2024-11-08 10:03:22 0 收藏

3.4 大数据生态

大数据生态系统是一个复杂而强大的集合，它通过各种技术和工具，使得我们能够存储、处理和传输海量数据。这些技术的应用场景广泛，从数据存储到计算，再到传输，它们共同构成了大数据解决方案的基石。

overfit同步小助手 2024-11-08 08:04:14 0 收藏