大数据 - overfit.cn

【大数据实训】基于Hadoop的2019年11月至2020年2月宁波天气数据分析（五）

1 分布式集群搭建 11.1 Hadoop 集群搭建与配置 11.1.1 Hadoop 简介 11.1.2 Hadoop 集群搭建 21.2 Maven 安装与配置 111.2.1 Maven 简介 111.2.2 Maven 工程的创建 121.3 windows 搭建 hadoop 开发环境 1

overfit同步小助手 2023-10-17 08:03:42 0 收藏

大数据课程K2——Spark的RDD弹性分布式数据集

诸如普通的集合类型，如传统的Array：（1,2,3,4,5）是一个整体，但转换成RDD后，我们可以对数据进行Partition（分区）处理，这样做的目的就是为了分布式。创建RDD的方式有多种，比如案例一中是基于一个基本的集合类型（Array）转换而来，像parallelize这样的方法还有很多，之

overfit同步小助手 2023-10-17 06:03:45 0 收藏

【AI人工智能大模型】如何基于大模型打造企业的智能底座?

企业智能底座是一种集成了多个核心模块和服务的通用基础架构，旨在为企业提供一致的、高质量的AI解决方案。它能够助力企业在数据收集、处理、分析、应用等各个环节提升效率，实现业务的持续优化和创新。

overfit同步小助手 2023-10-17 05:01:48 0 收藏

【大数据毕设】基于Hadoop的音乐推荐系统的设计和实现(六)

作为基于大数据的音乐推荐系统，其功能主要是对数据进行处理，保证能够在大量低质量的数据中筛选出高质量的数据，在这个过程中要保证能够数据的准确性以及结果的准确性，再结合需求进行剖析，在设计系统时要从程序、功能和友好界面等方面进行考虑，从而设计出更加便捷的系统。在了解系统需求之后，基于大数据的音乐推荐系统

overfit同步小助手 2023-10-17 00:03:33 0 收藏

【hadoop】hdfs web界面上传文件报Couldn‘t upload the file

hosts文件路径：C:\Windows\System32\drivers\etc。F12打开控制台，看到上传文件接口用域名用的是node-1，解析不到对应的ip。解决办法：修改windows的hosts文件。修改hosts文件的权限，右键鼠标选择属性。然后添加hosts记录，保存。

overfit同步小助手 2023-10-16 17:03:28 0 收藏

02：hadoop的基本使用

如果集群内存比较小，在运行一些占用比较大内存进程的时候，会产生内存溢出，所以需要设置一下虚拟内存，防止内存溢出现象，当然如果内存很足，则不用考虑。我们在root目录下，创建一个swap缓存文件（（每块 1M，总共 8192 块，共计：8192M），比较慢。（2）第一个参数是本地文件，第二个是 Had

overfit同步小助手 2023-10-16 16:03:16 0 收藏

毕业设计 Python社交平台舆情分析与可视化 - 数据爬虫大数据

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩基于大数据的社交平台数据爬虫舆情分析可视化

overfit同步小助手 2023-10-16 14:03:48 0 收藏

关于如何解决hadoop jps时没有datanode

在输入jps命令后，可能会出现无法启动DataNode的情况，如图。可能原因1：可能因为多次格式化NameNode会重新生成新的ClusterId（集群ID），而原来的DataNode内data文件下的VERSION文件内的ClusterId还是原来的ClusterId，所以就会出现与NameNod

overfit同步小助手 2023-10-16 14:03:11 0 收藏

hdfs命令行操作

overfit同步小助手 2023-10-16 12:03:44 0 收藏

Hadoop3教程（十一）：MapReduce的详细工作流程

主要讲解了MapReduce的详细工作流程，即Map阶段和Reduce阶段都是在做什么

overfit同步小助手 2023-10-16 08:07:10 0 收藏

Kafka（一）使用Docker Compose安装单机Kafka以及Kafka UI

这里我们的配置是选择的是KRaft，因为Kafka官方已经计划在Kafak中移除Zookeeper。对于UI配置项没什么特别要说的，这里只是提一下，注意这里的docker-compose.yml中environment的写法，和上面的Kafka镜像中environment的写法不同，这是两种不同的写

overfit同步小助手 2023-10-16 08:03:33 0 收藏

人类思维VS AI智能：谁是未来的胜者？

虽然有很多人认为人工智能（AI）将取代人类，但事实上，人类与人工智能的融合将为我们带来新的可能。当人工智能（AI）技术的发展开始提速时，我们更应该看到的是人类思维和 AI智能的结合与融合。在未来，如果我们想要在生活中拥有更多的选择，我们需要做的不仅仅是更聪明地使用我们的智能手机，还需要更深入地了解和

overfit同步小助手 2023-10-16 07:03:35 0 收藏

中国在构建新一代人工智能开放平台方面的策略与目标

作者：禅与计算机程序设计艺术 1.简介随着人工智能技术的不断提升和应用，传统的人工智能解决方案正在被颠覆。越来越多的公司和机构都在探索着如何利用人工智能技术实现更高效、更可靠、更智能的业务模型。近年来，中国政府已经率先开启了构建新一代人工智能开放平台的进程，通过

overfit同步小助手 2023-10-16 07:01:19 0 收藏

【大数据 | 综合实践】大数据技术基础综合项目 - 基于GitHub API的数据采集与分析平台

本文章详解了整个大数据技术综合项目全流程,以及源码、文档、元数据、等，大家在做大作业或者课设可以参考借鉴以下。基于 hadoop hbase spark python mysql mapreduce 实现。通过数据采集和分析，为企业和个人提供全面的市场洞察和技术趋势分析，帮助他们做出更好的决策

overfit同步小助手 2023-10-16 03:03:16 0 收藏

Flink--8、时间语义、水位线（事件和窗口、水位线和窗口的工作原理、生产水位线、水位线的传递、迟到数据的处理）

时间语义、水位线（事件和窗口、水位线和窗口的工作原理、生产水位线、水位线的传递、迟到数据的处理）

overfit同步小助手 2023-10-15 23:03:48 0 收藏

大数据技术之flume——日志收集系统

大数据需要解决的三个问题：采集、存储、计算。Apache flume是一个分布式、可靠的、高可用的海量日志数据采集、聚合和传输系统，将海量的日志数据从不同的数据源移动到一个中央的存储系统中。用一句话总结：Flume不生产数据，它只是数据的搬运工。flume最主要的作用就是，实时读取服务器本地磁盘的数

overfit同步小助手 2023-10-15 19:03:46 0 收藏

Flink流批一体计算（16）：PyFlink DataStream API

图中的Operator Chain表示一个Operator，keyBy表示一个Operator，Sink表示一个Operator，它们通过Stream连接，而每个Operator在运行时对应一个Task，也就是说图中的上半部分有3个Operator对应的是3个Task。紧密度高的算子可以进行优化，优

overfit同步小助手 2023-10-15 18:03:51 0 收藏

32、Flink table api和SQL 之用户自定义 Sources & Sinks实现及详细示例

1、Flink 部署、概念介绍、source、transformation、sink使用示例、四大基石介绍和示例等系列综合文章链接13、Flink 的table api与sql的基本概念、通用api介绍及入门示例14、Flink 的table api与sql之数据类型: 内置数据类型以及它们的属性1

overfit同步小助手 2023-10-15 15:03:47 0 收藏

Hadoop分布式文件系统

Hadoop的发音[hædu:p] ，Cutting儿子对玩具小象的昵称。

overfit同步小助手 2023-10-15 14:03:35 0 收藏

Hadoop数据迁移distcp

Hadoop数据迁移distcp，hadoop高可用集群的数据迁移

overfit同步小助手 2023-10-15 12:03:48 0 收藏