大数据 - overfit.cn

hadoop的基础操作——Hadoop中创建、修改、查看、删除文件夹及文件

在分布式文件系统启动的时候，开始的时候会有安全模式，当分布式文件系统处于安全模式的情况下，文件系统中的内容不允许修改也不允许删除，直到安全模式结束。运行期通过命令也可以进入安全模式。执行hadoop jar命令，在hadoop的/apps/hadoop/share/hadoop/mapreduce路

overfit同步小助手 2023-12-24 17:03:49 0 收藏

hadoop期末复习

NameNode和SecondaryNameNode不要安装在同一台服务器。ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上。1）防火墙没关闭、或者没有启动YARN2）主机名称配置错误3）IP地址配置错误4）ssh没有配置好5）

overfit同步小助手 2023-12-24 17:03:22 0 收藏

大数据处理技术Spark

一个大作业的全过程：伪分布式hadoop+pandas预处理数据+hdfs保存数据+spark从hdfs读取数据+ sparksql处理+sparkmllib处理+matplotlib可视化处理数据

overfit同步小助手 2023-12-24 16:03:55 0 收藏

【Hadoop_02】Hadoop运行模式

（1）如果集群是第一次启动，需要在hadoop102节点格式化NameNode（注意：格式化NameNode，会产生新的集群id，导致NameNode和DataNode的集群id不一致，集群找不到已往数据。上面这个命令的目的是运行一个 WordCount MapReduce 作业，从指定的输入路径

overfit同步小助手 2023-12-24 16:03:49 0 收藏

大数据结合AI概述

大数据（Big Data）指的是传统数据处理软件无法有效处理的庞大、复杂的数据集。这些数据集以其独特的“4V”特征著称：体量大（Volume）、速度快（Velocity）、多样性（Variety）和真实性（Veracity）。大数据涵盖了从社交媒体、传感器数据、交易记录到移动通信信号等各种形式的数据

overfit同步小助手 2023-12-24 15:03:37 0 收藏

CDH 之 Kerberos 安全认证和 Sentry 权限控制管理（一）

Apache Sentry是Cloudera公司发布的一个Hadoop开源组件，2016年3月成为Apache顶级项目。Sentry是一个基于角色的粒度授权模块，提供了对Hadoop集群上经过身份验证的用户提供了控制和强制访问数据或数据特权的能力。Kerberos+Sentry

overfit同步小助手 2023-12-24 12:07:15 0 收藏

【大数据之Hive】六、Hive之metastore服务部署

metastore为Hive CLI或Hiveserver2提供元数据访问接口。

overfit同步小助手 2023-12-24 09:03:38 0 收藏

数据分析毕业设计金融数据分析与可视化系统 - python 大数据

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩金融大数据分析与可视化🥇学长这里给一个题

overfit同步小助手 2023-12-24 08:03:44 0 收藏

hadoop-hdfs简介及常用命令详解（超详细）

本文介绍了HDFS（Hadoop Distributed File System）的概念、架构和常用操作。HDFS是一个分布式文件系统，适用于存储和处理大规模数据集。文章首先简要介绍了HDFS的概述，包括其设计目标和架构组件。接着详细介绍了HDFS命令的基本语法和常用选项，如列出文件和目录、创建目录

overfit同步小助手 2023-12-24 08:03:27 0 收藏

Flink 运行时[Runtime] 整体架构

在分布式系统中，消息的丢失、错乱不可避免，这些问题会在分布式系统的组件中引入不一致状态，如果没有定时消息，那么组件无法从这些不一致状态中恢复。作为分布式数据处理框架，Flink同时提供了支撑流计算和批计算的接口，同时在此基础之上抽象出不同的应用类型的组件库，如基于流处理的。然后，对于后续的任务，当它

overfit同步小助手 2023-12-24 08:03:20 0 收藏

《数据传输安全白皮书》发布国研政情谋定论道经济信息研究

overfit同步小助手 2023-12-24 07:06:54 0 收藏

华为云耀云服务器L实例-大数据学习-hadoop前置准备3-防火墙、 SElinux 、时间同步等系统设置

它的设计理念使得它适用于在常规硬件上搭建的大规模集群，并为用户提供了一种可靠、高效、可扩展的大数据处理解决方案。Linux 有一个安全模块： SELinux ，用以限制用户和程序的相关权限，来确保系统的安全稳定。Hadoop 生态系统包含许多其他工具和框架，如 Hive、Pig、HBase、Spar

overfit同步小助手 2023-12-24 07:03:15 0 收藏

Flink JdbcSink.sink源码解析及常见问题

overfit同步小助手 2023-12-24 02:03:30 0 收藏

【Python大数据笔记_day11_Hadoop进阶之MR和YARN&ZooKeeper】

Hadoop进阶之MR和YARN&ZooKeeper

overfit同步小助手 2023-12-24 01:03:23 0 收藏

PySparkSQL（ DataFrame进阶，函数定义）

开窗函数的引入是为了既显示聚集前的数据，又显示聚集后的数据。即在每一行的最后一列添加聚合函数的结果。开窗用于为行定义一个窗口(这里的窗口是指运算将要操作的行的集合)，它对一组值进行操作，不需要使用 GROUP BY 子句对数据进行分组，能够在同一行中同时返回基础行的列和聚合列。●聚合函数和开窗函数聚

overfit同步小助手 2023-12-23 16:03:54 0 收藏

Hive case when 用法详细介绍

在上面的示例中，如果客户的收入大于100,000，则他们被分为“高”收入。如果他们的收入在50,000和100,000之间，则被归类为“中等”收入。在此示例中，如果年龄小于18岁，则将用户归类为“未成年”；例如，假设我们有一个包含客户信息的表，我们想根据客户的收入水平将其分类为高收入，中等收入和低收

overfit同步小助手 2023-12-23 16:03:41 0 收藏

大数据知识图谱解码：从核心概念到技术实战

知识图谱是近年来人工智能和数据科学领域的焦点。本文深入探索了知识图谱的核心概念、发展历程、研究内容以及其在表示、存储、获取、构建和推理方面的技术细节。结合Python和PyTorch示例代码，文章旨在为读者提供一个全面、深入且实用的知识图谱概览，帮助广大技术爱好者和研究者深化对此领域的认识。

overfit同步小助手 2023-12-23 16:03:30 0 收藏

大数据之非常详细Sqoop安装和基本操作

overfit同步小助手 2023-12-23 11:03:38 0 收藏

Hadoop的启动和停止命令

hadoop命令集

overfit同步小助手 2023-12-23 11:03:15 0 收藏

大数据系列——Flink理论

Flink是一个对有界和无界数据流进行有状态计算的分布式处理引擎和框架，既可以处理有界的批量数据集，也可以处理无界的实时流数据，为批处理和流处理提供了统一编程模型，其代码主要由 Java 实现，部分代码由 Scala实现。Flink以REST资源的形式和外部进行交互，所以可以集成在所有常见的集群资源

overfit同步小助手 2023-12-23 10:03:26 0 收藏