大数据 Hadoop - overfit.cn

大数据大作业（课程设计）

本课题为信息爬取字数及可视化，首先使用Python编程爬取了凤凰网门户网站新闻栏目22/7/26—7/28三天内的新闻信息，其次，将爬取的新闻整合为一个文件，然后使用Python编程对文件进行分词处理并且可以获取词云，接下来将该文件上传至hadoop平台，利用MapReduce框架编程完成了字数统计

overfit同步小助手 2023-06-28 02:04:22 0 收藏

Hive（番外）：Hive可视化工具IntelliJ IDEA

Sublime、Emacs 、EditPlus、UltraEdit、Visual Studio Code等有些不支持作为客户端连接Hive服务，但是支持SQL语法环境，那就再编辑器中开发SQL,复制到Hive CLI执行；IntelliJ IDEA、DataGrip、Dbeaver、SQuirre

overfit同步小助手 2023-06-28 00:04:25 0 收藏

数据同步工具DataX、Sqoop、Maxwell、Canal

overfit同步小助手 2023-06-27 19:04:22 0 收藏

Hadoop的shuffle过程及调优

今天这章，我们详细介绍了 Shuffle 过程，关注 Shuffle 过程的性能对整个 MR 作业的性能调优至关重要。经过这章的介绍，我们能够掌握 Shuffle 过程的关键技术点，虽然还不算深入。同时，我们介绍了常见的参数以及调优方法，希望能够在实际应用中不断的尝试、总结，写出性能最佳的任务。

overfit同步小助手 2023-06-27 16:04:42 0 收藏

分布式存储与并行处理环境配置：Hadoop、HBase和Spark等

本文介绍Linux系统中配置Hadoop、HBase和Spark环境，包括安装Java运行环境、下载安装包、进行配置和测试。通过这种方式，可以搭建一个强大的分布式计算环境，用于处理大规模数据集。为了成功配置Hadoop、HBase和Spark环境，需要理解它们之间的关系和各自的组件。

overfit同步小助手 2023-06-27 08:04:14 0 收藏

Hadoop实训任务3：HDFS和MapReduce综合操作

overfit同步小助手 2023-06-27 02:04:02 0 收藏

大数据处理实验（三）HDFS基本操作实验

HDFS基本操作实验一、Hadoop配置环境变量列出当前目录下的文件级联创建一个文件夹，类似这样一个目录：/mybook/input上传文件至HDFS从HDFS上下载文件查看HDFS上某个文件的内容统计目录下各文件的大小（单位：字节B）删除HDFS上某个文件或者文件夹使用help命令寻求帮助。HDF

overfit同步小助手 2023-06-27 01:04:09 0 收藏

数据采集及预处理——针对“数据”“采集”“预处理”的理解与解析

数据采集及预处理文章目录数据采集及预处理前言一、数据二、采集1.系统日志采集2.网络数据采集3.ETL三. 预处理总结前言一、数据在计算机系统中，各种字母、数字符号的组合、语音、图形、图像等统称为数据，数据经过加工后就成为信息。数据（data）是事实或观察的结果，是对客观事物的逻辑归纳，是用于

overfit同步小助手 2023-06-26 21:04:26 0 收藏

【Hadoop】 | 搭建HA之报错锦集

这篇文章主要介绍博主在进行 Hadoop Ha 搭建时，以及 MapReduce 编程时，遇到的部分错误，分享给大家参考！

overfit同步小助手 2023-06-26 15:04:16 0 收藏

Hive on Spark环境搭建（解决Hive3.1.2和Spark3.0.x版本冲突）

使用Hive做元数据存储和HQL解析，Spark做实际计算。（Hive on Spark）Hive 使用3.1.2版本，Spark 使用3.0.3版本。由于Hive 3.1.2 和 Spark 3.0.3不兼容，需要修改Hive中关于Spark的源码和依赖引用。下载Hive 3.1.2源码，上传

overfit同步小助手 2023-06-26 05:04:06 0 收藏

iptables防火墙屏蔽指定ip的端口

#尾部插入一条记录,拒绝ip访问除了22端口以外的所有端口iptables -A INPUT -s 192.1.217.54 -p tcp -m tcp ! --dport 22 -j REJECT# 第一行插入规则允许通过的端口号iptables -I INPUT 1 -s 192.1.217.

overfit同步小助手 2023-06-26 03:04:08 0 收藏

【大数据学习篇1】linux常用命令

/list查看当前目录下有什么文件ls //list -list 通过详细内容形式查看目录下的文件内容 ls -l 或 ll //查看指定目录下文件名字信息 ls 目录 //以详细列表形式查看指定目录下文件名字信息 ls -l 目录 //list all 查看全部文件，包括隐藏文件 ls -a //

overfit同步小助手 2023-06-26 03:03:54 0 收藏

【云原生】Hadoop on k8s 环境部署

Hadoop是Apache软件基金会下一个开源分布式计算平台，以HDFS（Hadoop Distributed File System）、MapReduce（Hadoop2.0加入了YARN，Yarn是资源调度框架，能够细粒度的管理和调度任务，还能够支持其他的计算框架，比如spark）为核心的Had

overfit同步小助手 2023-06-26 00:04:41 0 收藏

HIVE 基本查询操作（二）——第2关：Hive数据类型和类型转换

的内置数据类型，2.如何转换数据类型。的内置数据类型可以分为两大类：(1)、日每种股票总共被客户买入了多少金额。为了完成本关任务，你需要掌握：1.(1) 如果将浮点型的数据转换成。日每种股票总共被客户买入了多少元。类型数据是一个数字类型()，这时候你可以利用嵌套的。开始你的任务吧，祝你成功！函数来实

overfit同步小助手 2023-06-26 00:04:29 0 收藏

大数据hadoop生态技术简介

大数据生态知识体系

overfit同步小助手 2023-06-25 22:04:15 0 收藏

大数据技术之Hadoop(八)——Flume日志采集系统

Flume日志采集系统的认识与操作

overfit同步小助手 2023-06-25 16:04:25 0 收藏

Hive数据操作

hive学习02-数据操作

overfit同步小助手 2023-06-25 09:04:19 0 收藏

分布式计算----期末复习题（仅供参考）

单独看yarn的进程：start-yarn.sh ，出现resourcemanager（主节点），nodemanager（从节点）。(3) core- site.xml作用: 配置NameNode的所在主机或者通讯地址及NameNode格式化后的目录的路径。3.如果你使用的是Hadoop3.x版本，

overfit同步小助手 2023-06-25 00:04:12 0 收藏

ubuntu设置MySQL密码

在ubuntu中设置MySQL用户密码

overfit同步小助手 2023-06-24 20:03:59 0 收藏

Hadoop大数据处理与分析教程

本文所需文件(Vmware虚拟机、密匙、乌班图系统、JDK、Hadoop）链接：https://pan.baidu.com/s/1yU5s36Rgl_jE_mAmHsJBfQ?pwd=i5s6提取码：i5s6。

overfit同步小助手 2023-06-24 18:04:21 0 收藏