Hadoop - overfit.cn

虚拟机的网络配置

虚拟机中网络配置

overfit同步小助手 2023-02-23 15:03:46 0 收藏

Hadoop史诗级入门详解

Hadoop最详细的入门讲解

overfit同步小助手 2023-02-23 13:04:10 0 收藏

初识Hadoop，走进大数据世界

在古时候，人们用牛来拉重物，当一头牛拉不动一根圆木时，人们从来没有考虑过要想方设法培育出一种更强壮的牛。同理，我们也不该想方设法打造什么超级计算机，而应该千方百计综合利用更多计算机来解决问题。

overfit同步小助手 2023-02-21 08:03:41 0 收藏

【大数据】大数据学习路线

首先明确一点：大数据涉及的知识面广度还是有的，需要学习的组件繁多，想要每一项精通几乎不可能，所以企业在招聘的时候会进行细分，基于某个方向进行招聘，比如关键字，数据仓库工程师、数据治理工程师、大数据开发工程师、大数据算法工程师、ETL工程师等。我们在学习的时候也要有所侧重，保证自己兴趣所致并重点关注。

overfit同步小助手 2023-02-18 16:04:18 0 收藏

【SQL开发实战技巧】系列（一）:关于SQL不得不说的那些事

复合索引的字段顺序，会影响查询速度，创建复合索引做SQL优化的一般原则是，如果两个字段在WHERE子句中使用频率相同,则将最具选择性的字段排在最前面，以下是分析结果：原SQL进行了两次全表扫描，优化后的SQL减少一次全表扫描，提高了查询效率。cusomer和customer_detail两个表的cu

overfit同步小助手 2023-02-18 13:04:01 0 收藏

hadoop考试应急

为了应对hadoop考试的同学可以看看

overfit同步小助手 2023-02-18 09:04:36 0 收藏

2023版大数据学习路线图（适合自学）

为数据存储与计算（离线场景），主要讲解协调服务ZK(1T)、数据存储hdfs(2T)、数据存储alluxio(1T)、数据采集flume、数据采集logstash、数据同步Sqoop(0.5T)、数据同步datax(0.5T)、数据同步mysql-binlog(1T)、计算模型MR与DAG(1T)、

overfit同步小助手 2023-02-18 09:03:59 0 收藏

大数据面试题（八）：Hive优化措施

Fetch抓取Fetch抓取是指Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml.templat

overfit同步小助手 2023-02-17 23:04:09 0 收藏

[零基础]用docker搭建Hadoop集群

[零基础]用docker搭建Hadoop集群，每一步都有详细的解释！

overfit同步小助手 2023-02-13 23:04:10 0 收藏

Hadoop集群搭建

Hadoop官方网站：http://hadoop.apache.org/Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式。本地模式：单机运行，只是用来演示一下官方案例。生产环境不用。伪分布式模式：也是单机运行，但是具备Hadoop集群的所有功能，一台服务器模拟一个分布式的环境。个别

overfit同步小助手 2023-02-13 08:04:13 0 收藏

Hadoop三大框架

Hadoop三大框架：HDFS、MapReduce、Yarn

overfit同步小助手 2023-02-11 17:04:11 0 收藏

Hive最全总结，学习与面试，收藏这一篇就够了！

UDF：用户自定义函数，user defined function。一对一的输入输出。UDTF：用户自定义表生成函数。user defined table-generate function.一对多的输入输出。UDAF：用户自定义聚合函数。user defined aggregate functio

overfit同步小助手 2023-02-11 03:04:07 0 收藏

ssh: connect to host localhost port 22: Connection refused

今天本机安装hadoop 时，遇到一个问题，配置 ssh 登录权限失败xxx@yyy:/opt/hadoop$ ssh localhostssh: connect to host localhost port 22: Connection refused百度搜索了好多文章都没能搞定，最后还是通过 b

overfit同步小助手 2023-02-11 02:04:05 0 收藏

DBeaver连接hive（详细图解）

dbeaver是免费和开源（GPL）为开发人员和数据库管理员通用数据库工具。易用性是该项目的主要目标，是经过精心设计和开发的数据库管理工具。免费、跨平台、基于开源框架和允许各种扩展写作（插件）。它支持任何具有一个JDBC驱动程序数据库。它可以处理任何的外部数据源。

overfit同步小助手 2023-02-11 01:04:12 0 收藏

[Spark、hadoop]Spark Streaming整合kafka实战

Kafka是由Apache软件基金会开发的一个开源流处理平台,它使用Scala和Java语言编写，是一个基于Zookeeper系统的分布式发布订阅消息系统，该项目的设计初衷是为实时数据提供一个统一、高通量、低等待的消息传递平台。①、Kafka的众多优点：其优点具体：(1)解耦。Kafka 具备消息系

overfit同步小助手 2023-02-10 16:04:45 0 收藏

描述大数据的技术生态？Hadoop、Hive、Spark 之间是什么关系

作者：小怪兽链接：https://www.zhihu.com/question/27974418/answer/1862026844来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。1Hadoop只是一套工具的总称，它包含三部分：HDFS，Yarn，MapReduce，功

overfit同步小助手 2023-02-10 16:04:00 0 收藏

解决Ubuntu20.04网络配置的问题

在Ubuntu20.04版本中，没有/etc/network/interfaces文件，而是使用/etc/netplan/01-network-manager-all.yaml文件配置网络

overfit同步小助手 2023-02-10 15:04:13 0 收藏

大数据基准测试工具HiBench部署与测试

本文介绍了大数据基准测试工具HiBench的部署，并进行了测试。欢迎大家交流讨论！

overfit同步小助手 2023-02-10 13:04:21 0 收藏

Hadoop（一）Hadoop概述

overfit同步小助手 2023-02-10 13:03:56 0 收藏

数据湖（一）：数据湖概念

数据湖概念一、什么是数据湖数据湖是一个集中式的存储库，允许你以任意规模存储多个来源、所有结构化和非结构化数据，可以按照原样存储数据，无需对数据进行结构化处理，并运行不同类型的分析对数据进行加工，例如：大数据处理、实时分析、机器学习，以指导做出更好地决策。二、大数据为什么需要数据湖当前基

overfit同步小助手 2023-02-10 11:03:53 0 收藏