虚拟机的网络配置
虚拟机中网络配置
Hadoop史诗级入门详解
Hadoop最详细的入门讲解
初识Hadoop,走进大数据世界
在古时候,人们用牛来拉重物,当一头牛拉不动一根圆木时,人们从来没有考虑过要想方设法培育出一种更强壮的牛。同理,我们也不该想方设法打造什么超级计算机,而应该千方百计综合利用更多计算机来解决问题。
【大数据】大数据学习路线
首先明确一点:大数据涉及的知识面广度还是有的,需要学习的组件繁多,想要每一项精通几乎不可能,所以企业在招聘的时候会进行细分,基于某个方向进行招聘,比如关键字,数据仓库工程师、数据治理工程师、大数据开发工程师、大数据算法工程师、ETL工程师等。我们在学习的时候也要有所侧重,保证自己兴趣所致并重点关注。
【SQL开发实战技巧】系列(一):关于SQL不得不说的那些事
复合索引的字段顺序,会影响查询速度,创建复合索引做SQL优化的一般原则是,如果两个字段在WHERE子句中使用频率相同,则将最具选择性的字段排在最前面,以下是分析结果:原SQL进行了两次全表扫描,优化后的SQL减少一次全表扫描,提高了查询效率。cusomer和customer_detail两个表的cu
hadoop考试应急
为了应对hadoop考试的同学可以看看
2023版大数据学习路线图(适合自学)
为数据存储与计算(离线场景),主要讲解协调服务ZK(1T)、数据存储hdfs(2T)、数据存储alluxio(1T)、数据采集flume、数据采集logstash、数据同步Sqoop(0.5T)、数据同步datax(0.5T)、数据同步mysql-binlog(1T)、计算模型MR与DAG(1T)、
大数据面试题(八):Hive优化措施
Fetch抓取Fetch抓取是指Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.templat
[零基础]用docker搭建Hadoop集群
[零基础]用docker搭建Hadoop集群,每一步都有详细的解释!
Hadoop集群搭建
Hadoop官方网站:http://hadoop.apache.org/Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。本地模式:单机运行,只是用来演示一下官方案例。生产环境不用。伪分布式模式:也是单机运行,但是具备Hadoop集群的所有功能,一台服务器模拟一个分布式的环境。个别
Hadoop三大框架
Hadoop三大框架:HDFS、MapReduce、Yarn
Hive最全总结,学习与面试,收藏这一篇就够了!
UDF:用户自定义函数,user defined function。一对一的输入输出。UDTF:用户自定义表生成函数。user defined table-generate function.一对多的输入输出。UDAF:用户自定义聚合函数。user defined aggregate functio
ssh: connect to host localhost port 22: Connection refused
今天本机安装hadoop 时,遇到一个问题,配置 ssh 登录权限失败xxx@yyy:/opt/hadoop$ ssh localhostssh: connect to host localhost port 22: Connection refused百度搜索了好多文章都没能搞定,最后还是通过 b
DBeaver连接hive(详细图解)
dbeaver是免费和开源(GPL)为开发人员和数据库管理员通用数据库工具。易用性是该项目的主要目标,是经过精心设计和开发的数据库管理工具。免费、跨平台、基于开源框架和允许各种扩展写作(插件)。它支持任何具有一个JDBC驱动程序数据库。它可以处理任何的外部数据源。
[Spark、hadoop]Spark Streaming整合kafka实战
Kafka是由Apache软件基金会开发的一个开源流处理平台,它使用Scala和Java语言编写,是一个基于Zookeeper系统的分布式发布订阅消息系统,该项目的设计初衷是为实时数据提供一个统一、高通量、低等待的消息传递平台。①、Kafka的众多优点:其优点具体:(1)解耦。Kafka 具备消息系
描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系
作者:小怪兽链接:https://www.zhihu.com/question/27974418/answer/1862026844来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。1Hadoop只是一套工具的总称,它包含三部分:HDFS,Yarn,MapReduce,功
解决Ubuntu20.04网络配置的问题
在Ubuntu20.04版本中,没有/etc/network/interfaces文件,而是使用/etc/netplan/01-network-manager-all.yaml文件配置网络
大数据基准测试工具HiBench部署与测试
本文介绍了大数据基准测试工具HiBench的部署,并进行了测试。欢迎大家交流讨论!
Hadoop(一)Hadoop概述
Hadoop(一)Hadoop概述
数据湖(一):数据湖概念
数据湖概念一、什么是数据湖数据湖是一个集中式的存储库,允许你以任意规模存储多个来源、所有结构化和非结构化数据,可以按照原样存储数据,无需对数据进行结构化处理,并运行不同类型的分析对数据进行加工,例如:大数据处理、实时分析、机器学习,以指导做出更好地决策。二、大数据为什么需要数据湖当前基