Hadoop本地运行模式(Grep案例和WordCount 案例)
Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。这里先介绍本地运行模式运行官方Grep案例提供一些文本文件, grep可以从中找到想要匹配的文本运行官方WordCount 案例这例子是对文件中某些单词进行统计数。
做技术需要循序渐进
怎么学习技术,技术需要一步一步积累,需要一个阶梯一个阶梯上升。保持终身学习,让自己变得更加智慧和幸福。
spark学习之处理数据倾斜
大数据面试,遇见数据倾斜不会答?最全的数据倾斜总结来教你如何解决它。
Spark框架—RDD分区和缓存
Spark框架—RDD分区和缓存AccessLogAgg.scalaActionOp.scalaTransformationOp.scalaWorldCount.scala日志输出AccessLogAgg.scalaimport org.apache.spark.rdd.RDDimport org.
Pandas基础——一文详不尽(一)
Transforming DataFrames下面列举了pd常用的数据处理方法import pandas as pdDF = pd.DataFrame(xxxx)探索DF整体这里主要是看数据集里的整体部分,当你拿到数据集后应该是先对数据集的整体进行一个观察和探索看数据的前几行就用head()观察每列
Spark框架—RDD算式mapPartitionsWithIndex与filter的用法
@junit.Test def mapPartitionsWithIndex(): Unit ={ sc.parallelize(Seq(1,2,3,4,5,6),2) .mapPartitionsWithIndex((index,iter) =>{ print
Hive安装配置
前提条件:1、 安装好hadoop2.7.3伪分布式环境(Linux环境);2、安装好MySQL5.7(推荐使用) (Windows环境) ,允许mysql远程连接3、并新建一个名为hive的数据库安装步骤:1、官网下载hive安装文件,下载地址:http://archive.apache.org/
将flume的数据实时发送到spark streaming的部署文档
一、创建数据源文件 echo "hello world" >> /tmp/word.txt二、安装flume 参考csdn文档 https://blog.csdn.net/weixin_43859091/article/details/123635082 三、编写spark.proper
使用canal监控mysql数据库实现elasticsearch索引实时更新
文章目录业务场景安装下载安装数据库启用row binlog使用修改配置文件canal.properties配置单个连接配置多个连接配置rabbitMQ程序改动canal源码微服务消费mq业务场景使用elasticsearch作为全文搜索引擎,对标题、内容等,实现智能搜索、输入提示、拼音搜索等elas
Hadoop 大数据Hive仓库组件部署超详细
1.数据仓库1.1概念构建面向分析的集成化数据环境面向分析的存储数据1.2主要特征数据仓库是面向主题的集成的非易失的和时变的数据集合,用以支持管理决策1.2.3 非易失性开启三台虚拟机上传压缩包到software解压到src下改名修改环境变量生效环境变量查询卸载Maeidb文件包上传MySQL安装包
springboot 2.0 集成 kafka 2.6.2(集群) + elk 7.6.2(集群)
小伙伴们,你们好,我是老寇目录一、前提条件二、准备工作三、ELK介绍四、Kafka介绍五、日志监控架构图六、微服务集成一、前提条件搭建kafka集群 搭建elasticsearch集群 搭建微服务环境二、准备工作192.168.1.1(启动Elasticsearch集群+ Kafka集群)192.1
2.3 Hadoop安装与体验
带你全面理解hadoop大数据。包含:伪分布式配置创建hadoop用户更新apt安装SSH、配置SSH无密码登陆安装Java环境Hadoop伪分布式配置运行Hadoop伪分布式实例深耕于机器学习算法、深度学习、数据分析等领域,希望我这微不足道的知识能帮到您。
Apache Yarn重启,历史任务可以永久保留的几个参数
非HA模式下的Apache Yarn在重启以后,8088端口默认是看不到之前运行过的历史任务的,如果想要看到历史任务,只需要在yarn-site.xml里面设置三个参数即可.<property> <name>yarn.resourcemanager.recove
RFM用户分层模型|原理+Python全流程实现
RFM 模型在数据分析中经常会进行用户分层,本文我们来了解一下常见的用户分层模型RFM。RFM概念RFM是由R(Recency)、F (Frequency)、 M(Monetary) 三个维度构成的,其具体含义如下:R:最近一次消费时间间隔F:消费频率M:消费金额这里对于这三个维度的概念简单的做一个
MySQL优化手册概要——LIMIT优化
mysql语句优化之——LIMIT优化
实习踩坑之路:一个ElasticSearchJava客户端的批量处理操作bulkIndexAsync引发的内存泄漏的血案
没错这又是一次血案,不过是在测试环境发现的,还好不是上次线上导致的CPU300%,这次及时发现,避免了线上血案,不过我还是要复盘一下的,下面就看看我的分析,看看有没有什么错误的地方
centos 7 安装kafka 2.6.2(集群)
小伙伴们,你们好,我是老寇一、前提条件192.168.1.1 (安装kafka,点点我)192.168.1.2 (安装kafka,点点我)192.168.1.3 (安装kafka,点点我)二、安装过程1.3台主机都执行如下命令mkdir -p /data/kafka/logsmkdir -p /da
【无标题】 Hadoop中Scala环境的搭配
(1)在起始的/opt 目录下建立software文件和module文件,software文件用来下载安装包,下载后的安装包·可以·解压到module文件。可以用下面这一行代码:tar -r /opt/software scala-2.11.8.tgz -C /opt/module到 /opt/mo
centos7 安装 kafka 2.6.2(单机)
小伙伴们,你们好,我是老寇目录一、下载文件二、解压文件三、移动文件到/usr/local四、创建文件夹并授权五、修改config/zookeeper.properties六、修改config/server.properties七、启动zookeeper八、启动kafka九、查看端口占用十、创建top
元宇宙基本概念、特点及发展趋势初步探讨
文章介绍了元宇宙基本概念、特点及发展趋势,内容来自于江西省计算机用户协会秘书长、高级工程师刘斌整理