INFINI Gateway:Elasticsearch 极限网关入门手册
最近,我有幸接触到 medcl 大神的杰作:极限网关(INFINI GATEWAY)。INFINIGateway 有很多优点,也有很多应用的场景。你可以在官方网站上进行阅读。简单说来,极限网关(INFINI Gateway)是一个面向 Elasticsearch 的高性能应用网关,它包含丰富的特性,
Windows环境安装及启动Zookeeper详细历程(含闪退、找不到JAVA_HOME及无限报错原因)
详细历程1.jdk安装2.下载Zookeeper3.解压文件4.创建文件夹5.修改配置文件6.运行闪退问题7.Error: JAVA_HOME is not set8.无限报错9. 启动成功
MapReduce on Yarn(包含MapReduce执行详细流程)
1. MapReduce1.1 MapReduce任务在Yarn中执行流程MapReduce作为一种分布式计算框架,它在Yarn中执行的流程为:(1)客户端提交job;细节:① org.apache.hadoop.mapreduce.Job类配置job;② mapred-site.xml中mapre
数据治理(一):为什么要数据治理
为什么要数据治理在大数据各个企业数据积累过程中,很多公司都注重了数据的“量”,很少有公司关注数据的“质”,仿佛只要有了海量的数据就可以解决所有问题。真实的情况是公司有了海量的数据,如果不能够保证一定的数据质量不但不能够解决问题,反而还会制造更多的麻烦,例如:企业数据标准、命名规则不一致、企业数据口径
linux安装zookeeper集群保姆教程,包括集群启停脚本
三台机器安装zookeeper集群注意事项:安装前三台机器一定要保证时钟同步说明:我这里是有3台服务器,分别hostname为node01、node02、node03。三台机器已经配置好了ssh。zookeeper使用的是cdh5的zookeeper包,没有使用原生zookeeper项目的包。三台机
大数据调度平台Airflow(八):Airflow分布式集群搭建及测试
目录Airflow分布式集群搭建及测试一、节点规划二、airflow集群搭建步骤1、在所有节点安装python3.72、在所有节点上安装airflow三、初始化Airflow1、每台节点安装需要的python依赖包2、在node1上初始化Airflow 数据库四、创建管理员用户信息五、
皮尔逊相关系数python实现
皮尔逊相关系数python实现
211大二计科生高呼:王侯将相宁有种乎?
大家好,我是科科,来自四川农业大学,高中时因为一些原因休学了一年多,后来重新读高中,从高二时转到职高,选择的计算机专业,现在四川农业大学
从一个sql引发的hive谓词下推的全面复盘及源码分析(上)
嗨,大家好,我是小萝卜算子。(微信公众号:数据仓库践行者。感谢关注)下面开始今天的正题Hive版本:hive-2.1.1经常听到**【谓词下推】**这个词,却从来没有对它进行全面的深入的研究,直到前些天,我们的数据产品跑过来跟我讨论 他写的一个sql,这个sql最终出现的结果并不是他想要的。看了具体
一本院校大三萌妹子须臾:我的大数据之路
大家好啊!这里是须臾,正就读于一所普通的一本院校,是新兴专业“数据科学与大数据技术”的大三学生,马上要大四秋招了,压力好大哇,捂脸。
Spark任务提交源码
本文主要介绍了spark源码提交的流程,从SparkSubmit类main方法跟踪到spark主要实体driver和executor的创建过程,记录了整个过程中比较重要的节点的源码,以及对相关方法的功能实现进行了简要介绍。
大数据之安装Hadoop单机伪分布(新手上路必备)三
1,安装vmware虚拟机,Linux版本可以自行选择2,安装ubuntu虚拟机 2.1 下载iso镜像 百度搜索 中国镜像站 随便哪个网页都可以,各大公司,各大高校; 2.2 安装ubuntu虚拟机;3,hadoop的安装模式 官方帮助文档https://hadoop.apache.org/doc
Linux免密大法好 ssh-copy-id 和 expect 免交互输入脚本
Linux 终于不用手动输入 密码了,得益于 ssh-copy-id 与 expect
Hadoop本地运行模式(Grep案例和WordCount 案例)
Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。这里先介绍本地运行模式运行官方Grep案例提供一些文本文件, grep可以从中找到想要匹配的文本运行官方WordCount 案例这例子是对文件中某些单词进行统计数。
spark学习之处理数据倾斜
大数据面试,遇见数据倾斜不会答?最全的数据倾斜总结来教你如何解决它。
Hadoop 大数据Hive仓库组件部署超详细
1.数据仓库1.1概念构建面向分析的集成化数据环境面向分析的存储数据1.2主要特征数据仓库是面向主题的集成的非易失的和时变的数据集合,用以支持管理决策1.2.3 非易失性开启三台虚拟机上传压缩包到software解压到src下改名修改环境变量生效环境变量查询卸载Maeidb文件包上传MySQL安装包
实习踩坑之路:一个ElasticSearchJava客户端的批量处理操作bulkIndexAsync引发的内存泄漏的血案
没错这又是一次血案,不过是在测试环境发现的,还好不是上次线上导致的CPU300%,这次及时发现,避免了线上血案,不过我还是要复盘一下的,下面就看看我的分析,看看有没有什么错误的地方
spark学习之sparksql语法优化
🐹上一章的学习中,我们学习了spark的资源调度进行了学习,今天我们要学习的内容是sparksql语法优化部分,对往期内容感兴趣的同学可以参考👇:上一篇: spark学习之资源调度.上一篇: spark学习之执行计划explain.hadoop专题: hadoop系列文章.spark专题: sp
spark学习之资源调度
本文主要介绍从spark的内存、持久化、cpu的角度介绍spark的资源调度的情况。
计算机视觉之卷积神经网络
计算机视觉之卷积神经网络