SparkSQL详细的调优步骤及参数配置?
在spark-defaults.conf文件中设置spark.sql.shuffle.partitions参数,该参数控制shuffle操作的分区数,一般设置为每个executor的cores的数量,可以根据实际情况调整。在spark-defaults.conf文件中设置spark.executor
CTF中Web题目的各种基础的思路-----入门篇十分的详细
想学习CTF-web这里给你一个思路,给你一个方向
MapReduce介绍及执行过程
mapreduce基本原理及介绍
minio用法
minio用法
大数据监控平台-Prometheus监控Hadoop3.1.3
大数据监控平台-Prometheus监控Hadoop
大数据之数据仓库
数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。数据库是长期储存在计算机内、有组织的、可共享的数据集合。数据库的数据指的是以一定的数据模型组织、描述和储存在一起、具有尽可能小的冗余度、较高的数据独立性和易扩展的特点并可在一定范围内为多个用户共享。常用的数
GStreamer插件实列rockchipmpp
尽管这些年arm发展取得了不少的进步,不过对于音视频的编解码仍然心有余力不足,好在芯片厂家在SOC里面提供了硬件加速能力。善于发挥出芯片的能力,才能打造出完美的应用.今天我们一起来探索一下rk3568上的为我们提供的多媒体加速能力-MPP,然后一起分析一下rk的gstreamer插件。 rockch
Elasticvue - 用于浏览器的免费开源 Elasticsearch GUI
Elasticvue 是用于 Elasticsearch 的免费开源 gui,允许你直接在浏览器中搜索和过滤集群数据
Spark系列(一)spark简介及安装配置
什么是Spark:Spark是一个用于大规模数据处理的统一计算引擎注意:Spark不仅仅可以做类似于MapReduce的离线数据计算,还可以做实时数据计算,并且它还可以实现类似于Hive的SQL计算,等等,所以说它是一个统一的计算引擎内存计算Spark中一个最重要的特性就是基于内存进行计算,从而让它
大数据-hadoop常用命令
hadoop常用命令
网络数据爬虫(scrapy+selenium)实现页面跳转及文件/附件下载
一、基于scrapy的基本架构搭建(往期博文中已有基本介绍,可参考:)二、selenium实现自动跳转“下一页”:1、selenium简介:一种自动化测试工具,可以模拟人来操作浏览器,执行效率有时候还不如人快,因为需要浏览器页面加载完成才能操作,对网速要求严格,可以用于重复性的操作。2、需求:爬取条
Hive 中的各种常用set设置
hive 中的常用set语句设置
1990-2021年全国各省外商直接投资水平
1990-2021年全国各省外商直接投资水平数据
flink学习之sql-client之踩坑记录
注意当你使用这个模式运行一个流式查询的时候,Flink 会将结果持续的打印在当前的屏幕之上。如果这个流式查询的输入是有限的数据集, 那么Flink在处理完所有的数据之后,会自动的停止作业,同时屏幕上的打印也会相应的停止。--也可以不用hadoop 其实这里的时候就该反应过来,如果写过flink ta
企业级数据中台应用架构和技术架构
数据中台是一种将企业沉睡的数据变成数据资产,持续使用数据、产生智能、为业务服务,从而实现数据价值变现的系统和机制。通过数据中台提供的方法和运行机制,形成汇聚整合、提纯加工、建模处理、算法学习,并以共享服务的方式将数据提供给业务使用,从而与业务联动。再者,结合业务中台的数据生产能力,最终构建数据生产一
Filebeat部署+Kafka接收消息
单机版filebeat搭建,Filebeat部署+Kafka接收消息
hadoop 安装与测试
本文需要下载的安装包是Hadoop-3.1.3.tar.gz/jdk-14_linux-x64_bin.tar.gz。将Windows上的安装包上传到Linux上,方式有很多。本文是将安装包通过共享文件夹形式传到虚拟机上的share文件下。登录官网hadoop.apache.org下载安装包。ubu
windows安装es、kibana教程
es是大厂都会用的nosql,大部分用于搜索数据量比较大的存储工具,很多人都只是会使用,并不了解其中的原理以及自己动手搭建一个es的环境用于学习,了解其中的原理,下面是我安装过程中遇到的坑;
Streampark集成Cloudera Flink、ldap、告警,以及部署常见问题
Streampark适配Cloudera版本Flink,并针对常见的一些部署与使用问题提供解决方案