一本院校大三萌妹子须臾:我的大数据之路

大家好啊!这里是须臾,正就读于一所普通的一本院校,是新兴专业“数据科学与大数据技术”的大三学生,马上要大四秋招了,压力好大哇,捂脸。

元宇宙发展研究报告2.0版本(清华大学)

近日,清华大学沈阳教授团队发布了《元宇宙发展研究报告2.0版》,总计205页。报告基于《元宇宙发展研究报告1.0版》,从元宇宙的缘起、概念与属性、技术与产业链、场景应用、风险点及治理、热点七问、远未来展望等七个部分对元宇宙发展进行了深入的研究与分析。元宇宙(Metaverse)是利用科技手段进行链接

数据仓库原理

数据仓库原理ODS>DWD>DWS>ADS

Spark任务提交源码

本文主要介绍了spark源码提交的流程,从SparkSubmit类main方法跟踪到spark主要实体driver和executor的创建过程,记录了整个过程中比较重要的节点的源码,以及对相关方法的功能实现进行了简要介绍。

图解Kafka的服务端的网络通信模型

在开始讲解Kafka的网络通信模型之前,我们有必要先简单了解一下:线程模型 Reactor模式Reactor模式Reactor 模式,是指通过一个或多个输入同时传递给服务处理器的服务请求的事件驱动处理模式。服务端程序处理传入多路请求,并将它们同步分派给请求对应的处理线程,Reactor 模式也叫 D

Hadoop集群搭建记录 | 云计算[CentOS7] | 伪分布式集群 Java环境配置(Oracle JDK)

写在前面本系列文章索引以及一些默认好的条件在 传送门本文以CentOS7为例来进行搭建step1. 下载jdk博主设置的jdk版本为jdk1.8(8u181),官网下载地址可以根据需要选择自己的版本博主提供自己的阿里云分享链接step2. 删除原有的open jdk查看原有的JDK:java -ve

大数据之安装Hadoop单机伪分布(新手上路必备)三

1,安装vmware虚拟机,Linux版本可以自行选择2,安装ubuntu虚拟机 2.1 下载iso镜像 百度搜索 中国镜像站 随便哪个网页都可以,各大公司,各大高校; 2.2 安装ubuntu虚拟机;3,hadoop的安装模式 官方帮助文档https://hadoop.apache.org/doc

Kafka优雅源码设计1-Utils.propsToMap

前言Kafka作为一个开源高性能消息引擎服务,也被评为21世纪最具影响力的技术进步之一。近期在读Kafka源码过程中,发现了很多闪光点,也许我们平时工作不需要Kafka的源码,甚至压根用不到Kafka来实现功能。但是这样一个优秀设计的分布式中间件,在代码的编写上有着很好的示范作用。本系列也希望摘取一

Hadoop集群搭建记录 | 云计算[CentOS7] | 伪分布式集群 Hadoop安装配置

写在前面本系列文章索引以及一些默认好的条件在 传送门所有节点均需要安装并配置Hadoop一共设置了两个节点,分别是master && slave1step1. Hadoop下载博主使用的是Hadoop3.1.1,可以去Hadoop官网下载step2. Hadoop解压安装将下载后的H

【Apache】 手把手教你Log4j2漏洞复现

ApacheLog4j2是一个开源的Java日志框架,被广泛地应用在中间件、开发框架与Web应用中。

【Zookeeper】分布式集群(详细图文)

【Zookeeper】分布式集群(详细图文)·(建议收藏)

Linux免密大法好 ssh-copy-id 和 expect 免交互输入脚本

Linux 终于不用手动输入 密码了,得益于 ssh-copy-id 与 expect

Hadoop本地运行模式(Grep案例和WordCount 案例)

Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。这里先介绍本地运行模式运行官方Grep案例提供一些文本文件, grep可以从中找到想要匹配的文本运行官方WordCount 案例这例子是对文件中某些单词进行统计数。

做技术需要循序渐进

怎么学习技术,技术需要一步一步积累,需要一个阶梯一个阶梯上升。保持终身学习,让自己变得更加智慧和幸福。

spark学习之处理数据倾斜

大数据面试,遇见数据倾斜不会答?最全的数据倾斜总结来教你如何解决它。

Spark框架—RDD分区和缓存

Spark框架—RDD分区和缓存AccessLogAgg.scalaActionOp.scalaTransformationOp.scalaWorldCount.scala日志输出AccessLogAgg.scalaimport org.apache.spark.rdd.RDDimport org.

Pandas基础——一文详不尽(一)

Transforming DataFrames下面列举了pd常用的数据处理方法import pandas as pdDF = pd.DataFrame(xxxx)探索DF整体这里主要是看数据集里的整体部分,当你拿到数据集后应该是先对数据集的整体进行一个观察和探索看数据的前几行就用head()观察每列

Spark框架—RDD算式mapPartitionsWithIndex与filter的用法

@junit.Test def mapPartitionsWithIndex(): Unit ={ sc.parallelize(Seq(1,2,3,4,5,6),2) .mapPartitionsWithIndex((index,iter) =>{ print

Hive安装配置

前提条件:1、 安装好hadoop2.7.3伪分布式环境(Linux环境);2、安装好MySQL5.7(推荐使用) (Windows环境) ,允许mysql远程连接3、并新建一个名为hive的数据库安装步骤:1、官网下载hive安装文件,下载地址:http://archive.apache.org/

将flume的数据实时发送到spark streaming的部署文档

一、创建数据源文件 echo "hello world" >> /tmp/word.txt二、安装flume 参考csdn文档 https://blog.csdn.net/weixin_43859091/article/details/123635082 三、编写spark.proper

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈