Flink面试题

flink面试常见问题

基于spark的电影推荐系统,包括基于ALS、LFM的离线推荐、实时推荐

毕业设计——基于spark的电影推荐系统,包括基于ALS、LFM的离线推荐、实时推荐

《2023大数据产业年度国产化优秀代表厂商》榜重磅发布丨第六届金猿奖

‍第六届年度金猿榜单/奖项“第六届年度金猿季策划活动——2023大数据产业年度国产化优秀代表厂商榜单/奖项”由金猿X数据猿X上海大数据联盟共同推出。大数据产业创新服务媒体——聚焦数据· 改变商业第六届 “年度金猿季大型主题策划活动”由金猿、数据猿、上海大数据联盟共同组成的金猿组委会发起,在继续深耕大

大数据毕设项目 - 大数据B站数据分析与可视化 - python 数据分析 大数据

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天要分享的是🚩大数据B站数据分析与可视化🥇学长这里给一

【kafka】使用docker启动kafka

docker拉取zookeeper镜像创建zookeeper容器,默认端口号为2181拉取kafka镜像创键kafka容器,默认端口号为9092查看是否运行成功。

python毕设选题 - 大数据二手房数据爬取与分析可视化 -python 数据分析 可视化

# 1 前言🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天要分享的是🚩 基于大数据招聘岗位数据分析

hive location更新&hive元数据表详解

由于HDFS支持的文件格式很多,而建Hive表时候也可以指定各种文件格式,Hive在将HQL解析成MapReduce时候,需要知道去哪里,使用哪种格式去读写HDFS文件,而这些信息就保存在这几张表中。该表保存文件存储的基本信息,如INPUT_FORMAT、OUTPUT_FORMAT、是否压缩等。主要

大数据的概念

大数据是指规模巨大、复杂度高、以及传统方法难以处理和分析的数据集合。这些数据集通常包含结构化、半结构化和非结构化的数据,产生于各种来源,包括传感器、社交媒体、日志文件、传统数据库等。大数据可以用来揭示隐藏的模式、趋势和洞察力,从而帮助组织和企业做出更准确的决策、提供个性化的服务、改进运营效率等。因为

【FLink消费Kafka之FlinkConsumer到KafkaSource的转变】

上篇介绍了flink的入门程序wordcount,在项目开发过程中,最常接触的还是跟各种源头系统打交道,其中消费接收kafka中的数据是最常见的情况,而flink在1.15版本后连接kafka的依赖包发生了变化,之前的flink版本使用的依赖包是flink-connector-kafka_2.1x(

掌握大数据--Hadoop全面指南

Hadoop全面指南,希望能帮助大家理解Hadoop

2023_Spark_实验三十一:开发Kafka偏移量的公共方法

基于scala,开发代码,将消费者组的offset信息存入mysql数据库

字节跳动 MapReduce - Spark 平滑迁移实践

近一年内字节跳动 Spark 作业数量经历了从 100 万到 150 万的暴涨,天级数据 Flink Batch 从 20 万涨到了 25 万,而 MapReduce 的用量则处于缓慢下降的状态,一年的时间差不多从 1.4 万降到了 1 万左右,基于以上的用量情况,MapReduce 作为我们使用的

数据仓库入门介绍框架(附带完整项目实战)

一、诞生背景- 企业数据分析需要:各个部门自己建立独立的数据抽取系统,导致数据不一致

大数据之旅--Hadoop入门

Hadoop是Apache旗下的一个用Java语言实现开源软件框架,是一个存储和计算大规模数据的软件平台。-------几张图让你理解Hadoop的架构

【数据库原理】(38)数据仓库

定义数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持企业管理和决策制定过程。它专注于存储大量的历史数据,以便进行分析和提取洞见,从而辅助管理决策。与数据库的主要区别数据内容: 数据仓库存储历史数据,用于分析和报告,而数据库通常存储当前的事务数据。数据目标: 数据仓库面向

【Hive_03】单行函数、聚合函数、窗口函数、自定义函数、炸裂函数

Hive会将常用的逻辑封装成函数给用户进行使用,类似于Java中的函数。好处:避免用户反复写逻辑,可以直接拿来使用。重点:用户需要知道函数叫什么,能做什么。Hive提供了大量的内置函数,按照其特点可大致分为如下几类:单行函数、聚合函数、炸裂函数、窗口函数。以下命令可用于查询所有内置函数的相关信息。1

kafka配置多个消费者groupid kafka多个消费者消费同一个partition(java)

kafka在一个消费者组内设置多个消费者

HiveSQL基础命令02

分区是针对文件夹(内部文件例如.txt也会被分),原理和SQL的group by类似,是将原表中一个或多个文件,通过给新字段对应原表字段分区,分成多个文件夹存放文件,存放到分区表中,这样在扫描特定文件(以分区字段来查询)的时候不需要全盘扫描。3. 分桶规则用的是: 哈希取模分桶法, 简单来说, 就是

【Flink-1.17-教程】-【二】Flink 集群搭建、Flink 部署、Flink 运行模式

YARN 上部署的过程是:客户端把 Flink 应用提交给 Yarn 的 ResourceManager,Yarn 的 ResourceManager 会 向 Yarn 的 NodeManager 申 请 容 器 。 在 这 些 容 器 上 , Flink 会 部 署 JobManager 和 Ta

还在做 Hadoop 生态?那我祝你一帆风顺

上回说到,我决定走出大数据的围城,用另一种视角审视与复盘行业。文章发出后收到很多读者的反馈,其中呼声比较高的一条是希望我能聊聊大数据的行业前景与思考。针对这个问题,后面我会分享一些自己的经验与思考,同时,也会邀请来自各个大厂及正在相关方向创业的朋友做客(techinstitute),相信届时可以解答

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈