大数据——推荐系统
推荐系统是指面对没有需求的用户在进入产品时,要给用户推荐什么东西,现在的APP基本上都会采用推荐系统。从一开始的1990s开始的门户网站,像Yahoo、搜狐和Hao123等等,都是基于分类目录的网页导航网站,将各个网页聚合在一个网页中,方便用户跳转访问;到了2000s开始,进入搜索引擎,例如百度、g
毕设分享 大数据天气数据分析
Hi,大家好,这里是丹成学长,今天向大家介绍 一个项目基于GRU的 电影评论情感分析大家可用于 毕业设计🧿选题指导, 项目分享:见文末本实例将对意大利北部沿海地区的气象数据进行分析与可视化。首先会运用 Python 中 matplotlib 库对数据进行图表化处理,然后调用 scikit-lear
【Kafka】消费者Consumer详解
一文吃透kafka消费者特性
15、Flink 的广播状态 (Broadcast State) 详解
Flink 的广播状态 (Broadcast State) 详解
RabbitMQ 常见面试题
本文介绍了与 RabbitMQ 相关的面试题。
kafka调优参考建议 —— 筑梦之路
这里主要是从不同使用场景来调优,仅供参考。
sparkctl x86/arm不同平台编译使用
sparkctl是 Spark Operator 的一个命令行工具,用于创建、列出、检查状态、获取日志和删除SparkApplication。它还可以进行从本地端口到 Spark Web UI 端口的端口转发,以访问驱动程序上的 Spark Web UI。每个功能都是作为子命令实现的sparkctl
zookeeper快速入门一:zookeeper安装与启动
本文是zookeeper系列之快速入门中的第一篇,欢迎大家观看与指出不足。写在前面:不影响教程,笔者安装zookeeper用的是WSL(windows下的linux子系统),当然你想直接在windows上用zookeeper也是可以的。如果你也想用wsl,可以参考这篇文章。
Hadoop 常用端口号
请注意,这些是Hadoop组件的标准默认端口,实际部署过程中可以根据需要在配置文件中修改。同时,不同版本的Hadoop可能对某些端口有所调整,请以具体部署环境的实际配置为准。
Kafka数据积压的解决方案
生产上当一个大数据流式计算程序在消费 Kafka 数据时,可能会遇到某个 topic 中的数据生产速度远远超过消费速度,导致数据积压的问题,该如何解决?
hive中split函数相关总结
split 函数一直再用,居然发现没有总结,遂补充一下;
SparkSession介绍
【代码】SparkSession介绍。
Hadoop伪分布式集群的搭建
本文是基于jdk8和CentOS6配置的Hadoop伪分布式集群,步骤详细,希望能帮助到给位小伙伴们,有什么不足的请多多包含。
Spring Boot 整合 RabbitMQ 实现延迟消息
Fanout模式不需要处理路由键(所以我们在 sendBroadcast 接口中,convertAndSend 方法中传递的 routingKey 是空的),我们只需要简单的将队列绑定到exchange上,发送到exchange的每一个消息都会被转发到与该exchange绑定的所有队列上。因为 TC
spark实验三 Spark SQL编程初级实践
将下列json数据复制到你的ubuntu系统/usr/local/spark下,并保存命名为employee.json。
构建Python中的分布式系统Celery与RabbitMQ的结合
Celery:Celery是一个流行的Python分布式任务队列,它可以帮助你将任务异步执行,并且可以轻松地扩展到多台机器上。它支持任务调度、任务结果存储、任务重试等功能,使得处理异步任务变得更加简单。RabbitMQ:RabbitMQ是一个开源的消息代理,它实现了高级消息队列协议(AMQP),可以
hadoop HDFS 常用命令
HDFS(Hadoop Distributed File System)提供了一系列命令行工具,用于管理和操作分布式文件系统。请注意,在实际使用中,请确保命令格式正确,并且与所使用的Hadoop版本兼容。在某些较新版本的Hadoop中,可以直接使用。命令前缀来执行相同的操作。
Hive基础知识(十):Hive导入数据的五种方式
1)语法(1)load data:表示加载数据(2)local:表示从本地加载数据到 hive 表;否则从 HDFS 加载数据到 hive 表(3)inpath:表示加载数据的路径(4)overwrite:表示覆盖表中已有数据,否则表示追加(5)into table:表示加载到哪张表(6)stude
spark结课之tip2
spark常用方法总结:一、从内部创建RDD(1).通过并行化集合(Parallelized Collections):可以使用SparkContext的parallelize方法将一个已有的集合转换为RDD。基本语法:parallelize(collection, numSlices=None)基
高级大数据实验
(1) 掌握scala的数组,列表,映射的定义与使用(2) 掌握scala的基本编程水仙花数是指其个位、十位、百位三个数的立方和等于这个数本身,用Scala编程求出所有水仙花数。println(a)