大数据 - overfit.cn

大数据——推荐系统

推荐系统是指面对没有需求的用户在进入产品时，要给用户推荐什么东西，现在的APP基本上都会采用推荐系统。从一开始的1990s开始的门户网站，像Yahoo、搜狐和Hao123等等，都是基于分类目录的网页导航网站，将各个网页聚合在一个网页中，方便用户跳转访问；到了2000s开始，进入搜索引擎，例如百度、g

overfit同步小助手 2024-05-26 12:04:06 0 收藏

毕设分享大数据天气数据分析

Hi，大家好，这里是丹成学长，今天向大家介绍一个项目基于GRU的电影评论情感分析大家可用于毕业设计🧿选题指导, 项目分享：见文末本实例将对意大利北部沿海地区的气象数据进行分析与可视化。首先会运用 Python 中 matplotlib 库对数据进行图表化处理，然后调用 scikit-lear

overfit同步小助手 2024-05-26 12:04:01 0 收藏

【Kafka】消费者Consumer详解

一文吃透kafka消费者特性

overfit同步小助手 2024-05-26 12:03:46 0 收藏

15、Flink 的广播状态 (Broadcast State) 详解

Flink 的广播状态 (Broadcast State) 详解

overfit同步小助手 2024-05-26 11:03:54 0 收藏

RabbitMQ 常见面试题

本文介绍了与 RabbitMQ 相关的面试题。

overfit同步小助手 2024-05-26 10:04:13 0 收藏

kafka调优参考建议 —— 筑梦之路

这里主要是从不同使用场景来调优，仅供参考。

overfit同步小助手 2024-05-26 10:04:06 0 收藏

sparkctl x86/arm不同平台编译使用

sparkctl是 Spark Operator 的一个命令行工具，用于创建、列出、检查状态、获取日志和删除SparkApplication。它还可以进行从本地端口到 Spark Web UI 端口的端口转发，以访问驱动程序上的 Spark Web UI。每个功能都是作为子命令实现的sparkctl

overfit同步小助手 2024-05-26 10:03:55 0 收藏

zookeeper快速入门一：zookeeper安装与启动

本文是zookeeper系列之快速入门中的第一篇，欢迎大家观看与指出不足。写在前面：不影响教程，笔者安装zookeeper用的是WSL(windows下的linux子系统），当然你想直接在windows上用zookeeper也是可以的。如果你也想用wsl，可以参考这篇文章。

overfit同步小助手 2024-05-26 10:03:40 0 收藏

Hadoop 常用端口号

请注意，这些是Hadoop组件的标准默认端口，实际部署过程中可以根据需要在配置文件中修改。同时，不同版本的Hadoop可能对某些端口有所调整，请以具体部署环境的实际配置为准。

overfit同步小助手 2024-05-26 09:03:57 0 收藏

Kafka数据积压的解决方案

生产上当一个大数据流式计算程序在消费 Kafka 数据时，可能会遇到某个 topic 中的数据生产速度远远超过消费速度，导致数据积压的问题，该如何解决？

overfit同步小助手 2024-05-26 09:03:54 0 收藏

hive中split函数相关总结

split 函数一直再用，居然发现没有总结，遂补充一下；

overfit同步小助手 2024-05-26 09:03:44 0 收藏

SparkSession介绍

【代码】SparkSession介绍。

overfit同步小助手 2024-05-26 08:04:02 0 收藏

Hadoop伪分布式集群的搭建

本文是基于jdk8和CentOS6配置的Hadoop伪分布式集群，步骤详细，希望能帮助到给位小伙伴们，有什么不足的请多多包含。

overfit同步小助手 2024-05-26 08:03:57 0 收藏

Spring Boot 整合 RabbitMQ 实现延迟消息

Fanout模式不需要处理路由键（所以我们在 sendBroadcast 接口中，convertAndSend 方法中传递的 routingKey 是空的），我们只需要简单的将队列绑定到exchange上，发送到exchange的每一个消息都会被转发到与该exchange绑定的所有队列上。因为 TC

overfit同步小助手 2024-05-26 08:03:54 0 收藏

spark实验三 Spark SQL编程初级实践

将下列json数据复制到你的ubuntu系统/usr/local/spark下，并保存命名为employee.json。

overfit同步小助手 2024-05-26 08:03:50 0 收藏

构建Python中的分布式系统Celery与RabbitMQ的结合

Celery：Celery是一个流行的Python分布式任务队列，它可以帮助你将任务异步执行，并且可以轻松地扩展到多台机器上。它支持任务调度、任务结果存储、任务重试等功能，使得处理异步任务变得更加简单。RabbitMQ：RabbitMQ是一个开源的消息代理，它实现了高级消息队列协议（AMQP），可以

overfit同步小助手 2024-05-26 08:03:44 0 收藏

hadoop HDFS 常用命令

HDFS（Hadoop Distributed File System）提供了一系列命令行工具，用于管理和操作分布式文件系统。请注意，在实际使用中，请确保命令格式正确，并且与所使用的Hadoop版本兼容。在某些较新版本的Hadoop中，可以直接使用。命令前缀来执行相同的操作。

overfit同步小助手 2024-05-26 07:03:26 0 收藏

Hive基础知识（十）：Hive导入数据的五种方式

1）语法（1）load data:表示加载数据（2）local:表示从本地加载数据到 hive 表；否则从 HDFS 加载数据到 hive 表（3）inpath:表示加载数据的路径（4）overwrite:表示覆盖表中已有数据，否则表示追加（5）into table:表示加载到哪张表（6）stude

overfit同步小助手 2024-05-26 06:04:09 0 收藏

spark结课之tip2

spark常用方法总结：一、从内部创建RDD(1).通过并行化集合（Parallelized Collections）：可以使用SparkContext的parallelize方法将一个已有的集合转换为RDD。基本语法：parallelize(collection, numSlices=None)基

overfit同步小助手 2024-05-26 06:04:06 0 收藏

高级大数据实验

（1）掌握scala的数组，列表，映射的定义与使用（2）掌握scala的基本编程水仙花数是指其个位、十位、百位三个数的立方和等于这个数本身，用Scala编程求出所有水仙花数。println(a)

overfit同步小助手 2024-05-26 06:04:02 0 收藏