大数据 - overfit.cn

基于大数据的可视化：数据分析和展示的最佳实践

作者：禅与计算机程序设计艺术随着互联网、移动互联网、大数据等技术的广泛应用，用户对于各种各样的数据已经产生了海量的需求。数据呈现的形式也变得越来越多样化，包括报表、图表、地图、流程图、模型等。而如何将这些数据可视化、交流和传播，是一个重要的方向。本文将从以下三

overfit同步小助手 2023-10-30 09:03:31 0 收藏

大数据开发·关于虚拟机Hadoop完全分布式集群搭建教程

大数据开发·关于虚拟机Hadoop完全分布式集群搭建教程一、搭建准备；二、环境搭建；三、群起集群；

overfit同步小助手 2023-10-30 09:03:27 0 收藏

hive 之select 中文乱码

concat_ws("",arrary("境内")) 有用，此时也不知道如何下手，只有掏出大杀器 explain.其实还有别的办法，但是和concat_ws(array(""))一样比较丑陋，我就不说了。经过多方面测试 concat("境内") concat_ws("","境内")没用，有时候我们需

overfit同步小助手 2023-10-30 08:03:53 0 收藏

大数据毕设项目大数据公交数据分析与可视化 - python falsk

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩基于大数据的公交数据分析与可视化系统🥇学

overfit同步小助手 2023-10-30 08:03:50 0 收藏

大数据02-HDFS的使用和基本命令

HDFS(Hadoop Distribute File System)是大数据领域一种非常可靠的存储系统，它以分布式方式存储超大数据量文件，但它并不适合存储大量的小数据量文件。同时HDFS是Hadoop和其他组件的数据存储层，运行在由价格廉价的商用机器组成的集群上的，而价格低廉的机器发生故障的几率比

overfit同步小助手 2023-10-30 08:03:36 0 收藏

flink处理函数--副输出功能

处理函数副输出

overfit同步小助手 2023-10-30 06:03:23 0 收藏

Hadoop大数据从入门到实战（三）ZooKeeper入门-初体验

（2）修改“ZOO_LOG_DIR”，修改后：ZOO_LOG_DIR="/opt/zookeeper-3.4.12"（2）为了能够顺利地运行Zookeeper，需要用户创建配置文件。本关任务：了解ZooKeeper的配置并根据需求正确配置ZooKeeper。本关任务是使用命令行，开启ZooKeepe

overfit同步小助手 2023-10-30 01:03:13 0 收藏

计算机毕业设计 Spark网易云音乐数据分析

包含爬虫,Scala代码,Spark,Hadoop,ElasticSearch,logstash,Flume,echarts,log4j。statistical-static-txt SparkSQL相关关联静态数据。emotional_analysis_web 数据处理模块(Scala代码)emo

overfit同步小助手 2023-10-29 22:03:44 0 收藏

SpringBoot RabbitMQ 死信队列

1. 死信定义无法被消费的消息，称为死信。如果死信一直留在队列中，会导致一直被消费，却从不消费成功，专门有一个存放死信的队列，称为死信队列(DDX, dead-letter-exchange)。死信队列DLX，Dead Letter Exchange的缩写，又死信邮箱、死信交换机。其实DLX就是一个

overfit同步小助手 2023-10-29 21:03:50 0 收藏

Scala安装配置

Scala(斯嘎拉)这个名字来源于"Scalable Language(可伸缩的语言)"，它是一门基于JVM的多范式编程语言，通俗的说：Scala是一种运行在JVM上的函数式的面向对象语言。之所以这样命名，是因为它的设计目标是：随着用户的需求一起成长。Scala可被广泛应用于各种编程任务, 从编写小

overfit同步小助手 2023-10-29 21:03:32 0 收藏

消息队列技术在大数据中应用的价值

消息队列”（Message Queue）即消息队列或消息系统，它是一个异步通信模型。其主要特征是在分布式环境下用于处理一系列的信息的传递。信息通过消息的形式从一个组件发送到另一个组件，而不需要直接通信。消息队列可以实现应用之间的松耦合、解耦合、异步化、削峰填谷等功能。如今，很多公司都采用消息队列来构

overfit同步小助手 2023-10-29 20:03:56 0 收藏

Apache Hadoop: Building a Big Data Distributed Environm

作者：禅与计算机程序设计艺术 1.简介Apache Hadoop (以下简称HDFS)是一个开源的分布式文件系统，用来存储大量的数据集并进行计算处理。它可以处理超大数据集、实时数据分析、日志聚类等应用场景。HDFS被广泛应用于企业数据仓库、电子商务网站、搜索引擎

overfit同步小助手 2023-10-29 20:03:49 0 收藏

1. Flink程序打Jar包

【代码】1. Flink程序打Jar包。

overfit同步小助手 2023-10-29 17:03:45 0 收藏

主成分分析（PCA）原理详解

在许多领域的研究与应用中，通常需要对含有多个变量的数据进行观测，收集大量数据后进行分析寻找规律。多变量大数据集无疑会为研究和应用提供丰富的信息，但是也在一定程度上增加了数据采集的工作量。更重要的是在很多情形下，许多变量之间可能存在相关性，从而增加了问题分析的复杂性。如果分别对每个指标进行分析，分析往

overfit同步小助手 2023-10-29 16:03:44 0 收藏

[Hive] 常见函数

REGEXP_REPLACE(string, pattern, replacement)：使用正则表达式模式替换字符串中的匹配项为指定的替换字符串。JSON_EXTTRACT(json_string, json_path)：从 JSON 字符串中提取满足 JSONPath 表达式的值。GET_JSO

overfit同步小助手 2023-10-29 15:03:42 0 收藏

Redis----取代RabbitMq 和 Kafka的解决方案

redis中一种特殊的数据结构，zset，消息序列化成一个字符串作为zset的value，消息的到期时间作为他们的score，用多个线程轮询zset获取到期的任务处理。（多个线程保证可用，一个线程挂了还有其他的）已知rabbitmq和kafka作为消息中间件来给程序之间增加异步消息传递功能，这两个中

overfit同步小助手 2023-10-29 13:03:36 0 收藏

RabbitMQ系列（17）--延迟队列的简介与实现

以上场景都有一个特点，那就是都需要在某个事件发生前或发生后执行一项任务，如生成订单后，在十分钟后检查订单状态，未支付的订单将关闭，这种场景也可以用定时任务来处理，但数据量比价少的话确实可以用定时任务来处理，但在活动期间，订单的数据量可能会变得很庞大，对于庞大的数据，定时任务很难在1秒内检查完订单，从

overfit同步小助手 2023-10-29 11:03:36 0 收藏

partitionBy()的解释

partitionBy() 是 Spark RDD 的一个方法，用于对 RDD 进行重新分区。其主要作用是将 RDD 中的数据按照指定的分区方式进行重新分区，并返回一个新的分区后的 RDD。在 Spark 中，默认情况下使用哈希分区（Hash Partitioning）对 RDD 进行分区。但有时候

overfit同步小助手 2023-10-29 09:03:46 0 收藏

RabbitMQ中vhost的作用是什么?

在RabbitMQ中，vhost(虚拟主机)是一种逻辑隔离机制，用于将消息队列和相关资源隔离开来。虚拟主机允许您在单个RabbitMQ服务器上创建多个独立的消息队列环境，每个环境都有自己的队列、交换机、绑定和权限设置。

overfit同步小助手 2023-10-29 09:03:43 0 收藏

Spark Streaming 整合 Kafka

同时从输出中也可以看到在程序中指定的 `groupId` 和程序自动分配的 `clientId`。在示例代码中 `kafkaParams` 封装了 Kafka 消费者的属性，这些属性和 Spark Streaming 无关，是 Kafka 原生 API 中就有定义的。在示例代码中，我们实际上并没有指

overfit同步小助手 2023-10-29 08:03:25 0 收藏