大数据 - overfit.cn

RabbitMQ的高级特性及其特点

全局生效：对于order-service远程调用的所有服务都是用的是RandomRule。被调用方使用局部生效：对于调用user-service的服务使用的是RandomRule。调用方使用如果在某一时刻，服务B出现故障（可能就卡在那里了），而这时服务A依然有大量的请求，在调用服务B，那么，由于服务

overfit同步小助手 2023-10-17 13:03:34 0 收藏

Python Packages for Big Data Analysis and Visualization

作者：禅与计算机程序设计艺术 1.简介

overfit同步小助手 2023-10-17 11:03:49 0 收藏

ERROR SparkContext: Error initializing SparkContext. （）

在配置yarn的配置文件中设置的内存过小，不能够支持spark程序的运行所以出现了报错。在将spark程序提交到yarn中运行的时出现以下报错。

overfit同步小助手 2023-10-17 11:03:32 0 收藏

一百六十八、Kettle——用海豚调度器定时调度从Kafka到HDFS的kettle任务脚本（持续更新追踪、持续完善）

用海豚调度器定时调度从Kafka到HDFS的kettle任务脚本

overfit同步小助手 2023-10-17 09:03:46 0 收藏

【大数据实训】基于Hadoop的2019年11月至2020年2月宁波天气数据分析（五）

1 分布式集群搭建 11.1 Hadoop 集群搭建与配置 11.1.1 Hadoop 简介 11.1.2 Hadoop 集群搭建 21.2 Maven 安装与配置 111.2.1 Maven 简介 111.2.2 Maven 工程的创建 121.3 windows 搭建 hadoop 开发环境 1

overfit同步小助手 2023-10-17 08:03:42 0 收藏

Flink SQL 在滴滴出行数据平台中的应用

作者：禅与计算机程序设计艺术 1.简介概述近年来，云计算和大数据领域迎来了蓬勃发展的时代。在云计算和大数据的驱动下，人们对于如何高效、快速地分析海量数据产生了更大的关注。Apache Flink 是一款开源的分布式流处理框架，其SQL接口—— Flink SQL

overfit同步小助手 2023-10-17 08:03:19 0 收藏

大数据课程K2——Spark的RDD弹性分布式数据集

诸如普通的集合类型，如传统的Array：（1,2,3,4,5）是一个整体，但转换成RDD后，我们可以对数据进行Partition（分区）处理，这样做的目的就是为了分布式。创建RDD的方式有多种，比如案例一中是基于一个基本的集合类型（Array）转换而来，像parallelize这样的方法还有很多，之

overfit同步小助手 2023-10-17 06:03:45 0 收藏

flinkcdc同步完全量数据就不同步增量数据了

overfit同步小助手 2023-10-17 03:03:41 0 收藏

Kafka数据同步原理详解

Kafka是一种分布式的消息队列系统，它具有高吞吐量、可扩展性和分布式特性等优势。在Kafka中，数据按照主题进行分区，每个主题都有一组分区。每个分区都有自己的生产者和消费者，生产者负责向分区中写入消息，消费者负责从分区中读取消息。因此，Kafka的数据同步主要涉及到生产者和消费者之间的数据传输以及

overfit同步小助手 2023-10-17 01:03:46 0 收藏

【大数据毕设】基于Hadoop的音乐推荐系统的设计和实现(六)

作为基于大数据的音乐推荐系统，其功能主要是对数据进行处理，保证能够在大量低质量的数据中筛选出高质量的数据，在这个过程中要保证能够数据的准确性以及结果的准确性，再结合需求进行剖析，在设计系统时要从程序、功能和友好界面等方面进行考虑，从而设计出更加便捷的系统。在了解系统需求之后，基于大数据的音乐推荐系统

overfit同步小助手 2023-10-17 00:03:33 0 收藏

标题6: ZooKeeper源码分析

作者：禅与计算机程序设计艺术 1.简介ZooKeeper是一个开源分布式协调服务框架，其设计目标是将那些复杂且容易出错的分布式一致性服务封装成简单易用、高性能的客户端接口。它是Google的Chubby、Google文件系统GFS和Apache Hadoop的子

overfit同步小助手 2023-10-17 00:03:23 0 收藏

得物数据研发优化策略及数据仓库

通过合理的数据研发优化策略和数据仓库架构，得物可以更好地挖掘数据的价值，为企业的发展提供有力的支持。得物可以使用各种工具和技术来构建数据仓库，如ETL工具（如Apache Airflow、Talend）、数据存储（如关系型数据库、Hadoop、Spark）、数据处理工具（如Pandas、Apache

overfit同步小助手 2023-10-16 22:03:47 0 收藏

Hbase 系列教程：HBase 分布式文件存储系统解析

作者：禅与计算机程序设计艺术 1.简介：Hbase 是 Apache 的开源 NoSQL 数据库项目之一。它是一个分布式、可扩展的、高性能、面向列的非关系型数据库。作为 Hadoop 大数据生态的一部分，Hbase 以高可用性、可伸缩性和水平可扩展性著称。它提供

overfit同步小助手 2023-10-16 21:03:45 0 收藏

【hadoop】hdfs web界面上传文件报Couldn‘t upload the file

hosts文件路径：C:\Windows\System32\drivers\etc。F12打开控制台，看到上传文件接口用域名用的是node-1，解析不到对应的ip。解决办法：修改windows的hosts文件。修改hosts文件的权限，右键鼠标选择属性。然后添加hosts记录，保存。

overfit同步小助手 2023-10-16 17:03:28 0 收藏

Zookeeper基础操作

Zookeeper基础操作。

overfit同步小助手 2023-10-16 16:03:46 0 收藏

02：hadoop的基本使用

如果集群内存比较小，在运行一些占用比较大内存进程的时候，会产生内存溢出，所以需要设置一下虚拟内存，防止内存溢出现象，当然如果内存很足，则不用考虑。我们在root目录下，创建一个swap缓存文件（（每块 1M，总共 8192 块，共计：8192M），比较慢。（2）第一个参数是本地文件，第二个是 Had

overfit同步小助手 2023-10-16 16:03:16 0 收藏

毕业设计 Python社交平台舆情分析与可视化 - 数据爬虫大数据

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩基于大数据的社交平台数据爬虫舆情分析可视化

overfit同步小助手 2023-10-16 14:03:48 0 收藏

关于如何解决hadoop jps时没有datanode

在输入jps命令后，可能会出现无法启动DataNode的情况，如图。可能原因1：可能因为多次格式化NameNode会重新生成新的ClusterId（集群ID），而原来的DataNode内data文件下的VERSION文件内的ClusterId还是原来的ClusterId，所以就会出现与NameNod

overfit同步小助手 2023-10-16 14:03:11 0 收藏

Windows 安装 RabbitMq 和 Erlang

3.2 CMD进入到安装目录输入 rabbitmq-plugins enable rabbitmq_management 安装web界面3.3 检验是否安装成功 rabbitmqctl status3.4 进入sbin 输入 rabbitmq-server.bat start如果报错看下是否是端

overfit同步小助手 2023-10-16 13:03:42 0 收藏

hdfs命令行操作

overfit同步小助手 2023-10-16 12:03:44 0 收藏