大数据 - overfit.cn

【大数据毕设选题】基于大数据的高校校园学生一卡通数据分析

今天学长向大家介绍一个数据分析项目基于大数据的高校校园学生一卡通数据分析基于国内某高校校园一卡通系统一个月的运行数据，使用数据分析和建模的方法，挖掘数据中所蕴含的信息，分析学生在校园内的学习生活行为为了将学生的整体校园消费行为进行分类，选择了当月消费总金额，消费次数，卡内存款作为特征进行聚类，采用的

overfit同步小助手 2024-03-20 05:03:49 0 收藏

【汪汪学HADOOP】第一天:Hadoop环境配置

自学中，仅供参考。。有错误请指正。。。

overfit同步小助手 2024-03-20 05:03:35 0 收藏

【大数据】Flink 内存管理（三）：TaskManager 内存分配（理论篇）

Flink JVM 进程的总内存（Total Process Memory）由 Flink 应用程序（Total Flink Memory，Flink 总内存）和 JVM 运行进程所消耗的内存组成。Flink 总内存（ Total Flink Memory）包括 JVM Heap、Managed M

overfit同步小助手 2024-03-20 04:03:51 0 收藏

20240301-1-ZooKeeper面试题（一）

1、一次性无论是服务端还是客户端，一旦一个 Watcher 被触发，Zookeeper 都会将其从相应的存储中移除。这样的设计有效的减轻了服务端的压力，不然对于更新非常频繁的节点，服务端会不断的向客户端发送事件通知，无论对于网络还是服务端的压力都非常大。2、客户端串行执行客户端 Watcher 回调

overfit同步小助手 2024-03-20 04:03:29 0 收藏

在Windows上安装Scala

通常Scala安装完成后会自动将Scala的bin目录的路径添加到系统Path变量中。在命令行提示后输入scala，则会进入Scala的命令行模式，在此可以编写Scala表达式和程序。Scala里val定义的变量相当于Java里用final定义的变量，其实都是常量，不能再给它赋值。将SCALA_HO

overfit同步小助手 2024-03-20 02:03:35 0 收藏

单机搭建hadoop环境（包括hdfs、yarn、hive）

然后，下载hadoop安装包，这个包就包括了hdfs服务器和yarn服务器的执行文件和配置脚本。首先，要配置好Java的JAVA_HOME和PATH（etc/hadoop/hadoop-env.sh里的JAVA_HOME要改为本机的JAVA_HOME），还是有ssh本机的免密码登录。etc/hado

overfit同步小助手 2024-03-20 01:03:51 0 收藏

HADOOP伪分布式安装步骤

在弹出的提示中输入yes(y)

overfit同步小助手 2024-03-20 01:03:48 0 收藏

深入了解Hadoop：架构、组件与工作流程

用户只需编写少量的Map和Reduce函数代码，就可以利用Hadoop的分布式处理能力来完成复杂的数据处理任务。同时，Hadoop还提供了丰富的API和工具来支持数据的导入、导出、格式转换等操作，使得用户可以更加灵活地使用和处理大数据。Hadoop是一个分布式系统的基础架构，用户可以在不了解分布式底

overfit同步小助手 2024-03-20 01:03:34 0 收藏

RabbitMQ中如何解决消息堆积问题

1、消费者处理消息的速度太慢2、队列的容量太小3、网络故障4、消费者故障5、队列配置不当6、消息大小7、业务逻辑复杂或耗时8、消息产生速度快于消费速度9、其他配置优化

overfit同步小助手 2024-03-19 23:03:54 0 收藏

初入云上大数据2

Hadoop生态圈是由一系列基于Hadoop开发的相关工具、库、应用程序、平台和服务组成的生态系统。它们都是用于大数据处理、分析和存储的技术，旨在解决大规模数据处理问题。MapReduce是一个分布式计算框架，主要由两部分组成：编程模型和运行时环境。其中，编程模型为用户提供了非常易用的编程接口，用户

overfit同步小助手 2024-03-19 23:03:51 0 收藏

【Flink精讲】Flink性能调优：CPU核数与并行度

提交任务命令：-d \-p 5 \ 指定并行度-Dyarn.application.queue=test \ 指定 yarn 队列-Djobmanager.memory.process.size=2048mb \ JM2~4G 足够-Dtaskmanager.memory.process.size=

overfit同步小助手 2024-03-19 23:03:41 0 收藏

带你从Spark官网啃透Spark Structured Streaming

By 远方时光原创，可转载，open合作本文是基于spark官网结构化流解读spark官网对结构化流解释1.结构化流是基于SparkSQL引擎构建的可扩展且容错的流处理引擎。（也就是他摒弃了DStream)2.可以像批数据一样处理流数据。可以使用在Scala、Java、Python或R中流聚合、事件

overfit同步小助手 2024-03-19 22:03:22 0 收藏

Kafka入门笔记(四) -- kafka消费者

kafka 消费者

overfit同步小助手 2024-03-19 21:03:43 0 收藏

详解数据库、Hive以及Hadoop之间的关系

overfit同步小助手 2024-03-19 19:03:54 0 收藏

SpringAMQP使用管理RabbitMQ的五种消息模型

RabbitMQ是一个开源的消息代理（Message Broker）系统，实现了高级消息队列协议（AMQP，Advanced Message Queuing Protocol）版本0-9-1。它提供了可靠的消息传递、路由、持久化存储、集群支持等功能，可以用于分布式系统之间进行异步解耦通信，确保系统的

overfit同步小助手 2024-03-19 16:03:53 0 收藏

hive常用函数

/根据年龄倒序排序。partToExtract的选项包含[HOST,PATH,QUERY,REF,PROTOCOL,FILE,AUTHORITY,USERINFO]第一个分隔符为map元素之间的分隔符，第二个分隔符是键值对之间的分隔符。

overfit同步小助手 2024-03-19 16:03:25 0 收藏

.Net中RabbitMQ的使用详情

RabbitMQ是一个开源的消息中间件，它实现了AMQP标准，并且可以在分布式系统中存储、转发和接收消息，可以将消息从一个应用程序发送到另一个应用程序，即使这些应用程序不同时运行，也可以在消息队列中存储消息，确保消息的可靠传递。也就相当于快递，你发快递，你的朋友收快递，RabbitMQ就是快递公司。

overfit同步小助手 2024-03-19 15:03:36 0 收藏

Java技术发展历程中的六大春天：从Web开发到大数据战略

自Java诞生以来，其发展历程中出现了多个关键的“春天”时刻，每一段历程都伴随着重大技术革新与市场需求的变化，为开发者带来广阔的职业前景和技术创新空间。

overfit同步小助手 2024-03-19 14:03:36 0 收藏

flink重温笔记（七）：Flink 流批一体 API 开发—— Connector 连接器

前言：今天是学习 flink 的第七天啦！学习了 flink 中 connector（数据连接器）部分知识点，这一部分只要是解决数据处理之后，数据到哪里去的问题，主要学习了数据存储到以下三处：1、关系型数据库 mysql ；2、消息队列：kafka；3、非关系型数据库：redis我觉得还是比较有意

overfit同步小助手 2024-03-19 12:03:37 0 收藏

Zookeeper客户端命令、JAVA API、监听原理、写数据原理以及案例

要想验证对子节点增删的监听，首先在java主线程中添加一个睡眠的函数，使其持续运行不至于很快结束，然后在process回调中添加相应的打印代码（比如继续getChildren，打印子节点信息），这样手动去添加节点，会执行到process函数中的打印信息。分析：进程用客户端表示，每个客户端进程会去Zo

overfit同步小助手 2024-03-19 10:03:36 0 收藏