大数据 - overfit.cn

FlinkSQL学习笔记（四）常见表查询详解与用户自定义函数

1、本篇只列举一些特殊的查询方式，掌握这些查询语句的基本使用概念即可，实际用到的时候进行查询即可。2、通过对这些例子的编写，感觉Flink相比hive中常见的查询方式，更多地从时间角度进行了更新迭代，需要注意Lookup Join和Temporal Joins区别3、自定义函数，大致了解就行，后续用

overfit同步小助手 2024-04-06 12:03:14 0 收藏

Eureka和Nacos的关系

Eureka和Nacos都是服务发现和注册中心，它们在微服务架构中扮演着关键角色，但它们是由不同的组织开发的，服务于类似但不完全相同的目的。

overfit同步小助手 2024-04-06 11:03:52 0 收藏

【Spark编程基础】实验三RDD 编程初级实践(附源代码）

对于两个输入文件 A 和 B，编写 Spark 独立应用程序，对两个文件进行合并，并剔除其。名字，第二个是学生的成绩；编写 Spark 独立应用程序求出所有学生的平均成绩，并输出到。中重复的内容，得到一个新文件 C。下面是输入文件和输出文件的一个样例，供参考。每个输入文件表示班级学生某个学科的成绩，

overfit同步小助手 2024-04-06 11:03:33 0 收藏

Flink on Kubernetes (flink-operator) 部署Flink

部署cluster完成，配置svcType 后即可访问，flink web ui，此时jobManager是启动着的 taskmanager随着flink jar进行启动和停止。3、使用initContainers和 containers使用相同的挂载路径，然后使用远程文件下载放到挂载路径中，con

overfit同步小助手 2024-04-06 10:03:52 0 收藏

Zookeeper（五）Zokeeper 环境搭建与Curator使用

其中 A 是一个数字，表示这个是第几号服务器；B 是这个服务器的 ip 地址；C 表示的是这个服务器与集群中的 Leader 服务器交换信息的端口；D 表示的是万一集群中的 Leader 服务器挂了，需要一个端口来重新进行选举，选出一个新的 Leader，而这个端口就是用来执行选举时服务器相互通信的

overfit同步小助手 2024-04-06 10:03:44 0 收藏

Hive和MySQL的部署、配置Hive元数据存储到MySQL、Hive服务的部署

Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的 SQL 查询功能，可以将 SQL 语句转换为 MapReduce 任务来执行。Hive 定义了一种简单的类 SQL 查询语言，称为 HQL（Hive Query Language），它允许熟悉

overfit同步小助手 2024-04-06 09:03:44 0 收藏

我是标题党，都进来看看spark

选择安装路径，本文Scala的安装路径选择在非系统盘的“D:\Program Files (x86)\spark\scala\” ，单击“OK”按钮进入安装界面。进入欢迎界面，单击右下角的“Next”按钮后出现许可协议选择提示框，选择接受许可协议中的条款并单击右下角的“Next”按钮。① RDD：是

overfit同步小助手 2024-04-06 08:03:59 0 收藏

linux配置大数据环境

zookeeper 下载地址：https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/zookeeper-3.5.10/kafka 下载地址：https://mirrors.tuna.tsinghua.edu.cn/apache/kafka/2.8

overfit同步小助手 2024-04-06 08:03:56 0 收藏

大数据学习第十二天（hadoop概念）

注意: 在企业级开发中我们使用的大多是商业版hadoop, CDH版本Hadoop在6.2.4版本之前是不收费的.3）ssh协议是服务器之间，或windos和服务器之间传递的数据的协议。此时不仅可以提供多台服务器的存储空间,同时可以增加服务器的读写效率,cpu,内存,网络带宽等.日常生活中不断产生各

overfit同步小助手 2024-04-06 08:03:41 0 收藏

07 | Kafka：如何分析一个软件的实现？

今天是了解设计的第三部分：看实现。理解一个实现，是以对模型和接口的理解为前提的。每个系统的实现都有非常多的细节，我们不可能一上来就把所有的细节吃透。如果想了解一个系统的实现，应该从软件结构和关键技术两个方面着手。无论是软件结构，还是关键技术，我们都需要带着自己的问题入手，而问题的出发点就是我们对模型

overfit同步小助手 2024-04-06 07:03:47 0 收藏

Pycharm通过SFTP远程连接Spark

参考：https://daniel.blog.csdn.net/article/details/1074151301.添加SFTP连接选择 Tools => Deploment => Configuration。2. 在Deployment界面中，设置Connection、Mapping

overfit同步小助手 2024-04-06 07:03:40 0 收藏

原来你是这样的Hadoop!

Hadoop是目前应用最为广泛的分布式大数据处理框架，其具备可靠、高效、可伸缩等特点。Hadoop的核心组件是HDFS、MapReduce。1.1.HDFS（分布式文件系统）HDFS是整个hadoop体系的基础，负责数据的存储与管理。HDFS有着高容错性（fault-tolerant）的特点，并且设

overfit同步小助手 2024-04-06 07:03:19 0 收藏

通过 docker-compose 部署 Flink

overfit同步小助手 2024-04-06 06:03:48 0 收藏

如何使用 RabbitMQ 进行消息的发送和接收

在上述示例中，我们创建了一个连接工厂，并通过它建立与 RabbitMQ 服务器的连接和通道。然后，我们声明了一个直连型交换器和一个队列，并将它们绑定在一起。接下来，我们使用basicPublish方法发送消息到交换器，并使用basicConsume方法启动消费者来接收消息。请注意，这只是一个简单的示

overfit同步小助手 2024-04-06 06:03:45 0 收藏

零基础快速认识云三大数据

MapReduce是一种用于大规模数据处理的编程模型和算法。它最初由Google公司提出，并被用于处理大规模的Web搜索日志数据。后来，Apache Hadoop项目将MapReduce引入开源社区，并成为大数据处理的重要组成部分。MapReduce的设计目标是能够在分布式环境下高效地处理大规模数据

overfit同步小助手 2024-04-06 06:03:22 0 收藏

Kafka

Kafka是一个分布式流式平台，它有三个关键能力订阅发布记录流，它类似于企业中的消息队列或企业消息传递系统以容错的方式存储记录流实时记录流。

overfit同步小助手 2024-04-06 05:03:43 0 收藏

编写web程序，基于echarts将Mysql表数据进行可视化展示及Hadoop学习心得

将Mysql表数据可视化展示在Web程序中可以借助ECharts这样的图表库来实现。通过Web程序连接MySQL数据库，获取数据后，使用ECharts图表库将数据转换为可视化图表展示在Web页面上。这样用户可以通过浏览器访问Web程序，直观地看到MySQL表中的数据关系和统计结果。总结以上的内容，我

overfit同步小助手 2024-04-06 04:03:51 0 收藏

ubuntu中Hadoop伪分布安装

Hadoop伪分布安装。主要参考《大数据技术原理与应用》第三版。

overfit同步小助手 2024-04-06 04:03:45 0 收藏

记一次SpringCloud Eureka注册中心4节点的坑

Eureka注册中心4节点，注册重试次数却只有3次的坑。

overfit同步小助手 2024-04-06 04:03:42 0 收藏

Spark Streaming

Spark Streaming 是个批处理的流式（实时）计算框架。其基本原理是把输入数据以某一时间间隔批量的处理，当批处理间隔缩短到秒级时，便可以用于处理实时数据流。支持从多种数据源获取数据，包括Kafk、Flume、Twitter、ZeroMQ、Kinesis以及TCP sockets，从数据源获

overfit同步小助手 2024-04-06 03:03:55 0 收藏