大数据 - overfit.cn

Spark 读取阿里云 MaxCompute数据源写阿里云OSS和华为云OBS

前情提要：当前Spark 版本为2.4.5写数据到阿里云OSS1、编写Spark 代码 - 写OSSpublic class SparkODPS2OSS4 { public static void main(String[] args) { SparkSession spark

overfit同步小助手 2024-03-24 08:03:52 0 收藏

Spark-Scala语言实战（4）

今天我会给大家带来如何在Scala中定义集合，元组，并正确使用它们。希望在本篇文章中，大家有所收获。也欢迎朋友们到评论区下一起交流学习，共同进步。

overfit同步小助手 2024-03-24 08:03:12 0 收藏

51、Flink的管理执行（执行配置、程序打包和并行执行）的介绍及示例

调用打包后程序的完整流程包括两步：搜索 JAR 文件 manifest 中的 main-class 或 program-class 属性。如果两个属性同时存在，program-class 属性会优先于 main-class 属性。对于 JAR manifest 中两个属性都不存在的情况，命令行和 w

overfit同步小助手 2024-03-24 07:03:56 0 收藏

数据仓库hive的安装说明

在hive-env.sh文件中加入下列配置信息： export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_231。# 不重启mysql服务而使修改的内容直接生效。写入下列信息： export HIVE_HOME=/usr/local/hive。将bind-address

overfit同步小助手 2024-03-24 07:03:41 0 收藏

【Flink】Flink 中的时间和窗口之窗口API使用

窗口的API使用分为和，在定义窗口操作之前，首先就要确定好是基于按键分区Keyed的数据流来开窗还是基于没有按键分区的DataStream上开窗。

overfit同步小助手 2024-03-24 05:03:57 0 收藏

Kafka生产者相关概念

启用幂等性，即在Producer的参数中设置enable.idempotence=true即可，Kafka的幂等性实现实际是将之前的去重操作放在了数据上游来做，开启幂等性的Producer在初始化的时候会被分配一个PID，发往同一个Partition的消息会附带Sequence Number，而Br

overfit同步小助手 2024-03-24 05:03:47 0 收藏

kafka知识补充

overfit同步小助手 2024-03-24 05:03:44 0 收藏

Flink SQL -- CheckPoint

checkpoint可以定时将flink任务的状态持久化到hdfs中，任务执行失败重启可以保证中间结果不丢失。

overfit同步小助手 2024-03-24 05:03:30 0 收藏

rabbitmq

RabbitMQ是Erlang语言开发的基于AMQP的一款消息中间件，核心思想是生产者不会将消息直接发送给队列，消息在发送给客户端时先发送给交换机，然后由交换机转发给对应的队列。对路由(Routing)，负载均衡(Load balance)、数据持久化都有很好的支持。它里边有5种数据传递方式第一种是

overfit同步小助手 2024-03-24 03:03:44 0 收藏

SpringBoot集成flink

flink

overfit同步小助手 2024-03-24 03:03:09 0 收藏

入门spark和Scala

一，spark的介绍Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发的通用内存并行计算框架Spark得到了众多大数据公司的支持，这些公司包括Hortonworks、IBM

overfit同步小助手 2024-03-24 02:03:54 0 收藏

hadoop快速入门

数据是什么：数据是指对客观事件进行记录并可以鉴别的符号如果目录文件名字以.开始，就是隐藏目录如果路径式.开始，是相对路径Hadoop之父doug cutting是一款apache软件基金会的一款开源软件允许用户使用简单编程实现跨机器集群对大量数据处理hdfs作为分布式文件存储系统，处于生态圈的底层和

overfit同步小助手 2024-03-24 02:03:36 0 收藏

Flink流处理案例：实时数据排序

1.背景介绍1. 背景介绍Apache Flink是一个流处理框架，用于实时数据处理和分析。它可以处理大规模数据流，并提供低延迟、高吞吐量和强一致性等特性。Flink流处理框架支持多种数据源和接口，如Kafka、HDFS、TCP等，可以处理各种复杂的数据流操作，如窗口操作、连接操作、聚合操作等。在实

overfit同步小助手 2024-03-24 01:03:53 0 收藏

RabbitMQ服务异步通信-高级篇

提出问题：消息投递过程中，生产者——> MQ ——> 消费者中间会出现消息丢失问题，导致信息没有及时同步先梳理一下流程1.生产者生产完消息，相当于写好代码，写错了自己改，然后建立连接投递，连接建立不成功会再建立，这里不用操心，如果在投递过程中消息丢失了，生产者发送了，消费者没收到，这要是情侣铁定闹

overfit同步小助手 2024-03-24 01:03:49 0 收藏

大数据系统开发综合实验（二）Hive_MySQL_Sqoop配置

mysql默认只允许root帐户在本地登录，想要远程连接mysql，必须开启root用户允许远程连接，或者添加一个允许远程连接的帐户。服务启动脚本： /usr/lib/systemd/system/mysqld.service。#如果只显示jps，则表示未启动，如果显示下图，则表示hadoop已经启

overfit同步小助手 2024-03-24 01:03:12 0 收藏

消息队列-kafka

Spring Kafka提供了许多配置选项，你可以根据需要进行配置，例如设置消费者组、自定义序列化器等。文件中添加Spring Kafka的依赖。在Spring Boot项目的。文件中配置Kafka的连接信息。来发送消息到Kafka主题。

overfit同步小助手 2024-03-24 00:03:52 0 收藏

大数据毕设项目 - 基于大数据的共享单车数据分析与可视化

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩基于大数据的共享单车数据分析与可视化🥇学

overfit同步小助手 2024-03-24 00:03:21 0 收藏

消息队列—RabbitMQ如何保证消息可靠性？

我们的生产者发送消息之后可能由于网络闪断等各种原因导致我们的消息并没有发送到MQ之中，但是这个时候我们生产端又不知道我们的消息没有发出去，这就会造成消息的丢失。到这一步基本都是一些很小概率的问题了，比如MQ突然宕机了或者被关闭了，这种问题就必须要对消息做持久化，以便MQ重新启动之后消息还能重新恢复过

overfit同步小助手 2024-03-23 23:03:45 0 收藏

Hadoop-3.3.0-Centos7安装详解

这里是将JDK添加到user_hbase用户的环境变量中，执行“vi ~/.bash_profile”命令，打开.bash_profile文件，在文件底部添加如下内容即可。配置IP映射，将三台虚拟机的IP地址与对应的主机名进行映射，便于后续可以直接通过主机名访问对应的主机，这里以虚拟机node1为例

overfit同步小助手 2024-03-23 21:03:40 0 收藏

springcloud-Eureka注册中心

Springcloud为微服务开发提供了一个比较泛用和全面的解决框架，springcloud继承了spring一直以来的风格——不重复造轮子，里面很多的组件都是将其他其他开源组件改造集成进来。在众多的组件当中我们先从springcloud修炼——Eureka注册中心开始吧。

overfit同步小助手 2024-03-23 19:03:19 0 收藏