大数据 - overfit.cn

Kafka connect

注：这里的topic 是提前创建好的student-student,也可以不创建，他自己生成，但指定的时候只能去指定前缀。，这里用的mysql 8.0.26 、ojdbc8-23.3.0.23.09,注：这里窗口会被占用，不想被占用,用 nohup 启动。启动zookeeper 、 kafka

overfit同步小助手 2024-03-09 19:03:53 0 收藏

flink类加载器原理与隔离（flink jar包冲突）

Classpath是JVM用到的一个环境变量，它用来指示JVM如何搜索Class。因为Java是编译型语言，源码文件是.java，而编译后的.class文件才是真正可以被JVM执行的字节码。因此，JVM需要知道，如果要加载一个com.dtstack.HelloWorld的类，应该去哪搜索对应的Hel

overfit同步小助手 2024-03-09 19:03:50 0 收藏

开源大数据集群部署（十四）Ranger集成Hbase

访问地址：http://hd1.dtstack.com:6080/在hmaster和back master上进行安装和执行。用户密码：admin/rangerAdmin123。在hd1.dtstack.com主机上执行。测试连通性，连接成功后保存即可。更多技术信息请查看云掣官网。

overfit同步小助手 2024-03-09 18:04:32 0 收藏

大数据之spark

Apache Spark™是一个多语言引擎，用于在单节点机器或集群上执行数据工程、数据科学和机器学习。Spark最初由美国加州大学伯克利分校的。

overfit同步小助手 2024-03-09 18:03:48 0 收藏

Spark技术03直播笔记

spark启动与使用、Anaconda安装以及Jupyter安装、spark里面最简单的记录总数的一个计算、Pycharm词频统计

overfit同步小助手 2024-03-09 17:03:57 0 收藏

大数据开发（Hadoop面试真题-卷七）

具体来说，Map阶段输出的每个键值对都会根据键的哈希值被分配到不同的分区中，同一个键的所有值都会被发送到同一个分区中。Combiner是在Mapper阶段对输出的键值对进行合并和压缩，减少了传输到Reduce阶段的数据量。总的来说，Map的分片大小是根据多个因素综合考虑的，包括文件大小、集群配置、硬

overfit同步小助手 2024-03-09 16:03:31 0 收藏

【Flink】Flink各版本及新特性

在流式 SQL 查询中，一个最经常使用的是定义时间窗口。Flink 1.13 中引入了一种新的定义窗口的方式：通过 Table-valued 函数。这一方式不仅有更强的表达能力（允许用户定义新的窗口类型），并且与 SQL 标准更加一致。Flink 1.13 在新的语法中支持 TUMBLE 和 HOP

overfit同步小助手 2024-03-09 15:03:56 0 收藏

干货丨“看过这篇文章的人都学会Spark了”

Spark是一个用于大规模数据处理的统一计算引擎。Spark是一种快速、通用、可扩展的大数据分析引擎。注意：Spark不仅仅可以做类似于MapReduce的离线数据计算，还可以做实时数据计算，并且它还可以实现类似于Hive的SQL计算，等等，所以说它是一个统一的计算引擎。

overfit同步小助手 2024-03-09 15:03:49 0 收藏

hadoop安装的过程中的报错/libhadoop.so.1.0.0

遇到如下错误：14/10/29 16:49:01 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applic

overfit同步小助手 2024-03-09 15:03:46 0 收藏

Hadoop之HDFS 详细教程

Hadoop 分布式系统框架中，首要的基础功能就是文件系统，在 Hadoop 中使用FileSystem 这个抽象类来表示我们的文件系统，这个抽象类下面有很多子实现类，究竟使用哪一种，需要看我们具体的实现类，在我们实际工作中，用到的最多的就是 HDFS(分布式文件系统)以及 LocalFileSys

overfit同步小助手 2024-03-09 14:03:48 0 收藏

【极数系列】Flink集成KafkaSink & 实时输出数据（11）

【极数系列】Flink集成KafkaSink（11）旨在帮助读者快速使用Flink集成KafkaSink，直接输出数据到kafka

overfit同步小助手 2024-03-09 14:03:43 0 收藏

2023年第三届中国高校大数据挑战赛D题:行业职业技术培训能力评价思路+代码+论文

为了促进高校大学生实际应用技能的提高，着眼于未来，培养具有创新能力和实践能力的大数据人才，推动大数据的产学研用，探索大数据的核心科学与技术，提升高校毕业生的就业竞争力。经研究决定，天津市未来与预测科学研究会、中国未来研究会大数据与数学模型专业委员会联合发起2023年第三届中国高校大数据挑战赛。中国未

overfit同步小助手 2024-03-09 13:03:35 0 收藏

行业应用: Spark在各行业中的应用与案例

1.背景介绍Spark是一个开源的大数据处理框架，它可以处理大量数据并提供高性能、高可扩展性和高可靠性的数据处理能力。Spark已经被广泛应用于各个行业，包括金融、电商、医疗、制造业等。在这篇文章中，我们将讨论Spark在各个行业中的应用和案例。1.1 Spark的优势Spark的优势在于其高性能、

overfit同步小助手 2024-03-09 13:03:19 0 收藏

Flink ExecuteGraph构建源码解析

JobManager(JobMaster) 根据 JobGraph 生成 ExecutionGraph。ExecutionGraph是JobGraph 的并行化版本，是调度层最核心的数据结构。

overfit同步小助手 2024-03-09 11:03:34 0 收藏

数据开发必知必会 - 数据仓库理论总结

数据仓库开发=90%的业务领域知识+10%的大数据/后端开发技术数据仓库组成=模型建设+数据治理+需求满足10年互联网研发经验，数据平台总监及投放增长研发负责人，负责数据平台期间，完成埋点改造、数据工具建设、离线及实时数仓建设，业务日增数据量约500T；负责增长平台期间，完成自助归因平台的建设，涉及

overfit同步小助手 2024-03-09 10:03:34 0 收藏

了解Spark运行架构与原理

了解Spark架构了解Spark作业运行流程了解Spark核心数据集RDD了解Spark核心原理

overfit同步小助手 2024-03-09 10:03:30 0 收藏

AI大语言模型在电商用户体验营销中的应用

1. 背景介绍1.1 电商行业的发展随着互联网技术的飞速发展，电子商务行业也取得了举世瞩目的成就。越来越多的人开始依赖在线购物平台来满足日常生活所需，电商平台也在不断地优化用户体验，提高购物效率。在这个过程中，人工智能技术的应用逐渐成为电商行业的核心竞争力之一。

overfit同步小助手 2024-03-09 10:01:29 0 收藏

每天十分钟学会Spark

小白学大数据Spark编程第1课

overfit同步小助手 2024-03-09 09:03:44 0 收藏

数据仓库的数据仓库：实现数据的一致性和完整性

1.背景介绍数据仓库是一种用于存储和管理大量历史数据的系统，它的主要目的是为了支持数据分析和决策。数据仓库通常包括一个数据仓库系统和一个数据仓库架构。数据仓库系统包括数据仓库的硬件、软件、网络和人员等组成部分。数据仓库架构则是一种用于构建数据仓库的框架，它包括数据仓库的数据源、数据存储、数据处理和数

overfit同步小助手 2024-03-09 08:03:22 0 收藏

大数据开发-Hadoop伪集群搭建

Hadoop环境搭建，虚拟机环境配置

overfit同步小助手 2024-03-09 04:03:46 0 收藏