大数据 - overfit.cn

Spark-Scala语言实战（11）

今天开始的文章，我会带给大家如何在spark的中使用我们的键值对方法，今天学习键值对方法中的join,rightOuterJoin,leftOuterJoin三种方法。希望我的文章能帮助到大家，也欢迎大家来我的文章下交流讨论，共同进步。

overfit同步小助手 2024-04-09 00:03:50 0 收藏

大数据增强学习在金融行业中的应用：如何预测市场趋势

1.背景介绍大数据增强学习(Data-driven Reinforcement Learning, DRL)是一种人工智能技术，它结合了大数据处理和强化学习等多种技术，以解决复杂的决策问题。在金融行业中，DRL 的应用非常广泛，尤其是在市场预测、风险管理、投资策略等方面。本文将从以下几个方面进行阐述

overfit同步小助手 2024-04-08 23:03:41 0 收藏

Spark 安装（集群模式）

实际生产环境一般不会用本地模式搭建Spark。生产环境一般都是集群模式。下面就给出了安装集群模式的步骤。

overfit同步小助手 2024-04-08 21:03:43 0 收藏

hadoop多次格式化解决办法

配置文件core-site.xml 和hdfs-site.xml中指定目录下的文件（在如例地找 /root/wwr/hadoop-3.1.4/etc/hadoop）hadoop首次启动需要格式化，这时若是因为一些原由导致格式化不止一次，就会导致主点之间互相不识别，就会导致一些节点不会启动（如图

overfit同步小助手 2024-04-08 19:03:46 0 收藏

Spark-Scala语言实战（13）

今天开始的文章，我会带给大家如何在spark的中使用我们的键值对方法，今天学习键值对方法中的fullOuterJoin，zip，combineByKeyy三种方法。希望我的文章能帮助到大家，也欢迎大家来我的文章下交流讨论，共同进步。

overfit同步小助手 2024-04-08 17:03:23 0 收藏

【大数据进阶第三阶段之DolphinScheduler学习笔记】深度解析DolphinScheduler(海豚调度)

Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景，提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系，并为应用程序提供数据和各种

overfit同步小助手 2024-04-08 16:03:41 0 收藏

数据仓库的数据源与数据集成：实践与挑战

1.背景介绍数据仓库是企业和组织中的一个关键技术，它能够帮助企业和组织更有效地进行数据分析和决策。数据仓库的核心是数据源和数据集成。数据源是数据仓库中的基本数据来源，数据集成是将不同数据源集成到数据仓库中的过程。在本文中，我们将讨论数据仓库的数据源与数据集成的实践与挑战。我们将从以下几个方面进行讨论

overfit同步小助手 2024-04-08 14:03:52 0 收藏

电商系列之风控安全

AI时代，程序员或多或少要了解些人工智能，前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。风控，简单来说就是风险的控制，随着整个互联网技术的发展，有另外一种技术也在默默的发展、壮大，甚至形成一种上下游闭环的产业链，即“黑产”。黑产遍布整个互联网各行各业、各个角落，今

overfit同步小助手 2024-04-08 13:07:05 0 收藏

学习大数据，需要的SQL基础（1）

数据库操作语言：简称DML(Data Manipulation Language)，用来对数据库中的记录进行操作，关键字：insert，delete，update等。---- 双引号不明确。-------- 如果省略列名，那么在存值时需要将所有列的值都写上。先定位到要查询哪个表，然后根据什么条件去查

overfit同步小助手 2024-04-08 11:03:51 0 收藏

学习了解Spark和Scala的理论知识以及安装部署

Spark 是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台之一。Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。目前，Spark生态系统已经

overfit同步小助手 2024-04-08 09:03:39 0 收藏

【Ambari】Ansible自动化部署大数据集群

ansible 自动化安装ambari

overfit同步小助手 2024-04-08 09:03:14 0 收藏

【Flink SQL】Flink SQL 基础概念（一）：SQL & Table 运行环境、基本概念及常用 API

Table API 是一种集成在 Java、Scala 和 Python 语言中的查询 API，简单理解就是用 Java、Scala、Python 按照 SQL 的查询接口封装了一层 lambda 表达式的查询 API，它允许以强类型接口的方式组合各种关系运算符（如选择、筛选和联接）的查询操作，然后

overfit同步小助手 2024-04-08 07:03:48 0 收藏

Spark+Flink+Kafka环境配置

overfit同步小助手 2024-04-08 06:03:42 0 收藏

基于VMware的CentOS 7虚拟机安装+配网+hadoop集群配置（超级详细完整版，适合初学者）

当今社会快速发展，大数据的存储越来越重要，hadoop的组件之一HDFS分布式文件系统就能实现大数据的存储；结合自身的学习经验，该文主要介绍了虚拟机的安装、配网以及hadoop集群搭建的详细过程，给后续的深入学习打下良好的基础。...............

overfit同步小助手 2024-04-08 05:03:47 0 收藏

大数据人工智能在零售行业的应用与优势

1.背景介绍随着大数据技术的不断发展，人工智能在各个行业中的应用也逐渐成为主流。零售行业也不例外。在这篇文章中，我们将深入探讨大数据人工智能在零售行业的应用与优势。1.1 大数据人工智能的概念大数据人工智能(Big Data AI)是指利用大量、多样化、高速生成的零售数据，通过人工智能算法和技术，实

overfit同步小助手 2024-04-08 04:03:53 0 收藏

大数据开发（Hive面试真题）

Hive的三种自定义函数包括UDF（User-Defined Function（用户定义函数））、UDAF（User-Defined Aggregate Function（用户定义聚合函数））和UDTF（User-Defined Table-Generating Function（用户定义表生成函数

overfit同步小助手 2024-04-08 03:03:22 0 收藏

Spark-Scala语言实战（10）

今天开始的文章，我会带给大家如何在spark的中使用我们的RDD方法，今天学习RDD方法中的cartesian,subtract两种方法。希望我的文章能帮助到大家，也欢迎大家来我的文章下交流讨论，共同进步。

overfit同步小助手 2024-04-08 01:03:44 0 收藏

数据仓库（数仓）详细介绍

数据仓库（数仓）的详细介绍

overfit同步小助手 2024-04-07 23:03:51 0 收藏

大数据开发（Hadoop面试真题-卷六）

这个过程通常称为分区操作。因此，Reduce任务知道去哪里拉Map结果集是通过分区操作来实现的。每个Reduce任务会收集到属于自己的分区中的键值对，然后对这些键值对进行处理，最终生成最终的结果。所以，Reduce任务知道去哪里拉Map结果集是。

overfit同步小助手 2024-04-07 22:03:40 0 收藏

大数据处理与分析-spark

比如，Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，并且可以处理所有Hadoop支持的数据，包括HDFS、HBase等。与Hadoop的MapReduce相比，Spark基于内存的运算要快100倍以上，基于硬盘的运算也要快10倍以上。b.RDD提供了一种

overfit同步小助手 2024-04-07 20:03:23 0 收藏