大数据 - overfit.cn

大数据基础:大数据组件文档

大数据组件使用指南

overfit同步小助手 2024-06-19 00:04:08 0 收藏

基于spark 程序用scala统计淘宝商品数据分析

从Spark的上手到最后的项目，整个过程我一路磕磕绊绊的时常遇到一些奇怪的问题，但是好在本人寻找bug的能力还不错，都一一得到了解决，后半期学习结束了，但我还需要继续花时间去学习，尤其是Hadoop的知识点，结合两者的实际应用去体会不同。三、导入要使用到的依赖包，有两个依赖包，一个是saprk_li

overfit同步小助手 2024-06-18 22:03:42 0 收藏

从零开始：大数据组件实现增量同步工具（maxwell,canal）：上

链接：https://pan.baidu.com/s/11peATgs1Ox3NMZQA4ciuBg?配置JAVA_HOME环境变量，以及将$JAVA_HOME/bin文件夹加入PATH环境变量中。其他设置如图，当然如果你电脑配置足够好，开个8+4+4简直是随心所欲的话，怎么开心怎么来。创建文件夹，

overfit同步小助手 2024-06-18 19:03:29 0 收藏

Spark RDD与算子详解:案例解析(第3天）

本文主要详解Spark RDD和工作中常用RDD算子；

overfit同步小助手 2024-06-18 13:03:23 0 收藏

简单介绍十款可以免费使用的API测试工具

API开发应该是后端开发最常见的工作，而调试和测试API是非常关键的，这篇文章简单介绍几款常用的工具以供大家参考。

overfit同步小助手 2024-06-18 12:05:55 0 收藏

大数据学习——安装hive

overfit同步小助手 2024-06-18 12:03:43 0 收藏

Google BigTable与HBase：对比与解析

我们了解了Google BigTable和HBase的特点和应用实例。掌握这些技巧将有助于提高你的数据存储和分析效率，并确保你的应用程序能够稳定、高效地运行。希望这篇文章能够帮助你更好地理解和运用Google BigTable和HBase技术。祝你开发愉快！

overfit同步小助手 2024-06-18 10:03:40 0 收藏

（24年4月2日更新）Linux安装chrome及chromedriver（Ubuntu20.04&16.04）

1）先执行命令下载chrome：2）安装chrome3）查看安装的chrome版本：二、安装Chromedriver你可以访问 https://googlechromelabs.github.io/chrome-for-testing/#stable 这个地址去下载更新的chromedriver：键

overfit同步小助手 2024-06-18 06:06:34 0 收藏

技术与业务的完美融合：大数据BI如何真正提升业务价值

数据分析有一点经典案例,沃尔玛的啤酒和尿布案例,没有人验证过这个故事的真实性，但是它是有启发性的

overfit同步小助手 2024-06-18 04:03:32 0 收藏

【Python数据分析】PySpark的使用

Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎简单来说，Spark是一款分布式的计算框架，用于调度成百上千的服务器集群，计算TB、PB乃至EB级别的海量数据。

overfit同步小助手 2024-06-18 01:03:46 0 收藏

spark的搭建

Spark是一个开源的大数据处理框架，它提供了一个快速、通用和易于使用的计算引擎。Spark最初由美国加州伯克利大学AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。具体来说，Spark的优势包括：速度快：Spark能够快速进行数据读取、处

overfit同步小助手 2024-06-17 23:03:47 0 收藏

Flink 数据目录体系：深入理解 Catalog、Database 及 Table 概念

综上所述，Catalog、Database 和 Table 构成了 Flink 数据管理的基础架构，它们共同提供了对分布式数据源的抽象和统一访问接口，使得用户能够在一个统一的视角下对各类数据源进行透明化管理和高效处理。Apache Flink 在其数据处理框架中引入了 Catalog、Databas

overfit同步小助手 2024-06-17 21:03:50 0 收藏

Windows下安装Spark（亲测成功安装）_windows spark，真香

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎 [2]。现在形成一个高速发展应用广泛的生态系统。

overfit同步小助手 2024-06-17 19:03:42 0 收藏

Git 冲突处理指南：如何高效解决代码冲突

本指南全面探讨了使用Git进行版本控制时冲突的管理与解决。从基础的Git操作到高级技巧，从预防策略到自动化工具，我们详尽介绍了多种方法来应对在多人协作中常见的代码冲突。重点包括：Git基础与冲突理解：解释了Git如何工作及冲突产生的原因。手动解决冲突：通过命令行操作及使用图形化工具来手动解决合并时的

overfit同步小助手 2024-06-17 17:04:27 0 收藏

Docker部署常见应用之大数据基础框架Hadoop

文章介绍了如何使用Docker Compose 部署Hadoop 集群。 Hadoop是一个开源框架，由Apache软件基金会开发，用于在普通硬件构建的集群中存储和处理大量数据。它最初由Doug Cutting和Mike Cafarella创建，并受Google的MapReduce和Google F

overfit同步小助手 2024-06-17 16:03:42 0 收藏

大数据知识点之大数据5V特征

大规模的数据量，在处理的时候，对技术体系是有较高的要求的。对于一个企业来说，每天都会新增庞大的数据，这些数据可能来自于用户的操作、可能来自于智能家居、可能来自于各种传感器等，数据的来源非常多，而且数据量的增速也是非常可怕的。大数据相关的技术体系，需要处理的数据量是非常庞大的，动辄PB、EB规模的数据

overfit同步小助手 2024-06-17 12:03:38 0 收藏

Apache DolphinScheduler支持Flink吗？

随着大数据技术的快速发展，很多企业开始将Flink引入到生产环境中，以满足日益复杂的数据处理需求。而作为一款企业级的数据调度平台，Apache DolphinScheduler也跟上了时代步伐，推出了对Flink任务类型的支持。Flink是一个开源的分布式流处理框架，具有高吞吐量、低延迟和准确性等特

overfit同步小助手 2024-06-17 12:03:33 0 收藏

11、Flink 的 Keyed State 详解

Flink 的 Keyed State 详解

overfit同步小助手 2024-06-17 10:03:35 0 收藏

大数据相关常用软件下载地址集锦

由于大数据开发中经常需要用到Zookeeper、Hadoop、Spark、HBase、Kafka、Flume、Redis、Hive等软件，安装的时候需要它们的下载地址，这里就汇总一下，方便同学们查找。欢迎start，欢迎评论，欢迎指正。一、软件下载地址如下。

overfit同步小助手 2024-06-17 10:03:14 0 收藏

Flink1.16.0下载安装部署

一、通过命令行下载二、Windows下载1.访问下方链接即可下载3.传输成功后，同样操作进行解压。

overfit同步小助手 2024-06-17 09:03:47 0 收藏