大数据 Scala - overfit.cn

SparkSQL简单使用

Spark SQL是用来操作结构化和半结构化数据的接口。当每条存储记录共用已知的字段集合，数据符合此条件时，Spark SQL就会使得针对这些数据的读取和查询变得更加简单高效。具体来说，Spark SQL提供了以下三大功能： (1) Spark SQL可以从各种结构化数据源（例如JSON、Parq

overfit同步小助手 2023-06-13 00:04:17 0 收藏

Spark学习总结

第1章 Spark 概述1.1 Spark是什么Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。主要用于数据计算，经常被认为是Hadoop框架的升级版。1.2 Spark 和Hadoop的缘分组成：Hadoop 是由Java语言编写的，部署在分布式服务器集群上，用于存储海量数据并

overfit同步小助手 2023-06-11 23:04:03 0 收藏

RDD的创建头歌答案

overfit同步小助手 2023-06-10 15:04:02 0 收藏

Spark项目实战—电商用户行为分析

利用spark分析电商用户行为

overfit同步小助手 2023-06-07 07:03:39 0 收藏

实验7 Spark初级编程实践

1.实验目的（1）掌握使用Spark访问本地文件和HDFS文件的方法（2）掌握Spark应用程序的编写、编译和运行方法2.实验平台（1）操作系统：Ubuntu18.04（或Ubuntu16.04）；（2）Spark版本：2.4.0；（3）Hadoop版本：3.1.3。3.实验步骤（1）Spark读取

overfit同步小助手 2023-06-02 01:03:37 0 收藏

Flink 定时加载数据源

flink 自定义实时数据源使用流处理比较简单，比如 Kafka、MQ 等，如果使用 MySQL、redis 批处理也比较简单如果需要定时加载数据作为 flink 数据源使用流处理，比如定时从 mysql 或者 redis 获取一批数据，传入 flink 做处理，如下简单实现注意 flink 好多包

overfit同步小助手 2023-05-30 19:04:05 0 收藏

Flink第一章:环境搭建

Flink也是现在现在大数据技术中火爆的一门,反正大数据的热门技术学的也差不多了,啃完Flink基本的大数据技术就差不多哦学完了.Flink是做数据实时分析必不可少的技术,也要学习.

overfit同步小助手 2023-05-24 22:04:22 0 收藏

【李老师云计算】实验二：Spark集群的搭建与求解最大值

Spark配置及Scala实现100个随机数找最大值

overfit同步小助手 2023-05-22 10:05:05 0 收藏

Flink开发语言使用Java还是scala合适？

可问题就是先它一步的spark，已经早在2010年对外开源发布得到了很多的代码贡献，更是在2012年的时候就发布了0.6的第一个正式版，我们都知道一个道理，一步快步步快，所以spark在第一个正式版本发出以后，进入了更快的发展，2013年的时候成为了Apache基金会下的项目，并在同年研发出了机器学

overfit同步小助手 2023-05-13 06:03:55 0 收藏

词频的统计

任务8、词频统计-参看本博《经典案例【词频统计】十一种实现方式》-针对单词文本文件，统计每个单词出现的次数hello hadoop hello sparki love you hadoop and sparki learn hadoop and scala-思路：读取文件，通过拆分得到单词数组，定义

overfit同步小助手 2023-05-12 23:03:39 0 收藏

《Spark编程基础Scala版》第一章习题答案

在物理上HBase其实是按CF存储的，只是按照Row-key将相关CF中的列关联起来Hbase对数据的存储方式和数据结构进行的修改和规整（K-V形式），使其更加善于去处理大数据的场景，此在Hadoop MapReduce运行计算时能够提供更好的底层支持。因此，在许多企业实际应用中，Hadoop和Sp

overfit同步小助手 2023-05-12 22:03:48 0 收藏

【Spark实训】--竞赛网站访问日志分析

竞赛网站访问日志分析；1、过滤出访问次数在 50 次以上的用户记录 2、统计访问 50 次以上的用户主要访问的前 5 类网页 3. 合并部分网页 4.根据访问时间加入对应时段

overfit同步小助手 2023-05-12 18:03:55 0 收藏

idea2021.3.3 创建maven-scala项目并解决遇到的问题

overfit同步小助手 2023-05-10 12:03:50 0 收藏

Spark—idea

spark—ideal

overfit同步小助手 2023-04-24 12:03:39 0 收藏

spark-在IDEA中搭建scala编程环境

入门spark-rdd编程

overfit同步小助手 2023-04-23 13:03:39 0 收藏

Spark算子-Scala版本头歌答案

overfit同步小助手 2023-04-15 12:03:46 0 收藏

从Hive源码解读大数据开发为什么可以脱离SQL、Java、Scala

本文将以大数据开发中最常见的数仓组件Hive的drop table为例，抛砖引玉，解读为神马大数据开发可以脱离SQL、Java、Scala。

overfit同步小助手 2023-04-11 07:03:39 0 收藏

快速体验 Flink Table Store 入门篇

在本地安装单机版本，能够实现快速体验 Flink Table Store 的目的，本文以 Flink 1.15.2、flink-table-store-dist-0.2.1 和 flink-shaded-hadoop-2-uber-2.8.3-10.0 为例，系统为 Centos 3.10。

overfit同步小助手 2023-04-06 11:04:31 0 收藏

Spark框架概述

定义：Apache Spark是用于处理的。弹性分布式数据集RDD是一种分布式内存抽象，其使得程序员能够在大规模集群中做内存运算，并且有一定的容错方式。而这也是整个Spark的核心数据结构，Spark整个平台都围绕着RDD进行。简而言之，Spark借鉴了MapReduce 思想发展而来，保留了其分布

overfit同步小助手 2023-04-06 09:04:28 0 收藏

第5章 Spark 核心编程

大数据自学笔记——spark学习笔记

overfit同步小助手 2023-04-05 15:04:31 0 收藏