大数据 - overfit.cn

Spark中方法运用

spark.read的具体操作，在创建Dataframe之前，为了支持RDD转换成Dataframe及后续的SQL操作，需要导入import.spark.implicits._包启用隐式转换。Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象结构叫做DataFrame的

overfit同步小助手 2024-05-29 23:04:05 0 收藏

Spark与Hive的数据分区与分桶策略详解

1. 背景介绍1.1 大数据时代的数据处理挑战随着互联网、物联网、移动互联网等技术的飞速发展，全球数据量呈现爆炸式增长，大数据时代已经来临。海量数据的存储、管理和分析成为企业面临的巨大挑战。如何高效地处理和利用这些数据，从中提取有价值的信息，已成为当务之急。

overfit同步小助手 2024-05-29 23:04:00 0 收藏

spark方法

Spark是一个开源的、大规模的、快速的数据处理引擎，专为大规模数据处理而设计。它提供了一个统一的编程模型来处理批处理、交互式查询、实时流处理和图计算等多种类型的数据处理任务。Scala源自Java，构建在JVM之上，与Java兼容、互通。Scala的优势：1.多范式编程：(1)面向对象编程：每个值

overfit同步小助手 2024-05-29 23:03:56 0 收藏

spark

在进行处理时，reduceByKey()方法将相同键的前两个值传给输入函数，产生一个新的返回值，新产生的返回值与RDD中相同键的下一个值组成两个元素，再传给输入函数，直到最后每个键只有一个对应的值为止。使用flatMap()方法时先进行map（映射）再进行flat（扁平化）操作，数据会先经过跟map

overfit同步小助手 2024-05-29 23:03:51 0 收藏

Hadoop伪分布式平台搭建

搭建Hadoop伪分布式环境是在单台机器上模拟完整的Hadoop分布式系统，使得所有的Hadoop守护进程（如NameNode、DataNode、ResourceManager、NodeManager等）都在同一台机器上运行。这样可以在一台机器上体验Hadoop的分布式特性，适合学习、测试和开发。

overfit同步小助手 2024-05-29 23:03:46 0 收藏

hadoop大数据原理与应用------初识Hadoop数据集

这样，整个集群就可以协同工作，处理大数据集的计算和存储任务。在执行`start-dfs.sh`之前，需要确保Hadoop的配置文件已经正确设置，包括`hdfs-site.xml`、`core-site.xml`等，并且集群中的所有节点都能够相互通信。在这个例子中，`hadoop-master`、`h

overfit同步小助手 2024-05-29 23:03:42 0 收藏

Hive详解（一篇文章让你彻底学会Hive）

最详细的Hive讲解，一篇既可以学会hive的相关知识。

overfit同步小助手 2024-05-29 22:03:57 0 收藏

基于大数据的电影推荐系统的设计与实现

1. 背景介绍随着互联网的快速发展和大数据应用的普及，推荐系统已经成为了我们日常生活中不可或缺的一部分。特别是在电影推荐这一领域，大数据的应用为我们提供了前所未有的用户体验。本文将深入讨论基于大数据的电影推荐系统的设计与实现。1.1 推荐系统的重要性伴随着信息爆炸的时代来临，人们

overfit同步小助手 2024-05-29 22:03:26 0 收藏

列族：HBase中列族的概念和用法

1.背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。HBase提供了一种高效的数据存储和查询方法，可以处理大量数据并提供快速的读写操作。HBase的核心数据结构是列族(column family)，这一概念在HBase中非常重要，对于HBase的

overfit同步小助手 2024-05-29 20:03:59 0 收藏

使用Hadoop进行模数据去重

使用Hadoop进行数据去重可以有效地处理大规模数据，并且可以通过适当的算法和技术实现高效的去重操作。通过本博客提供的步骤和代码示例，你可以在自己的环境中实现数据去重，并优化处理大规模数据的效率。

overfit同步小助手 2024-05-29 18:03:56 0 收藏

搭建大型分布式服务（三十七）SpringBoot 整合多个kafka数据源-取消限定符

本插件稳定运行上百个kafka项目，每天处理上亿级的数据的精简小插件，快速上手。< dependency > < groupId > io.github.vipjoey < artifactId > multi-kafka-consumer-starter < version > 最新版本号

overfit同步小助手 2024-05-29 18:03:53 0 收藏

Hadoop上传文件到HDFS的步骤

随着大数据时代的到来，数据存储和处理变得至关重要。Hadoop作为大数据处理的基石，其分布式文件系统HDFS提供了高效、可靠的数据存储方案。本文旨在简要介绍如何使用Hadoop命令行工具将文件上传到HDFS，为大数据处理提供基础支持。1.启动Hadoop集群。

overfit同步小助手 2024-05-29 18:03:37 0 收藏

伪分布式数据库搭建（hadoop+spark+scala）

一，下载JDK安装包官网：https://www.oracle.com/java /technologies /javase-jdk8-downloads.html二，卸载openJDK三，安装JDK四，设置java环境变量命令：vi /etc/profile将master公钥进行公钥认证，实现本机

overfit同步小助手 2024-05-29 16:03:55 0 收藏

RabbitMQ —— 延迟队列

在这篇文章中，荔枝会梳理延迟队列的相关知识，主要涉及两种实现延时队列的方式和应用场景，希望能帮助到有需要的小伙伴~~~

overfit同步小助手 2024-05-29 16:03:28 0 收藏

ZooKeeper 实战：ZooKeeper Java API

ZooKeeper 大部分 API 都提供了同步和异步方法。同步方法一般会有返回值，并且会抛出相应的异常。异步方法没有返回值，也不会抛出异常

overfit同步小助手 2024-05-29 15:03:14 0 收藏

zookeeper未授权访问漏洞增加用户认证修复

退出至linux命令行界面，重启zookeeper，在验证是否还可以未授权即可访问。linux机器中使用root命令行cd到zookeeper的bin文件夹下。如果此时有未授权漏洞，可通过以下命令验证。验证结果显示没有用户认证也可执行一些命令。启动zookeeper。

overfit同步小助手 2024-05-29 14:03:54 0 收藏

Kafka-集群管理者（Controller）选举机制、任期（epoch）机制

overfit同步小助手 2024-05-29 14:03:51 0 收藏

Hive集合函数 collect_set 和 collect_list 使用示例

在Hive中， collect_set 和 collect_list 是用于收集数据并将其存储为集合的聚合函数。

overfit同步小助手 2024-05-29 14:03:30 0 收藏

Spark总结

导论(基于Hadoop的MapReduce的优缺点）MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架MapReduce是一种用于处理大规模数据集的编程模型和计算框架。它将数据处理过程分为两个主要阶段：Map阶段和Reduce阶段。在Map阶段，

overfit同步小助手 2024-05-29 13:03:44 0 收藏

Hadoop集群搭建与初步了解Hive

应用： hadoop fs -put /root/1.txt /dir1 #上传文件 hadoop fs –put /root/dir2 / #上传目录。应用: hadoop fs -rm /initial-setup-ks.cfg #删除文件 hadoop fs -rm -r /dir2 #删除目

overfit同步小助手 2024-05-29 12:03:35 0 收藏