大数据 - overfit.cn

hadoop伪分布模式搭建(详细步骤）

一、前期准备1. 关闭防火墙2. 安装好JDK3. 准备hadoop安装包二、安装hadoop伪分布模式1. 在home/hadoop/software/路径下创建hadooptmp目录2. 解压hadoop-3.3.0.tar.gz3. 进入hadoop-3.3.0/etc/hadoop4. 编辑

overfit同步小助手 2023-04-15 12:03:49 0 收藏

Spark算子-Scala版本头歌答案

overfit同步小助手 2023-04-15 12:03:46 0 收藏

Linux日志收集实操实验命令（保姆级）

♥️♥️♥️♥️前言本章为Linux日志保姆级实验Elasticsearch: 搜索引擎数据库，存放日志Filebeat:日志收集Kibana:日志展示。

overfit同步小助手 2023-04-15 11:04:23 0 收藏

Spark-SQL连接Hive 的五种方法

因为 Spark Thrift Server 的接口和协议都和 HiveServer2 完全一致，因此我们部署好 Spark Thrift Server 后，可以直接使用 hive 的 beeline 访问 Spark Thrift Server 执行相关语句。3.运行bin/目录下的spark-s

overfit同步小助手 2023-04-15 11:03:54 0 收藏

9个可视化图表在线制作工具，总有一款适合你

这份清单包含了最受欢迎的大数据可视化分析的工具，无论你是需要对数据进行分析，还是利用可视化图表向你的客户或同事进行展示，该表单中总会有一款工具能够满足你的需求。数据可视化无处不在，无论是PPT演示还是用可视化概念来细分客户，数据可视化都显得尤为重要。以前的可视化图表在线制作工具基本不能处理大数据。现

overfit同步小助手 2023-04-15 11:03:51 0 收藏

让ChatGPT告诉你Java的发展前景

最近很多人问我Java的发展前景怎么样？该怎么学Java基础？java这么卷还该不该学等等。那今天老王以电商场景为例，再结合ChatGPT的回答和大家聊的一下Java有哪些应用前景和技术层面的落地方案。选择发展趋势好的行业，简单来说，就是选择大于努力。以电商领域为例，电商在中国发展了有20多年了，很

overfit同步小助手 2023-04-15 10:04:18 0 收藏

Hive中使用sort_array函数解决collet_list列表排序混乱问题

目录0. 相关文章链接1. 数据准备2. 使用collect_list和concat_ws进行行转列3. 使用sort_array函数解决collet_list列表排序混乱问题0. 相关文章链接开发随笔文章汇总1. 数据准备建表语句：create table temp( province st

overfit同步小助手 2023-04-15 10:04:00 0 收藏

大数据技术基础实验四：HDFS实验——读写HDFS文件

大数据技术基础实验四，学习使用Eclipse和HDFS进行读写文件操作。

overfit同步小助手 2023-04-15 10:03:49 0 收藏

Dream的好书推荐（二）

技术书籍是学习技术知识的重要资源之一。读技术书可以帮助我们学习新技能和知识，技术书籍提供了可靠的、全面的信息，帮助我们快速学习新技能和知识。同时技术书籍有助于保持你的竞争力，因为它们提供了最新的技术知识和实践。这在当今快速发展的技术领域尤为重要，不断学习新知识和技能才能保持竞争力。总之，读技术书对于

overfit同步小助手 2023-04-15 09:04:26 0 收藏

启动zookeeper和kafka时 kafka无法启动或者闪退

kafka无法启动或者kafka启动以后 kafka进程自动挂掉查看kafka日志位置 server.properties 我的路径是/opt/module/kafka/config/server.properties)第59行就是kafka日志的默认位置datas下的文件全部删除查看zoo

overfit同步小助手 2023-04-15 09:04:17 0 收藏

抖音进攻，B站退守

“爱优腾芒”等长视频平台的崛起，在一定层面上丰富了人们的日常生活，而抖音、快手等短视频平台的出现，则在很大程度上改变了用户观看视频的方式。只不过，近几年，随着流量增长逐渐遭遇瓶颈，各视频平台便纷纷开始在彼此领域试水，试图通过不断拓宽自身边界，来寻找新的增量。而当长短视频均进入存量竞争阶段，介于二者之

overfit同步小助手 2023-04-15 09:04:13 0 收藏

Spark 基本架构及运行原理

Spark运行架构包括集群资源管理器（Cluster Manager）、运行作业任务的工作节点（Worker Node）、每个应用的任务控制节点（Driver）和每个工作节点上负责具体任务的执行进程（Executor）。其中，集群资源管理器可以是Spark自带的资源管理器，也可以是YARN或Meso

overfit同步小助手 2023-04-15 09:03:53 0 收藏

大数据技术之SparkSQL（超级详细）

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduc的程序的复杂性，由于MapReduce这种计算模

overfit同步小助手 2023-04-15 08:04:32 0 收藏

直达CSDN——创作者创收

帮助创作者创收

overfit同步小助手 2023-04-15 08:04:05 0 收藏

Elasticsearch查询文档--常见API篇（附详细代码和案例图文）

本篇文章将介绍Elasticsearch在Java中的几种API的使用，这块内容不作为面试中的重点，主打的就是一个陪伴。

overfit同步小助手 2023-04-15 08:04:02 0 收藏

数据库浅谈之 LLVM

LLVM

overfit同步小助手 2023-04-15 08:03:55 0 收藏

数据挖掘(2.4)--数据归约和变换

在数据离散化中也可以引入这种思想，对于一个属性的两个相邻的取值区间，“属性值处于哪一个的区间”与“数据属于哪一个类别”这两个变量的独立性可以表明是否应该合并两个区间。主成分分析(PCA)是一种正交线性变换，它将数据通过正交变换到新的坐标系中,其中第一个分量有最大的方差，第二个分量有第二大的方差，依此

overfit同步小助手 2023-04-15 08:03:52 0 收藏

Zookeeper 集群安装

在data目录下创建myid文件，并将id存入，这里的id对应的zoo.cnf中的server.id。发现node1和node2为follower，node3为leader。在zookeeper的bin目录下使用zkServer.sh启动。所以128的id为1，129的id为2,130的id为3。6

overfit同步小助手 2023-04-15 07:03:43 0 收藏

数据迁移工具

DataStage，即IBM WebSphere DataStage，是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化，并将其输入数据集市或数据仓库目标数据库的集成工具，可以从多个不同的业务系统中，从多个平台的数据源中抽取数据，完成转换和清洗，装载到各种系统里面。FineData

overfit同步小助手 2023-04-15 04:03:38 0 收藏

大数据上课笔记之Hadoop集群的启动和测试

Hadoop集群正常启动后，它默认开放了两个端口9870和8088，分别用于监控HDFS集群和YARN集群。通过UI界面可以方便地进行集群的管理和查看，只需要在本地操作系统的浏览器输入集群服务的IP和对应的端口号即可访问。

overfit同步小助手 2023-04-15 03:03:43 0 收藏