大数据 - overfit.cn

大数据组件之图数据库JanusGraph图文介绍

JanusGraph是一个开源的分布式图数据库。2017年，JanusGraph发布0.1.0 版本，目前（截止2024-03）最新版本为1.0.0。JanusGraph是基于Apache基金会下的一个开源的图数据库与图计算框架Tinkerpop来开发的。采用的图数据模型是“属性图模型”，即图数据包

overfit同步小助手 2024-03-21 04:03:10 0 收藏

基于大数据的用户画像轻松入门篇

用户画像分析是指通过对用户的个人信息、行为数据和偏好进行收集、整理和分析，从而形成一个关于用户特征和行为模式的描述。简单来说，就是通过了解用户的各种信息和行为，来对所有用户进行分类和“打标签”。举个例子，如果你非常喜欢看帆软BI的文章，那么平台就会给你打上“数据分析”、“可视化工具”等标签，下次你再

overfit同步小助手 2024-03-21 03:03:45 0 收藏

超级暴龙战士的核心竟是——————Hadoop生态圈和spark技术特点

MapReduce 是一种编程模型，用于处理大规模数据集。它将任务分为两个阶段：Map 阶段和 Reduce 阶段。Map 阶段将输入数据拆分成键值对，然后应用用户定义的函数进行处理。Reduce 阶段将 Map 阶段的输出进行合并和汇总。MapReduce 适用于离线数据处理，但不适合实时数据处理

overfit同步小助手 2024-03-21 01:03:14 0 收藏

hadoop3相关配置

在hadoop安装目录下依次创建hadoopDatas/tempDatas,hadoopDatas/namenodesDatas,hadoopDatas/datanodeDatas,hadoopDatas/dfs/nn/edits,hadoopDatas/dfs/snn/name,hadoopDat

overfit同步小助手 2024-03-21 00:03:48 0 收藏

IDEA连接HBase集群

一看就会~~傻瓜式配置本地IDEA与HBase集群

overfit同步小助手 2024-03-20 16:03:46 0 收藏

大数据和Hadoop

这样是不可取的，因为NameNode的内存总是有限的，太多的小文件会徒增NameNode的负担，甚至会使其崩溃。2NN（secondary NameNode）：并⾮NN的热备，当NN挂掉的时候，并不能马上替换NN并提供服务，2NN是辅助NN，分担其工作量，比如定期合并fsimage和edits，并推

overfit同步小助手 2024-03-20 13:03:46 0 收藏

flink重温笔记（十九）： flinkSQL 顶层 API ——FlinkSQL 窗口（解决动态累积数据业务需求）

over：定义窗口长度on：用来分组（按时间间隔）或者排序（按行数）的时间字段as：别名，必须出现在后面的groupBy中例子：每隔5秒钟统计一次每个商品类型的销售总额new OrderInfo("电脑", 1000L, 100D),new OrderInfo("手机", 2000L, 200D),

overfit同步小助手 2024-03-20 11:03:27 0 收藏

大数据背景下R语言lavaan在SEM中的高效应用

1)R及Rstudio介绍：背景、软件及程序包安装、基本设置等2)R语言基本操作，包括向量、矩阵、数据框及数据列表等生成和数据提取等3)R语言数据文件读取、整理（清洗）、结果存储等（含tidverse）4)R语言基础绘图（含ggplot）：基本绘图、排版、发表质量绘图输出存储1)SEM的定义、生态学

overfit同步小助手 2024-03-20 10:03:31 0 收藏

海豚调度系列之：任务类型——SPARK节点

本案例为创建一个视图表 terms 并写入三行数据和一个格式为 parquet 的表 wc 并判断该表是否存在。程序类型为 SQL。将视图表 terms 的数据插入到格式为 parquet 的表 wc。本案例为大数据生态中常见的入门案例，常应用于 MapReduce、Flink、Spark 等计算框

overfit同步小助手 2024-03-20 08:03:48 0 收藏

大数据010_Linux(IP,ping,wget,curl,nmap,netstat)

IP,ping,wget,curl,nmap,netstat，IP地址、主机名、域名、固定IP、下载文件、网络请求、端口

overfit同步小助手 2024-03-20 08:03:25 0 收藏

【Flink】Flink on YARN：一张图轻松掌握基础架构与启动流程

Flink on YARN 集群部署模式涉及 YARN 和 Flink 两大开源框架，应用启动流程的很多环节交织在一起，为了便于大家理解，在一张图上画出了 Flink on YARN 基础架构和应用启动全流程，并对关键角色和流程进行了介绍说明，整个启动流程又被划分成客户端提交（流程标注为紫色）、Fl

overfit同步小助手 2024-03-20 06:03:49 0 收藏

【Hadoop】Hadoop概述与核心组件

大数据Hadoop概述，Hadoop组件及核心组件介绍

overfit同步小助手 2024-03-20 06:03:43 0 收藏

第五：Spark启动！

一.什么是SparkSpark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发的通用内存并行计算框架Spark得到了众多大数据公司的支持，这些公司包括Hortonworks、IBM

overfit同步小助手 2024-03-20 05:03:52 0 收藏

【汪汪学HADOOP】第一天:Hadoop环境配置

自学中，仅供参考。。有错误请指正。。。

overfit同步小助手 2024-03-20 05:03:35 0 收藏

【大数据】Flink 内存管理（三）：TaskManager 内存分配（理论篇）

Flink JVM 进程的总内存（Total Process Memory）由 Flink 应用程序（Total Flink Memory，Flink 总内存）和 JVM 运行进程所消耗的内存组成。Flink 总内存（ Total Flink Memory）包括 JVM Heap、Managed M

overfit同步小助手 2024-03-20 04:03:51 0 收藏

单机搭建hadoop环境（包括hdfs、yarn、hive）

然后，下载hadoop安装包，这个包就包括了hdfs服务器和yarn服务器的执行文件和配置脚本。首先，要配置好Java的JAVA_HOME和PATH（etc/hadoop/hadoop-env.sh里的JAVA_HOME要改为本机的JAVA_HOME），还是有ssh本机的免密码登录。etc/hado

overfit同步小助手 2024-03-20 01:03:51 0 收藏

深入了解Hadoop：架构、组件与工作流程

用户只需编写少量的Map和Reduce函数代码，就可以利用Hadoop的分布式处理能力来完成复杂的数据处理任务。同时，Hadoop还提供了丰富的API和工具来支持数据的导入、导出、格式转换等操作，使得用户可以更加灵活地使用和处理大数据。Hadoop是一个分布式系统的基础架构，用户可以在不了解分布式底

overfit同步小助手 2024-03-20 01:03:34 0 收藏

【电商AI工具一期】AI引领电商新风潮：20款AI电子商务工具盘点，让你实现财富增长！

【电商AI工具一期】AI引领电商新风潮：20款AI电子商务工具盘点，让你实现财富增长！，未来百科，为发现全球AI工具而生，目前已聚集3000+优质AI工具

overfit同步小助手 2024-03-20 01:01:25 0 收藏

初入云上大数据2

Hadoop生态圈是由一系列基于Hadoop开发的相关工具、库、应用程序、平台和服务组成的生态系统。它们都是用于大数据处理、分析和存储的技术，旨在解决大规模数据处理问题。MapReduce是一个分布式计算框架，主要由两部分组成：编程模型和运行时环境。其中，编程模型为用户提供了非常易用的编程接口，用户

overfit同步小助手 2024-03-19 23:03:51 0 收藏

【Flink精讲】Flink性能调优：CPU核数与并行度

提交任务命令：-d \-p 5 \ 指定并行度-Dyarn.application.queue=test \ 指定 yarn 队列-Djobmanager.memory.process.size=2048mb \ JM2~4G 足够-Dtaskmanager.memory.process.size=

overfit同步小助手 2024-03-19 23:03:41 0 收藏