大数据 - overfit.cn

【怒怼大厂面试官】Kafka消费者手动提交、自动提交的区别？

各位牛爷爷，求解答。自我介绍项目，java基础，java集合，计网，设计模式，spring，springmvc，springboot，开发工具，构建工具，mysql问了整整50分钟。又稍微改了下简历，感觉个人职责部分实在不知道怎么扩充了，不知道这样行不行，求各位大佬拷打一下投了几家银行都还在简历筛选

overfit同步小助手 2024-03-21 15:03:41 0 收藏

【Hadoop】在spark读取clickhouse中数据

方法会将获得到的数据返回到Driver端，所以，使用这两个方法时需要注意数据量，以免Driver发生。读取clickhouse数据库数据。中的所有数据都获取到，并返回一个。****获取指定字段的统计信息。类似，只不过将返回结构变成了。的形式返回一行或多行数据。

overfit同步小助手 2024-03-21 14:03:51 0 收藏

从“手写病例”到“AI家庭医生”，人工智能大数据如何走进我们的生活？

编辑：老彭来源：大数据架构师彭友们好，我是老彭。最近“X疾病”肆虐，彭友们要小心啊，一定要保重身体。老彭去年就老去医院，不知道是不是“X疾病”闹的。上周末我特意找国家卫健委沈剑峰沈博士请教，顺便叙叙旧，他给我们讲了很多很有意思的医学新进展。老彭现在转述给彭友们，让我们康康人工智能、大数据是如何赋能

overfit同步小助手 2024-03-21 13:03:40 0 收藏

Hadoop面经

overfit同步小助手 2024-03-21 13:03:25 0 收藏

图解Kafka架构学习笔记（一）

在流式计算中，Kafka一般用来缓存数据，Storm通过消费Kafka的数据进行计算。

overfit同步小助手 2024-03-21 12:03:47 0 收藏

Hadoop笔记

大数据指高速 (Velocity) 涌现的大量 (Volume) 多样化 (Variety) 具有一定价值（ Value ）并且真实（ veracity ）的数据，其特性可简单概括为 5V高速: 数据每秒产生的速度相对比较块大量: 数据总量一般比较庞大，所考虑的存储和计算与一般的其他技术会不一样。

overfit同步小助手 2024-03-21 11:03:51 0 收藏

Hadoop：认识MapReduce

随着需要处理的数据量激增，我们开始借助分布式并行编程来提高程序的性能，分布式并行程序运行在大规模计算机集群上，可以并行执行大规模数据处理任务，从而获得海量计算的能力。谷歌公司最先提了分布式并行模型MapReduce，hadoop MapReduce则是其的开源实现。传统并行计算框架MapReduce

overfit同步小助手 2024-03-21 11:03:45 0 收藏

盘点五种主流的大数据计算框架

Apache Spark：Apache Spark是一个快速、通用的大数据处理框架，它支持在内存中进行高性能的数据处理。Spark提供了一系列的API，包括基于批处理的Spark Core，基于流处理的Spark Streaming，基于图计算的GraphX，以及基于机器学习的MLlib。Apach

overfit同步小助手 2024-03-21 11:03:20 0 收藏

最简单的Hadoop+Spark大数据集群搭建方法，看这一篇就够啦

最近有小伙伴私信我，flink 软件安装在虚拟机上很简单，就是安装包解压即可，有没有 hadoop + spark 的安装文档呢？所以今天周六刚好不用上班，花了一天时间整理了一下自己现在使用集群的搭建过程，希望对各位小伙伴有帮助！Tips：以下是集群搭建过程的记录啦，word 文档和搭建好了的集群，

overfit同步小助手 2024-03-21 11:03:12 0 收藏

【RabbitMQ启动管理功能报错合集】配置RabbitMQ的所有问题，看这一篇就好啦！

Offline change; changes will take effect at broker restart.ERLANG_HOME not set correctlytmg-plugins enable rabbitmg managementError: :plugins dir does

overfit同步小助手 2024-03-21 08:03:43 0 收藏

flink内存管理，设置思路，oom问题，一文全

这里以flink1.12 的 flink webUI 来展示内存管理，后续版本的内存可能会有变更不一致的地方，详细的解释主要放在taskManager中。

overfit同步小助手 2024-03-21 07:03:27 0 收藏

大数据数据分析-scala、IDEA、jdk之间的搭配关系

Scala主要是一门面向对象编程语言和函数式编程语言。- ---以HADOOP 2. x为系列的大数据生态系统处理框架离线数据分析，分析的数据为N+1天数据并行计算框架，分而治之----Hive基于SQL处理框架，将SQL转换为MapReduce，处理存储在HDFS上的数据，并且运行在

overfit同步小助手 2024-03-21 04:03:39 0 收藏

大数据组件之图数据库JanusGraph图文介绍

JanusGraph是一个开源的分布式图数据库。2017年，JanusGraph发布0.1.0 版本，目前（截止2024-03）最新版本为1.0.0。JanusGraph是基于Apache基金会下的一个开源的图数据库与图计算框架Tinkerpop来开发的。采用的图数据模型是“属性图模型”，即图数据包

overfit同步小助手 2024-03-21 04:03:10 0 收藏

python毕设大数据房价数据分析及可视化(源码分享)

今天分享一个大数据毕设项目：毕设分享大数据房价数据分析及可视化(源码分享)实现效果毕业设计房价大数据可视化分析网络爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。爬虫对某一站点访问，如果可以访问就下载其中的网页内容，并且通过爬虫解析模块解析得到的网页链接，把这些链接作为之后的抓取目

overfit同步小助手 2024-03-21 03:03:49 0 收藏

基于大数据的用户画像轻松入门篇

用户画像分析是指通过对用户的个人信息、行为数据和偏好进行收集、整理和分析，从而形成一个关于用户特征和行为模式的描述。简单来说，就是通过了解用户的各种信息和行为，来对所有用户进行分类和“打标签”。举个例子，如果你非常喜欢看帆软BI的文章，那么平台就会给你打上“数据分析”、“可视化工具”等标签，下次你再

overfit同步小助手 2024-03-21 03:03:45 0 收藏

Data Warehousing数据仓库

What Is Data Warehousing? • Enterprise level data management — used in business intelligence (BI) • Includes copied transactional data • Used to monit

overfit同步小助手 2024-03-21 02:03:22 0 收藏

window Zookeeper 启动；

本文对window Zookeeper zk 启动进行介绍；ZooKeeper 是一个开源的分布式协调服务，它提供了一个简单的接口和可靠的协调机制，可以帮助分布式系统实现高可用性和一致性。ZooKeeper 主要用于管理分布式系统中的元数据、配置信息、命名服务、分布式锁等，以协调和同步分布式系统中

overfit同步小助手 2024-03-21 01:03:46 0 收藏

超级暴龙战士的核心竟是——————Hadoop生态圈和spark技术特点

MapReduce 是一种编程模型，用于处理大规模数据集。它将任务分为两个阶段：Map 阶段和 Reduce 阶段。Map 阶段将输入数据拆分成键值对，然后应用用户定义的函数进行处理。Reduce 阶段将 Map 阶段的输出进行合并和汇总。MapReduce 适用于离线数据处理，但不适合实时数据处理

overfit同步小助手 2024-03-21 01:03:14 0 收藏

hadoop3相关配置

在hadoop安装目录下依次创建hadoopDatas/tempDatas,hadoopDatas/namenodesDatas,hadoopDatas/datanodeDatas,hadoopDatas/dfs/nn/edits,hadoopDatas/dfs/snn/name,hadoopDat

overfit同步小助手 2024-03-21 00:03:48 0 收藏

Java技术栈 —— Kafka入门（二）

水平易扩展(提高易用性)。提高并发度，可以多使唤一些线程。垂直可备份(提高可用性)。多备份一点没错，有备无患。现实中的组织架构也有这种特点，同级别的官员可以相互调动，这叫水平可扩展，下级官员干出成绩，经过考察认定具备了一定能力后，就可以得到提拔，这叫垂直易备份，从这个角度上来说，下级也可以是上级的备

overfit同步小助手 2024-03-20 23:03:32 0 收藏