大数据 - overfit.cn

（超详细）MapReduce工作原理及基础编程

MapReduce编程基础JunLeon——go big or go home前言：Google于2003年在SOSP上发表了《The Google File System》，于2004年在OSDI上发表了《MapReduce: Simplified Data Processing on Large

overfit同步小助手 2023-03-31 03:04:25 0 收藏

6道经典大数据面试题（ChatGPT回答版）

1、HDFS 读写流程是什么？HDFS（Hadoop Distributed File System）的读写流程如下：写流程：客户端向 NameNode 发送写请求，请求在 HDFS 上创建一个新的文件。NameNode 为该文件分配一些数据块（默认情况下为 128 MB）以及在哪些 DataNod

overfit同步小助手 2023-03-31 03:04:21 0 收藏

Hive 与 Hbase表映射（内部表与外部表），Hbase常用命令

overfit同步小助手 2023-03-31 03:04:16 0 收藏

flink keyby指定key方式详解

这种操作在各种大数据计算引擎中都非常常见，比如最早的mapreduce，从map阶段到reduce阶段，就是通过shuffle操作将具有相同key的数据分配到同一个reduce端进行处理。比如如果数据是个比较复杂的嵌套结构Tuple2，如果我们想对内部嵌套的Tuple2的第一个字段进行keyby操作

overfit同步小助手 2023-03-31 02:05:16 0 收藏

大数据Hadoop之——DorisDB介绍与环境部署（StarRocks）

StarRocks 是一款高性能分析型数据仓库，使用向量化、MPP（Massively Parallel Processing：大规模并行处理）架构、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。StarRocks 既支持从各类实时和离线的数据源高效导入数据，也支持直接分析数据湖

overfit同步小助手 2023-03-31 02:05:12 0 收藏

大数据NiFi（二十二）：Kafka中数据实时导入到HDFS中

连接后，并设置“PutHDFS”处理器“failure”和“success”路由关系为自动终止。此案例使用到“ConsumerKafka_1_0”和“PutHDFS”处理器。“ConsumerKafka_1_0”处理器可以将消费Kafka中的数据。案例：向Kafka某个topic中写入数据，实时导入

overfit同步小助手 2023-03-31 02:05:06 0 收藏

大数据精品栏目介绍

一、大数据入门核心技术大数据入门核心技术栏目里集合等大数据必学的核心技术。初学者选择这个栏目，可以快速了解大数据知识体系，为后面的扩展性的深度学习大数据打下坚实的基础。二、数据湖基础+湖仓一体电商项目数据湖是一个集中式的存储库，允许你以任意规模存储多个来源、所有结构化和非结构化数据，可以按照原样存储

overfit同步小助手 2023-03-31 02:05:00 0 收藏

Linux卸载RabbitMQ

1、卸载前先停掉rabbitmq服务，执行命令。3、卸载rabbitmq已安装的相关内容。2、查看rabbitmq安装的相关列表。2、卸载erlang已安装的相关内容。1、查看erlang安装的相关列表。一、卸载rabbitmq相关的。然后你就可以重新安装了。

overfit同步小助手 2023-03-31 02:04:57 0 收藏

大数据周会-本周学习内容总结05

overfit同步小助手 2023-03-31 02:04:54 0 收藏

如何成为优秀的程序员

首先，他们得出来的第一个结果是，从查看 bug fix的commits的次数情况来看，C、C++、Objective-C、PHP和Python中有很多很多的commits都是和bug fix相关的，而Clojure、Haskell、Ruby、Scala在bug fix的commits的数上明显要少很

overfit同步小助手 2023-03-31 02:04:51 0 收藏

RabbitMq五种模式代码案例及使用详解

RabbitMQ是一个实现了AMQP（Advanced Message Queuing Protocol）高级消息队列协议的消息队列服务，用Erlang语言。是面向消息的中间件。

overfit同步小助手 2023-03-31 02:04:45 0 收藏

Mysql：sql去重的几种方式（大数据hive也可参考）

我们做数据分析的时候经常会遇到去重问题，下面总结 sql 去重的几种方式，后续如果还有再补充，大数据分析层面包括也可参考。

overfit同步小助手 2023-03-31 02:04:37 0 收藏

Linux系统下的hadoop常用命令

选项： - f选项将在文件增长时输出附加数据，如在Unix中一样。

overfit同步小助手 2023-03-31 02:04:31 0 收藏

【消息队列笔记】chp4-如何处理消费时的重复消息

在发送消息时，如果消息发送失败，发送方会对消息进行重发，这就会产生重复的消息。如果我们不对重复消息进行处理，可能会对系统造成一定的影响。如果消息队列本身能保证消息不会重复，那我们在消费端的实现逻辑就会变得很简单。

overfit同步小助手 2023-03-31 02:04:27 0 收藏

hive中case when的两种使用方法

hive中case when 的两种用法

overfit同步小助手 2023-03-31 02:04:19 0 收藏

【大数据入门核心技术-Ambari】（一）Ambari介绍

Apache Ambari是一种基于Web的工具，支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。Apache Ambari 支持HD

overfit同步小助手 2023-03-31 01:05:19 0 收藏

Spark 连接 Mongodb 批量读取数据

spark 读取 mongodb 数据

overfit同步小助手 2023-03-31 01:05:16 0 收藏

大数据开发的工作内容与流程

像用cdc、ogg这样的一个技术，会监控数据库的日志。当然很多时候，在生产中的选型比较复杂，而且会有MPP与大数据产品一起使用的场景，但整体的流程不变，只是各阶段的产品有所替换。然后由流（处理）引擎，比如说spark生态圈的spark streaming，当然还有比较新的像flink这些产品进行一个

overfit同步小助手 2023-03-31 01:05:08 0 收藏

无人集群系统了解篇

智能无人集群是指:由一定数量的同类或者异构无人系统/装备、控制系统及人机界面组成，利用信息交互与反馈、激励与响应，实现相互间行为协同，适应动态环境，共同完成特定任务的智能联合系统。...

overfit同步小助手 2023-03-31 01:05:05 0 收藏

MapReduce案列-数据去重

数据去重主要是为了掌握利用并行化思想来对数据进行有意义的筛选，数据去重指去除重复数据的操作。在大数据开发中，统计大数据集上的多种数据指标，这些复杂的任务数据都会涉及数据去重。

overfit同步小助手 2023-03-31 01:05:00 0 收藏