大数据 - overfit.cn

大数据课设-2020年美国新冠肺炎疫情数据分析

overfit同步小助手 2023-12-30 09:03:34 0 收藏

Flink Kafka[输入/输出] Connector

本章重点介绍生产环境中最常用到的。使用Flink的同学，一定会很熟悉kafka，它是一个分布式的、分区的、多副本的、支持高吞吐的、发布订阅消息系统。生产环境环境中也经常会跟kafka进行一些数据的交换，比如利用读取数据，然后进行一系列的处理之后，再将结果写出到kafka中。这里会主要分两个部分进行

overfit同步小助手 2023-12-30 08:03:29 0 收藏

hadoop01_完全分布式搭建

（计算的数据存在Linux本地，在一台服务器上自己测试）、（和集群接轨 HDFS yarn，在一台服务器上执行）、。：（hadoop默认安装后启动就是本地模式，就是将来的数据存在Linux本地，并且运行MR程序的时候也是在本地机器上运行）：伪分布式其实就只在一台机器上启动HDFS集群，启动YARN

overfit同步小助手 2023-12-30 06:03:35 0 收藏

Hadoop 重启流程

5. 到每一个子节点 hdfs --daemon stop datanode;因原有配置密钥目录有误，需要重启Hadoop集群 3个节点，Hadoop版本3.3.2。4.主节点 hdfs --daemon start journalnode。2、主节点删除所有的临时目录 log日志，包含在xml设定

overfit同步小助手 2023-12-30 02:03:53 0 收藏

大数据毕业设计：基于python商品数据采集分析可视化系统淘宝数据采集大数据大屏可视化（附源码+论文）✅

overfit同步小助手 2023-12-30 02:03:48 0 收藏

中间件之Kafka第一篇

简介Apach Kafka是一款分布式流处理平台，用于实时构建流处理应用。它有一个核心的功能广为人知，即作为企业级的消息引擎被广泛使用。作用解耦：短信发送成功后，需要通知A、B、C、D等服务，我们只管发送到MQ不用耦合一个个通知其他服务。通道商回调通知短信发送情况，需要通知A、B、C、D等服务，我们

overfit同步小助手 2023-12-30 02:03:43 0 收藏

Flink电商实时数仓（三）

维度层的重点和难点在于实时电商数仓需要的维度信息一般是动态的变化的，并且由于实时数仓一般需要一直运行，无法使用常规的配置文件重启加载方式来修改需要读取的ODS层数据，因此需要通过Flink-cdc实时监控MySql中的维度数据配置信息表，实时动态的发布广播信息。主流数据根据广播数据及时调整处理逻辑，

overfit同步小助手 2023-12-30 01:03:49 0 收藏

ARL灯塔安装与使用

这里子域名替换，原先自带的是2w的字典，但是在github上有很多公开的很多子域名的字典，直接替换就可以了，其实这里，不单单是子域名能够替换，还有很多文件都可以替换。系统配置建议：CPU:4线程内存:8G 带宽:10M。有些我也搞不到，想修改或者加强还需自己添加呀，这里也附上官网地址，具体的使用就

overfit同步小助手 2023-12-30 01:03:44 0 收藏

Hadoop3.1.3安装教程_单机/伪分布式配置_Hadoop3.1.3/Ubuntu18.04(16.04)

本篇教程由作者本人进行修改，原教程为厦门大学数据库实验室/林子雨出品，本篇教程针对VMware软件的使用以及Ubuntu的安装，点此下载（此处包含hadoop、Ubuntu以及jdk1.8）有其他需求可另行下载。

overfit同步小助手 2023-12-29 22:03:41 0 收藏

大数据讲课笔记5.1 初探MapReduce

1. 理解MapReduce核心思想；2. 掌握MapReduce编程模型；3. 理解MapReduce编程实例——词频统计

overfit同步小助手 2023-12-29 21:03:44 0 收藏

kafka学习（第三部分）

这部分是学习消费者侧相关的内容，主要是消费位移，以及kafka储存相关内容。

overfit同步小助手 2023-12-29 20:03:37 0 收藏

RabbitMQ中方法channel.basicAck的使用说明

通过设置multiple参数，可以实现批量确认消息的功能。如果消费者处理消息的速度很快，可以将其设置为true,一次性确认多条消息，提高处理效率。但如果消费者处理消息的速度比较慢，可能会导致消息堆积，造成内存占用过高。因此，在实际使用中需要根据实际情况来确定是否需要批量确认消息。在RabbitMQ中

overfit同步小助手 2023-12-29 19:03:51 0 收藏

基于hadoop+MapReduce+Java大数据清洗和分析的基本操作流程

MapReduce 是面向大数据并行处理的计算模型、框架和平台。它利用"Map（映射）“和"Reduce（归约）”，将程序运行在分布式系统中，通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性。这次实验利用本机 hadoop 环境完成实验内容操作，之后我会结合在大数据存储系统这门课上所学的知

overfit同步小助手 2023-12-29 19:03:44 0 收藏

主流MQ [Kafka、RabbitMQ、ZeroMQ、RocketMQ 和 ActiveMQ]

下面是关于主流的 Kafka、RabbitMQ、ZeroMQ、RocketMQ 和 ActiveMQ 的一些介绍：Kafka 是一个分布式流处理平台，设计用于处理高吞吐量的实时数据流。它具有高可靠性、可扩展性和持久性，适用于构建实时数据管道和流式处理应用程序。Kafka 使用发布-订阅模型，消息以主

overfit同步小助手 2023-12-29 19:03:27 0 收藏

【头歌】Sqoop数据导出 - 详解

【主要内容】Sqoop数据导出语法学习；HDFS数据导出至Mysql内；Hive数据导出至MySQL中。【实践内容】Sqoop数据导出语法实践与详解。

overfit同步小助手 2023-12-29 18:03:45 0 收藏

【Hive】——函数

hive 常见函数，UDF 自定义函数，explode 函数，Lateral view 侧视图，增强聚合函数，窗口函数，

overfit同步小助手 2023-12-29 18:03:40 0 收藏

大数据企业如何使用IP代理进行数据抓取

IP代理是一种通过代理服务器来访问互联网的技术。当用户使用代理服务器访问互联网时，用户的请求会被转发到代理服务器，然后由代理服务器向目标服务器发送请求，并将目标服务器的响应返回给用户。在这个过程中，用户的真实IP地址被隐藏在代理服务器的IP地址后面，从而保护用户的隐私和安全。本文介绍了大数据企业如何

overfit同步小助手 2023-12-29 16:03:57 0 收藏

Hive 浅析

Hive是一个简单的LUA沙盒，除了基本的LUA解释器的功能以外，还提供了诸如热加载等功能。了解HIVE的工作原理有利于了解Lua虚拟机的底层实现机理。本文从是什么-怎么用-为什么三个维度介绍HIVE。

overfit同步小助手 2023-12-29 16:03:35 0 收藏

Hive实战：词频统计

本次实战聚焦于利用Hive在大数据环境下进行词频统计。我们首先在master虚拟机创建文本文件`test.txt`，并将其上传至HDFS作为数据源。接着，启动Hive Metastore服务和客户端，创建外部表`t_word`以读取和处理HDFS中的文本数据。通过精心编写的Hive SQL语句，我们

overfit同步小助手 2023-12-29 16:03:31 0 收藏

大数据-之LibrA数据库系统告警处理（ALM-37014 Gaussdb进程锁文件已经存在）

发生数据库锁文件创建失败时，锁文件创建失败的实例可能无法启动，集群将无法正常启动。当集群中的CN实例或者DN实例锁文件创建失败时，产生该告警。系统数据实例异常终止，导致系统中存在锁文件残留。

overfit同步小助手 2023-12-29 16:03:16 0 收藏