大数据 - overfit.cn

Attention-LSTM模型的python实现

1.模型结构Attention-LSTM模型分为输入层、LSTM 层、Attention层、全连接层、输出层五层。LSTM 层的作用是实现高层次特征学习；Attention 层的作用是突出关键信息；全连接层的作用是进行局部特征整合，实现最终的预测。这里解决的问题是：使用Attention-L

overfit同步小助手 2023-03-04 09:04:01 0 收藏

（初学者强烈推荐）Ubuntu 配置hadoop 超详细教程（全过程）

本文的教程仅为个人的操作经验所写，每个人下载的版本不一样，所以会出现不同的情况异常等，如有问题可询问博主或百度查找解决方法。

overfit同步小助手 2023-03-04 09:03:56 0 收藏

大数据技术之HBase（一）HBase简介、HBase快速入门、HBase进阶

文章目录1 HBase 简介1.1 HBase 定义1.2 HBase 数据模型1.2.1 HBase 逻辑结构1.2.2 HBase 物理存储结构1.2.3 数据模型1.3 HBase 基本架构2 HBase 快速入门1.2.3 自定义存储 offset1.3 自定义 Interceptor1.3

overfit同步小助手 2023-03-04 08:04:17 0 收藏

为什么说新一代流处理器Flink是第三代流处理器(论点:发展历史、区别、适用场景)

Flink 被认为是第三代流处理器，这是因为 Flink 在设计时参考了前两代流处理器的经验教训并引入了一些新的技术和思想，从而使得 Flink 具有更高的性能和更广泛的应用场景。下面我带大家了解一下流处理器从第一代到第三代的发展历史。对于有状态的流处理，当数据越来越多时，我们必须用分布式的集群架构

overfit同步小助手 2023-03-04 08:03:44 0 收藏

一文搞懂什么是数据仓库(Data Warehouse)数据仓库与数据库区别有哪些？什么是元数据？

前期回顾：⼤数据是如何产⽣的？大数据的特点是什么？什么是埋点？如何进行数据埋点？【超详细介绍】对于这么多种类，这么大体量的数据是如何存储的呢？所以数据仓库就应景而生了。目录数据仓库（数据是如何存储的）1 什么是数据仓库？2 数据仓库解决什么问题？3 数据仓库的主要特征4 数据仓库与数据库区别5 数据

overfit同步小助手 2023-03-03 23:04:08 0 收藏

Hadoop面试题及参考答案

整理了一部分hadoop相关的面试题和参考答案，不当之处请大家指正

overfit同步小助手 2023-03-03 18:04:16 0 收藏

Docker查看正在运行的容器目录

在Docker中，一个很重要的概念就是GraphDriver，它主要用于管理和维护镜像，包括把镜像从仓库下载下来，到运行时把镜像挂载起来可以被容器访问等，都是GraphDriver去完成的。可以看到宝塔的面板可以直接查看和从操作容器、Compose 、Compose 模板、镜像、网络、存储卷、仓库等

overfit同步小助手 2023-03-03 13:04:24 0 收藏

农业病虫害数据集与算法——调研整理

通过博客和文献调研整理的一些农业病虫害数据集与算法。

overfit同步小助手 2023-03-03 13:04:14 0 收藏

(超详细) Spark环境搭建（Local模式、 StandAlone模式、Spark On Yarn模式）

Spark环境搭建JunLeon——go big or go home目录Spark环境搭建一、环境准备1、软件准备2、Hadoop集群搭建3、Anaconda环境搭建二、Spark Local模式搭建1、Spark下载、上传和解压2、配置环境变量3、配置Spark配置文件4、测试5、补充：spar

overfit同步小助手 2023-03-03 11:04:13 0 收藏

linux环境kafka安装及配置

linux环境kafka安装及配置过程（含zookeeper）

overfit同步小助手 2023-03-03 11:04:00 0 收藏

4种数据仓库建模方法

数据仓库建模方法，维度建模，ER模型

overfit同步小助手 2023-03-03 10:04:07 0 收藏

大数据之Hadoop3.x 运行环境搭建（手把手搭建集群）

环境

overfit同步小助手 2023-03-03 08:04:13 0 收藏

不用机器学习不用大数据，给你讲通ChatGPT的深层原理

ChatGPT现在看来已经异常火爆了，很多人已经熟知，并且开始练习使用或者开始利用他开始实践了。但仍然有很多人在观望，在疑惑，今天狗哥不用那些高端大气的机器学习亦或是大数据还给你讲通ChatGPT深层到底是个啥逻辑。

overfit同步小助手 2023-03-03 08:03:36 0 收藏

倒排索引：ES倒排索引底层原理及FST算法的实现过程

这也许是你全网你能找到的最详细的倒排索引的底层解读。博主把倒排索引的讲解划分为以下七个部分，理解难度递增，可根据自身需要选择依次阅读或者针对性阅读。通常来说，应付一般的面试，理解第一部分即可。如果需要面试搜索相关业务的岗位，需要深层次理解倒排索引，可根据自身情况选择阅读。本文花费了作者大量的精力来论

overfit同步小助手 2023-03-02 23:04:10 0 收藏

如何部署WebSpoon9.0.0(Kettle的Web版本)

基于开源ETL工具Kettle的Web版本，本文记录了从拉取项目到成功运行的全过程。

overfit同步小助手 2023-03-02 22:04:09 0 收藏

在java代码中使用kafka(springboot整合kafka)

java代码maven项目实现kafka的连接及生产者、消费者的创建，以及消息的发布和订阅

overfit同步小助手 2023-03-02 17:04:15 0 收藏

增量表、全量表、拉链表的应用场景及优缺点详解

维度表：业务过程的业务实体，如：商品，用户，订单。代理键（自增列，可以充当主键）自然键（唯一区分，商品id，订单id）维度属性（商品的大小，颜色等）事实表：业务内特定事件的数据（大量的行），如：商品的销售记录。事实表的常见分类包括：全量表、增量表、流水表、拉链表。接下来，我们将重点介绍什么是全量表、

overfit同步小助手 2023-03-02 16:04:10 0 收藏

什么是幂等性？

什么是幂等性？如何解决幂等性？

overfit同步小助手 2023-03-02 11:04:16 0 收藏

Hadoop的安装与配置（非常重要）

这是以主从模式来运行的，前两个在maser节点上，最后一个在slave节点上。

overfit同步小助手 2023-03-02 08:04:18 0 收藏

【SQL开发实战技巧】系列（七）：从有重复数据前提下如何比较出两个表中的差异数据及对应条数聊起

本篇文章讲解的主要内容是：***如果有重复数据如何检查出两个表中的差异数据及对应条数、表连接做聚合容易出现重复计算的错误、多表查询空值处理问题、NOT IN的子查询范围不能是空值，否则查询结果为空。***

overfit同步小助手 2023-03-02 08:04:05 0 收藏