大数据 - overfit.cn

【大数据实时数据同步】超级详细的生产环境OGG(GoldenGate)12.2实时异构同步Oracle数据部署方案(下)

之前写过一系列关于GoldenGate异构同步Mysql、Kafka、Kylin、Flink做实时计算的场景文章。下面是我给大家的生产环境下，如何部署OGG(GoldenGate)12.2及异构实时同步数据（支持DDL)的解决方案。本文主要介绍如何实现实时异构的进行Oracle->Oracle的数据

overfit同步小助手 2023-03-09 09:03:48 0 收藏

大数据flink框架入门分享(起源与发展、实时与离线计算、场景、处理流程、相关概念、特性普及、入门Demo)

起源于一个叫作 Stratosphere 的项目，它是由 3 所地处柏林的大学和欧洲其他一些大学在 2010~2014 年共同进行的研究项目，由柏林理工大学的教授沃克尔·马尔科（Volker Markl）领衔开发。2014 年 4 月，Stratosphere 的代码被复制并

overfit同步小助手 2023-03-07 18:04:25 0 收藏

什么是推荐系统？推荐系统类型、用例和应用

当前基于 DL 的推荐系统模型：DLRM、Wide and Deep (W&D)、神经协作过滤 (NCF)、b变分自动编码器 (VAE) 和 BERT（适用于 NLP）构成了 NVIDIA GPU 加速 DL 模型产品组合的一部分，并涵盖推荐系统以外的许多不同领域的各种网络架构和应用程序，包括图像、

overfit同步小助手 2023-03-07 18:04:14 0 收藏

hadoop的运行模式

目录hadoop的三种运行模式区别：完全分布式运行模式步骤：一，虚拟机准备：二，编写集群分发脚本xsync （1）scp定义：（2）基础语法：(1)按照上述语法进行拷贝jdk（2）按照上述语法拷贝Hadoop（第二种方法）（3）拷贝也可以让Hadoop103操作从H

overfit同步小助手 2023-03-07 18:04:09 0 收藏

100套大数据可视化模板

在线预览。

overfit同步小助手 2023-03-07 18:03:42 0 收藏

大数据Kylin（六）：Kylin构建Cube算法

by-layer” Cubing把一个大任务划分为许多步骤，每一步骤的计算依赖于上一个步骤的输出结果，所以当某一个步骤的计算出现问题时，可以再次读取上一步骤的结果重新计算，而不用从头开始。在player-1，根据源数据得到1个4-D的cuboid；Kylin在计算Cube之前对数据进行采样，在“fa

overfit同步小助手 2023-03-07 08:03:33 0 收藏

JDK 8和Java 8的下载与安装

配置第二个环境变量，在系统变量中找到Path变量，编辑Path变量，新建路径。作为Java编程开发学习的第一步，首先得安装Java开发者工具包（配置第一个环境变量，新建系统变量JAVA_HOME，点击确定。配置第三个变量，新建系统变量CLASSPATH变量，变量值为。，出现以下情况则说明Java 8

overfit同步小助手 2023-03-04 11:04:13 0 收藏

Docker环境下配置Es自定义分词器（ik）

采用nginx配合使用自定义分词器，完成搭建，一步到位

overfit同步小助手 2023-03-04 11:04:07 0 收藏

为什么说新一代流处理器Flink是第三代流处理器(论点:发展历史、区别、适用场景)

Flink 被认为是第三代流处理器，这是因为 Flink 在设计时参考了前两代流处理器的经验教训并引入了一些新的技术和思想，从而使得 Flink 具有更高的性能和更广泛的应用场景。下面我带大家了解一下流处理器从第一代到第三代的发展历史。对于有状态的流处理，当数据越来越多时，我们必须用分布式的集群架构

overfit同步小助手 2023-03-04 08:03:44 0 收藏

一文搞懂什么是数据仓库(Data Warehouse)数据仓库与数据库区别有哪些？什么是元数据？

前期回顾：⼤数据是如何产⽣的？大数据的特点是什么？什么是埋点？如何进行数据埋点？【超详细介绍】对于这么多种类，这么大体量的数据是如何存储的呢？所以数据仓库就应景而生了。目录数据仓库（数据是如何存储的）1 什么是数据仓库？2 数据仓库解决什么问题？3 数据仓库的主要特征4 数据仓库与数据库区别5 数据

overfit同步小助手 2023-03-03 23:04:08 0 收藏

Hadoop面试题及参考答案

整理了一部分hadoop相关的面试题和参考答案，不当之处请大家指正

overfit同步小助手 2023-03-03 18:04:16 0 收藏

农业病虫害数据集与算法——调研整理

通过博客和文献调研整理的一些农业病虫害数据集与算法。

overfit同步小助手 2023-03-03 13:04:14 0 收藏

(超详细) Spark环境搭建（Local模式、 StandAlone模式、Spark On Yarn模式）

Spark环境搭建JunLeon——go big or go home目录Spark环境搭建一、环境准备1、软件准备2、Hadoop集群搭建3、Anaconda环境搭建二、Spark Local模式搭建1、Spark下载、上传和解压2、配置环境变量3、配置Spark配置文件4、测试5、补充：spar

overfit同步小助手 2023-03-03 11:04:13 0 收藏

大数据之Hadoop3.x 运行环境搭建（手把手搭建集群）

环境

overfit同步小助手 2023-03-03 08:04:13 0 收藏

如何部署WebSpoon9.0.0(Kettle的Web版本)

基于开源ETL工具Kettle的Web版本，本文记录了从拉取项目到成功运行的全过程。

overfit同步小助手 2023-03-02 22:04:09 0 收藏

增量表、全量表、拉链表的应用场景及优缺点详解

维度表：业务过程的业务实体，如：商品，用户，订单。代理键（自增列，可以充当主键）自然键（唯一区分，商品id，订单id）维度属性（商品的大小，颜色等）事实表：业务内特定事件的数据（大量的行），如：商品的销售记录。事实表的常见分类包括：全量表、增量表、流水表、拉链表。接下来，我们将重点介绍什么是全量表、

overfit同步小助手 2023-03-02 16:04:10 0 收藏

人工智能的几个研究方向

人工智能主要研究内容是：分布式人工智能与多智能主体系统、人工思维模型、知识系统、知识发现与数据挖掘、遗传与演化计算、人工生命、人工智能应用等等。其中热门研究有以下几种。

overfit同步小助手 2023-03-02 13:05:40 0 收藏

Hadoop的安装与配置（非常重要）

这是以主从模式来运行的，前两个在maser节点上，最后一个在slave节点上。

overfit同步小助手 2023-03-02 08:04:18 0 收藏

Hive数据仓库应用课后题及答案

overfit同步小助手 2023-03-01 12:04:09 0 收藏

【SQL开发实战技巧】系列（三）：SQL排序的那些事

如何以指定的单列或多列顺序返回查询结果、通过translate函数替换字符串、如何根据数字和字母混合字符串中的字母排序以及空值排序。【SQL开发实战技巧】这一系列博主当作复习旧知识来进行写作，毕竟SQL开发在数据分析场景非常重要且基础，面试也会经常问SQL开发和调优经验，相信当我写完这一系列文章，也

overfit同步小助手 2023-02-28 20:04:05 0 收藏