大数据 - overfit.cn

大数据 │ ECharts与pyecharts数据可视化应用

通过本篇了解ECharts与pyecharts数据可视化的特点，能实现简单的ECharts与pyecharts数据可视化操作。

overfit同步小助手 2023-02-10 05:04:09 0 收藏

【湖仓一体化】存OR算之争？SPL 我都要

【湖仓一体化】存or算之争？spl我都要什么是湖仓一体？它和数据仓库、数据湖的关系是什么？为什么要用一体来形容呢

overfit同步小助手 2023-02-10 05:04:06 0 收藏

Docker篇之启动容器

区别：用户既可以使用 docker load 来导入镜像存储文件到本地镜像库，也可以使用 docker import 来导入一个容器快照到本地镜像库。这两者的区别在于容器快照文件将丢弃所有的历史记录和元数据信息（即仅保存容器当时的快照状态），而镜像存储文件将保存完整记录，体积也要大。可以使用 doc

overfit同步小助手 2023-02-10 05:04:03 0 收藏

学完了Hadoop，我总结了这些重点

大数据生态圈中最基础、最重要的组件。大数据小菜鸟迈出的第一步！

overfit同步小助手 2023-02-10 05:04:00 0 收藏

【ES小结】还在用ElasticSearch做查询？换条思路实现高效数据统计

聚合是ES除搜索功能外提供的针对ES数据做统计分析的功能，聚合有助于根据搜索查询提供聚合数据，聚合查询是数据库中重要额功能特性，ES作为搜索引擎兼数据库，同样提供了强大的聚合分析功能力，它是基于查询条件来对数据进行分桶、计算的方法，这种很类似与SQL中的group by再加上一些函数方法的操作。在了

overfit同步小助手 2023-02-10 05:03:47 0 收藏

＜JDBC＞批量插入的四种实现方式：你真的get到了吗？

【包含了：批量插入的四种实现方式】

overfit同步小助手 2023-02-10 05:03:44 0 收藏

大数据ClickHouse进阶（六）：Distributed引擎深入了解

Distributed引擎和Merge引擎类似，本身不存放数据,功能是在不同的server上把多张相同结构的物理表合并为一张逻辑表。注意：创建分布式表是读时检查的机制，也就是说对创建分布式表和本地表的顺序并没有强制要求。有了分布式表之后，我们就可以向分布式表中插入数据，那么分布式表会根据配置的sha

overfit同步小助手 2023-02-10 05:03:40 0 收藏

Docker更改镜像源

根据提示修改或添加/etc/docker/daemon.json文件。不同的系统有不同的操作。注册一个阿里云用户,访问 https://cr.console.aliyun.com/#/accelerator 获取专属Docker加速器地址。出现这种问题一般是/etc/docker/daemon.js

overfit同步小助手 2023-02-10 04:04:20 0 收藏

CDH大数据平台 14Cloudera Manager Console之flume安装和配置(markdown新版)

flume配置，数仓必备采集数据工具

overfit同步小助手 2023-02-10 04:04:15 0 收藏

【数据库】03——初级开发需要掌握哪些SQL语句

SQL语言是一种“查询语言”，但除了查询数据库，他还有很多功能：定义数据结构、修改数据库中数据以及定义安全性约束，学习SQL重点不是学习整个完整的用户手册，而是其基本结构和概念，工作中入门SQL，看这篇就足够了。

overfit同步小助手 2023-02-10 04:04:12 0 收藏

Hudi源码|bootstrap源码分析总结（写Hudi）

利用Hudi Bootstrap转化现有Hive表的parquet/orc文件为Hudi表本文简单的对Hudi bootstrap的一些关键的源码逻辑进行了分析，希望能对大家有所帮助。限于精力及能力的原因，有些地方可能不够深入，或者不对的地方，还请大家多多指正，让我们共同进步。

overfit同步小助手 2023-02-10 04:04:08 0 收藏

【云原生】设备云之内外组织与管理

内部组织指登入系统的用户所属的组织即为内部组织。作为超级管理员的身份登入系统，内部组织的根节点组织，已经由租户的申请人员提供的公司信息自动填入，可以修改，无法删除。

overfit同步小助手 2023-02-10 04:04:04 0 收藏

使用Mongoose populate实现多表关联存储与查询，内附完整代码

和普通的属性不同的是，我们需要指定引用属性的类型和引用的模型名称。这里有一个不符合常理的地方，就是我在这里把故事的作者设为了故事的粉丝~~方便的将多个表关联起来，实现一对多、多对多的数据表存储和查询功能。本文已最常见的一对多关系模型，介绍简单的数据模型定义、存储、查询。如果学习过关系型数据库的同学，

overfit同步小助手 2023-02-10 04:04:02 0 收藏

高效掌握JDBC技术（二）| 掌握ORM思想 | 定义连接数据库的工具类

🔥前言上文讲了JDBC连接数据库的六大步，成功完成了对数据库的修改的读取。那么今天就来学习一下ORM思想，理解面向对象语言与关系型数据库之间的映射关系，学习把连接数据库的方法定义到一个工具类中从而减少重复代码的书写。...

overfit同步小助手 2023-02-10 04:03:58 0 收藏

ES查看集群信息(健康状态、分片、索引等)

查看ES的集群信息，如：健康状态、分片、索引等

overfit同步小助手 2023-02-10 04:03:55 0 收藏

物联网协议概述

CoAP&MQTT 协议概述

overfit同步小助手 2023-02-10 04:03:52 0 收藏

消息队列｜RabbitMQ入门概述

在互联网架构中，MQ 是一种非常常见的上下游“逻辑解耦+物理解耦”的消息通信服务。使用了 MQ 之后，消息发送上游只需要依赖 MQ，不用依赖其他服务。MQ多用于分布式系统之间进行通信。有一个大的系统由A系统和B系统组成，A系统先将数据发送给MQ，然后MQ将数据发送给B系统，实现A系统和B系统之间的数

overfit同步小助手 2023-02-10 04:03:43 0 收藏

湖仓一体电商项目（八）：业务实现之编写写入ODS层业务代码

以上两个方面中第一个方面需要再Hive中预先创建对应的Iceberg表，才能写入，第二个方面不好分辨topic“KAFKA-DB-BUSSINESS-DATA”中哪些binlog数据是事实数据哪些binlog是维度数据，所以这里我们在mysql 配置表“lakehousedb.dim_tbl_con

overfit同步小助手 2023-02-10 04:03:40 0 收藏

【云原生 | 27】Docker部署运行开源消息队列实现RabbitMQ

AMQP架构中有两个主要组件：Exchange和Queue，两者都在服务端，又称Broker，由RabbitMQ实现的。客户端通常有Producer和Consumer两种类型

overfit同步小助手 2023-02-10 04:03:37 0 收藏

esProc SPL为何备受青睐，Hadoop Spark 太重？

Hadoop Spark 太重，esProc SPL 很轻

overfit同步小助手 2023-02-10 03:04:22 0 收藏