big data - overfit.cn

数据分析Power BI案例：产品与客户销售数据分析

本节课我们以产品与销售数据表.xlsx文件作为数据源，实现一个简单的Power BI项目打开Power BI Desktop，从登录界面或文件选项选择“获取数据”，选择从“Excel”导入，点击连接，找到产品与销售数据表.xlsx文件并打开。选中两个sheet表，然后点击加载数据。ctrl+s保存为

overfit同步小助手 2023-03-29 01:04:52 0 收藏

Mysql高频面试题（后端大数据面试必备）

个人在面试中被问到以及收集网上的高频Mysql面试题，希望可以帮助到备战求职的同学。

overfit同步小助手 2023-03-29 00:04:15 0 收藏

flink中的时间属性

1：时间的几种类型（官网概念）1.1处理时间指的是执行具体操作时的机器时间（大家熟知的绝对时间, 例如 Java的 System.currentTimeMillis()) ）1.2事件事件指的是执行具体操作时的机器时间（大家熟知的绝对时间, 例如 Java的 System.currentTimeMi

overfit同步小助手 2023-03-28 23:05:38 0 收藏

vue大数据表格解决方案的比较

关于大数据表格的比较，包含了Ant Design、Surley Vue、vxe-table、Ag Grid等框架。

overfit同步小助手 2023-03-28 23:05:11 0 收藏

13张图让你百分百掌握kafka副本同步限流机制

文章目录不同Broker之间副本同步限流各种情况的限流情况Leader 限流 Follower不限流结论Leader不限流 Follower限流同Broker跨目录同步限流如何手动设置限流设置相关配置属性如何设置合理的限流值呢？大家好,我是石臻臻上周我们分别讲解了《Kafka分区副本同步限

overfit同步小助手 2023-03-28 21:05:26 0 收藏

通过 SMOTE 及其变体过采样处理不平衡数据

在这篇文章中，我将解释使用 SMOTE、SVM SMOTE、BorderlineSMOTE、K-Means SMOTE 和 SMOTE-NC 进行过采样/上采样。我将通过一个实际示例进行解释，在该示例中我们应用这些方法来解决不平衡的机器学习问题，以了解它们的影响。

overfit同步小助手 2023-03-28 19:05:00 0 收藏

❤️ 万字Python MySQL从入门到精通详细教程❤️ 再也不用担心学不会数据库了❤️

文章目录前言按顺序教程如下：0、SQL详细教程一、Python MySQL入门连接基本环境准备连接二、Python MySQL创建表创建数据库检查数据库是否存在解锁新教程！三、Python MySQL插入表四、Python MySQL选择五、Python MySQL查询在哪里（where）六、pyt

overfit同步小助手 2023-03-28 19:04:43 0 收藏

大数据复试面试问题总结（一）

前沿技术的相关知识，包含与大数据相交叉的学科

overfit同步小助手 2023-03-27 12:04:08 0 收藏

深入浅出理解什么是HTAP

关于HTAPHTAP（Hybrid Transactional/Analytical Processing）混合事务 / 分析处理。这里的HTAP就是常见的比较经典的OLAP和OLTP的处理场景的结合体。即可解决OLTP在线事务处理场景，还可以解决OLAP在线分析场景。Gartner也认为HTAP数

overfit同步小助手 2023-03-23 21:05:01 0 收藏

目前常用心电数据库ECG：MITBIH,AHA,CSE,ST-T,PTB,PAF 详细介绍+下载

首先声明是转载的文章，原文指路：https://blog.csdn.net/zsg2063/article/details/76615924担心原文链接失效，所以这里自己复制了一份。一、四大数据库概述目前国际上最重要的，具有权威性的心电数据库有四个：美国麻省理工学院与Beth Israel医院联合建

overfit同步小助手 2023-03-23 21:04:55 0 收藏

ES集群状态检查报错：master_not_discovered_exception 503错误

一、故障描述在完成ES集群部署，启动后，执行ES集群状态检查发现，集群报错503错误，如下所示：环境：Elasticsearch 7.0.1；JDK版本1.8.0_211二、处理过程1、修改elasticsearch.yml将cluster初始化节点，三个都全写上。修改cluster.initial

overfit同步小助手 2023-03-23 19:05:26 0 收藏

浅谈云计算和大数据

云计算和大数据是相辅相成关系，从应用角度来讲，大数据离不开云计算，因为大规模的数据运算需要很多计算资源；大数据是云计算的应用案例之一，云计算是大数据的实现工具之一。大数据大数据技术是一种新一代技术和构架，以快速的采集、处理和分析技术，从各种超大规模的数据中提取价值。大数据涉及到数据的采集、整理、存储

overfit同步小助手 2023-03-16 08:04:14 0 收藏

大数据技术之HBase（一）HBase简介、HBase快速入门、HBase进阶

文章目录1 HBase 简介1.1 HBase 定义1.2 HBase 数据模型1.2.1 HBase 逻辑结构1.2.2 HBase 物理存储结构1.2.3 数据模型1.3 HBase 基本架构2 HBase 快速入门1.2.3 自定义存储 offset1.3 自定义 Interceptor1.3

overfit同步小助手 2023-03-04 08:04:17 0 收藏

一文搞懂什么是数据仓库(Data Warehouse)数据仓库与数据库区别有哪些？什么是元数据？

前期回顾：⼤数据是如何产⽣的？大数据的特点是什么？什么是埋点？如何进行数据埋点？【超详细介绍】对于这么多种类，这么大体量的数据是如何存储的呢？所以数据仓库就应景而生了。目录数据仓库（数据是如何存储的）1 什么是数据仓库？2 数据仓库解决什么问题？3 数据仓库的主要特征4 数据仓库与数据库区别5 数据

overfit同步小助手 2023-03-03 23:04:08 0 收藏

4种数据仓库建模方法

数据仓库建模方法，维度建模，ER模型

overfit同步小助手 2023-03-03 10:04:07 0 收藏

数据倾斜的原因及解决方案

一、什么是数据倾斜及数据倾斜是如何产生的数据倾斜的根本原因是数据的key分布不均，个别key数据很多，超出了计算节点的计算能力的结果；过程：数据经过 map后，由于不同key 的数据量分布不均，在shuffle 阶段中通过 partition 将相同的 key 的数据打上发往同一个 reducer

overfit同步小助手 2023-02-23 15:04:25 0 收藏

Hadoop史诗级入门详解

Hadoop最详细的入门讲解

overfit同步小助手 2023-02-23 13:04:10 0 收藏

程序员必备APP

我在IT界摸爬滚打的也挺长时间了，我看见了挺多的人都想要进入这个行业，之前就有一个小姑娘来问我，如果想要成为程序员的话，需要使用什么软件，学会什么技能，今天我就就着这个话题给大家分享一下，程序员应该知道的一些应用，给各位一个小小的参考。亿图图示一款跨平台综合办公绘图软件，这款软件拥有大量的免费符

overfit同步小助手 2023-02-19 22:02:48 0 收藏

Scala编程实战 —— 一文学会编码大数据基础案例wordcount

使用scala编写代码实现spark的基础案例 WordCountwordcount是所有大数据框架都基本要做的案例，使用scala编写的wordcount代码对比hadoop更简洁更易写这主要是对scala集合中功能函数的熟悉与使用

overfit同步小助手 2023-02-11 11:04:12 0 收藏

impala入门（一篇就够了）

Impala是一个MPP（大规模并行处理）SQL查询引擎，是一个用C ++和Java编写的开源软件；用于处理存储在Hadoop集群中大量的数据；性能最高的SQL引擎（提供类似RDBMS的体验），提供了访问存储在Hadoop分布式文件系统中的数据的最快方法。

overfit同步小助手 2023-02-10 18:04:28 0 收藏