大数据 - overfit.cn

大数据-玩转数据-Flink Python作业开发

这里我们用了刚才提到的 named function 的方式定义一个 ip_to_province() 的UDF，输入是 ip 地址，输出是地区名字字符串。我们这里描述了输入类型是一个字符串，输出类型也是一个字符串。当然这里面的查询服务仅供演示，大家在自己的生产环境要替换为可靠的地域查询服务。for

overfit同步小助手 2023-05-25 01:04:21 0 收藏

仓库库存管理系统：目的、开发和使用

在讨论仓库库存管理软件的必要性之前，有必要从基础开始：什么是库存管理以及它与仓库控制的概念区别。库存管理（库存管理或库存控制）是获取、存储、分配和跟踪库存以优化存储空间和成本的系统方法。所有这些都直接影响履行、运输和客户体验。无论您是在制造过程中使用原材料，还是将零件和成品运送出去——库存管理随时处

overfit同步小助手 2023-05-25 01:04:01 0 收藏

Flink第一章实时计算引擎

Flink是一个针对流数据和批数据的分布式处理引擎，代码主要是由java实现，部分代码是scala。它可以处理有界的批量数据集，也可以处理无界的实时数据集。其所要处理的主要场景就是流数据、批数据只是流数据的一个极限特例而已，所以Flink也是一款真正的流批流一的计算引擎。

overfit同步小助手 2023-05-24 23:03:59 0 收藏

Flink第一章:环境搭建

Flink也是现在现在大数据技术中火爆的一门,反正大数据的热门技术学的也差不多了,啃完Flink基本的大数据技术就差不多哦学完了.Flink是做数据实时分析必不可少的技术,也要学习.

overfit同步小助手 2023-05-24 22:04:22 0 收藏

每天一道大厂SQL题【Day22】华泰证券真题实战(四)

大家好，我是Maynor。相信大家和我一样，都有一个大厂梦，作为一名资深大数据选手，深知SQL重要性，接下来我准备用100天时间，基于大数据岗面试中的经典SQL题，以每日1题的形式，带你过一遍热门SQL题并给出恰如其分的解答。一路走来，随着问题加深，发现不会的也愈来愈多。但底气着实足了不少，相信不少

overfit同步小助手 2023-05-24 22:04:03 0 收藏

【头歌】Sqoop数据导入 - 详解

【主要内容】Sqoop数据导入语法学习；Mysql导入数据至HDFS上；Mysql导入数据至Hive中。【实践内容】全过程解析及部分异常处理办法。

overfit同步小助手 2023-05-24 21:03:55 0 收藏

Hive本地模式安装（详细）

本地模式安装采用外部数据库存储元数据，该模式不需要单独开启Metastore服务，因为本地模式使用的是和Hive在同一个进程中的Metastore服务。

overfit同步小助手 2023-05-24 20:04:22 0 收藏

快来参与：2023全国大数据与计算智能挑战赛正在报名中

2023全国大数据与计算智能挑战赛正在火热报名中，欢迎全国各工业部门、科研院所、高校、民营企业的业内优势团队踊跃报名！

overfit同步小助手 2023-05-24 19:04:44 0 收藏

Hadoop大数据技术原理与应用课后习题答案汇总

Hadoop大数据技术原理与应用

overfit同步小助手 2023-05-24 19:04:16 0 收藏

mysql cdc 整库迁移 (mysql to mysql)

使用 flink cdc 和 jdbc catalog 进行整库迁移

overfit同步小助手 2023-05-24 19:04:09 0 收藏

ODPS 之SQL

SQL语法

overfit同步小助手 2023-05-24 19:04:03 0 收藏

ElasticSearch多数据源配置，连接多个ES集群

项目中使用后Transport Client连接ES，Transport Client是Elasticsearch原生的api，TransportClient可以支持2.x，5.x版本，TransportClient将会在Elasticsearch 7.0弃用并在8.0中完成删除，因此高版本不推荐此

overfit同步小助手 2023-05-24 18:04:32 0 收藏

大数据Doris（六）：BE部署及启动

将资料中的"apache-doris-dependencies-1.2.1-bin-x86_64.tar.xz"进行解压，将其中"java-udf-jar-with-dependencies.jar"，将此jar包放入"/software/doris-1.2.1/apache-doris-be/li

overfit同步小助手 2023-05-24 17:04:05 0 收藏

数据清洗是什么？如何进行数据清洗？

数据清洗包括去除重复数据、填补缺失值、处理异常值和转换数据格式等操作，以提高数据的准确性和可靠性。数据清洗通常是数据处理过程的一个必要步骤，它可以消除数据错误和噪声，并提高分析和建模的精度。总之，数据清洗是数据治理不可或缺的一环，它对于数据质量和准确性有着至关重要的影响。在实践中，数据清洗需要根据具

overfit同步小助手 2023-05-24 17:03:56 0 收藏

beeline连接hive的导出数据格式的参数及设置

overfit同步小助手 2023-05-24 17:03:42 0 收藏

Pyecharts快速入门

使用工具：PycharmPython3.9Pyechartspyecharts官网https://pyecharts.org/#/zh-cn/changelog一、PyEcharts介绍1.1、版本区分V0.5x版本不再进行维护。仅支持python2.7、3.4+V1.0x版本仅支持python3.

overfit同步小助手 2023-05-24 16:04:50 0 收藏

Windows下的RabbitMq安装（图文教学）

RabbitMQ服务端代码是使用并发式语言Erlang编写的，安装Rabbit MQ的前提是安装Erlang （ https://www.erlang.org/downloads ）。同时，在安装RabbitMQ 时需要注意RabbitMQ 与Erlang的对应版本，防止安装过程中出错。一般情况下，

overfit同步小助手 2023-05-24 14:04:10 0 收藏

hadoop之hdfs生产数据块损坏修复方法

overfit同步小助手 2023-05-24 13:04:15 0 收藏

zookeeper超详细安装集群部署

进入zookeeper配置文件给配置文件重命名为zoo.cfg配置文件介绍。

overfit同步小助手 2023-05-24 13:04:05 0 收藏

ETL工具 - Kettle 介绍及基本使用

在介绍Kettle前先了解下什么是ETLETL是的缩写，即数据抽取、转换、装载的过程，对于企业或行业应用来说，经常会遇到各种异构数据的处理、转换、迁移等操作，这些操作有可能会面对大量的数据和繁琐的步骤，因此就萌生了一些ETL处理工具，市面上常见的ETL工具有很多，比如等，本篇文章就主要来介绍下Ket

overfit同步小助手 2023-05-24 12:04:16 0 收藏