大数据 - overfit.cn

【头歌】Sqoop数据导出 - 详解

【主要内容】Sqoop数据导出语法学习；HDFS数据导出至Mysql内；Hive数据导出至MySQL中。【实践内容】Sqoop数据导出语法实践与详解。

overfit同步小助手 2023-12-29 18:03:45 0 收藏

【Hive】——函数

hive 常见函数，UDF 自定义函数，explode 函数，Lateral view 侧视图，增强聚合函数，窗口函数，

overfit同步小助手 2023-12-29 18:03:40 0 收藏

大数据企业如何使用IP代理进行数据抓取

IP代理是一种通过代理服务器来访问互联网的技术。当用户使用代理服务器访问互联网时，用户的请求会被转发到代理服务器，然后由代理服务器向目标服务器发送请求，并将目标服务器的响应返回给用户。在这个过程中，用户的真实IP地址被隐藏在代理服务器的IP地址后面，从而保护用户的隐私和安全。本文介绍了大数据企业如何

overfit同步小助手 2023-12-29 16:03:57 0 收藏

Hive 浅析

Hive是一个简单的LUA沙盒，除了基本的LUA解释器的功能以外，还提供了诸如热加载等功能。了解HIVE的工作原理有利于了解Lua虚拟机的底层实现机理。本文从是什么-怎么用-为什么三个维度介绍HIVE。

overfit同步小助手 2023-12-29 16:03:35 0 收藏

Hive实战：词频统计

本次实战聚焦于利用Hive在大数据环境下进行词频统计。我们首先在master虚拟机创建文本文件`test.txt`，并将其上传至HDFS作为数据源。接着，启动Hive Metastore服务和客户端，创建外部表`t_word`以读取和处理HDFS中的文本数据。通过精心编写的Hive SQL语句，我们

overfit同步小助手 2023-12-29 16:03:31 0 收藏

大数据-之LibrA数据库系统告警处理（ALM-37014 Gaussdb进程锁文件已经存在）

发生数据库锁文件创建失败时，锁文件创建失败的实例可能无法启动，集群将无法正常启动。当集群中的CN实例或者DN实例锁文件创建失败时，产生该告警。系统数据实例异常终止，导致系统中存在锁文件残留。

overfit同步小助手 2023-12-29 16:03:16 0 收藏

pyspark常用语法（含pandas对比）

2.遇到的错误初步解决办法是关闭spark重启或将自定义udf放到函数里面去，我也不太理解这个问题pandas、pyspark、spark相互转换，语法对比（超详细）python spark 求dataframe一列的max，min，medianpython spark 纵向合并多个Datafame

overfit同步小助手 2023-12-29 15:03:48 0 收藏

Python大数据之PySpark(六)RDD的操作

📢博客主页：https://manor.blog.csdn.net📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正！📢本文由 Maynor 原创，首发于 CSDN博客🙉📢感觉这辈子，最深情绵长的注视，都给了手机⭐📢专栏持续更新,欢迎订阅：https://blog.csdn.net/

overfit同步小助手 2023-12-29 14:03:50 0 收藏

广州Y行信用卡中心大数据部数据开发岗笔试题

- 未排序，直接提取原表逻辑结构前10条记录。B.S.S#=SC.S# AND C.C#=SC.C# AND S.SEX IN '男' AND C.CNAME IN '数据库';A.S.S#=SC.S# AND C.C#=SC.C# AND S.SEX='男' AND C.CNAME='数据库';注

overfit同步小助手 2023-12-29 10:03:47 0 收藏

2023_Spark_实验二十七：Linux中Crontab（定时任务）命令详解及使用教程

通过crontab+shell，来模拟产生实时点击流数据，实现秒级数据产生，得到每5秒一条记录数据。

overfit同步小助手 2023-12-29 09:03:47 0 收藏

从实际业务问题出发去分析Eureka-Server端源码

Eureka-Server端源码解析

overfit同步小助手 2023-12-29 09:03:13 0 收藏

Flink Job 执行流程

模式【1】；生成，然后转化为JobGraph；【2】依次启动三者都服从分布式协同一致的策略；将JobGraph转化为，然后转化为物理执行任务Execution，然后进行deploydeploy过程会向请求slot，如果有直接deploy到对应的的slot里面，没有则向Yarn的申请，带contain

overfit同步小助手 2023-12-29 08:03:21 0 收藏

【详解】Spark数据倾斜问题由基础到深入详解-完美理解-费元星

spark hive数据倾斜，一文从浅到深，完美理解和解决

overfit同步小助手 2023-12-29 07:03:41 0 收藏

hive beeline参数及示例用法

beeline 是一个用于连接 HiveServer2 的命令行工具。

overfit同步小助手 2023-12-29 05:03:14 0 收藏

RabbitMQ笔记

队列是一种特殊的线性表，特殊之处在于它只允许在表的前端（front)进行删除操作，而在表的后端（rear)进行插入操作，和栈一样，队列是一种操作受限制的线性表。延迟队列，最重要的特性就体现在它的延时属性上，跟普通队列不一样的是，普通队列中的元素总是等着希望被早点取出消费，而延迟队列中的元素则是希望在

overfit同步小助手 2023-12-29 04:03:47 0 收藏

HIVE 中INSERT INTO 和 INSERT OVERWRITE 的区别，以及OVERWRITE哪些隐藏的坑

HIVE 中INSERT INTO 和 INSERT OVERWRITE 的区别，以及 overwrite 在分区表和非分区表中使用时的注意事项。

overfit同步小助手 2023-12-29 04:03:39 0 收藏

Flink快速部署集群，体验炸了！

Apache Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。

overfit同步小助手 2023-12-29 03:03:47 0 收藏

【Spark源码分析】Spark的RPC通信二-初稿

Spark的RPC通信

overfit同步小助手 2023-12-29 03:03:32 0 收藏

大数据 | 实验一：大数据系统基本实验 | 熟悉常用的HBase操作

1）理解 HBase 在 Hadoop 体系结构中的角色。2）熟练使用 HBase 操作常用的 shell 命令。3）熟悉 HBase 操作常用的 Java API。

overfit同步小助手 2023-12-29 00:03:27 0 收藏

Flink SQL -- 命令行的使用

在flink 的流处理中，使用distinct，flink需要将之前的数据保存在状态中，如果数据一直增加，状态会越来越大状态越来越大，checkpoint时间会增加，最终会导致flink任务出问题。当一段SQL语句在被多次使用的时候，就将通过with给这个SQL起一个别名，类似于封装起来，就是为这

overfit同步小助手 2023-12-28 22:03:35 0 收藏