大数据 - overfit.cn

大数据--pyspark远程连接hive

上一篇文章介绍了python连接hive的过程，通过地址+端口号访问到hive并对hive中的数据进行操作，这一篇文章介绍一下怎么通过windows本地pyspark+本地部署好的spark+远程虚拟机的hive，完成本地pyspark对hive的访问。一.环境介绍(1)关于pyspark这个是之前

overfit同步小助手 2023-04-23 10:03:38 0 收藏

xgboost缺失值处理

xgb作为常用的集成模型之一，几乎是风控面试的必考点，其中一个特点是可自行处理缺失值、简化了我们数据的处理流程，那么xgb在训练和预测时是如何处理缺失值的呢？

overfit同步小助手 2023-04-23 09:03:53 0 收藏

ES数据迁移_snapshot（不需要安装其他软件）

是需要备份的索引名称。

overfit同步小助手 2023-04-23 09:03:44 0 收藏

宝塔PHP安装amqp扩展

overfit同步小助手 2023-04-23 09:03:41 0 收藏

2023MathorCup数学建模比赛的思路汇总帖

选题指导已更新，速看！后续会出各题详细思路及代码！这里是小云的2023MathorCup数学建模比赛的思路汇总帖，比赛开始后将实时更新~竞赛共4道题目（A题、B题、C题和D题）此次比赛和往常一样，想要交流的同学可以在加群进来一起讨论。竞赛共4道题目（A题、B题、C题和D题）

overfit同步小助手 2023-04-23 05:04:09 0 收藏

Hadoop大数据技术-通过shell命令访问HDFS

通过shell命令访问HDFS

overfit同步小助手 2023-04-23 05:03:42 0 收藏

云计算与大数据第三章云存储练习题及答案

然而数据备份作业之间的间隔不能也不能太长，在两次备份之间发生意外，数据的丢失量太大对于一些重要的信息系统是不可接受的。备份数据的恢复时间直接关系到容忍业务停止服务的最长时间，当备份数据量较大或者备份策略比较复杂时，备份数据往往需要较长的恢复时间。在云存储系统中，副本管理机制的主要内容包括（副本部署）

overfit同步小助手 2023-04-23 04:03:46 0 收藏

乡村振兴研究：全网最全指标农村经济面板数据（2000-2021年）

overfit同步小助手 2023-04-23 04:03:41 0 收藏

Linux中快速搭建RabbitMQ

RabbitMQ是一个开源的AMQP实现，服务端用Erlang语言编写，支持多种客户端。用于在分布式系统存储转发消息，在易用性、扩展性、高可用性等方面表现不俗。RabbitMQ会绑定一些端口，安装完后，需要将这些端口添加至防火墙。4369：Erlang的端口/节点名称映射程序，用来跟踪节点名称监听地

overfit同步小助手 2023-04-23 02:04:04 0 收藏

flink mysql cdc调试问题记录

最近需要用到flink cdc作为数据流处理框架，在demo运行中发现一些问题，特此记录问题和解决过程。

overfit同步小助手 2023-04-23 00:03:47 0 收藏

Springboot集成kafka(环境搭建+演示)|超级详细，建议收藏

上一期，我是带着大家入门了SpringBoot整合WebSocket，今天我再来一期kafka的零基础教学吧。不知道大家对kafka有多少了解，反正我就是从搭建开始，然后再加一个简单演示，这就算是带着大家了个门哈，剩下的我再后边慢慢出教程给大家说。/**log . info("topic.group

overfit同步小助手 2023-04-23 00:03:40 0 收藏