大数据 - overfit.cn

Hadoop/Hive/Spark小文件处理

小文件指的是文件size比HDFS的block size小很多的文件。Hadoop适合处理少量的大文件，而不是大量的小文件。首先，在HDFS中，任何block，文件或者目录在内存中均以对象的形式存储，每个对象约占150byte，如果有1000 0000个小文件，每个文件占用一个block，则name

overfit同步小助手 2023-06-22 09:04:40 0 收藏

Debezium系列之：把多张表的数据分发到同一个Kafka Topic，同一张表的数据始终进入Topic相同分区

overfit同步小助手 2023-06-22 09:04:37 0 收藏

springCloud之Eureka之负载均衡Ribbon

说完了注册中心Eureka，虽然Eureka可以实现服务的发现和调用，但在微服务体系中，服务的发现和调用往往是需要伴随着负载均衡这个概念一体的。而在SpringCloud中自然也存在着与Eureka配套的负载均衡组件，也就是Ribbon组件。Spring Cloud Ribbon是基于Netflix

overfit同步小助手 2023-06-22 09:04:07 0 收藏

可视化——Superset安装与部署

Superset入门，概念、安装与部署

overfit同步小助手 2023-06-22 08:04:25 0 收藏

内存大数据

1.经过多年的发展，Hadoop生态系统不断完善和成熟，目前已经包含多个子项目，其中YARN的主要功能是？A.负责集群资源调度管理的组件B.分布式并行编程模型C.分布式海量日志采集、聚合和传输系统D.数据仓库工具正确答案：A2.[单选题]大数据时代,数据使用的关键是?A.数据收集B.数据存储C.数据

overfit同步小助手 2023-06-22 07:04:08 0 收藏

elasticSearch 设置用户名密码 && 查询

添加角色接口为：POST /_xpack/security/role/{}]}'{}}pretty'{"all"],{"*"],"all"]}],"elastic"],}}}添加用户接口为：POST/_xpack/security/user/pretty'注：这里要注意的是用户密码最好不要有"$"

overfit同步小助手 2023-06-22 06:04:04 0 收藏

HBase单机版安装详细步骤

overfit同步小助手 2023-06-22 02:04:12 0 收藏

Kafka怎么保证数据不丢失，不重复

唯一例外的情况是，我们在程序中给原本做不同功能的两个consumer组设置 KafkaSpoutConfig.bulider.setGroupid的时候设置成了一样的groupid，这种情况会导致这两个组共享同一份数据，就会产生组A消费partition1，partition2中的消息，组B消费pa

overfit同步小助手 2023-06-22 02:03:45 0 收藏

Hadoop伪分布搭建完整步骤

hadoop伪分布搭建保姆级教程

overfit同步小助手 2023-06-21 23:04:16 0 收藏

IDEA连接HBase

【代码】IDEA连接HBase。

overfit同步小助手 2023-06-21 22:04:34 0 收藏

【软考高项笔记】第2章信息技术发展2.2 新一代信息技术及应用（★）

2.2 新一代信息技术及应用（★）

overfit同步小助手 2023-06-21 22:04:20 0 收藏

数学建模——时间序列预测（股价预测）

我们将数据划分为每15天为一个时间序列，对数据进行标准化，通过构建LSTM模型，激活函数使用selu并使用he_normal初始化，正则化使用l2正则化，训练网络，然后再测试集进行评估并评估模型的稳健性，模型比较稳定。然后，我们对数据进行归一化，分别使用线性模型和随机森林训练模型，在测试集进行评估，

overfit同步小助手 2023-06-21 21:04:36 0 收藏

芜湖，Tailscale 开源版本让你的 WireGuard 直接起飞~

原文链接???? https://fuckcloudnative.io/posts/how-to-set-up-or-migrate-headscale/目前国家工信部在大力推动三大运营商发展 IPv6，对家用宽带而言，可以使用的 IPv4 公网 IP 会越来越少。有部分地区即使拿到了公网 IPv4

overfit同步小助手 2023-06-21 21:04:27 0 收藏

Hive（3）

hive3

overfit同步小助手 2023-06-21 21:04:03 0 收藏

使用sqoop从Hive导出数据到MySQL

2、启动mysql：support-files/mysql.server start。8、数据可视化（前端）需求：Tom选修了哪些课程，对应的每门课程有多少学分。（课程信息：课程号kch，学号xh，课程名称kcmc，学分xf）kcxx。其次：使用sqoop从hdfs上将分析好的数据导出到mysql中

overfit同步小助手 2023-06-21 19:04:28 0 收藏

大数据Doris（三十七）：Spark Load导入HDFS数据

也可以在FE 节点“/software/doris-1.2.1/apache-doris-fe/log/spark_launcher_log”中查看执行日志，FE节点不一定在node1-node3哪台节点执行Spark ETL任务，执行任务的节点上才有以上日志路径，该日志默认保存3天。当Yarn中任

overfit同步小助手 2023-06-21 19:04:11 0 收藏

大数据：云平台，阿里云VPC创建，创建安全组，云服务器ECS，

overfit同步小助手 2023-06-21 18:03:51 0 收藏

配置hadoop集群常见报错汇总

从如上日志可以看出，本身data节点启动并无问题，但在与主节点通信时报“Problem connecting to server: hadoop0/192.168.2.130:49000”，之后持续重试。鉴于每次执行都要导入，建议直接在对应的/XXX/hadoop-xxx/etc/hadoop/ha

overfit同步小助手 2023-06-21 15:05:03 0 收藏

在MySQL执行查询时出现了慢查询情况，应该如何解决？

在MySQL执行查询时出现了慢查询情况，应该如何解决？MySQL是一种流行的关系型数据库管理系统，但在处理大量数据时，可能会出现慢查询问题。通过使用EXPLAIN命令、慢日志和监视工具等技术，可以诊断出导致MySQL慢查询问题的原因。优化措施包括创建索引、使用联合查询、优化数据库服务器配置、减少查询

overfit同步小助手 2023-06-21 15:04:47 0 收藏

【毕业设计】大数据睡眠数据分析与可视化 - python

🔥 Hi，大家好，这里是丹成学长的毕设系列文章！🔥 对毕设有任何疑问都可以问学长哦!这两年开始，各个学校对毕设的要求越来越高，难度也越来越大… 毕业设计耗费时间，耗费精力，甚至有些题目即使是专业的老师或者硕士生也需要很长时间，所以一旦发现问题，一定要提前准备，避免到后面措手不及，草草了事。为了

overfit同步小助手 2023-06-21 15:04:12 0 收藏