大数据 - overfit.cn

开窗函数的使用详解(窗口范围ROWS与RANGE图文详解)

开窗函数，窗口范围ROWS与RANGE

overfit同步小助手 2023-06-05 08:03:45 0 收藏

调整virtualbox虚机硬盘大小，硬盘扩容

virtualbox硬盘扩容磁盘扩容虚拟分配空间变成实际分配空间

overfit同步小助手 2023-06-05 08:03:40 0 收藏

ZooKeeper（一）：基础介绍

ZooKeeper 是一个分布式的，开放源码的分布式应用程序协同服务。ZooKeeper 的设计目标是将那些复杂且容易出错的分布式一致性服务封装起来，构成一个高效可靠的原语集，并以一系列简单易用的接口提供给用户使用。这篇文章主要介绍了ZooKeeper 的基本概念、发展历史和应用场景，并详细介绍了Z

overfit同步小助手 2023-06-05 07:04:00 0 收藏

大白话聊聊“深度学习”和“大模型”

非人工智能专业也能读得懂的大白话~

overfit同步小助手 2023-06-05 07:03:37 0 收藏

2023年JAVA集成调用Kettle示例

依赖的jar包以pom的形式引入，有诸多版本，如果与kettle的版本不匹配则会调用失败。因为在java代码里会初始化插件来执行任务，查看插件版本9.0.0.0-423.仓库镜像地址：<repository> <id>pentaho-public</id>

overfit同步小助手 2023-06-05 06:04:10 0 收藏

Kafka 消息过期策略（时间相关参数）

retention.ms=1小时的毫秒数,delete.retention.ms=7天的毫秒数,segment.ms=7天的毫秒数。在这种配置下，retention.ms=1小时的毫秒数生效，kafka offset中数据已经不可见，flink也无法消费到数据。在新建topic的时候附加 ret

overfit同步小助手 2023-06-05 06:04:01 0 收藏

K8S集群搭建(多master多node节点)

也可以自己创建kubeadm-config.yaml 文件，我这里选择自己创建kubeadm-config.yaml。集群中的所有机器的网络彼此均能相互连接(公网和内网都可以)节点之中不可以有重复的主机名，CentOS 7.9 每台机器 2 GB 或更多的 RAM内存2 CPU 核或更多。从work

overfit同步小助手 2023-06-05 06:03:54 0 收藏

【i阿极送书——第三期】《Hadoop大数据技术基础与应用》

本书由浅入深地介绍了Hadoop技术生态的重要组件，让读者能够系统地了解大数据相关技术。第1章主要从整体上介绍了Hadoop大数据技术，并搭建Hadoop运行环境。

overfit同步小助手 2023-06-05 04:03:41 0 收藏

Hadoop之Hive的安装配置（详细步骤）

配置前准备下载apache-hive-2.1.1-bin.tar.gz安装包并上传到XShell在XShell上解压

overfit同步小助手 2023-06-05 02:03:50 0 收藏

【消息队列】聊一下如何避免消息的重复消费

Kafak重复消费如何解决

overfit同步小助手 2023-06-05 02:03:43 0 收藏

SpringBoot: RabbitMQ消息队列之同时消费多条消息

prefetchSize：可接收消息的大小prefetchCount：处理消息最大的数量。global：是不是针对整个Connection的，因为一个Connection可以有多个Channel，如果是false则说明只是针对于这个Channel的。

overfit同步小助手 2023-06-04 22:03:49 0 收藏

【kafka 监控】Kafka_exporter+prometheus 监控kafka数据

通过Prometheus的查询和可视化功能，您可以对Kafka集群进行监控和管理，以保证Kafka集群的稳定性和高可用性。您可以在Kafka_exporter的官方网站（https://github.com/danielqsj/kafka_exporter/releases）上下载最新版本的Kafk

overfit同步小助手 2023-06-04 19:03:30 0 收藏

了解CDN

了解cdn

overfit同步小助手 2023-06-04 18:03:44 0 收藏

python与大数据

例如，NumPy库和SciPy库可以用于科学计算和数据分析，Pandas库可以用于数据的清洗、切片和统计分析，Matplotlib库和Seaborn库可以用于数据的可视化等。例如，Python中的SQLite库可以用于轻量级的关系型数据库，MongoDB库可以用于NoSQL数据库，而Hadoop库可

overfit同步小助手 2023-06-04 15:03:55 0 收藏

快速生成 MySQL 数据库关系图

需求描述：快速生产关系型数据库表关系ER图在公司老旧系统里，数据库表很多，但是在设计之初并没有建立好关系图，导致新人刚入职,面对N个库，每个库几百张表，很不方便。例如：公司某一个系统的库有三百张表，在不熟悉项目的情况下，打开数据库看到一列列的表，很不清晰，对新入职同事很不友好。...

overfit同步小助手 2023-06-04 14:03:31 0 收藏

基于Hadoop搭建Flink集群详细步骤

overfit同步小助手 2023-06-04 13:03:44 0 收藏

大数据面试八股文之 hive 篇

网上大数据开发工程师的面试题相对较少，且比较杂乱分散，有的甚至没有答案。为了广大数据人着想，总结了大数据面试题hive篇，并给出答案，希望能有所帮助。

overfit同步小助手 2023-06-04 12:03:42 0 收藏

linux安装zookeeper

overfit同步小助手 2023-06-04 11:03:40 0 收藏

实操-rapidminer进行关联分析、分类预测（使用相关算子，全流程讲解）

overfit同步小助手 2023-06-04 11:03:37 0 收藏

大数据Doris（二十一）：Bloom Filter索引以及Doris索引总结

Doris BloomFilter索引的创建是通过在建表语句的PROPERTIES里加上"bloom_filter_columns"="k1,k2,k3",这个属性，k1,k2,k3是你要创建的BloomFilter索引的Key列名称，例如下面我们对表里的saler_id,category_id创建

overfit同步小助手 2023-06-04 10:03:37 0 收藏