大数据 - overfit.cn

头歌 HBase（相关的五个实验）

overfit同步小助手 2023-03-30 05:05:00 0 收藏

flink-sql大量使用案例

本文是 flink sql 的一些使用案例，同时也包括了一些特殊用法展示。

overfit同步小助手 2023-03-30 05:04:56 0 收藏

Eureka之使用详解

Eureka

overfit同步小助手 2023-03-30 05:04:52 0 收藏

Kafka消息底层存储结构介绍

Kafka的底层消息存储架构

overfit同步小助手 2023-03-30 05:04:49 0 收藏

Kafka系列 - 06 Kafka 集群环境搭建（三台服务器）

hadoop-101 虚拟机的 IPADDR 的地址改为：192.168.38.23；hadoop-103 虚拟机的 hostname 的地址改为：hadoop103；kafka集群搭建，需要3台虚拟机环境，但是我目前只安装了一台虚拟机，因此还需要准备两台虚拟机环境，正常情况下应该再安装2台虚拟机，

overfit同步小助手 2023-03-30 05:04:45 0 收藏

【NLP】AI相关比赛汇总（2022）

主要查找的是国内的一些比赛平台。以往举办的一些平台不能够访问的，或者比赛列表中近年来没有相关比赛的就没有放上去。读者可以根据自己的喜好选择合适自己的平台进行学习和演练，好运哦。当然，以上平台也是从互联网中查找的也不一定全面，欢迎补充。......

overfit同步小助手 2023-03-30 05:04:42 0 收藏

数据湖系列文章

数据湖是一种在系统或存储库中以自然格式存储数据的方法，它有助于以各种模式和结构形式配置数据，通常是对象块或文件。数据湖的主要思想是对企业中的所有数据进行统一存储，从原始数据（源系统数据的精确副本）转换为用于报告、可视化、分析和机器学习等各种任务的目标数据。数据湖中的数据包括结构化数据（关系数据库数据

overfit同步小助手 2023-03-30 05:04:37 0 收藏

RabbitMQ，手动ACK情况下，消费消息的时候出现异常，如何手动ACK或NACK

@RabbitListener里的errorHandler（实际是RabbitListenerErrorHandler）的方式来处理，并把spring-amqp的版本提升到2.1.7以上，消息消费出现异常之后，进行手动的ack或者nack

overfit同步小助手 2023-03-30 05:04:33 0 收藏

Rabbitmq消息队列详解

overfit同步小助手 2023-03-30 04:05:27 0 收藏

Hive Lateral View + explode 详解

hive中的函数分为3类,UDF函数、UDAF函数、UDTF函数UDF：一进一出 UDAF:聚集函数，多进一出，类似于：count/max/min UDTF:一进多出,如explore()、posexplode()，UDTF函数的时候只允许一个字段百度explode()时，经常会出现lateral

overfit同步小助手 2023-03-30 04:05:21 0 收藏

linux 远程拷贝命令

一、scp命令 --远程拷贝文件Linux scp命令用于linux之间进行复制文件scp 是secure copy 的缩写，scp 是基于ssh登录来进行安全拷贝补充知识：ssh进行登陆ssh 用户名@IP地址scp优势：当服务器的磁盘变为read only system时，可以通过scp将文件移

overfit同步小助手 2023-03-30 04:05:18 0 收藏

Hive与HBase之间的区别和联系

首先要知道Hive和HBase两者的区别，我们必须要知道两者的作用和在大数据中扮演的角色概念Hive1.Hive是hadoop数据仓库管理工具，严格来说，不是数据库，本身是不存储数据和处理数据的，其依赖于HDFS存储数据，依赖于MapReducer进行数据处理。2.Hive的优点是学习成本低，可以通

overfit同步小助手 2023-03-30 04:05:15 0 收藏

Datax与Datax-Web安装部署

详细记录了datax与datax-web安装部署过程。

overfit同步小助手 2023-03-30 04:05:12 0 收藏

hadoop格式化时报错

Re-format filesystem in Storage Directory root= /data/hadoop/hdfs/name; location= null ? (Y or N)

overfit同步小助手 2023-03-30 04:05:08 0 收藏

docker搭建hadoop和hive集群

Dockfile文件的内容解释：基于centos镜像，生成带有spenssh-server、openssh-clients的镜像，用户为root，密码为a123456，镜像维护者（作者）为hadoop。因为集群的服务器之间需要通信，而且每次虚拟机给集群分配的ip地址都不一样，所以需要创建网桥，给每台

overfit同步小助手 2023-03-30 04:05:03 0 收藏

hadoop3.3.4集群安装部署

Hadoop集群安装部署

overfit同步小助手 2023-03-30 04:05:00 0 收藏

Spark项目实战-数据清洗

SparkSql单次处理Web日志，分析用户留存率

overfit同步小助手 2023-03-30 04:04:57 0 收藏

Spring Boot整合RabbitMq 重写confirm不生效

overfit同步小助手 2023-03-30 04:04:53 0 收藏

【Kafka】Kafka在多Partition多实例情况下，消息的消费和生产情况验证

通过实验验证了Kafka在多Partition多实例情况下，消息的消费和生产情况：（1）一个partition最多被一个实例（同一消费组）消费。（2）一个实例可以同时消费多个partition。（3）当通过key将topic消息写入Kafka时，相同key的消息保证能写入同一个partition。

overfit同步小助手 2023-03-30 04:04:50 0 收藏

查es大于10000条数据-滚动查询（scroll）

查es大于10000条数据-滚动查询（scroll）,总所周知，es一般查询只支持最多查询出前1w条数据，很难受。想要一次性查询出你想要的数据，一些大数据的场景下，我们需要用到ElasicSearch的两种查询方式：==深度分页==或者==滚动查询==，我们今天使用的是滚动查询方式，因为需要一批次加

overfit同步小助手 2023-03-30 04:04:47 0 收藏