大数据 - overfit.cn

等保三级认证基本要求

overfit同步小助手 2023-08-13 12:04:40 0 收藏

ElasticSearch - 索引增加字段并查询增加字段前的历史数据

从上面的结果可以看出，在ElasticSearch中为已有索引增加一个新字段以后，老的数据并不会自动就拥有了这个新字段，也就不可能给他一个默认值。我们项目中有一个需求：ElasticSearch存在很多历史数据，然后需求中索引新增了一个字段，我们需要根据条件查询出历史数据，但历史数据中这个新增的字段

overfit同步小助手 2023-08-13 10:04:11 0 收藏

kafka-producer batch.size与linger.ms参数

kafka-producer参数

overfit同步小助手 2023-08-13 09:04:53 0 收藏

hive存储压缩格式对比说明

hive压缩说明

overfit同步小助手 2023-08-13 08:05:06 0 收藏

MQ的快速入门及RabbitMQ的五种工作模式

Mq消息中间件的基础知识，rabbitmq的工作模式，springboot集成rabbitmq

overfit同步小助手 2023-08-13 08:04:39 0 收藏

如何学习大数据

大数据依然是当下热门的技术之一，就犹如之前的移动开发刚开始火的时候一样，之前写了一系列的大数据开发所需的组件安装，但还从来没想过要怎么学习大数据，正好趁这次机会写一写。大数据技术是当前互联网和信息化领域的热门技术之一，随着数据量急剧增长和结构复杂化，对大数据技术的需求也越来越大。如果想要从事相关领域

overfit同步小助手 2023-08-13 08:04:35 0 收藏

Hive-数据倾斜

在计算各省份的GMV时，有可能会发生数据倾斜，解决办法如下：

overfit同步小助手 2023-08-13 06:04:22 0 收藏

成为大数据开发工程师要学习哪些知识？

首先，作为一名大数据开发工程师，你需要掌握至少一门编程语言。作为一个大数据开发工程师，你需要掌握Hadoop生态系统的各个组件。最后，作为一名大数据开发工程师，你需要了解如何将数据可视化。常见的数据可视化工具包括Tableau、R语言和Python中的Matplotlib等。在本文中，我们将会详细介

overfit同步小助手 2023-08-13 03:04:20 0 收藏

SpringBoot整合Zookeeper

还有很多其他的方法可以自行扩展。Zookeeper配置连接信息。

overfit同步小助手 2023-08-13 03:04:16 0 收藏

02_kafka_基本概念_基础架构

overfit同步小助手 2023-08-13 03:04:12 0 收藏

hive 全量表、增量表、快照表、切片表和拉链表

切片表根据基础表，往往只反映某一个维度的相应数据。其表结构与基础表结构相同，但数据往往只有某一维度，或者某一个事实条件的数据。：记录每条信息的生命周期，当一条记录的生命周期结束，就会重新开始一条新的记录，并把当前日期放入生效开始日期。3）合并变动数据和旧拉链表数据（有更新的信息需要修改生效结束日期，

overfit同步小助手 2023-08-13 02:04:21 0 收藏

windows上简单部署flink

Windows上配置Flink

overfit同步小助手 2023-08-13 01:03:44 0 收藏

springboot整合ELK+kafka采集日志

在分布式的项目中，各功能模块产生的日志比较分散，同时为满足性能要求，同一个微服务会集群化部署，当某一次业务报错后，如果不能确定产生的节点，那么只能逐个节点去查看日志文件；logback中RollingFileAppender，ConsoleAppender这类同步化记录器也降低系统性能，综上一些问题

overfit同步小助手 2023-08-13 00:04:13 0 收藏

采用seatunnel提交Flink和Spark任务

seatunnel 是一个非常易用，高性能、支持实时流式和离线批处理的海量数据处理产品，架构于Apache Spark 和 Apache Flink之上。seatunnel 让Spark和Flink的使用更简单，更高效。特性。

overfit同步小助手 2023-08-12 22:04:10 0 收藏

SpringBoot 整合RabbitMq 自定义消息监听容器来实现消息批量处理

RabbitMQ是一种常用的消息队列，Spring Boot对其进行了深度的整合，可以快速地实现消息的发送和接收。在RabbitMQ中，消息的发送和接收都是异步的，因此需要使用监听器来监听消息的到来。Spring Boot中提供了默认的监听器容器，但是有时候我们需要自定义监听器容器，来满足一些特殊的

overfit同步小助手 2023-08-12 21:04:31 0 收藏

Presto、Spark 和 Hive 即席查询性能对比

Spark 则是一个基于内存的分布式计算框架，可以快速地处理大规模的数据，并且具有很高的可扩展性。Presto 可以很容易地集成到现有的数据架构中，并且可以在不同的数据源之间进行无缝的查询。它们都具有各自的优缺点，在不同的场景下都有着不同的应用价值。Spark 是一个基于内存的分布式计算框架，它可以

overfit同步小助手 2023-08-12 20:04:39 0 收藏

hadoop的8088端口无法访问

如果 8080 端口无法访问，可能是因为以下几种原因之一：该端口可能被防火墙阻止了访问。您可以尝试关闭防火墙，或者将 8080 端口添加到防火墙的信任列表中。Hadoop 服务可能没有启动。您可以尝试通过运行 start-dfs.sh 和 start-yarn.sh 脚本来启动 Hadoop 服务。

overfit同步小助手 2023-08-12 20:04:06 0 收藏

CentOS7部署kettle9.3.0并部署自服器远程提交任务

centos7部署kettle9.3.0并配置远程执行及其详细，中间碰到的问题全都有详细的解决办法

overfit同步小助手 2023-08-12 17:04:16 0 收藏

2 分钟就能抓取任何网站的数据是怎么做到的？？ #Browse AI

尽管现在使用网络的方式或多或少与 20 年前相同，但网络在我们生活中占据的地位越来越重要，网站却变得越来越繁琐。最重要的是，即使网络上有大量有价值的实时数据，收集它们也是非常昂贵和耗时的。Browse AI 是一款可以从任何网站提取和监控数据的方法。图源：Browse AI 官网Browse AI

overfit同步小助手 2023-08-12 15:04:24 0 收藏

数据仓库系列：StarRocks 下一代高性能分析数据仓库的架构、数据存储及表设计

本文是学习StarRocks的读书笔记，让你快速理解下一代高性能分析数据仓库的架构、数据存储及表设计。

overfit同步小助手 2023-08-12 15:04:03 0 收藏