大数据 - overfit.cn

Hbase下载与安装部署（一）- 独立式

HBase运行在Java虚拟机上，因此我们需要先在服务器上安装JDK需要注意的是，HBase与JDK有可能存在版本兼容问题，所以在安装前需要选择兼容的版本我这里选择的是JDK8和HBase2.4JDK下载官网 https://www.oracle.com/java/technologies/down

overfit同步小助手 2023-03-31 03:05:09 0 收藏

成为一名厉害的程序员，需要哪些必备知识

成为一名厉害的程序员必备知识，看看你都掌握了吗？

overfit同步小助手 2023-03-31 03:04:56 0 收藏

什么是元数据，如何管理和利用元数据？

元数据就是数据的数据，或者是描述数据的数据。

overfit同步小助手 2023-03-31 03:04:53 0 收藏

数仓建模，什么是宽表？如何设计？好处与不足

数仓建模，什么是宽表？如何设计？好处与不足，如何运用宽表

overfit同步小助手 2023-03-31 03:04:49 0 收藏

基于主成分分析的LSTM和GPR模型融合负荷预测（可实现概率预测）

多元时序(非时序)预测

overfit同步小助手 2023-03-31 03:04:46 0 收藏

Quartz集群并发执行导致重复调度问题

Quartz集群并发执行导致重复调度

overfit同步小助手 2023-03-31 03:04:34 0 收藏

火山引擎 DataLeap：「数据血缘」踩过哪些坑？来看看字节跳动内部进化史

动手点关注干货不迷路DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品，帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设，降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。数据血缘是帮助用户找数据、理解数据以及使数据发挥价值的基础能力

overfit同步小助手 2023-03-31 03:04:30 0 收藏

6道经典大数据面试题（ChatGPT回答版）

1、HDFS 读写流程是什么？HDFS（Hadoop Distributed File System）的读写流程如下：写流程：客户端向 NameNode 发送写请求，请求在 HDFS 上创建一个新的文件。NameNode 为该文件分配一些数据块（默认情况下为 128 MB）以及在哪些 DataNod

overfit同步小助手 2023-03-31 03:04:21 0 收藏

Hive 与 Hbase表映射（内部表与外部表），Hbase常用命令

overfit同步小助手 2023-03-31 03:04:16 0 收藏

i春秋首届全国数据安全大赛部分复盘

2022年10月25日，为期两日的数据安全大赛于i春秋平台线上举行，在王队长的领队下，团队三个屁民开始了有趣的解题之旅。题目分为四个类型，分别是“安全知识”、“数据分析”、“数据算法”、以及数据安全。时间有点短，再加上有里还有活要干，所以很多题也没有答完，这次由我代表大家给大家进行一个复盘。

overfit同步小助手 2023-03-31 02:09:25 0 收藏

大数据Hadoop之——DorisDB介绍与环境部署（StarRocks）

StarRocks 是一款高性能分析型数据仓库，使用向量化、MPP（Massively Parallel Processing：大规模并行处理）架构、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。StarRocks 既支持从各类实时和离线的数据源高效导入数据，也支持直接分析数据湖

overfit同步小助手 2023-03-31 02:05:12 0 收藏

大数据NiFi（二十二）：Kafka中数据实时导入到HDFS中

连接后，并设置“PutHDFS”处理器“failure”和“success”路由关系为自动终止。此案例使用到“ConsumerKafka_1_0”和“PutHDFS”处理器。“ConsumerKafka_1_0”处理器可以将消费Kafka中的数据。案例：向Kafka某个topic中写入数据，实时导入

overfit同步小助手 2023-03-31 02:05:06 0 收藏

大数据精品栏目介绍

一、大数据入门核心技术大数据入门核心技术栏目里集合等大数据必学的核心技术。初学者选择这个栏目，可以快速了解大数据知识体系，为后面的扩展性的深度学习大数据打下坚实的基础。二、数据湖基础+湖仓一体电商项目数据湖是一个集中式的存储库，允许你以任意规模存储多个来源、所有结构化和非结构化数据，可以按照原样存储

overfit同步小助手 2023-03-31 02:05:00 0 收藏

大数据周会-本周学习内容总结05

overfit同步小助手 2023-03-31 02:04:54 0 收藏

Mysql：sql去重的几种方式（大数据hive也可参考）

我们做数据分析的时候经常会遇到去重问题，下面总结 sql 去重的几种方式，后续如果还有再补充，大数据分析层面包括也可参考。

overfit同步小助手 2023-03-31 02:04:37 0 收藏

【消息队列笔记】chp4-如何处理消费时的重复消息

在发送消息时，如果消息发送失败，发送方会对消息进行重发，这就会产生重复的消息。如果我们不对重复消息进行处理，可能会对系统造成一定的影响。如果消息队列本身能保证消息不会重复，那我们在消费端的实现逻辑就会变得很简单。

overfit同步小助手 2023-03-31 02:04:27 0 收藏

使用zoomeye-python钟馗之眼--小记

简介zoomeye-python，又称钟馗之眼，是一款基于ZoomEye API开发的python库，是一个网络空间搜索引擎，提供了 ZoomEye 命令行模式，同时也可以作为 SDK集成到其他工具中，引擎后端数据包含两部分，网站组件指纹和主机设备指纹。该库可以让技术人员更便捷地搜索、筛选、导出Zo

overfit同步小助手 2023-03-31 02:02:38 0 收藏

zero-shot, one-shot和few-shot

overfit同步小助手 2023-03-31 02:01:57 0 收藏

【大数据入门核心技术-Ambari】（一）Ambari介绍

Apache Ambari是一种基于Web的工具，支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。Apache Ambari 支持HD

overfit同步小助手 2023-03-31 01:05:19 0 收藏

大数据开发的工作内容与流程

像用cdc、ogg这样的一个技术，会监控数据库的日志。当然很多时候，在生产中的选型比较复杂，而且会有MPP与大数据产品一起使用的场景，但整体的流程不变，只是各阶段的产品有所替换。然后由流（处理）引擎，比如说spark生态圈的spark streaming，当然还有比较新的像flink这些产品进行一个

overfit同步小助手 2023-03-31 01:05:08 0 收藏