大数据 - overfit.cn

Hadoop：大数据处理的核心框架

Hadoop是一个由Apache基金会所开发的分布式系统基础架构，主要解决的是海量数据的存储和计算问题。Hadoop具有高效、可靠、可扩展和容错性强的特点，使得它成为大数据处理领域的核心框架之一。Hadoop主要由HDFS（Hadoop Distributed File System）和MapRed

overfit同步小助手 2024-05-26 06:03:46 0 收藏

Hbase

HBase 基于 Google的BigTable论文而来，是一个分布式海量列式非关系型数据库系统，可以提供超大规模数据集的实时随机读写。

overfit同步小助手 2024-05-26 06:03:43 0 收藏

Kafka 实战 - Kafka生产者之消息发送流程及同步异步发送API

消息发送流程涉及以下几个关键步骤，同时提供同步和异步两种发送 API 供开发者选择，以适应不同场景的需求。通过理解 Kafka 生产者的消息发送流程以及同步与异步发送 API 的使用，开发者可以根据实际业务需求选择合适的发送模式，有效利用 Kafka 实现消息的高效、可靠传输。类的构造函数创建生产者

overfit同步小助手 2024-05-26 05:04:12 0 收藏

【RabbitMQ】消息丢失及解决方案

RabbitMQ 消息丢失的三种情况## 一级标题。废话少说，我们快速开始！

overfit同步小助手 2024-05-26 05:04:04 0 收藏

kaggle最全基础入门（大数据）

Kaggle是一个数据科学竞赛平台，旨在连接数据科学家和机器学习工程师，提供一个共同解决实际问题的平台。Kaggle的任务通常由公司、学术机构、政府机构等提交，这些任务涵盖了各种问题领域，例如自然语言处理、计算机视觉、数据挖掘等。竞赛参与者可以下载数据集、提交代码和模型，并与其他参赛者交流和竞争。K

overfit同步小助手 2024-05-26 05:03:57 0 收藏

Hadoop核心技术

Hadoop生态系统是一个开源的分布式计算平台，由Apache软件基金会开发并维护。其核心组件主要包括HDFS（Hadoop Distributed File System，Hadoop分布式文件系统）、MapReduce以及YARN（Yet Another Resource Negotiator，

overfit同步小助手 2024-05-26 05:03:41 0 收藏

政府统计中如何使用大数据

大数据（Big Data）被认为是新型战略性资源，能够帮助实现对经济社会发展的全面展现、精准预测和智慧决策。当前，对大数据的概念已经基本形成共识，尽管在某些细节上还存在一些争议。中华人民共和国原国家质量监督检验检疫总局和中国国家标准化管理委员会于 2017 年 12 月 29 日发布了《信息技术

overfit同步小助手 2024-05-26 05:03:37 0 收藏

flink cdc，读取datetime类型

需要注意的是，如果您使用的是Flink 1.13或以上版本，可以直接使用Flink的内置Debezium插件来实现CDC任务，无需安装其他插件。Flink CDC读取MySQL的datetime类型时会转换为时间戳的问题，可以通过在Flink CDC任务中添加相应的转换器来解决。- 使用 Flink

overfit同步小助手 2024-05-26 05:03:30 0 收藏

spark学习笔记！！！

古人云：工欲善其事必先利其器！gogogo！！！

overfit同步小助手 2024-05-26 04:04:01 0 收藏

【Hadoop】-HDFS的Shell操作[3]

Hadoop Distributed File System (HDFS) 是一个分布式文件系统，用于存储和处理大规模数据集。HDFS具有高可扩展性、高容错性和高吞吐量的特点，是Apache Hadoop框架的核心组件之一。HDFS提供了一个命令行界面（Shell），用于管理和操作文件系统中的文件和

overfit同步小助手 2024-05-26 04:03:26 0 收藏

Zookeeper未授权访问漏洞

Zookeeper支持某些特定的四字查询命令，可以未授权访问，从而泄露zookeeper服务的相关信息，这些信息可能作为进一步入侵其他系统和服务的跳板，利用这些信息实现权限提升并逐渐扩大攻击范围。常见的四字命令有 envi、conf、cons、crst、dump、ruok、stat、srvr、mnt

overfit同步小助手 2024-05-26 03:04:13 0 收藏

RabbitMQ从入门到精通(一)

没接触过rabbitmq？没有关系，本文将从安装——>使用——>高可用集群搭建循序渐进的讲解，带你完全掌握rabbitmq的使用。

overfit同步小助手 2024-05-26 03:04:09 0 收藏

头歌—Hive的安装与配置

头歌—hive的安装与配置

overfit同步小助手 2024-05-26 03:03:38 0 收藏

apache-hive-3.1.2-bin 安装

1. hadoop、hive、flink等目前版本基本依赖于jdk1.8, 所以需要专门的JDK环境，毕竟现在大多开发者都是使用>=11版本了。2. windows 系统建议使用VMware通过新建虚拟机安装，适用windows的版本在安装中配置、安装后使用都会挺麻烦(权限、cmd启动脚本、切换开发

overfit同步小助手 2024-05-26 03:03:33 0 收藏

用海豚调度器定时调度从Kafka到HDFS的kettle任务脚本

工作流启动，成功！工作流一直在跑相应的任务实例也在跑！

overfit同步小助手 2024-05-26 01:03:56 0 收藏

ZooKeeper详解

ZooKeeper作用举例设计原理Znodes的状态变化具体步骤ZooKeeper原理ZooKeeper数据结构(了解)ZooKeeper CLIZookeeper角色ZooKeeper选举机制半数机制leader选举触发时机补充

overfit同步小助手 2024-05-26 01:03:52 0 收藏

Hive 特殊的数据类型 Array、Map、Struct

获取数组值的方式和我们在 Java 中一样，采用下标的方式访问，当访问的下标超过数组的长度时，并不会报错，它会返回。这里值 Value 中存在整型和字符型数据类型不统一的情况，它会统一将值 Value 都转换成字符型。Map 是 KV 键值对类型，其中存储的字段数量可多可少，但是 KV 键值对的数据

overfit同步小助手 2024-05-26 01:03:23 0 收藏

人工智能技术的工程伦理问题 --以美团外卖大数据杀熟为例

大数据杀熟技术在给人们带来便利的同时，也引发了一系列的伦理问题。未来的发展趋势是继续提高个性化推荐的准确性和用户体验，同时需要加强对用户隐私的保护和公平性。面临的挑战包括如何平衡个性化推荐和用户隐私保护、如何确保个性化推荐的公平性和透明度等。

overfit同步小助手 2024-05-26 00:04:12 0 收藏

【Hadoop】--基于hadoop和hive实现聊天数据统计分析，构建聊天数据分析报表[17]

BI：Business Intelligence，商业智能。指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行分析以实现商业价值。简单来说，就是借助BI工具，可以完成复杂的数据分析、数据统计等需求，为公司决策带来巨大的价值。所以，一般提到BI，我们指代的就是工具软件。FineBISu

overfit同步小助手 2024-05-26 00:04:00 0 收藏

大数据分层存储架构：ODS、DWD、DWM与DWS详解

通过这种分层存储结构，大数据系统可以更好地满足不同层次的数据需求，提高数据处理和分析的效率。同时，各层之间的数据流动和交互也变得更加清晰和可控，有助于减少数据冗余和错误，提高数据质量。在大数据领域中，ODS、DWD、DWM和DWS代表了数据仓库的不同层次，它们共同构成了大数据的分层存储结构。这种结构

overfit同步小助手 2024-05-26 00:03:50 0 收藏