大数据 - overfit.cn

RabbitMQ 部署指南

在Centos7虚拟机中使用Docker来安装。

overfit同步小助手 2024-02-08 23:03:51 0 收藏

HBase与Python的集成: 如何将HBase与Python进行集成

1.背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。它是Hadoop生态系统的一部分，可以与HDFS、MapReduce、ZooKeeper等组件集成。HBase非常适合存储大量结构化数据，如日志、时间序列数据、实时数据等。Python是一种流行

overfit同步小助手 2024-02-08 23:03:42 0 收藏

JDK8 和 JDK17 下基于JDBC连接Kerberos认证的Hive(代码已测试通过)

打开了debug后,如果是正常情况,我们能观察到控制台会打印到krb5.conf相关内容信息,出现问题优先根据debug日志查看,如果没有打印出krb5文件内容,去看看路径/文件权限。之前自研平台是基于jdk8开发的,连接带Kerberos的hive也是jdk8,现在想升级jdk到17,发现过Ker

overfit同步小助手 2024-02-08 23:03:35 0 收藏

Kafka在美团数据平台的实践

基于Kafka的应用层去实现，具体就是Kafka的数据按照时间维度存储在不同设备上，对于近实时数据直接放在SSD上，针对较为久远的数据直接放在HDD上，然后Leader直接根据Offset从对应设备读取数据。这种方案的优势是它的缓存策略充分考虑了Kafka的读写特性，确保近实时的数据消费请求全部落在

overfit同步小助手 2024-02-08 22:03:50 0 收藏

Spark大数据分析与实战笔记（第三章 Spark RDD弹性分布式数据集-01）

RDD (Resilient Distributed Dataset)，即弹性分布式数据集，是一个容错的、并行的数据结构，可以让用户显式地将数据存储到磁盘和内存中，并且还能控制数据的分区。对于迭代式计算和交互式数据挖掘，RDD可以将中间计算的数据结果保存在内存中，若是后面需要中间结果参与计算时，则可

overfit同步小助手 2024-02-08 21:03:29 0 收藏

大数据技术之Hadoop

hadoop之父：道格卡丁。

overfit同步小助手 2024-02-08 21:03:21 0 收藏

Fink CDC数据同步（四）Mysql数据同步到Kafka

这里指定的Kafka topic会自动创建，也可以预先自行创建。将下列依赖包放在flink/lib。创建upsert-kafka 表。创建MySQL映射表。

overfit同步小助手 2024-02-08 19:03:31 0 收藏

大数据技术之Hive（三）hive常用函数

hive自带了一些函数，比如max/min等。但是数量有限，自己可以通过UDF来方便的扩展。当hive提供的内置函数无法满足业务需求时，就可以考虑用户自定义函数UDF根据用户自定义函数类别分为以下三种：UDF一进一出UDAF用户自定义聚合函数，多进一出类似于：count/max/minUDTF用户自

overfit同步小助手 2024-02-08 16:03:33 0 收藏

阿里巴巴内部：全技术栈PPT分享（架构篇+算法篇+大数据）

我只截图不说话，PPT大全，氛围研发篇、算法篇、大数据、Java后端架构！除了大家熟悉的交易、支付场景外，支撑起阿里双十一交易1682亿元的“超级工程”其实包括以下但不限于客服、搜索、推荐、广告、库存、物流、云计算等。Java核心技术栈：覆盖了JVM、锁、并发、Java反射、Spring原理、微服务

overfit同步小助手 2024-02-08 13:03:55 0 收藏

Hive 的安装与使用

hive的元数据是存在 MySql 里的，如果不使用元数据服务的话，hive直接会操作MySql里的元数据，使用元数据服务的话，hive会操作元数据服务，元数据服务再去操作 MySql 里的元数据。用于列出系统中已安装的所有软件包的名称，CentOS 6系统自带的数据库 MySql，CentOS 7

overfit同步小助手 2024-02-08 12:03:21 0 收藏

Spark SQL调优实战

spark sql参数调优

overfit同步小助手 2024-02-08 11:03:37 0 收藏

【大数据】Flink SQL 语法篇（一）：CREATE

CREATE 语句用于向当前或指定的 Catalog 中注册库、表、视图或函数。注册后的库、表、视图和函数可以在 SQL 查询中使用。

overfit同步小助手 2024-02-08 11:03:28 0 收藏

Flink CEP实现10秒内连续登录失败用户分析

overfit同步小助手 2024-02-08 10:03:49 0 收藏

一文详解pyspark中sql的join

我们是通过学生表的sclass和班级表的cid将两张表关联在一起，所以定义join表达式如下。

overfit同步小助手 2024-02-08 10:03:37 0 收藏

Kafka连接zookeeper超时

配置文件检查好几遍没有错，防火墙也没有开，zookeeper正常启动，配置的都是内网。终于，也是瞎猫碰死耗子，修改了kafka连接zookeeper的超时时间，然后居然启动了！一个头疼的事：kafka和zookeeper，部署在一台服务器，zookeeper正常启动，配置也没任何问题。但是kafka

overfit同步小助手 2024-02-08 09:04:22 0 收藏

银行数据仓库体系实践（2）--系统架构

（2）元数据管理：元数据指描述数据的数据，比如数据表和数据字段的定义以及关系，那在元数据中除了查询数据仓库中各表和字段的定义外，最重要的还有两个功能：血缘分析和影响分析。UML对系统架构的定义是：系统的组织结构，包括系统分解的组成部分，它们的关联性，交互，机制和指导原则，例如对系统群就是定义各子系统

overfit同步小助手 2024-02-08 09:04:19 0 收藏

基于python物流管理系统 Echarts可视化 Django框架大数据毕业设计（源码）✅

overfit同步小助手 2024-02-08 09:03:58 0 收藏

Hive学习（13）lag和lead函数取偏移量

在数据处理和分析中，窗口函数是一种重要的技术，用于在数据集中执行聚合和分析操作。Hive作为一种大数据处理框架，也提供了窗口函数的支持。在Hive中，Lag函数是一种常用的窗口函数，可以用于计算前一行或前N行的值。

overfit同步小助手 2024-02-08 08:03:53 0 收藏

SpringBoot集成Eureka

这里注意一下eureka服务本服的注解是server的。其他注册到这个服务用的注解是client，不要搞错，不然会启动报错的╮(╯▽╰)╭。这里简单说一下http://localhost:8078/eureka/项目。

overfit同步小助手 2024-02-08 08:03:45 0 收藏

3.0 Hadoop 概念

本章着重介绍 Hadoop 中的概念和组成部分，属于理论章节。如果你比较着急可以跳过。但作者不建议跳过，因为它与后面的章节息息相关。

overfit同步小助手 2024-02-08 08:03:36 0 收藏