Kafka的数据可靠与数据重复

kafka数据重复及数据可靠性问题

HIVE优化和数据倾斜、合并小文件

HIVE优化和数据倾斜、合并小文件

Hive时间日期函数一文详解+代码实例

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。Hive中的表示纯逻辑表,只有表的定义等,即表的元数据(存储于MySQL中)。本质就是Hadoop的目录/文件,这种设计方式实现了元数据与数据存储分离。Hive本身不存储数据,它完全依赖HDFS

一文速学-HiveSQL解析JSON数据详解+代码实战

JSON文件存储格式十分常见,在各个数据库中以及业务场景都有关于该文件的处理方式。但是有时候处理JSON文件在不同的数据库处理方法也不同,掌握一些高效的函数可以大大简化我们处理JSON数据格式的效率。面对一些复杂的存储形式,例如JSON数组存储这种就必须采取一定的处理方式,下面是处理HiveSQL解

大数据Apache Druid(一):Druid简单介绍和优缺点

Druid(德鲁伊)是一个分布式的、支持实时多维 OLAP 分析、列式存储的数据处理系统,支持高速的实时数据读取处理、支持实时灵活的多维数据分析查询。在Druid数十台分布式集群中支持每秒百万条数据写入,对亿万条数据读取做到亚秒到秒级响应。此外,Druid支持根据时间戳对数据进行预聚合摄入和聚合分析

抖音 iOS 推荐 Feed 容器化总结

动手点关注干货不迷路????背景抖音 Feed 容器在推荐、关注、同城、朋友等多个场景中使用,每个场景都有自身的逻辑和业务,最终汇总在 FeedViewController 中,随着业务的迭代,代码越来越臃肿,面临如下的问题:容器类(FeedViewController) 有 10000+行,还有十

大数据ClickHouse(九):MergeTree系列表引擎之ReplacingMergeTree

以上MergeTree不能对相同主键的数据进行去重,ClickHouse提供了ReplacingMergeTree引擎,可以针对同分区内相同主键的数据进行去重,它能够在。值得注意的是,ReplacingMergeTree只是在一定程度上解决了数据重复问题,由于自动分区合并机制在后台定时执行,所以Re

Hive DML常见操作

Hive DML常见操作

1-第一篇入住博客自我介绍

对于数据科学专业而言,掌握计算机知识以及编程应用尤其重要,而计算机和数据科学相关的课程包括(我们已学和在学的):Linux,sql数据库,数据科学导论,统计学导论,计算机操作原理,大数据技术原理与应用,数据结构与算法,python程序设计,C语言,HBase数据库,Hadoop,Spark算法,机器

HiveServer2 报错 OutOfMemoryError 解决思路

HiveServer2 报错 OutOfMemoryError 解决思路

H(hadoop&code&notebook).数据压缩

表-3优缺点压缩算法优点缺点gzip压缩率比较高不支持Split;压缩/解压速度一般bzip2压缩率高;支持Split压缩/解压速度慢LZO压缩/解压速度比较快;支持Split压缩率一般;想支持切片,需要额外创建索引Snappy压缩和解压缩速度快不支持Split;压缩率一般。......

体验第一个spark程序(第四弹)

先启动spark集群或者启动hdfs集群,如果之前有开启,则需要重新关闭再开启spark集群或者启动hdfs集群。以客户端模式连接Yarn集群,集群的位置可以在HADOOP_CONF_DIR环境变量中配置。以集群模式连接Yarn集群,集群的位置可以在HADOOP_CONF_DIR环境变量中配置。在s

案例:ELK日志分析系统

通过对日志的分析,既可以未雨绸缪,预防故障的发生,又可以在故障发生时,寻找蛛丝马迹,快速定位故障点。

Geoffrey Hinton:深度学习的下一个大事件

在当今享誉世界的AI科学家中,深度学习教父Geoffrey Hinton也许拥有最为与众不同的研究思维——他喜欢按直觉行事,更倾向于运用类比,研究生涯中的神来之笔大都源自瞬间迸发的思维火花。这与他本人的教育背景息息相关。他的本科专业是生理学和物理学,也读了哲学,拿到的却是心理学.........

用于视觉语言导航的自监督三维语义表示学习

在视觉语言导航任务中,embodied agent遵循语言指令并导航到指定目标位置。它在许多实际场景中都很重要,并引起了计算机视觉和机器人领域的广泛关注。然而,现有的大多数工作仅使用RGB图像,而忽略了场景的三维语义信息。为此,我们开发了一种新的自监督训练框架,将体素级(voxel-level)三维

Kafka在美团数据平台的实践

总第526篇2022年 第043篇Kafka在美团数据平台承担着统一的数据缓存和分发的角色,随着数据量的增长,集群规模的扩大,Kafka面临的挑战也愈发严峻。本文分享了美团Kafka面临的实际挑战,以及美团针对性的一些优化工作,希望能给从事相关开发工作的同学带来帮助或启发。1. 现状和挑战1.1 现

数据中台基础

数据中台严格意义上来说不是一种产品或技术,而是一套可持续 "让企业的数据用起来" 的机制,一种战略选择和组织形式,是依据企业特有的业务模式和组织机构,通过成熟的产品和实施方法论支撑,构建的一套持续不断把数据变成资产并服务于业务的机制。其底层逻辑是以数字化的手段,将数据抽像成服务,响应前端业务的快速变

【Mysql进阶优化篇02】索引失效的10种情况及原理

本文将介绍索引失效的10种情况及原理,绝对不需要死记硬背,建议收藏备用。

一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】

一文看懂大数据生态圈完整知识体系

2022华数杯数学建模思路代码a题b题c题

2022华数杯数学建模思路代码

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈