H(hadoop&code&notebook).数据压缩

表-3优缺点压缩算法优点缺点gzip压缩率比较高不支持Split;压缩/解压速度一般bzip2压缩率高;支持Split压缩/解压速度慢LZO压缩/解压速度比较快;支持Split压缩率一般;想支持切片,需要额外创建索引Snappy压缩和解压缩速度快不支持Split;压缩率一般。......

深入浅出对话系统——任务型对话系统技术框架

任务型对话系统所需要了解的基本概念。

【python数据分析刷题】-N03.逻辑运算

Python实际针对数据分析的学习是库,用库来解决一系列的数据分析问题

Presto: 是谁偷走了我的一天

最近在数据迁移的过程中遇到一个好玩的 当我们要计算两个日期的间隔的是时候需要调用一些数据分析组件内置的函数, 如下所示: 代码表示的含义很简单 就是计算8月9日和8月8日之间相隔天数, 但是这样的计算的结果竟然不相同: 竟然出现同样的时间段里比多一天这种情况. 即在分析中得到是相隔一天, 但是

体验第一个spark程序(第四弹)

先启动spark集群或者启动hdfs集群,如果之前有开启,则需要重新关闭再开启spark集群或者启动hdfs集群。以客户端模式连接Yarn集群,集群的位置可以在HADOOP_CONF_DIR环境变量中配置。以集群模式连接Yarn集群,集群的位置可以在HADOOP_CONF_DIR环境变量中配置。在s

案例:ELK日志分析系统

通过对日志的分析,既可以未雨绸缪,预防故障的发生,又可以在故障发生时,寻找蛛丝马迹,快速定位故障点。

半量化交易(一)

程序自动选优质股,再判断是否有买入卖出信号进行操作

用于视觉语言导航的自监督三维语义表示学习

在视觉语言导航任务中,embodied agent遵循语言指令并导航到指定目标位置。它在许多实际场景中都很重要,并引起了计算机视觉和机器人领域的广泛关注。然而,现有的大多数工作仅使用RGB图像,而忽略了场景的三维语义信息。为此,我们开发了一种新的自监督训练框架,将体素级(voxel-level)三维

Hadoop完全分布式部署

host映射:这里是把三个Linux的ip地址保存到三个虚拟机去,相当于我们自己在手机里面存别人的电话号码 一样的道理,这样相互之间就知道对应ip地址的机器是哪一台。所以这个操作也是要在三台虚拟机都要 进行的。给ip地址起名字,几个机器需要互相连通,这样在连接几台机器的时候只需要使用机器名就行,不需

初识MQ和RabbitMQ

RabbitMQ是MQ消息队列的一种,我们一般使用的是Spring集合后的SpringAMQP.SpringAMQP是基于RabbitMQ封装的一套模板,并且还利用SpringBoot对其实现了自动装配,使用起来非常方便。AMQP 是一种高级消息队列协议.而SpringAMQ是基于AMQP协议制订的

SpringBoot-spring-data-elasticsearch7.12.0

SpringBoot-spring-data-elasticsearch7.12.0

Java基础-泛型

泛型即“参数化类型”,就是将类型由原来具体的类型参数化,类似于方法中的变量参数,然后使用的时候传入具体的参数。这种参数类型可以用在类、接口和方法中,分别被称为泛型类、泛型接口和泛型方法。E(Element):元素,多用于 java 集合框架K(Key):关键字N(Number):数字T(Type):

大数据ClickHouse(六):Log系列表引擎

Log系列表引擎功能相对简单,主要用于快速写入小表(1百万行左右的表),然后全部读出的场景,即一次写入,多次查询。Log系列表引擎包含:TinyLog、StripeLog、Log三种引擎。几种Log表引擎的共性是:它们彼此之间的区别是:TinyLog是Log系列引擎中功能简单、性能较低的引擎。它的存

RabbitMQ消息队列学习笔记

消息队列的学习笔记

flink on k8s

基于 kubeshpere 的 flink on k8s 实践

Kafka在美团数据平台的实践

总第526篇2022年 第043篇Kafka在美团数据平台承担着统一的数据缓存和分发的角色,随着数据量的增长,集群规模的扩大,Kafka面临的挑战也愈发严峻。本文分享了美团Kafka面临的实际挑战,以及美团针对性的一些优化工作,希望能给从事相关开发工作的同学带来帮助或启发。1. 现状和挑战1.1 现

数据中台基础

数据中台严格意义上来说不是一种产品或技术,而是一套可持续 "让企业的数据用起来" 的机制,一种战略选择和组织形式,是依据企业特有的业务模式和组织机构,通过成熟的产品和实施方法论支撑,构建的一套持续不断把数据变成资产并服务于业务的机制。其底层逻辑是以数字化的手段,将数据抽像成服务,响应前端业务的快速变

SQL中concat和substr组合运用

初级SQL函数运用

clickhouse四种集群部署方案

读请求通过负载均衡到达任意一个节点的分布式表distributed,distributed准备往每个分片发送查询请求,但此时由于每个分片都有副本,因此还需要从分片的副本中负载均衡算法选取合适的副本节点发送查询请求,节点收到查询请求后直接查询本地表后返回数据给请求节点做合并。写请求通过负载均衡到某个节

spark集群部署(第三弹)

(1)spark.deploy.recoveryMode=ZOOKEEPER:设置zookeeper去启用备用master模式(2)spark.deploy.zookeeper.url=master:指定zookeeper的server地址(3)spark.deploy.zookeeper.dir:

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈