Dataset 的基础知识和RDD转换为DataFrame

Dataset是从Spark1.6 Alpha版本中引入的一个新的数据抽线结构,最懂在Spark2.0版本被定义成Spark新特性。RDD, DataFrame,Dataset数据对比1 RDD数据没有数据类型和元数据信息2 DataFrame添加了Schema信息,每一行的类型固定为Row,每一列

Hbase Java API的简单使用+原理介绍

本文主要通过Hbase JavaAPI在Hbase中进行建表及插入数据及HBase的DDL和DML,让你更加了解关于Hbase的相关原理。

想跳槽?你先看看(MQ、ZK、Nginx、Kafk)等分布式技术你都会吗?

ActiveMQ是Apache软件基金会所研发的开放源代码消息中间件;由于ActiveMQ是一个纯Java程序,因此只需要操作系统支持Java虚拟机,ActiveMQ便可执行。(1)ActiveMQ面试常备什么是 ActiveMQ?ActiveMQ 中的消息重发时间间隔和重发次数吗?ActiveMQ

HiveSQL优化技巧总结

基于Hive的开发过程中主要涉及到的可能是SQL优化这块。减少数据量(例如分区、列剪裁)避免数据倾斜(例如加参数、Key打散)避免全表扫描(例如on添加加上分区等)减少job数(例如相同的on条件的join放在一起作为一个任务)

RabbitMQ延迟队列

RabbitMQ 延迟队列使用场景消息延迟推送的、预支付订单创建成功后,30分钟后还未完成支付则自动修改订单状态,自动取消订单、用户注册成功后,如果3天没有登录则进行短信提醒、优惠券过期前发送短信进行提醒等业务场景...

Elasticsearch:使用向量搜索来搜索图片及文字

在 eCommerce 里的应用中,我们可以对图像来进行搜索从而达到更好的应用体验。如果你之前阅读过我的文章 “”,可能对这个并不陌生。我们可以通过对图片的处理,把它变成向量,然后我们再进行向量搜索,从而达到搜索的目的。在今天的 demo 中,我们来展示如何使用 Elasticsearch 来搜素图

Spring Cloud Bus消息总线

Spring Cloud Bus是用来将`分布式系统的节点 与 轻量级消息系统 链接起来的框架`。注意:它不属于消息中间件,他是通过和消息中间件整合,来完成服务之间消息通讯,类似于消息代理。Spring Clud Bus目前支持RabbitMQ和Kafka。

腾讯陈东东:Caelus全场景在离线混部的思考与实践

全场景在离线混部系统,为业务提供“质”的保证

大数据批量处理神器 - 自定义周期批量消费队列的实现

大数据批量处理神奇-自定义周期批量消费队列的实现周期批量消费队列(BlockingQueue)的实现LinkedBlockingQueue与ArrayBlockingQueue的比较

大数据必学Java基础(五十五):泛型深入了解

1、JDK1.5以后泛型实际就是 一个引起来的 参数类型,这个参数类型具体在使用的时候才会确定具体的类型。2、使用了泛型以后,可以确定集合中存放数据的类型,在编译时期就可以检查出来。3、使用泛型你可能觉得麻烦,实际使用了泛型才会简单,后续的遍历等操作简单。4、泛型的类型:都是引用数据类型,不能是基本

吐血整理的大数据学习资源大全

一、网站网易公开课 https://open.163.com/腾讯课堂 https://ke.qq.com/中国大学慕课 https://www.icourse163.org/B站 https://www.bilibili.com/学习资源非常多,内容系统且全面,重点关注一些专业培训机构上传的学习视

接口自动化测试实践指导(下):接口自动化测试断言设置思路

在测试用例中,绑定API文档之后,当API发生变化时,您可以一键将文档内容同步到测试步骤中,减轻维护用例的成本。

Docker安装RabbitMQ

Docker安装RabbitMQ

HiveSQL源码之语法词法编译文件解析一文详解

工欲善其事必先利其器,首先要了解HiveSQL的编译语法的流程,还是需要懂得HiveSQL的执行流程以及编译规则。Hive详解以及CentOS下部署Hive和Mysql我们现在主要研究SQL Parser语法解析这块内容。语法解析可以说是研究一门编程语言的基础了,我们编程语言本身就是告诉计算机要帮助

大数据ClickHouse(二十):ClickHouse 可视化工具操作

tabix支持通过浏览器直接连接 ClickHouse,不需要安装其他软件,就可以访问ClickHouse。有两种使用方式,一种是直接浏览器访问配置。另一种是使用ClickHouse内嵌方式。

人家不卡学历,是自己真的没能力

CSDN 的小伙伴们,大家好,我是二哥呀。除了这个问题,这位球友还私信咨询了二哥其他几个问题,我觉得都挺具有代表性意义的,这里就统一回复下,希望也能给CSDN的读者朋友们一点帮助和启发。

DataFrame基础知识

DataFrame:可以看出分布式Row对象的集合,在二维表数据集的每一列都带有名称和类型,这些就是schema(元数据)Select:col:某一列,as:重命名 filter:过滤groupBy() ,对记录进行分组sort排序。,并且可以从很多数据源中创建,如结构化文件、外部数据库、Hive

劝大家别去国企制造业干IT,软件多数据乱,报表开发完全没法做

不用再像以前一样要先从各个系统下载数据,然后再整合到excel做报表。其次就是对于一些流水线日、周报的制作,以往要花很多文员的人力去定期捞数据、弄表格,过程繁琐不说还费时费力,现在我们IT部门设置好报表模板后,只要定期更新数据就行。以前需要一周才能整合一个月的生产数据,现在半天就能搞定。还有一点比较

大数据ClickHouse(十八):Spark 写入 ClickHouse API

SparkCore写入ClickHouse,可以直接采用写入方式。下面案例是使用SparkSQL将结果存入ClickHouse对应的表中。

大数据ClickHouse(十九):Flink 写入 ClickHouse API

【代码】大数据ClickHouse(十九):Flink 写入 ClickHouse API。

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈