大数据学习之HiveSQL

HiveSQL

大数据专业就业方向和考研院校及系统学习路线规划

仔细讲解了大数据专业的就业方向、学习方向、与考研院校的推荐,以及文内附带一万字的大数据专业职位所需知识技能储备详解和系统的学习路线规划和所需时间。

TDsql

TDsql的简介及特点

spark sql 数据倾斜--join 同时开窗去重的问题优化

spark数据倾斜企业经验

大数据 | 实验二:文档倒排索引算法实现

倒排索引(Inverted Index)被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射,是目前几乎所有支持全文索引的搜索引擎都需要依赖的一个数据结构。

Flink-Window详细讲解-countWindow

当每个窗口中的元素数量达到 5 时,将触发计算。这意味着窗口 1 中的计算会在处理 5 个元素后触发,窗口 2 中的计算会在处理 10 个元素后触发。是持续监视整个数据流的元素数量,只有在数据流中的元素数量从不小于 5 变为不小于 10 时,才会再次触发计算。会持续监视整个数据流的元素数量,只有当元

大数据课程K17——Spark的协同过滤法

用特定的计算方法扫描和指定目标相同的已有用户,根据给定的相似度对用户进行相似度计算,选择最高得分的用户并根据其已有的信息作为推荐结果从而反馈给用户。在已有信息中,用户3已经选择了物品1和物品5,用户2比较偏向于选择物品2和物品4,而用户1选择了物品1、物品4以及物品5。那么完全有理由相信用户1和用户

通过云计算、大数据、人工智能等技术解决城市问题

云计算、大数据和人工智能技术已经成为城市问题解决的重要手段。通过监测和预测、智能化治理、智能交通管理、医疗大数据、互联网医疗、教育大数据和远程教育等方式,这些技术可以帮助我们更好地解决城市的污染、交通拥堵、看病难、上学难等问题。未来,我们可以预见,随着技术的不断进步和创新,云计算、大数据和人工智能技

实战,实现幂等的8种方案!

幂等是一个数学与计算机科学概念。。比如求绝对值的函数,就是幂等的,。计算机科学中,幂等表示一次和多次请求某一个资源应该具有同样的副作用,或者说,多次请求所产生的影响与一次请求执行的影响效果相同。

flink优化

大状态调优:在我们的项目中,在做新老访客修复时,我们将每个mid的访问时间都存到了状态里面,在做回流用户数时,我们将每个用户的登录时间都存到了状态里面,导致了大状态问题,由于hashmap状态后端会将数据存储到内存,所以就会出现内存不够的情况。我们的解决办法就是将状态后端改成了rocksdb,并且开

Flink-多流转换(Union、Connect、Join)

对于连接流 ConnectedStreams 的处理操作,需要分别定义对两条流的处理转换,因此接口中就会有两个相同的方法需要实现,用数字“1”“2”区分,在两条流中的数据到来时分别调用。关于两条流的连接,还有一种比较特殊的用法:DataStream 调用.connect()方法时,传入的参数也可以不

使用postman和es插件操作elasticsearch API

本文介绍了使用postman和es浏览器插件操作elasticsearch API的常用方法本文使用的es浏览器插件时edge下的elasticvue,可以在edge的应用商店直接搜索安装,相较于es-head,这个插件一直在维护更新,使用还是很方便的。

大数据系列教程之 Kafka基础

Kafka 是一个分布式的基于发布 / 订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。Kafka 0.9 版本以前,offset 存储在 Zookeeper,0.9 版本后,默认将 offset 存储在 Kafka 的一个内置的 topic 中。除此之外,Kafka

大数据平台安全主要是指什么安全?如何保障?

大数据时代已经来临,各种数据充斥着我们的生活与工作。随着数据的多样性以及复杂性以及大量性,大数据平台诞生了。但对于大数据平台大家都不是很了解,有人问大数据平台安全主要是指什么安全?如何保障?

kettle的简单示例:实现数据定时推送和监测,并发送异常报告邮件

当出现不符合要求的异常数据时,能尽早提醒管理员及时处理。创建了转换后,就需要创建作业,作业的目的是可以配置定时计划,组合多个已建好的“转换”,形成工作流,并自动执行。控件1,“脚本”-》“执行SQL脚本”控件,命名“清空用户表数据”,意为将要推送的目标表原数据先清空。控件3,“输出”-》“插入\更新

Hadoop集群部署-(完全分布式模式,hadoop-2.7.4)

查看网络IP,确定各个主机IP对应是否正确,并测试能否连接外网。

git 常用命令 Push

【代码】git常用命令之Push。

Logstash数据同步

2. 在 /usr/local/logstash-7.6.2/ 下创建文件夹 sync/,将数据库驱动 mysql-connector-java-5.1.41.jar 包上传到 /usr/local/logstash-7.6.2/sync/ 下,将其 放入 /usr/local/logstash-

【大数据】hadoop运行环境搭建(搭建如此简单)

首先准备好工具。下载好最新的VMware Workstation,CentorOS 7运行Linux,建议Linux桌面标准版,且创建好一个用户模板机一定要按照步骤做好准备,避免遗漏,否则一台一台改超级麻烦。搭建hadoop运行环境!!

Flink三种模式介绍&集群的搭建

Flink、Flink集群的搭建、Flink三种部署模式、会话模式、单作业模式、应用模式

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈