大数据 - overfit.cn

Docker部署hadoop+运行wordcount详解

overfit同步小助手 2024-06-13 21:03:38 0 收藏

SpringBoot整合消息中间件（ActiveMQ，RabbitMQ，RocketMQ，Kafka）

快速掌握spring整合消息中间件的知识

overfit同步小助手 2024-06-13 20:03:43 0 收藏

Hadoop+Spark大数据技术实验8 Spark SQL结构化

示例: gradedf.selectExpr("name", "name as names" ,"upper(Name)","Scala * 10").show(3)- 示例: gradedf.select("Name", "Class","Scala").show(3,false)修改名称：gra

overfit同步小助手 2024-06-13 20:03:37 0 收藏

Hadoop序列化：高效数据交换的秘诀

Hadoop序列化：高效数据交换的秘诀1.背景介绍在大数据时代，数据的存储和处理已经成为一个巨大的挑战。Apache Hadoop作为一个分布式系统基础架构,为海量数据的存储和处理提供了可靠、高效的解决方案。然而,在分布式环境中,数据需要在不同的节点之间进行传输和交换,这就需要对数

overfit同步小助手 2024-06-13 18:03:53 0 收藏

hadoop的基础操作

hadoop是一个由基金会所开发的。hadoop的框架最核心的设计就是HDFS和MapReduce，HDFS为海量的数据提供了存储，MapReduce则为海量的数据提供了计算。hadoop具有高容错性，常部署在低廉的硬件上，而且它拥有高吞吐量，可以更好地访问应用程序中的数据，适合有着大数据集的应用程

overfit同步小助手 2024-06-13 17:03:51 0 收藏

HiveQL在生物信息学中的应用

HiveQL在生物信息学中的应用1. 背景介绍1.1 生物信息学的兴起生物信息学是一门融合生物学、计算机科学和信息技术的新兴学科。随着基因组测序技术的飞速发展,生物数据的产生量呈指数级增长,传统的数据处理方式已无法满足需求。因此,生

overfit同步小助手 2024-06-13 16:03:30 0 收藏

Hive 实战：位图 Bitmap 系列-group_bitmap UDAF 实现解析

在 ClickHouse 中，groupBitmap 函数用于从整数列聚合生成位图，常用于高效地进行复杂的位运算。而在 Hive 中没有内置的等效函数，我们可以通过创建一个用户自定义聚合函数（UDAF）来实现 groupBitmap。这里将详细介绍如何在 Hive 中实现一个类似 groupBitm

overfit同步小助手 2024-06-13 14:03:59 0 收藏

毕设开源大数据电影数据分析与可视化系统

今天学长向大家介绍一个机器视觉的毕设项目🚩基于大数据的电影数据分析与可视化系统毕业设计大数据电影评论情感分析。

overfit同步小助手 2024-06-13 14:03:50 0 收藏

安装和配置 HBase

安装和配置 HBase一、安装 HBase　　①（在Linux 系统下的火狐浏览器打开）官网： Index of /dist/hbase (apache.org) 　　② 解压安装包hbase-2.2.2-bin.tar.gz至路径 /usr/local，命令如下：cd ~sudo tar -z

overfit同步小助手 2024-06-13 13:03:45 0 收藏

常用中间件redis，kafka及其测试方法

哨兵是redis官方推荐的集群高可用解决方案它能够自动识别redis集群的健康状态并在master节点异常时将从节点提升为master节点当redis中的某个热key（比如首页广告）过期或者因为某些异常原因导致无法从缓存中读取，导致大量的并发访问数据库而崩溃数据既不存在在缓存中，也不存在在数据库中。

overfit同步小助手 2024-06-13 12:03:53 0 收藏

Hive中left join 中的where 和 on的区别

overfit同步小助手 2024-06-13 12:03:31 0 收藏

关于如何查询zookeeper的版本:

如果能登录ssh，那么ssh到zk所在服务器，然后输入echo stat|nc localhost 2181，结果如下如果不能登录ssh（例如是云服务），那么使用另一台电脑telnet到zk端口即可查看，命令是telnet 10.20.144.50 2181（IP和端口根据实际情况），在连上后，输入

overfit同步小助手 2024-06-13 11:03:33 0 收藏

Kafka整合springcloud

7、要是服务异常导致不能消费或者网络波动导致消费消息失败咋办呢？4、编写Kafka配置类，注册消费者在这里。2、pom引入Kafka依赖。

overfit同步小助手 2024-06-13 11:03:30 0 收藏

Hive与Mysql完全卸载与重装

Ubuntu 20.04上安装和卸载MySQL 8.0 - 简书 (jianshu.com)Hive 3.x 安装部署详细教程，每一步清晰明了 - 掘金 (juejin.cn)Hive之MySQL安装与卸载_hive卸载-CSDN博客。启动Hive前要先启动hadoop和mysql。Hive卸载重装

overfit同步小助手 2024-06-13 10:03:47 0 收藏

大数据 | 实验四：并行化数据挖掘算法设计

k近邻法（k-nearest neighbor，k-NN）是一种基本的分类和回归方法，是监督学习方法里的一种常用方法。

overfit同步小助手 2024-06-13 08:03:22 0 收藏

大数据之数据仓库技术：ETL工具和Kettle简介

`ETL` 是实现商务智能(Business Intelligence，BI)的核心。一般情况下，ETL会花费整个BI项目三分之一的时间，因此ETL设计得好坏直接影响BI项目的成败。如果说 `数据仓库` 的模型设计是一座大厦的设计蓝图，数据是砖瓦的话，那么 `ETL` 就是建设大厦的过程。

overfit同步小助手 2024-06-13 07:03:49 0 收藏

麒麟离线没有网络安装 RabbitMQ

如何给离线麒麟操作系统安装RabbitMQ。

overfit同步小助手 2024-06-13 06:03:37 0 收藏

十分钟掌握 Flink CDC，实现Mysql数据增量备份到Clickhouse [纯干货，建议收藏]

一次偶然，从朋友那里得到一份“java高分面试指南”，里面涵盖了25个分类的面试题以及详细的解析：JavaOOP、Java集合/泛型、Java中的IO与NIO、Java反射、Java序列化、Java注解、多线程&并发、JVM、Mysql、Redis、Memcached、MongoDB、Spring、

overfit同步小助手 2024-06-13 06:03:32 0 收藏

Spark数据倾斜定位及解决方案

因为自己编写的代码的bug，以及偶然出现的数据异常，也可能会导致内存溢出。此外，倒数第一列显示了每个task处理的数据量，明显可以看到，运行时间特别短的task只需要处理几百KB的数据即可，而运行时间特别长的task需要处理几千KB的数据，处理的数据量差了10倍。：该方案通常无法彻底解决数据倾斜，因

overfit同步小助手 2024-06-13 06:03:29 0 收藏

毕业设计大数据电商用户行为分析及可视化(源码+论文)

今天学长向大家介绍一个机器视觉的毕设项目，大数据电商用户行为分析及可视化(源码+论文)毕业设计基于大数据淘宝用户行为分析。

overfit同步小助手 2024-06-13 05:03:33 0 收藏