大数据 - overfit.cn

python毕设选题 - 大数据商城人流数据分析与可视化 - python 大数据分析

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩基于大数据的基站数据分析与可视化🥇学长这

overfit同步小助手 2024-02-23 03:03:17 0 收藏

【Kafka】分区和副本 Partition 详解

Kafka分区和副本 Partition 详解

overfit同步小助手 2024-02-23 02:03:16 0 收藏

RabbitMQ高可用架构涉及常用功能整理

探讨rabbitmq的系统架构以及以及整体常用的命令和系统分析，本文主要探讨高可用版本的rabbitmq集群，并基于日常工作中的沉淀进行思考和整理。更多关于分布式系统的架构思考请参考文档[关于常见分布式组件高可用设计原理的理解和思考](https://blog.csDN.net/weixin_438

overfit同步小助手 2024-02-23 01:03:43 0 收藏

【大数据面试题】001 Flink 的 Checkpoint 原理

一步一个脚印，一天一道大数据面试题。Flink 是大数据实时处理计算框架。实时框架对检查点，错误恢复的功能要比离线的更复杂，所以一起来了解 Flink 的 Checkpoint 机制吧。

overfit同步小助手 2024-02-23 01:03:17 0 收藏

Hive Sql 大全(hive函数，hive表)

本节基本涵盖了Hive日常使用的所有SQL，因为SQL太多，所以将SQL进行了如下分类：一、DDL语句（数据定义语句）：对数据库的操作：包含创建、修改数据库对数据表的操作：分为内部表及外部表，分区表和分桶表二、DQL语句（数据查询语句）：单表查询、关联查询hive函数：包含聚合函数，条件函数，日期

overfit同步小助手 2024-02-23 00:03:36 0 收藏

Hive执行计划

先看第一部分 stage dependencies ，包含两个 stage，Stage-1 是根stage，说明这是开始的stage，Stage-0 依赖 Stage-1，Stage-1执行完成后执行Stage-0。以上仅列举了4个我们生产中既熟悉又有点迷糊的例子，explain 还有很多其他的用途

overfit同步小助手 2024-02-22 23:03:51 0 收藏

涤生大数据实战：基于Flink+ODPS历史累计计算项目分析与优化（上）

当一个用户在T日实时上传了自己的跑步记录，Flink节点1会计算出其 [当日0点起至此刻] 的跑步累计数据data1，Flink节点2会根据该用户id取hbase维表里查询其 [历史～T-1日] 的累计数据 data2 (hbase表里数据由odps每日更新，即T-1日的存量累计汇总数据)，将dat

overfit同步小助手 2024-02-22 22:03:53 0 收藏

大数据——hadoop环境安装（docker搭建）

###### 这个Dockerfile主要是基于CentOS镜像进行一些系统设置和软件安装，最终生成一个包含SSH服务的镜像。####### dockerfile的内容# 基础镜像# 作者# 将工作目录切换到`/etc/yum.repos.d/`# 使用sed命令注释掉mirrorlist行。# 使

overfit同步小助手 2024-02-22 21:03:53 0 收藏

毕业设计：基于大数据的豆瓣电影数据挖掘与评分预测 python

毕业设计：基于大数据的豆瓣电影数据挖掘与评分预测通过深度学习和计算机视觉技术的结合应用，本课题旨在挖掘豆瓣电影数据中的潜在信息和模式，准确预测电影的评分和票房表现。通过自制的数据集和创新的算法设计，本课题为毕业生提供了一个有意义的研究课题，有助于培养他们在大数据分析、机器学习和数据挖掘等领域的技术和

overfit同步小助手 2024-02-22 21:03:42 0 收藏

大数据技术原理与应用实验指南——HBase编程实践

（1）熟练使用HBase操作常用的Shell命令。（2）熟悉HBase操作常用的Java API。（1）安装HBase软件。（2）编程实现指定功能，并利用Hadoop提供的Shell命令完成相同的任务（实现增、删、改、查基本操作，统计表的行数，打印表的记录等操作）。FileZilla

overfit同步小助手 2024-02-22 20:03:44 0 收藏

学习Spark遇到的问题

【报错】AttributeError: ‘SparkContext’ object has no attribute ‘setcheckpointDir’解决：将setcheckpointDir改成setCheckpointDir，其中c字母大写。是因为两个方法的传参不同导致。分析：SparkCon

overfit同步小助手 2024-02-22 19:03:40 0 收藏

flink基本概念

要解答这个问题，我们需要先梳理一下其他框架分配任务、数据处理的过程。对于 Spark而言，是把根据程序生成的 DAG 划分阶段（stage）、进而分配任务的。而对于 Flink 这样的流式引擎，其实没有划分 stage 的必要。因为数据是连续不断到来的，我们完全可以按照数据流图建立一个“流水线”，前

overfit同步小助手 2024-02-22 19:03:25 0 收藏

大数据毕设分享机器视觉网络课堂专注检测系统

卷积神经网络(CNN)，是由多层卷积结构组成的一种神经网络。卷积结构可以减少网络的内存占用、参数和模型的过拟合。卷积神经网络是一种典型的深度学习算法。广泛应用于视觉处理和人工智能领域，特别是在图像识别和人脸识别领域。与完全连接的神经网络相比，CNN输入是通过交换参数和局部感知来提取图像特征的图像。卷

overfit同步小助手 2024-02-22 17:03:46 0 收藏

HBase的数据库与Apache Cassandra的集成

1.背景介绍HBase和Apache Cassandra都是分布式数据库，它们在数据处理和存储方面有一些相似之处，但也有一些不同之处。HBase是一个基于Hadoop的分布式数据库，它使用HDFS(Hadoop Distributed File System)作为底层存储系统，并提供了高可扩展性、高

overfit同步小助手 2024-02-22 16:03:24 0 收藏

RabbitMQ

中间件可以理解为一个帮助不同软件、应用或系统之间交流和数据传输的工具或服务。就像一个翻译员在两个讲不同语言的人之间传递信息，让他们能够互相理解和沟通。中间件位于客户端（比如你的电脑或手机应用）和服务器（存放数据和运行服务的强大计算机）之间，确保数据顺利传输，同时还可以提供额外的功能，比如安全性、数据

overfit同步小助手 2024-02-22 15:04:03 0 收藏

Zookeeper的数据watches与监控

1.背景介绍1. 背景介绍Apache Zookeeper是一个开源的分布式协调服务，它提供了一种可靠的、高性能的数据同步和协调服务。Zookeeper的核心功能包括数据观察、分布式同步、集群管理等。在分布式系统中，Zookeeper被广泛应用于协调和管理服务器集群、配置管理、数据同步等方面。在分布

overfit同步小助手 2024-02-22 15:03:51 0 收藏

深度学习与大数据在自然语言处理（NLP）领域的结合，为我们打开了一个全新的篇章

深度学习是机器学习的一个分支，通过构建多层神经网络模拟人脑神经元的工作方式。这种模拟方式使得深度学习能够实现对复杂数据的处理和理解。大数据则为深度学习提供了海量的训练数据，这些数据使得模型能够从中学习和提取有用的信息。这两者的结合，显著推动了NLP在许多方面的进步。

overfit同步小助手 2024-02-22 15:03:32 0 收藏

SparkStreaming---DStream

用户自定义数据源需要继承 Receiver，并实现 onStart、onStop 方法来自定义数据源采集。//最初启动的时候，调用该方法，读数据并将数据发送给 Sparkreceive()}.start()///读数据并将数据发送给 Spark//创建Socket//创建变量用于接收端口穿过来的数据

overfit同步小助手 2024-02-22 14:03:34 0 收藏

领导让我研究 Eureka 源码 | 启动过程

来一份 Eureka 启动的整体流程图。

overfit同步小助手 2024-02-22 13:03:42 0 收藏

（五）springboot 配置多数据源连接mysql和hive

项目结构如下mysql 执行如下建表语句，并插入一条测试数据12345CREATETABLEDEFAULTPRIMARYKEY使用hive客户端执行如下建表语句，并插入一条测试数据1createtable。

overfit同步小助手 2024-02-22 12:03:51 0 收藏