大数据 - overfit.cn

Neural Networks (NN) 原理与代码实战案例讲解

Neural Networks (NN) 原理与代码实战案例讲解1.背景介绍1.1 什么是神经网络神经网络(Neural Networks, NN)是一种受生物神经系统启发而设计的机器学习模型,旨在模拟人脑神

overfit同步小助手 2024-08-28 18:04:19 0 收藏

大数据-44 Redis 慢查询日志监视器慢查询测试学习

上节完成了Redis Lua脚本的扩展，Lua在Redis的使用案例。本节学习Redis慢查询日志，监视器，慢查询测试学习。 Redis 客户端可以通过执行 MONITOR 命令将自己变成一个监视器，实时接受并打印服务器当前处理的命令请求的相关信息。此时，当其他客户端向服务端发送一条命令时，服务器除

overfit同步小助手 2024-08-28 18:04:00 0 收藏

Java_RabbitMQ

d \注意如果是接收数据后处理数据导致了业务异常，那么SpringAMQP是不会抛异常的，这种情况一般需要程序员自己编写代码让MQ返回nack或者reject。延迟消息：发送者发送消息时指定一个时间，消费者不会立刻收到消息，而是在指定时间之后才收到消息。延迟任务：设置在一定时间之后才执行的任务。

overfit同步小助手 2024-08-28 17:03:46 0 收藏

数据仓库基础理论—数仓分层

在国内主流的数据仓库设计中，通常会采用多层架构来管理和组织数据，常见的层次：ODS（操作数据存储）、DWD（数据仓库明细层）、DWS（数据仓库汇总层）、DIM（维度模型层）和ADS（应用数据服务层）。

overfit同步小助手 2024-08-28 16:04:14 0 收藏

RabbitMQ、Kafka对比（超详细），Kafka、RabbitMQ、RocketMQ的区别

RabbitMQ、Kafka对比（超详细），Kafka、RabbitMQ、RocketMQ的区别，设计目标、适用场景、吞吐量、消息存储和持久化、可靠性、集群负载均衡

overfit同步小助手 2024-08-28 16:04:09 0 收藏

基于Hadoop的网购笔记本电脑大数据分析与可视化系统

本项目首先通过爬虫获取京东电脑数据，爬虫比较OK，十分具有学习意义，数据可以不断地获取，智能化爬虫，遵守协议，属于良性获取数据。然后进行数据预处理，将脏数据进行结构化处理，保证大数据Hadoop可以复用采用Hadoop进行大数据分析设计组件集群 hdfs HIve flume sqoop

overfit同步小助手 2024-08-28 16:03:47 0 收藏

RabbitMQ 基础总结

我们一般的项目过程都是同步通信，及一个服务结束后在执行另一个服务这会让总体时间变得很长，尤其是在高并发的时候用户体验感很不好，且在调用一个服务期间cup内存等都处于空闲状态造成资源浪费。如果调用其中某一个服务时这个服务挂掉了，这个请求就会一直卡在这里，许多个请求都卡在这就会导致资源耗尽导致级联失败

overfit同步小助手 2024-08-28 14:03:56 0 收藏

被问到MQ消息已丢失，该如何处理？

在分布式系统中，消息中间件（如 RabbitMQ、RocketMQ、Kafka、Pulsar 等）扮演着关键角色，用于解耦生产者和消费者，并确保数据传输的可靠性和顺序性。尽管我们通常会采取多种措施来防止消息丢失，如消息持久化、手动确认机制和重试机制等，但如果消息已经丢失了这种情况，当丢失已经发生又应

overfit同步小助手 2024-08-28 14:03:53 0 收藏

ETL工具Kettle使用总结

好久没有发布文章了，就用最近工作常用的kettle工具做为素材写一下随笔，方便以后碰到相同的问题快速解决。kettle的简介我就不介绍了，大家随便百度一下就可以查到，主要作用就是用于从一个或多个数据源中提取数据，对数据进行转换和清洗（这个过程就是ETL），然后加载到目标数据存储中，以支持数据分析、报

overfit同步小助手 2024-08-28 14:03:46 0 收藏

Java Kafka消费者组位移重设深度解析与实践

在现代的分布式系统中，消息队列扮演着至关重要的角色。Apache Kafka，以其高吞吐量、高可靠性和优秀的容错性，成为了众多企业的首选消息系统。在使用Kafka过程中，消费者组位移的管理是一个常见且关键的议题。本文将深入探讨Kafka消费者组位移的概念、重要性以及如何通过Java API和命令行工

overfit同步小助手 2024-08-28 14:03:26 0 收藏

基于Hadoop的区块链海量数据存储的设计与实现

本文基于Hadoop技术，探讨了如何设计和实现基于区块链的海量数据存储系统。随着区块链技术的快速发展和广泛应用，大量的数据需要被存储和管理。然而，由于区块链的去中心化和不可篡改性质，传统的数据库技术在处理海量数据时遇到了困难。因此，利用Hadoop这一成熟的分布式存储和处理框架，本文提出了一种可扩展

overfit同步小助手 2024-08-28 14:03:18 0 收藏

Spark机器学习基础

不纯度 = P(X=0)(1-P(X=0)) + P(X=1)(1-P(X=1)) = 0.25 + 0.25 = 0.5。用来防止模型过拟合的参数，虽然线性模型本身是欠拟合的但是还是需要正则化系数来帮助我们调整模型。PCA使用的信息量衡量指标，就是样本方差，又称可解释性方差，方差越大，特征所带的

overfit同步小助手 2024-08-28 13:04:04 0 收藏

数据仓库-离线数据仓库架构-002

切分多个Task之后，DataX Job会调用Scheduler模块，根据配置的并发数据量，将拆分成的Task重新组合，组装成TaskGroup(任务组)。对于sqoop和datax，如果只是单纯的数据同步，其实两者都是ok的，但是如果需要集成在大数据平台，还是比较推荐使用datax，原因就是支持流

overfit同步小助手 2024-08-28 13:03:49 0 收藏

大学期末大作业-基于spark探索b站每周必看视频热门的因素

作业记录

overfit同步小助手 2024-08-28 13:03:29 0 收藏

多模态大模型：技术原理与实战如何提高长文本阅读能力

1. 背景介绍1.1 大模型时代的信息挑战近年来，随着互联网的蓬勃发展，信息量呈爆炸式增长，文本、图像、视频等多模态数据成为信息的主要载体。如何高效地处理和理解这些海量多模态数据，成为人工智能领域亟待解决的难题。传统的单模态模型，例如自然语言处理（NLP）模型或计算机视觉（CV）模型，难

overfit同步小助手 2024-08-28 11:04:01 0 收藏

Flink开发：Java与Scala的抉择——深度剖析与实战考量

在大数据处理与流计算领域，Apache Flink以其高性能、低延迟和精确的状态管理而著称，成为了众多企业和开发者首选的分布式流处理框架。然而，在选择Flink作为技术栈时，一个常见的问题便是编程语言的选择：是使用Java还是Scala？这两种语言在Flink生态系统中都扮演着重要角色，各自拥有独特

overfit同步小助手 2024-08-28 11:03:46 0 收藏

服务注册中心--Eureka

Eureka是一个基于REST的服务，主要用于AWS(Amazon Web Services 亚马逊云计算服务)云中的定位服务，以实现中间层服务器的负载平衡和故障转移在 Spring Cloud。

overfit同步小助手 2024-08-28 11:03:40 0 收藏

企业数字化转型建设思路、本质、数字化架构、数字化规划蓝图

原文《企业数字化规划蓝图、数字化企业架构、数字化转型战略规划方案》PPT格式，共76页。企业数字化转型是一场深刻而复杂的变革，需要企业高层领导的坚定决心、全体员工的积极参与以及科学合理的规划与实施。通过明确建设思路、把握转型本质、构建数字化架构、制定规划蓝图，企业可以稳步推进数字化转型进程，最终实现

overfit同步小助手 2024-08-28 10:03:51 0 收藏

大数据技术基础综述

大数据时代的来临，带来了信息技术发展的巨大变革，在金融、汽车、零售、餐饮、电信、能源、医疗等社会各行各业都有大数据的身影。大数据技术深刻影响着社会生产和人民生活。世界主要国家高度重视大数据发展，我国也将发展大数据作为国家战略。当谈及大数据时，往往并非仅指数据本身，而是数据和大数据技术二者的综合。大数

overfit同步小助手 2024-08-28 10:03:24 0 收藏

深入探索【Hadoop】生态系统：Hive、Pig、HBase及更多关键组件（下）

本文深入探索了Hadoop生态系统的核心组成部分及其关键组件，特别是聚焦于Hive、Pig和HBase这三个重要工具。Hadoop作为大数据处理和分析的基石，通过其丰富的生态系统为企业和组织提供了强大的数据处理能力。首先，文章介绍了Hive，作为Hadoop上的数据仓库工具，Hive允许用户通过类S

overfit同步小助手 2024-08-28 10:03:20 0 收藏