大数据 - overfit.cn

spark 3.4.4 机器学习基于逻辑回归算法及管道流实现鸢尾花分类预测案例

Pipeline将标签索引化、文本特征提取（词向量转换）以及逻辑回归模型训练这几个步骤有序地组合起来，实现了一个简单的文本分类任务流程，体现了Pipeline在整合机器学习流程方面的便利性和实用性。Spark 3.4.4

overfit同步小助手 2024-12-09 09:03:48 0 收藏

大数据新视界 -- Hive 临时表与视图的应用场景（下）（30 / 30）

本文深度挖掘 Hive 临时表与视图在多领域应用场景，融合前沿技术与创新思路，剖析底层原理与复杂案例，借助多元互动与视觉辅助，为大数据从业者呈上全方位数据处理指南，激发数据价值最大化创新实践。

overfit同步小助手 2024-12-09 09:03:16 0 收藏

rabbitmq高级特性（1）：消息确认，持久性，发送方确认和重试机制

这里的消息确认机制，指的是消费者对消息的确认，而不是生产者。（1）背景缘由当消费者把消息发送出去后，就会把消息删除。如果消费者这边处理消息成功，则相安无事；但是如果处理异常，消息也就会丢失。所以就需要设置消费者的消息确认模式（2）消息确认的机制消息确认机制分为两个大类：自动确认和手动确认手动确认又分

overfit同步小助手 2024-12-09 08:03:48 0 收藏

Python毕业设计选题：基于django的民族服饰数据分析系统的设计与实现_hadoop+spider

本文讲述了基于python语言开发，后台数据库选择MySQL进行数据的存储。该软件的主要功能是进行服饰数据分析。主要包括个人中心、用户管理、民族服饰管理、数据统计管理、系统管理等。本文主要介绍了该应用的设计初衷、功能实现的大致过程，详细说明了民族服饰数据分析平台设计思想、数据库的开发设计和功能模块的

overfit同步小助手 2024-12-09 08:03:33 0 收藏

执行flink sql连接clickhouse库

导入IDEA，maven编译即可，生成flink-connector-clickhouse-1.16.0-SNAPSHOT.jar。手把手教学，flink connector打通clickhouse大数据库，通过下发flink sql，来使用ck。flink官方不支持clickhouse连接器，工作

overfit同步小助手 2024-12-09 07:03:43 0 收藏

数据仓库和数据建模中，维度表、度量表、事实表和大宽表是什么

维度表：提供上下文信息（如时间、地点、产品等），通常包含描述性数据。度量表：主要存储用于分析的数值型数据，通常与事实表关联。事实表：存储与业务事件相关的度量数据及其与维度的关系，是数据仓库的核心。大宽表：将多个维度和事实结合在一起的扁平化数据表，以便于快速查询和多维分析。这些概念是数据仓库设计中非常

overfit同步小助手 2024-12-09 06:03:13 0 收藏

【Hadoop和Hbase集群配置】3台虚拟机、jdk+hadoop+hbase下载和安装、环境配置和集群测试

VMware+CentOS7，3台虚拟机配置hadoop集群，jdk+hadoop+hbase的下载和安装、环境配置，Hadoop和HBase集群测试

overfit同步小助手 2024-12-09 05:03:48 0 收藏

使用Eureka实现服务注册与发现的具体案例详解

在分布式系统中，服务的动态注册与发现是实现高可用性、扩展性的重要环节。Eureka 是 Netflix 开源的一款服务注册与发现组件，广泛应用于微服务架构中。本文将以实际案例为基础，详细介绍如何使用 Eureka 搭建服务注册中心及其在微服务中的使用方式。

overfit同步小助手 2024-12-09 05:03:43 0 收藏

大数据-242 离线数仓 - 电商核心交易数据导入全量数据导入方案产品分类、商家店铺、地域组织

业务需求，电商系统业务中最关键的业务，电商的运营活动都是围绕这个主题展开。选取的指标包括：订单数、商品数、支付金额，对这些指标按销售区域、商品类型分析。在大数据的分析中，"电商核心交易"是指电商平台上所有与商品交易相关的核心行为和交易数据的集合。具体来说，核心交易涵盖了商品的浏览、加购物车、下单、支

overfit同步小助手 2024-12-09 04:03:50 0 收藏

MaxCompute+Hadoop搭建实践

本文以E-MapReduce的Hive为例，为您介绍在MaxCompute中如何创建外部项目，并查询Hadoop中的表数据。

overfit同步小助手 2024-12-09 04:03:29 0 收藏

Dubbo，zookeeper，netty

一个jar包，一个分布式框架，一个远程服务调用的分布式框架。

overfit同步小助手 2024-12-09 02:04:22 0 收藏

[7] kafka基础知识

有些定时消费的任务在执行完某次消费任务之后保存了消费位移，之后隔了一段时间再次执行消费任务，如果这个间隔时间超过offsets.retention.minutes的配置值，那么原先的位移信息就会丢失，最后只能根据客户端参数 auto.offset.reset 来决定开始消费的位置，遇到这种情况时就需

overfit同步小助手 2024-12-09 02:04:03 0 收藏

Spark SQL大数据分析快速上手-伪分布模式安装

前置环境安装参看此博文伪分布模式也是在一台主机上运行，我们直接使用2.2节配置好的CentOS7-201虚拟机。伪分布模式需要启动Spark的两个进程，分别是Master和Worker。启动后，可以通过8080端口查看Spark的运行状态。伪分布模式安装需要修改一个配置文件SPARK_HOME/co

overfit同步小助手 2024-12-09 01:03:41 0 收藏

kafka mirror maker之实现两个kafka集群之间的数据同步

Kafka MirrorMaker 是 Apache Kafka 提供的一个用于在不同 Kafka 集群之间复制数据的工具。它的主要用途是在多个数据中心、地理位置或集群之间实现数据同步和冗余，以提升数据的高可用性和容灾能力。以下是关于 Kafka MirrorMaker 的详细介绍。Kafka Mi

overfit同步小助手 2024-12-09 00:03:25 0 收藏

毕业设计——基于医疗大数据及neo4j构建知识图谱实现智慧医疗问诊系统

实体抽取：从医疗文本中识别出重要的医疗实体，如疾病名称（如感冒、肺炎等）、症状（如发热、咳嗽等）、药物名称（如阿莫西林、布洛芬等）等。它具有高效的图查询能力，能够快速根据节点和边的关系在知识图谱中找到所需的知识路径，支持复杂的查询操作，适合医疗诊断问答中频繁的知识检索需求。当整合来自不同数据源的医疗

overfit同步小助手 2024-12-08 23:03:43 0 收藏

Spark SQL

3、在jars包位置 : spark-submit --master yarn-client --class com.shujia.spark.sql.day05.Demo07Submit spark-1.0.jar。1、shell命令行: spark-sql --master yarn-clie

overfit同步小助手 2024-12-08 23:03:31 0 收藏

Flink问题总结

Flink的问题个人总结

overfit同步小助手 2024-12-08 20:03:50 0 收藏

亚马逊云科技-电商构建大数据基座实践GenAI

overfit同步小助手 2024-12-08 20:03:45 0 收藏

使用DataX同步hive数据到MySQL

1、组件环境

overfit同步小助手 2024-12-08 19:03:46 0 收藏

docker配置普通用户访问

在Ubuntu上，默认情况下，Docker守护进程（daemon）以root用户身份运行，并且只有root用户或具有sudo权限的用户才能直接运行Docker命令。然而，你可以通过以下步骤将Docker权限授予普通用户，而无需每次都使用sudo。如果一切正常，你应该会看到Docker的Hello W

overfit同步小助手 2024-12-08 19:03:32 0 收藏