大数据 - overfit.cn

Apache Seatunnel Zeta引擎-启动脚本分析

引擎的集群模式启动的第一步是执行脚本，所以先来学习下这个脚本。

overfit同步小助手 2024-10-17 08:05:49 0 收藏

hadoop_core-site.xml配置实例

hadoop3.2.3的高可用集群core-site.xml配置实例。

overfit同步小助手 2024-10-17 08:05:33 0 收藏

大数据开发工程师必懂的Hive调优与实战保姆指南

一、数据仓库的定义与传统数据仓库的挑战数据仓库是什么呢？简单来说，它是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，主要目的是支持管理决策过程。在传统的数据仓库环境中，随着数据量不断地增长，单节点的关系型数据仓库逐渐暴露出一些问题。当处理海量数据时，它们会面临性能瓶颈和扩展性的难题。想

overfit同步小助手 2024-10-17 06:03:38 0 收藏

Git常用操作

Git 是一个强大的版本控制系统，用于管理代码仓库，追踪历史变更以及协作开发。

overfit同步小助手 2024-10-17 05:04:21 0 收藏

基于大数据的二手房价数据可视化系统

【2025最新】基于大数据+大屏可视化+Python+Django+Vue+MySQL的二手房价数据分析及可视化系统。

overfit同步小助手 2024-10-17 02:03:45 0 收藏

【重磅升级】基于大数据的股票量化分析与预测系统

本项目利用 Python 网络爬虫技术从某财经网站网站实时采集A股各大指数、个股的 K线数据、公司简介、财务指标、机构预测、资金流向、龙虎榜等数据，并进行 KDJ、BOLL等技术指标的计算和收益率的量化计算，构建股票数据分析与预测系统，深入挖掘板块热点、资金流向、市场估值等，并利用 Tensorfl

overfit同步小助手 2024-10-17 02:03:40 0 收藏

数仓表命名规范

格式举例：ods_mysql_bu_user_order_di，表示数据仓库中的ods层表，来源为mysql数据库，属于数据域bu，包含用户和订单信息，按天进行分区。- 层级：数据仓库中表的层级，包括：ods、dwd、dwc、dwb、dws、ads、dm、app、dim、tmp。格式举例：dws_h

overfit同步小助手 2024-10-17 00:03:24 0 收藏

全院级、流程化的医院安全不良事件管理系统源码——等级医院评审工作的辅助工具

冰山理论”指出“每件严重不良事件背后可能隐藏着10件轻微的不良事件”“存在30件未造成伤害的差错可能存在600件引发意外的异常事件”没有一件不良事件应该被忽视！一项研究也指出95%医生曾目睹错误的发生，61%的医务人员认为医疗错误是常规医疗工作的一部分，而错误的85%是由不当的系统造成的，而非不良的

overfit同步小助手 2024-10-16 23:07:37 0 收藏

大数据与人工智能：基础与应用的多维思考

overfit同步小助手 2024-10-16 23:04:08 0 收藏

如何用AI智能剪辑一键成片？免费工具，1分钟教会你落地操作！

你现在不去学习，不去努力，一年后，三年后，五年后，你可能还是停留在过去的时代。当你深入到AI领域的时候，你就会发现，我们现在每天花大量时间去做的事情，还没有AI，几分钟做出来的效果好。事实上，结合之前我给大家讲的思路，直接购买，或是下载旅游风景素材，接下来，可以在这里直接导入进去自动剪辑即可。下面就

overfit同步小助手 2024-10-16 23:01:27 0 收藏

【小白的大数据进阶之路】2024小白入门大数据，进阶成大牛，需要学习哪些技术？

2024小白入门大数据，进阶成大牛，需要学习哪些技术？每个技术在大数据领域的应用场景是啥？一个完整的大数据项目涉及到哪些流程环节，整个技术框架是怎样的？想要在2024年从小白进阶成大数据领域的大牛，你需要系统地学习一系列技术，并了解它们在大数据领域的应用场景。以下是一个详细的学习路线和每个技术的应用

overfit同步小助手 2024-10-16 22:03:40 0 收藏

Spark 运行架构

Spark 框架的核心是一个计算引擎，整体来说，它采用了标准的 master-slave 结构。上图中的 Driver 表示 master ，负责管理整个集群中的作业任务调度；Executor 则是 slave，负责实际执行任务；

overfit同步小助手 2024-10-16 20:03:49 0 收藏

详解 HBase 的安装部署及命令行操作

进入 HBase 下载地址：https://archive.apache.org/dist/hbase/修改 hbase-site.xml (默认的 hbase-default.xml)下载对应版本的 HBase 安装包并上传到虚拟机，并确保安装了 jdk 环境。软连接 hadoop 配置文件到 H

overfit同步小助手 2024-10-16 20:03:42 0 收藏

大数据新视界 --大数据大厂之 Volcano：大数据计算任务调度的新突破

Volcano 作为大数据计算任务调度的关键工具，有独特算法机制。其资源感知能实时掌握节点状况，任务分类可精准识别任务特性，以此实现高效智能调度。文中通过电信、金融、智能交通等多领域案例，如电信公司提高账单生成速度、金融机构优化风险评估等，展示其在提升计算效率与优化资源上的显著成果。同时给出 Pyt

overfit同步小助手 2024-10-16 19:03:33 0 收藏

Spark 任务与 Spark Streaming 任务的差异详解

任务调度：Spark 任务基于静态数据集，采用一次性批处理模式；Spark Streaming 任务基于流数据，采用微批处理模式，每隔一个时间窗口生成新的任务。数据处理：Spark 处理静态的 RDD，数据只计算一次；Spark Streaming 处理离散化的流数据，每个时间窗口生成一个新的 RD

overfit同步小助手 2024-10-16 18:03:33 0 收藏

25 款最佳生成式 AI 工具

wp:heading。

overfit同步小助手 2024-10-16 18:01:35 0 收藏

Flink1.18.1 Standalone模式集群搭建

本文将介绍如何在 Linux 服务器上搭建 Flink Standalone 集群，包含环境准备、配置修改和任务提交的步骤。在 Flink 集群中，各个节点之间需要免密登录。建议在每个节点上配置环境变量，方便使用 Flink 命令。从 Apache Flink 官方下载页面获取。，并在每台服务器上安

overfit同步小助手 2024-10-16 17:04:22 0 收藏

Python基于大数据的Boss直聘招聘可视化系统，附源码

嗨喽，大家好，今天为大家带来的是基于大数据的Boss直聘招聘可视化系统，Python基于Django的Boss直聘招聘可视化项目，该项目使用 Django 框架，Mysql 数据库，request，selenium 框架进行爬虫，实现招聘数据的采集，清洗等，该项目总体来说还是挺不错的，界面美观，下面

overfit同步小助手 2024-10-16 17:04:16 0 收藏

学习大数据DAY58 增量抽取数据表

减少 SELECT * 的使用：避免使用 SELECT * 来获取所有列，尽量只选择需要的。只需要结果集的一部分数据，可以使用 LIMIT 或 TOP 关键字来限制返回的行数。优化 JOIN 操作：确保在 JOIN 操作中使用的字段上有索引，并且尽可能地减少。限制结果集大小：在可能的情况下，使用 W

overfit同步小助手 2024-10-16 16:03:51 0 收藏

大数据智能风控核心：模型

模型：线性判别分析方法、个人FICO模型信用分、IRB、ABCF卡模型；算法：逻辑回归算法、决策树、集成学习、Bagging、随机森林、Boosting、Adaboost、Stacking；指标：混淆矩阵、评价指标、准确率、精确率、召回率、F1分数、ROC曲线、AUC、KS、PSI、基尼系数；

overfit同步小助手 2024-10-16 15:04:17 0 收藏