大数据 - overfit.cn

【大数据之Hadoop】十七、MapReduce之数据清洗ETL

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将分散、零乱、标准不统一的数据整合到一起，为决策提供分析依据。ETL的设计分三部分：数据抽取、数据的清洗转换、数据的加载。

overfit同步小助手 2023-11-23 02:03:48 0 收藏

2024年计算机专业大数据选题推荐✅（最新、最全、最容易通过的选择）

💗博主介绍：✌全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗👇🏻精彩专栏推荐订阅👇🏻2023-2024年最值得选的微信小程序毕业设计选题大

overfit同步小助手 2023-11-23 02:03:38 0 收藏

HDFS 常见基础操作命令

hdfs基本操作命令

overfit同步小助手 2023-11-22 23:03:25 0 收藏

大数据岗位秋招面试八股文总结（不定时更新）

第一次是局部聚合，先给每个key都打上一个随机数，比如10以内的随机数，此时原先一样的key就变成不一样的了，比如(hello, 1) (hello, 1) (hello, 1) (hello, 1)，就会变成(1_hello, 1) (1_hello, 1) (2_hello, 1) (2_hel

overfit同步小助手 2023-11-22 19:03:45 0 收藏

2023.11.10 hadoop,hive框架概念,基础组件

任务:1.确认hadoop,hive环境搭建完成2.确认能使用hadoop,hive启动服务的命令,datagrip连接hive服务操作3.背诵/流畅表达 hadoop的架构,各组件之间的关系4.说明hive的流程,元数据的概念。

overfit同步小助手 2023-11-22 12:03:28 0 收藏

数据仓库-日期维度表的设计与实现

本文基于python的chinese_calendar和pymysql库编写了一个生成日期维表（日期-工作日-节假日维度表），用于对业务主题表进行维度建模，实现方式简单，一键生成，数据可靠。

overfit同步小助手 2023-11-22 05:03:10 0 收藏

随着AI的广泛应用与普及，我国医疗行业也正逐步进入智能医疗时代，如何在医疗行业借助AI提升患者的治疗能力，降低

作者：禅与计算机程序设计艺术 1.简介随着近年来医疗技术的飞速发展，人们越来越关注人工智能(Artificial Intelligence, AI)技术对医疗工作的影响。以往人们所熟知的机器学习、计算机视觉等技术主要用于科学研究、工程制造，而现在，医疗行业也越来

overfit同步小助手 2023-11-22 05:01:06 0 收藏

大数据处理架构详解：Lambda架构、Kappa架构、流批一体、Dataflow模型、实时数仓

面对海量异构数据,如何设计高效可靠的大数据处理架构?本文全方位解析大数据处理的典型架构模式。想知道兼具低延迟和批处理能力的Lambda架构和Kappa架构有何区别?简单高效的流批一体架构如何实现?灵活的Dataflow数据流模型的原理是什么?实时数仓如何做到毫秒级分析?本文通过详细的原理分析和业界案

overfit同步小助手 2023-11-22 03:01:54 0 收藏

跨境电商与隐擎fox指纹浏览器：保障安全与效率的完美结合

为了确保跨境电商的顺利运营和数据安全，隐擎fox指纹浏览器作为一种防关联浏览器和多开浏览器的创新解决方案，正逐渐成为企业和个人的首选工具。二：关联浏览器和多开浏览器的安全风险在跨境电商中，一些不法分子利用关联浏览器和多开浏览器的方式，试图窃取用户信息、篡改订单、进行欺诈活动等。一：跨境电商的发展和面

overfit同步小助手 2023-11-21 20:07:02 0 收藏

华为开源carbondata中的使用问题处理

A：在最大重试尝试次数后，Spark executor显示任务失败，但是加载具有不良记录的数据并将BAD_RECORDS_ACTION（carbon.bad.records.action）设置为“ FAIL”将仅尝试一次，但会向驱动程序发送信号给失败而不是抛出异常重试，因为如果发现不良记录并且BA

overfit同步小助手 2023-11-21 18:04:30 0 收藏

2023_Spark_实验十六：编写LoggerLevel方法及getLocalSparkSession方法

掌握基于IDEA开发Spark项目的配置，依赖管理，编写LoggerLevel方法及getLocalSparkSession方法

overfit同步小助手 2023-11-21 18:03:13 0 收藏

大数据面试题：Spark和MapReduce之间的区别？各自优缺点？

Spark的DAGScheduler相当于一个改进版的MapReduce，如果计算不涉及与其他节点进行数据交换，Spark可以在内存中一次性完成这些操作，也就是中间结果无须落盘，减少了磁盘IO的操作。有一个误区，Spark是基于内存的计算，所以快，这不是主要原因，要对数据做计算，必然得加载到内存，H

overfit同步小助手 2023-11-21 17:03:15 0 收藏

Medical Imaging AI – Image Segmentation using Deep Lear

作者：禅与计算机程序设计艺术 1.简介Image segmentation is one of the key tasks in medical image analysis and computer vision that involves dividing

overfit同步小助手 2023-11-21 16:01:44 0 收藏

HIVE基本查询操作（二）——第3关：Hive抽样查询

为了完成本关任务，你需要掌握：1.随机抽样 2.桶表抽样 3.数据块抽样。采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。可以进一步组织成桶，也就是说桶是更为细粒度的数据范围划分。根据提示，在右侧编辑器补充代码，计算每个股票每天的交易量。语句可以获得同样的效果，但是性能没这

overfit同步小助手 2023-11-21 14:03:54 0 收藏

【时区】Flink JDBC 和CDC时间字段时区测试及时间基准

Flink JDBC 和CDC时间字段时区测试及时间基准

overfit同步小助手 2023-11-21 14:03:33 0 收藏

AI架构师必知必会系列：FPGA加速与AI

作者：禅与计算机程序设计艺术 1.简介什么是FPGA？它是什么时候出现的？它又是如何工作的？这是需要了解的。FPGA加速对AI的影响又是什么样的呢？如何利用好FPGA？总而言之，要掌握FPGA加速的相关知识、技巧与能力，才能更好的进行AI应用。因此，本文将从如下

overfit同步小助手 2023-11-21 10:01:41 0 收藏

Greenplum 对比 Hadoop

基于上述不同，体现在效率、功能等特性方面也大不相同。

overfit同步小助手 2023-11-21 09:03:48 0 收藏

Hadoop集群搭建安装教程（详细完整）

Hadoop是Apache旗下的一个用java语言实现开源软件框架，是一个开发和运行处理大规模数据的软件平台。

overfit同步小助手 2023-11-21 09:03:42 0 收藏

2023-2024年计算机毕业设计选题合集推荐大全人工智能大数据通信工程计科软件工程

2023-2024年计算机毕业设计选题合集推荐大全人工智能大数据通信工程计科软件工程选题合集涵盖了管理系统、小程序、深度学习、机器学习、算法、人工智能、大数据、网络安全、嵌入式、推荐系统、目标检测等多个热门领域。对于计算机专业、软件工程专业、人工智能专业、通信工程专业的毕业生而言，选择一

overfit同步小助手 2023-11-21 08:03:45 0 收藏

2022亚太杯C题完整原创成品来啦！

从目录就能看出来，这道题需要解决的小问很多。OK，现在大家跟着我的脚步，一步一步来分析这道题目：最开始，我们只获得了一篇问题和一个附件数据。

overfit同步小助手 2023-11-21 07:03:41 0 收藏