大数据 - overfit.cn

hadoop之ranger权限配置（二）

ranger权限配置

overfit同步小助手 2023-06-23 21:04:03 0 收藏

Spark RDD编程基本操作

overfit同步小助手 2023-06-23 20:03:55 0 收藏

大数据调度平台oozie、azkaban、dolphinscheduler、AirFlow对比

海豚调度出来的有点迟，它把我们之前讲的 Oozie、Azkaban、airflow的优点全拿过来了，后发优势，集万千优点于一身，缺点也避免了。过载处理：airflow 任务过多时卡死服务器，DolphinScheduler任务队列机制，当任务过多时会缓存在任务队列中。Azkaban:最适合shell

overfit同步小助手 2023-06-23 19:04:26 0 收藏

SparkML机器学习实战：应用回归算法，预测二手房价格

受某房产中介委托，需开发一套机器学习系统，当用户将要售卖的二手房挂到二手房网站上时，该机器学习系统能自动根据该二手房的相关信息给出合理的销售价格预测，以指导客户报价。本案例所使用的数据集为纯文本文件，说明如下：数据集路径：/data/dataset/ml/house/train.csv1、启动H

overfit同步小助手 2023-06-23 18:05:24 0 收藏

Quartz、xxl-job、Elastic-Job和Saturn简单对比

Quartz是满足复杂调度需求的好选择，而xxl-job和Elastic-Job则更适合分布式调度和动态扩展。优点： Saturn是一个建立在Elastic-Job之上的作业调度框架，旨在简化分布式作业的调度和管理。优势： Elastic-Job是一个强大而灵活的作业调度框架，支持分布式调度、动态扩

overfit同步小助手 2023-06-23 15:04:23 0 收藏

大数据开发之Hive案例篇10-大表笛卡尔积优化

我们需要求每一个start_date的累积数量，那么此时我们可以先求每天的，然后求每天累积的，再求当天每一个start_date累积的，加上前一日的累积的，就是最终我们需要的数据。就算数据量提升数倍，因为 join的条件由一个 data_source 变为了两个 data_souce 、dt，大大减

overfit同步小助手 2023-06-23 13:04:25 0 收藏

hadoop高可用【HA】配置详解

想实现 Hadoop 高可用就必须实现 NameNode 的高可用，NameNode 是HDFS的核心，HDFS 又是 Hadoop 核心组件，NameNode 在 Hadoop 集群中至关重要；NameNode 宕机，将导致集群不可用，如果NameNode数据丢失将导致整个集群的数据丢失，而 Na

overfit同步小助手 2023-06-23 12:04:38 0 收藏

kettle桌面版和docker版的安装

一键连接kettle各个环境版本的安装

overfit同步小助手 2023-06-23 10:04:19 0 收藏

基于hadoop大数据的音乐推荐系统

overfit同步小助手 2023-06-23 06:03:56 0 收藏

SAP 发出商品业务配置

（在正常业务中，即出库时计算成本，VAX和VAY借贷方的科目相同，为“主营业务成本”，这样在产生会计凭证时，借：主营业务成本，贷：库存商品）帐码：即我们定义的Z01，ERL是收入，ERB为销售扣减，ERB分配给的是返利的条件类型，主要是为了财务统计方便。该业务在系统内的实现方式，为保证成本与收入的配

overfit同步小助手 2023-06-23 05:04:20 0 收藏

PCBA电路板中电容MLCC失效分析-应力测试作业指导

PCBA电路板中电容MLCC失效分析,制造终端工厂在选择PCBA代工代料过程中，又面临难以确认物料的真实性、PCB采购周期不稳定、电子元器件失效、维修困难、资金风险等难题，IC类和陶瓷电容（MLCC）类失效是目前PCBA制程中导致PCBA失效的几个重要原因。...

overfit同步小助手 2023-06-23 01:06:02 0 收藏

iceberg的java api使用

【前言】了解一个组件的最好方式是先使用该组件，今天我们就来聊聊如何通过java api对iceberg进行操作。为什么是选择api进行介绍，而不是更通用的flink、spark、hive等。一方面是觉得flink、spark使用iceberg的介绍网上已经有很多，官网的介绍也比较清晰，而java a

overfit同步小助手 2023-06-23 01:04:20 0 收藏

flink(二)

flink

overfit同步小助手 2023-06-22 21:04:01 0 收藏

图数据库选型对比

常见的图数据库包括：JanusGraph、Neo4j、Dgraph、NebulaGraph、HugeGraph、OrientDB、ArangoDB、TigerGraph等。下面列举，主流和推荐的几款图数据库的简介，应用场景和架构。

overfit同步小助手 2023-06-22 20:04:08 0 收藏

助力工业物联网，工业大数据之工业大数据之油站维度设计【十四】

ciss_base_customer：客户信息表【客户id、客户省份名称、所属公司ID】：构建油站维度表，得到油站id、油站名称、油站所属的地理区域、所属公司、油站状态等。eos_dict_entry：字典状态明细表，记录所有具体的状态或者类别信息。ciss_base_baseinfo：客户公司信息

overfit同步小助手 2023-06-22 18:04:29 0 收藏

数据存储与容灾（第2版）主编鲁先志武春岭综合训练答案

数据存储与容灾第二版课后习题答案。除了思考题答案，其他都是绝对正确的。思考题答案是自己写的或者参考互联网上的答案，仅供参考。如有异议请在评论区提出

overfit同步小助手 2023-06-22 17:04:07 0 收藏

精选 100 种最佳 AI 工具大盘点

它非常适合想要快速轻松地制作引人入胜的视频的内容创作者和社交媒体影响者。它非常适合想要快速轻松地创建高质量内容的内容创建者和营销人员。Buzzy：Buzzy 是一个无代码平台，可将您的想法转化为 Figma 设计和可运行的应用程序。SlidesAl：SlidesAl 是一种工具，可以帮助您在几秒钟内

overfit同步小助手 2023-06-22 16:04:37 0 收藏

大数据高频面试题

说下Spark中的Transform和Action，为什么Spark要把操作分为Transform和Action?Hive的join操作原理，leftjoin、right join、inner join、outer join的异同?在删除HBase中的一个数据的时候，它什么时候真正的进行删除呢?Hi

overfit同步小助手 2023-06-22 13:03:57 0 收藏

人工智能期末复习（简答）

学习：系统在不断重复的工作中对本身能力的增强和改进，使得系统在下一次执行同样任务或类似任务时会比现在做得更好或效率更高（西蒙）。机器学习：实现通过经验来提高对某任务处理性能的行为的计算机程序。是指用计算机来分析、处理自然语言，让计算机理解并能表达自然语言，实现人与计算机的自然语言交流。（IBM Wa

overfit同步小助手 2023-06-22 13:02:09 0 收藏

可视化——Superset安装与部署

Superset入门，概念、安装与部署

overfit同步小助手 2023-06-22 08:04:25 0 收藏