大数据 - overfit.cn

14 | Spark SQL 的 DataFrame API 读取CSV 操作

在这个需求中，我们将使用 Apache Spark 的 DataFrame API 对包含销售数据的 CSV 文件进行不同类型的数据操作。当使用 Spark SQL 的 DataFrame API 读取 CSV 文件时，你可以按照以下步骤进行操作。从包含销售数据的 CSV 文件中加载数据，并创建一个

overfit同步小助手 2023-11-07 01:04:22 0 收藏

spark相关网站

矢量线八方向和全方向栅格化算法C#实现。GIS中将矢量数据转换栅格数据算法。Spark的五种JOIN策略解析。

overfit同步小助手 2023-11-06 23:03:44 0 收藏

16.HiveAccessControlException Permission denied

ranger权限管控

overfit同步小助手 2023-11-06 23:03:33 0 收藏

一百零一、Kettle——Kettle8.2.0本地连接Hive3.1.2(踩坑，亲测有效)

Kettle8.2.0连接Hive3.1.2

overfit同步小助手 2023-11-06 22:03:41 0 收藏

Kafka - 异步/同步发送API

该方法有两个参数分别是RecordMetadata（元数据信息）和Exception（异常信息）。回调函数callback（）会在producer收到ack时调用，为异步调用。需求：创建Kafka生产者，采用异步的方式发送到Kafka broker。同步发送的意思就是，一条消息发送之后，会阻塞当前线

overfit同步小助手 2023-11-06 22:03:08 0 收藏

数据导入与预处理——实验一：数据导入与导出

掌握使用Kettle进行数据导入与导出的方法计算机、Kettle（PDI）、MySQL数据库某连锁超市为了优化经营管理，拟搭建一个商务智能系统，来帮助企业管理团队更全面、专业的通过数据了解业务况状。目前公司有一个订单数据库，记录了每一笔订单的详细数据，包括以下字段：【字段名称,订单编号,下单日期,销

overfit同步小助手 2023-11-06 21:03:42 0 收藏

Establishing a RealTime Big Data Platform for Transport

作者：禅与计算机程序设计艺术 1.简介Apache Kafka是一个开源的分布式流处理平台，它最初由LinkedIn公司开发，用于实时数据管道及流动计算，随着时间的推移，Kafka已成为最流行的开源消息代理之一。同时，它还是一个快速、可靠的分布式存储系统，它可以

overfit同步小助手 2023-11-06 20:03:38 0 收藏

倾向得分匹配（PSM）的原理以及应用

该文章主要介绍倾向得分匹配（PSM, Propensity Score Matching）方法的原理以及实现。这是一种理论稍微复杂、但实现较为容易的分析方法，适合非算法同学的使用。可用于（基于观察数据的）AB实验、增量模型搭建等领域。文章主要分为四部分：前置知识（因果推断）介绍、倾向得分计算与匹配与

overfit同步小助手 2023-11-06 18:03:50 0 收藏

07-HDFS入门及shell命令

Hadoop分布式文件系统。是Apache Hadoop核心组件之一，作为大数据生态圈最底层的分布式存储服务而存在。分布式文件系统解决大数据如何存储的问题。分布式意味着是横跨在多台计算机上的存储系统。HDFS是一种能够在普通硬件上运行的分布式文件系统，它是高度容错，适用于具有大数据集的应用程序，它非

overfit同步小助手 2023-11-06 18:03:41 0 收藏

数据清洗【大数据比赛长期更新】

大数据比赛数据清洗题目分析，欢迎一起讨论

overfit同步小助手 2023-11-06 15:03:46 0 收藏

springcloud 微服务之 Eureka 配置

Eureka是Netflix开发的服务发现框架，本身是一个基于REST的服务，主要用于定位运行在AWS域中的中间层服务，以达到负载均衡和中间层服务故障转移的目的。Eureka Server提供服务注册服务，各个节点启动后，会在Eureka Server中进行注册，这样EurekaServer中的服务

overfit同步小助手 2023-11-06 15:03:37 0 收藏

Flink CDC介绍

CDC（Change Data Capture）是一种用于捕获和处理数据源中的变化的技术。它允许实时地监视数据库或数据流中发生的数据变动，并将这些变动抽取出来，以便进行进一步的处理和分析。传统上，数据源的变化通常通过周期性地轮询整个数据集进行检查来实现。但是，这种轮询的方式效率低下且不能实时反应变化

overfit同步小助手 2023-11-06 14:03:50 0 收藏

Hadoop HDFS NameNode

NameNode 格式化后，Fsimage ,Edits 会在。

overfit同步小助手 2023-11-06 14:03:43 0 收藏

大数据之hadoop启动失败问题集锦

启动时会提示形如 “DBLab-XMU: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-namenode-DBLab-XMU.out”，其中 DBLab-XMU 对应你的机器名，但其实启动日志信息是记录在 /us

overfit同步小助手 2023-11-06 13:03:40 0 收藏

Flinkx/Datax/Flink-CDC 优劣势对比

FlinkX是一款基于Flink的分布式离线/实时数据同步插件，可实现多种异构数据源高效的数据同步，其由袋鼠云于2016年初步研发完成，目前有稳定的研发团队持续维护，已在Github上开源（开源地址详见文章末尾），并维护该开源社区。目前已完成批流统一，离线计算与流计算的数据同步任务都可基于Flink

overfit同步小助手 2023-11-06 08:03:44 0 收藏

Hadoop-HA-Hive-on-Spark 4台虚拟机安装配置文件

spark-history（设置权限777），spark-jars文件夹。ln -s 源文件名新文件名。ln -s 源文件名新文件名。ln -s 源文件名新文件名。链接hadoop中的文件。链接hadoop中的文件。上传jar到hdfs。链接hive中的文件。

overfit同步小助手 2023-11-06 08:03:37 0 收藏

大数据Flink（七十一）：SQL的时间属性

以事件时间举个例子，如果只是数据携带了时间，Flink 也消费了这个数据，但是在 Flink 中没有使用数据的这个时间作为计算的触发条件，也不能把这个 Flink 任务叫做事件时间的任务。：举个例子，比如用户可以自定义每隔 10s 的本地时间，或者消费到的数据的时间戳每增大 10s，就把计算结果输出

overfit同步小助手 2023-11-06 06:03:47 0 收藏

分享8个分布式Kafka的使用场景

Kafka 最初是为海量日志处理而构建的。它保留消息直到过期，并让消费者按照自己的节奏提取消息。与它的前辈不同，Kafka 不仅仅是一个消息队列，它还是一个适用于各种情况的开源事件流平台。

overfit同步小助手 2023-11-06 06:03:18 0 收藏

数据挖掘实验一、数据预处理

初始数据往往存在缺失值、重复值、异常值或者错误值，通常这类数据被称为“脏数据”，需要对其进行清洗。有时数据的原始变量不满足分析的要求，我们需要先对数据进行一定的处理，也就是数据的预处理。数据清洗和预处理的主要目的是提高数据质量，从而提高挖掘结果的可靠度，这是数据挖掘过程中非常必要的一个步骤。（2）

overfit同步小助手 2023-11-06 05:03:46 0 收藏

RabbitMQ和spring boot整合及其他内容

在本篇CSDN博客中，我们将探讨一些高级主题，包括RabbitMQ与Spring Boot的整合、消息的可靠性投递、消息确认以及死信队列，以帮助您构建更强大、更可靠的分布式系统。通过深入了解和合理应用这些高级主题，您可以构建出可靠、高性能的消息驱动应用程序，确保消息的可靠性传递，提高系统的可用性。整

overfit同步小助手 2023-11-06 03:03:45 0 收藏