大数据 - overfit.cn

Spark read load Parquet Files

【代码】Spark read load Parquet Files。

overfit同步小助手 2024-06-05 22:03:31 0 收藏

Elasticsearch增删改(postman)

Elasticsearch是一个非常强大的搜索引擎，它可以帮我们对数据进行存储，并快速地搜索及分析数据。

overfit同步小助手 2024-06-05 21:05:51 0 收藏

Spark Shell的简单使用

Spark shell是一个特别适合快速开发Spark原型程序的工具，可以帮助我们熟悉Scala语言。即使你对Scala不熟悉，仍然可以使用这个工具。Spark shell使得用户可以和Spark集群交互，提交查询，这便于调试，也便于初学者使用Spark。格式：spark-shell spark:

overfit同步小助手 2024-06-05 20:03:51 0 收藏

大数据在零售业中的应用：客户行为分析和市场营销优化

1.背景介绍大数据在现代社会中发挥着越来越重要的作用，尤其是在零售业中，大数据技术已经成为企业竞争的核心能力。零售业中的大数据主要来源于客户的购物行为、购物历史、浏览记录、评价等，这些数据可以帮助企业更好地了解客户的需求、喜好和行为模式，从而实现客户行为分析和市场营销优化。在这篇文章中，我们将从以下

overfit同步小助手 2024-06-05 20:03:44 0 收藏

毕业设计：基于大数据的学习成绩可视化系统 Python

毕业设计：基于大数据的学习成绩可视化系统过收集和分析学生的学习成绩数据，系统将学生的学习情况可视化展示，包括学科得分、学习曲线、成绩趋势等。同时，系统还提供了学科间的关联分析和学生群体的比较功能，帮助教育工作者和决策者深入了解学生的学习表现，为教育决策提供科学依据。对于计算机专业、软件工程专业、人工

overfit同步小助手 2024-06-05 16:03:40 0 收藏

熟悉HBase常用操作

overfit同步小助手 2024-06-05 15:03:42 0 收藏

什么是Flink CDC，以及如何使用_flinkcdc(1)，2024年最新完美收官

面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新**

overfit同步小助手 2024-06-05 14:03:24 0 收藏

【大数据】利用 Apache Ranger 管理 Amazon EMR 中的数据权限

系统安全通常包括两个核心主题：身份验证和授权。一个解决 “用户是谁” 的问题，另一个解决 “用户允许执行什么操作” 的问题。在大数据领域，Apache Ranger 是最受欢迎的授权选择之一，它支持所有主流大数据组件，包括 HDFS、 Hive、HBase、 Trino 等组件。

overfit同步小助手 2024-06-05 13:03:38 0 收藏

高级DBA带你处理Mysql数据库10亿大数据条件下迁移实战

FEDERATED存储引擎能让你访问远程的MySQL数据库而不使用replication或cluster技术(类似于Oracle的dblink),使用FEDERATED存储引擎的表,本地只存储表的结构信息,数据都存放在远程数据库上,查询时通过建表时指定的连接符去获取远程库的数据返回到本地。

overfit同步小助手 2024-06-05 12:03:51 0 收藏

Spark--Spark SQL结构化数据文件处理知识总结(第五章)

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象结构叫做DataFrame的数据模型（即带有Schema信息的RDD），Spark SQL作为分布式SQL查询引擎，让用户可以通过SQL、DataFrames API和Datasets API三种方式实现对结构化数据的处

overfit同步小助手 2024-06-05 12:03:44 0 收藏

数据流处理框架Flink与Kafka

1.背景介绍在大数据时代，数据流处理技术已经成为了一种重要的技术手段，用于处理和分析大量实时数据。Apache Flink和Apache Kafka是两个非常重要的开源项目，它们在数据流处理领域具有广泛的应用。本文将深入探讨Flink和Kafka的关系以及它们在数据流处理中的应用，并提供一些最佳实践

overfit同步小助手 2024-06-05 11:03:25 0 收藏

Flink将数据流导入Doris

DorisSink是通过StreamLoad向Doris写入数据，DataStream写入时，支持不同的序列化方法。setLabelPrefix：Stream load导入使用的label前缀。2pc场景下要求全局唯一，用来保证Flink的EOS语义。特殊字符作为分隔符：'sink.propert

overfit同步小助手 2024-06-05 10:03:46 0 收藏

大数据面试题 —— Hive

（1）承UDF或者UDAF或者UDTF，实现特定的方法；（2）打成jar包，上传到服务器（3）执行命令add jar路径，目的是将 jar 包添加到 hive 中create temporary function 函数名 as "自定义函数全类名"（5）在select中使用 UDF 函数。

overfit同步小助手 2024-06-05 09:03:50 0 收藏

Linux虚拟机环境搭建spark

Linux环境搭建Spark分为两个版本，分别是Scala版本和Python版本。本环境以 Python 环境为例。

overfit同步小助手 2024-06-05 08:03:35 0 收藏

如何安全可控的进行跨区域数据交换，提高数据价值？

飞驰云联是中国领先的数据安全传输解决方案提供商，长期专注于安全可控、性能卓越的数据传输技术和解决方案，公司产品和方案覆盖了跨网跨区域的数据安全交换、供应链数据安全传输、数据传输过程的防泄漏、FTP的增强和国产化替代、文件传输自动化和传输集成等各种数据传输场景。飞驰云联主要服务于集成电路半导体、先进制

overfit同步小助手 2024-06-05 05:07:06 0 收藏

Hadoop的集群搭建

我使用的是Hadoop3.1.1版本，连接https://archive.apache.org/dist/hadoop/common/，在这里可以找到所有的Hadoop版本，JDK使用的是1.8，我在阿里云上租了五台服务器，具体怎么租可以字型搜索，几毛钱一个小时，不用按小时，按抢占式就可以满足需求，

overfit同步小助手 2024-06-05 03:03:54 0 收藏

如何检测和削减大数据中的异常数据-基本教学(看完学会处理异常数据)

这些工具可以快速识别异常情况，帮助预防和修复问题。利用人工智能和机器学习，为所有团队成员提供详细且情境化的性能数据图，帮助准确预测并主动排除错误。文章参考。

overfit同步小助手 2024-06-05 03:03:32 0 收藏

spark中怎么实现行列转换

函数可以帮助你重新排列数据，将某些行值作为列，并根据指定的聚合函数对这些值进行汇总。函数可用于将包含数组的列拆分成多行，每个数组元素对应一行数据。列中的数组元素拆分成多行，每个员工的每个部门对应一行，并保留了原始的。列的值（A 和 B）转换为两列，并对每个日期的。在 Spark SQL 中，你可以使

overfit同步小助手 2024-06-05 02:03:50 0 收藏

基于centos7的hadoop伪分布式spark+scala（详细教程）

准备活动：需要scala和spark安装包。

overfit同步小助手 2024-06-04 19:03:41 0 收藏

MapReduce分区机制（Hadoop）

mapreduce分区机制

overfit同步小助手 2024-06-04 18:03:29 0 收藏