大数据 - overfit.cn

大数据技术｜第二章 Hadoop HDFS（分布式文件系统）

本“大数据技术”专题的文章基于B站“黑马程序员”的大数据技术系列课程（强推！黑马的课易懂且全面），作为自用的复习笔记。大家有需要也可以作为参考，但是由于刚入门大数据并且刚开始写博客，很多地方可能会缺乏一些细节或者存在一些问题，欢迎大家提出宝贵的建议和意见。

overfit同步小助手 2024-05-31 13:03:40 0 收藏

大数据技术Hadoop -- MapReduce初级编程实践

现在有多个输入文件，每个文件中的每行内容均为一个整数。要求读取所有文件中的整数，进行升序排序后，输出到一个新的文件中，输出的数据格式为每行两个整数，第一个数字为第二个整数的排序位次，第二个整数为原待排列的整数。要求读取所有文件中的整数，进行升序排序后，输出到一个新的文件中，输出的数据格式为每行两个整

overfit同步小助手 2024-05-31 12:03:53 0 收藏

HBase常用的Filter过滤器操作

1.ValueFilter过滤器根据数据列单元格的值进行过滤。值过滤器的比较方式有二进制位比较（binary）和子字符串匹配比较（substring（1）按二进制位进行值比较使用get命令，查询students表格中，行键为s001，单元格值为Jack的数据结果。#ValueFilter(=,'bi

overfit同步小助手 2024-05-31 12:03:36 0 收藏

flink cdc 连接池不可用异常问题排查解决

解决办法：修改连接池大小，重启集群。详细操作加微信：wxjffj。

overfit同步小助手 2024-05-31 09:03:49 0 收藏

git push origin HEAD:refs/for/master

如果远程分支被省略，如上则表示将本地分支推送到与之存在追踪关系的远程分支（通常两者同名），如果该远程分支不存在，则会被新建。是将本地的master分支推送到远程主机origin上的对应master分支。git push <远程主机名> <本地分支名> : <远程分支名>HEAD: 是一个特别的指针，

overfit同步小助手 2024-05-31 07:04:28 0 收藏

Spark进阶（五）Spark的安全和权限管理

学习如何配置Spark的安全认证和权限管理，以保护Spark集群和应用程序的数据和资源安全。

overfit同步小助手 2024-05-31 06:07:41 0 收藏

2024年大数据最全最新Python大数据之Excel进阶

专业的图表可以展示专业素养。

overfit同步小助手 2024-05-31 06:03:47 0 收藏

第十一章数据仓库和商务智能

A：运营报表指的是业务用户直接从交易系统、应用程序或数据仓库生成报表。B：绩效管理是一套集成的组织流程和应用程序，旨在优化业务战略的执行。C：在线分析处理（OLAP）是一种为多维分析查询提供快速性能的方法。D：在线分析处理（OLAP）比在线事务处理（OLTP）对数据的实时性有更高的要求。正确答案：D

overfit同步小助手 2024-05-31 01:04:10 0 收藏

【Gluten】Spark 的向量化执行引擎框架 Gluten

Gluten 项目主要用于“粘合” Apache Spark 和作为 Backend 的 Native Vectorized Engine。Backend 的选项有很多，目前在 Gluten 项目中已经明确开始支持的有 Velox、Clickhouse 和 Apache Arrow。通过使用Nati

overfit同步小助手 2024-05-31 01:04:05 0 收藏

Elasticsearch 开放 inference API 增加了对 Azure OpenAI 嵌入的支持

我们很高兴地宣布，Elasticsearch 现在在我们的开放 inference API 中支持，使开发人员能够将生成的嵌入存储到我们高度可扩展和高性能的向量数据库中。这一新功能进一步巩固了我们不仅致力于与 Microsoft 和 Azure 平台合作的承诺，而且还进一步巩固了我们为客户提供更灵活

overfit同步小助手 2024-05-31 01:02:08 0 收藏

大数据开发面试题【Hive篇】

吐血整理，小编亲身体验

overfit同步小助手 2024-05-31 00:03:55 0 收藏

2024（20届）数据科学与大数据专业毕业设计选题合集_数据科学与大数据技术专业本科论文选题方向

以下整理了适合不同方向的计算机专业的毕业设计选题🚀对毕设有任何疑问都可以问学长哦!

overfit同步小助手 2024-05-30 22:03:11 0 收藏

大数据几种任务调度工具

Apache DolphinScheduler是一个分布式、易扩展的可视化DAG工作流任务调度平台。致力于解决数据处理流程中错综复杂的依赖关系，使调度系统在数据处理流程中开箱即用DolphinScheduler支持多种部署模式，包括单机模式（Standalone）、伪集群模式（Pseudo-Clus

overfit同步小助手 2024-05-30 20:03:58 0 收藏

为什么Apache Doris适合做大数据的复杂计算，MySQL不适合？

overfit同步小助手 2024-05-30 19:04:00 0 收藏

基于大数据的全国热门景点数据可视化分析系统

本文将介绍如何使用Python中的Pandas库进行数据挖掘，并结合Flask Web框架实现一个旅游景点数据分析系统。该系统将包括以下功能模块：热门景点概况、景点星级与评分分析、景点价格分析、景点客流量销量分析以及景点地理空间分析。通过对数据的深入挖掘和可视化展示（包括柱状图、散点图、箱型图和地图

overfit同步小助手 2024-05-30 18:03:55 0 收藏

数据仓库和数据仓库分层

2、数据结构清晰化，将数据分层后，每一层数据都会有作用域，方便我们对数据进行定位，当数据出现问题时，不用从头对数据进行修复，我可以根据数据表的特性找到具体的数据层，然后对数据进行修复；3、数据复用化，每一次进行数据计算，大可不用从原始数据重新跑一遍，可以找所需数据的数据层，然后从那一层进行计算，提高

overfit同步小助手 2024-05-30 16:03:36 0 收藏

Spark-RDD / DataFrame

1、：你可以使用方法从一个已有的 Scala 集合（如数组或列表）中创建。：你可以使用 Spark 提供的各种数据源来创建 RDD，比如文本文件、序列文件、JSON 文件、CSV 文件等。：你可以通过对已有的 RDD 进行各种转换操作来创建新的 RDD。

overfit同步小助手 2024-05-30 16:03:29 0 收藏

AI大模型在能源管理方面的应用及典型案例

AI大模型在能源管理领域的应用已成为推动能源行业向更高效、可持续发展方向进步的重要力量。这些应用覆盖了能源需求预测、智能电网管理、可再生能源优化利用等多个方面，通过提高能源使用效率和促进清洁能源利用，为能源行业的转型升级提供了技术支撑。以下深入讨论AI大模型在能源管理方面的应用，并举出典型案例。

overfit同步小助手 2024-05-30 15:01:40 0 收藏

部署HDFS集群（完全分布式模式、hadoop用户控制集群、hadoop-3.3.4+安装包）

overfit同步小助手 2024-05-30 14:03:46 0 收藏

Hadoop的启动停止命令详解

Hadoop启动命令详解

overfit同步小助手 2024-05-30 14:03:31 0 收藏