大数据 - overfit.cn

大数据毕业设计选题推荐-机房信息大数据平台-Hadoop-Spark-Hive

随着信息技术的飞速发展，机房在现代企业和组织中扮演着越来越重要的角色。机房不仅负责存储和管理大量关键数据，还为各种业务系统提供稳定运行的基础设施。然而，机房的运行和维护面临着诸多挑战，如设备故障、信号波动等。为了确保机房的正常运行，对机房信息的实时监控和分析显得尤为重要。因此，研究机房信息大数据平台

overfit同步小助手 2023-11-25 12:03:41 0 收藏

2023_Spark_实验十七：导入招聘大数据（项目）

基于Spark SQL读取csv文件，并将获得的DataFrame数据存入MySQL数据库

overfit同步小助手 2023-11-25 12:03:26 0 收藏

网约车大数据综合项目——数据分析Spark

【代码】网约车大数据综合项目——数据分析Spark。

overfit同步小助手 2023-11-25 10:03:41 0 收藏

大数据Flink（一百零三）：SQL 表值聚合函数（Table Aggregate Function）

Python UDTAF，即 Python TableAggregateFunction。Python UDTAF 用来针对一组数据进行聚合运算，比如同一个 window 下的多条数据、或者同一个 key 下的多条数据等，与 Python UDAF 不同的是，针对同一组输入数据，Python UDT

overfit同步小助手 2023-11-25 09:03:37 0 收藏

【Hive进阶】-- 导出 hive 表数据的几种方式

在日常的工作中，常常会有导出 hive 表数据的需求。在此，我整理了如下几种方式，供大家参考。然后使用 hdfs 命令下载。

overfit同步小助手 2023-11-25 04:03:15 0 收藏

udp如何传输大数据附udp高速传输技术解决方案

UDP（用户数据报协议）是网络上最常用的数据传输方式之一。通常在讨论中会将UDP与另一种常用的通信协议TCP一起考虑。UDP和TCP各有优势和劣势，根据不同情况选择合适的协议以最大限度地发挥其优点并减少其缺点。

overfit同步小助手 2023-11-24 20:03:43 0 收藏

搭建hadoop初次格式化格式化了很多次报错解决方案（亲测好用）

那我们在格式化时，不小心格式化多次，就会导致主从节点之间互相不识别。然后导致启动hadoop集群时，主节点的namenode进程可能不会启动或者从节点的datanode可能不会启动。在搭建完hadoop集群时，初次启动HDFS集群，需要对主节点进行格式化操作，其本质是清理和做一些准备工作，因为此时的

overfit同步小助手 2023-11-24 20:03:40 0 收藏

PostgreSQL用户和角色的创建和管理

中，用户和角色是用于对数据库进行权限管理的重要概念。用户是数据库系统中的实体，可以登录数据库并执行操作，而角色是一组权限的集合，可以被授予给多个用户。CREATEROLE/NO CREATEROLE：指定用户是否有创建角色的权限。CREATEDB/NO CREATEDB：指定用户是否有创建数据库的权

overfit同步小助手 2023-11-24 17:02:17 0 收藏

人工智能大模型技术基础系列之：高效的大规模数据处理

作者：禅与计算机程序设计艺术 1.背景介绍大型数据的获取、存储和分析随着互联网和移动互联网的普及，越来越多的用户把个人的数据放到云端进行管理，这种数据的价值正在不断增长。而作为云服务提供商的厂商往往需要根据用户的需求对其提供超大规模的海量数

overfit同步小助手 2023-11-24 16:01:37 0 收藏

Spark 9：Spark 新特性

由于缺乏或者不准确的数据统计信息(元数据)和对成本的错误估算(执行计划调度)导致生成的初始执行计划不理想，在Spark3.x版本提供Adaptive Query Execution自适应查询技术，通过在”运行时”对查询执行计划进行优化, 允许Planner在运行时执行可选计划,这些可选计划将会基于运

overfit同步小助手 2023-11-24 11:03:50 0 收藏

InVEST模型| 软件安装与固碳模块的使用

InVEST模型（Integrated Valuation of Ecosystem Services and Tradeoffs）即生态系统服务评估与权衡模型，可于评估生态系统服务功能量及其经济价值、支持生态系统管理和决策的一套模型系统，包括陆地、淡水和海洋三类生态系统服务评估模型。

overfit同步小助手 2023-11-24 08:03:40 0 收藏

大数据-玩转数据-Flink 海量数据实时去重

布隆过滤器的原理是，当一个元素被加入集合时，通过K个散列函数将这个元素映射成一个位数组中的K个点，把它们置为1。布隆过滤器的原理是，当一个元素被加入集合时，通过K个散列函数将这个元素映射成一个位数组中的K个点，把它们置为1。2.只能插入和查询元素，不能删除元素，这与产生假阳性的原因是相同的。假阳性的

overfit同步小助手 2023-11-24 07:03:40 0 收藏

ElasticSearch分页查询

注意：使用search after分页from必须为0或-1，或者不填，排序的选项必须唯一，可以根据多个条件来排序，也可以根据pit来做search_after条件做排序，不然分页查询会漏数据，下次查询的search after的值为上次查询最后一个sort的值。当我们请求结果的第1页（结果从 1

overfit同步小助手 2023-11-24 04:03:30 0 收藏

基于Hadoop大数据技术和协同过滤算法的就业推荐系统

overfit同步小助手 2023-11-24 02:03:48 0 收藏

6 Hive引擎集成Apache Paimon

想要在Hive中操作Paimon，首先需要在Hive中配置Paimon的依赖，此时我们需要用到一个jar包：paimon-hive-connector。

overfit同步小助手 2023-11-24 00:03:35 0 收藏

Windows下安装Hadoop（手把手包成功安装）

Windows下安装Hadoop

overfit同步小助手 2023-11-23 23:05:13 0 收藏

spark的安装与部署

为了避免MapReduce框架中多次读写磁盘带来的消耗，以及更充分地利用内存，加州大学伯克利分校的AMP Lab提出了一种新的、开源的、类Hadoop MapReduce的内存编程模型Spark。一、spark是什么？Spark是一个基于内存的大数据并行处理框架，其最初由加州大学伯克利分校的AMP

overfit同步小助手 2023-11-23 22:03:43 0 收藏

Flink+Flink CDC版本升级的依赖问题总结

flink 1.16 + flink-connector-mysql-cdc2.3 的依赖冲突问题总结。

overfit同步小助手 2023-11-23 15:03:54 0 收藏

大数据开发之Hive案例篇9-Not yet supported place for UDAF ‘count‘

后面把order by子句注释掉之后，居然就可以了，那么就是order by 后面不能跟聚合函数了。一个很简单的group by和count(*) 操作，然后居然报错了。大概是在Oracle MySQL上写SQL写习惯了，以为可以这么写。于是使用了聚合函数的别名，问题搞定。出了问题也是不知道从何排查

overfit同步小助手 2023-11-23 15:03:26 0 收藏

大数据学习-bug03-HDFS web页面文件访问出错

HDFS的web页面显示报错

overfit同步小助手 2023-11-23 13:03:46 0 收藏