大数据 - overfit.cn

udp如何传输大数据附udp高速传输技术解决方案

UDP（用户数据报协议）是网络上最常用的数据传输方式之一。通常在讨论中会将UDP与另一种常用的通信协议TCP一起考虑。UDP和TCP各有优势和劣势，根据不同情况选择合适的协议以最大限度地发挥其优点并减少其缺点。

overfit同步小助手 2023-11-24 20:03:43 0 收藏

搭建hadoop初次格式化格式化了很多次报错解决方案（亲测好用）

那我们在格式化时，不小心格式化多次，就会导致主从节点之间互相不识别。然后导致启动hadoop集群时，主节点的namenode进程可能不会启动或者从节点的datanode可能不会启动。在搭建完hadoop集群时，初次启动HDFS集群，需要对主节点进行格式化操作，其本质是清理和做一些准备工作，因为此时的

overfit同步小助手 2023-11-24 20:03:40 0 收藏

PostgreSQL用户和角色的创建和管理

中，用户和角色是用于对数据库进行权限管理的重要概念。用户是数据库系统中的实体，可以登录数据库并执行操作，而角色是一组权限的集合，可以被授予给多个用户。CREATEROLE/NO CREATEROLE：指定用户是否有创建角色的权限。CREATEDB/NO CREATEDB：指定用户是否有创建数据库的权

overfit同步小助手 2023-11-24 17:02:17 0 收藏

人工智能大模型技术基础系列之：高效的大规模数据处理

作者：禅与计算机程序设计艺术 1.背景介绍大型数据的获取、存储和分析随着互联网和移动互联网的普及，越来越多的用户把个人的数据放到云端进行管理，这种数据的价值正在不断增长。而作为云服务提供商的厂商往往需要根据用户的需求对其提供超大规模的海量数

overfit同步小助手 2023-11-24 16:01:37 0 收藏

Spark 9：Spark 新特性

由于缺乏或者不准确的数据统计信息(元数据)和对成本的错误估算(执行计划调度)导致生成的初始执行计划不理想，在Spark3.x版本提供Adaptive Query Execution自适应查询技术，通过在”运行时”对查询执行计划进行优化, 允许Planner在运行时执行可选计划,这些可选计划将会基于运

overfit同步小助手 2023-11-24 11:03:50 0 收藏

InVEST模型| 软件安装与固碳模块的使用

InVEST模型（Integrated Valuation of Ecosystem Services and Tradeoffs）即生态系统服务评估与权衡模型，可于评估生态系统服务功能量及其经济价值、支持生态系统管理和决策的一套模型系统，包括陆地、淡水和海洋三类生态系统服务评估模型。

overfit同步小助手 2023-11-24 08:03:40 0 收藏

大数据-玩转数据-Flink 海量数据实时去重

布隆过滤器的原理是，当一个元素被加入集合时，通过K个散列函数将这个元素映射成一个位数组中的K个点，把它们置为1。布隆过滤器的原理是，当一个元素被加入集合时，通过K个散列函数将这个元素映射成一个位数组中的K个点，把它们置为1。2.只能插入和查询元素，不能删除元素，这与产生假阳性的原因是相同的。假阳性的

overfit同步小助手 2023-11-24 07:03:40 0 收藏

ElasticSearch分页查询

注意：使用search after分页from必须为0或-1，或者不填，排序的选项必须唯一，可以根据多个条件来排序，也可以根据pit来做search_after条件做排序，不然分页查询会漏数据，下次查询的search after的值为上次查询最后一个sort的值。当我们请求结果的第1页（结果从 1

overfit同步小助手 2023-11-24 04:03:30 0 收藏

基于Hadoop大数据技术和协同过滤算法的就业推荐系统

overfit同步小助手 2023-11-24 02:03:48 0 收藏

6 Hive引擎集成Apache Paimon

想要在Hive中操作Paimon，首先需要在Hive中配置Paimon的依赖，此时我们需要用到一个jar包：paimon-hive-connector。

overfit同步小助手 2023-11-24 00:03:35 0 收藏

Windows下安装Hadoop（手把手包成功安装）

Windows下安装Hadoop

overfit同步小助手 2023-11-23 23:05:13 0 收藏

spark的安装与部署

为了避免MapReduce框架中多次读写磁盘带来的消耗，以及更充分地利用内存，加州大学伯克利分校的AMP Lab提出了一种新的、开源的、类Hadoop MapReduce的内存编程模型Spark。一、spark是什么？Spark是一个基于内存的大数据并行处理框架，其最初由加州大学伯克利分校的AMP

overfit同步小助手 2023-11-23 22:03:43 0 收藏

Flink+Flink CDC版本升级的依赖问题总结

flink 1.16 + flink-connector-mysql-cdc2.3 的依赖冲突问题总结。

overfit同步小助手 2023-11-23 15:03:54 0 收藏

大数据开发之Hive案例篇9-Not yet supported place for UDAF ‘count‘

后面把order by子句注释掉之后，居然就可以了，那么就是order by 后面不能跟聚合函数了。一个很简单的group by和count(*) 操作，然后居然报错了。大概是在Oracle MySQL上写SQL写习惯了，以为可以这么写。于是使用了聚合函数的别名，问题搞定。出了问题也是不知道从何排查

overfit同步小助手 2023-11-23 15:03:26 0 收藏

大数据学习-bug03-HDFS web页面文件访问出错

HDFS的web页面显示报错

overfit同步小助手 2023-11-23 13:03:46 0 收藏

当生成式AI遇到业务流程管理，大语言模型正在变革BPM

生成式AI对各领域有很大影响，一个方面在于它改变了很多固有业务的工作流。工作流（Workflow）是业务流程的一种实现方式，一个业务流程往往包含多个工作流范式以及相关的数据、组织和系统。因此，提及工作流必然离不开业务流程。业务流程（Business Process），是为达到特定价值目标而由不同的人

overfit同步小助手 2023-11-23 13:01:45 0 收藏

【大数据实训】基于当当网图书信息的数据分析与可视化(八)

温馨提示：文末有 CSDN 平台官方提供的博主的联系方式，有偿帮忙部署。

overfit同步小助手 2023-11-23 12:03:52 0 收藏

用hadoop-eclipse-plugins-2.6.0来配置hadoop-3.3.6

hadoop-eclipse-plugins这个插件是Eclipse中Hadoop的插件，但在寻找这个插件的过程中，突然发现插件的版本最好与hadoop的版本的一样。然后又试了试自己搭对应版本的hadoop-eclipse-plugins-3.3.6，一堆报错。，将hadoop-eclipse-pl

overfit同步小助手 2023-11-23 08:03:54 0 收藏

Python性能调优利器之单元测试

作者：禅与计算机程序设计艺术 1.简介Python单元测试（unit testing）是用来对一个模块、函数或者类库的每个功能是否都按照设计的正确逻辑运行而产生的一套自动化测试过程。通过单元测试，可以找出代码中潜在的问题并改善其质量。单元测试是在开发过程中进行的

overfit同步小助手 2023-11-23 07:05:53 0 收藏

【云栖2023】王峰：开源大数据平台3.0技术解读

演讲嘉宾：王峰 | 阿里云研究员，阿里云计算平台事业部开源大数据平台负责人。演讲主题：开源大数据平台3.0技术解读

overfit同步小助手 2023-11-23 04:04:37 0 收藏