大数据 - overfit.cn

Flink on K8S生产集群使用StreamPark管理

StreamPark on k8s操作，flink on k8s使用StreamPark 管理

overfit同步小助手 2024-02-28 16:03:31 0 收藏

SparkStreaming与ApacheStorm

SparkStreaming与ApacheStorm作者：禅与计算机程序设计艺术1. 背景介绍1.1 大数据时代随着互联网的普及和数字化的进程，我们生成的数据呈指数级增长。我们需要更加高效、高速的处理这

overfit同步小助手 2024-02-28 15:03:48 0 收藏

【YARN】【Apache Hadoop YARN】【架构】

每个应用程序的ApplicationMaster负责从EJB协商适当的资源容器，跟踪它们的状态并监视进度。YARN通过ReservationSystem支持资源预留的概念，ReservationSystem是一个允许用户指定资源随时间和时间约束的配置文件的组件（例如，ReservationSyste

overfit同步小助手 2024-02-28 15:03:09 0 收藏

第二章：AI大模型的基础知识2.3 自然语言处理基础2.3.1 词向量表示

在本篇博客文章中，我们将深入探讨自然语言处理（NLP）领域的一个重要概念：词向量表示。我们将从背景介绍开始，然后讲解核心概念与联系，接着详细解析核心算法原理、具体操作步骤以及数学模型公式。在此基础上，我们将提供具体的代码实例和详细解释说明，以及实际应用场景。最后，我们将推荐一些工具和资源，并总结未来

overfit同步小助手 2024-02-28 15:01:35 0 收藏

企业级大数据安全架构（十）DBeaver连接Hive的Kerberos认证配置

因为Kerberos认证过程及集群服务中，很多是以主机名的形式进行访问的，所以工作机要设置hosts. 域名映射，我们通过部署CDH的集群的每一台机器都已经配置了host(文件为/etc/hosts)，工作机也需要配置window的host文件，如果提示无法修改，一般是需要管理员权限的原因，比较简单

overfit同步小助手 2024-02-28 14:03:27 0 收藏

spark为什么比mapreduce快？

因为mapreduce计算模型只能包含一个map和一个reduce,所以reduce完后必须进行落盘，而DAG可以连续shuffle的，也就是说一个DAG可以完成好几个mapreduce，所以dag只需要在最后一个shuffle落盘，就比mapreduce少了，总shuffle次数越多，减少的落盘次

overfit同步小助手 2024-02-28 13:03:56 0 收藏

SparkUI任务启动参数介绍（148个参数）

SparkUI中有很多任务启动参数，需要对参数有一个深入了解才能进一步调优，资源优化

overfit同步小助手 2024-02-28 13:03:21 0 收藏

AI大语言模型的模型可满足性设计

1. 背景介绍1.1 人工智能的崛起随着计算机技术的飞速发展，人工智能（AI）已经成为了当今科技领域的热门话题。从自动驾驶汽车到智能家居，AI已经渗透到了我们生活的方方面面。在这个过程中，大型语言模型（Large Language Models，简称LLMs）作为AI领域的重要组成部分，也得到了广

overfit同步小助手 2024-02-28 13:01:22 0 收藏

Flink双流（join）

Window Join有可以根据Window的类型细分出3种：Tumbling(滚动) Window Join、Sliding(滑动) Window Join、Session(会话) Widnow Join。🌸Window 类型的join都是利用window的机制，先将数据缓存在Window St

overfit同步小助手 2024-02-28 09:03:32 0 收藏

我成为开源贡献者的原因竟然是做MySql-CDC数据同步

今年下半年机缘巧合下公司决定搭建自己的数据中台，中台的建设势必少不了数据集成。，按照社区活跃度、数据源适配性、同步效率等要求对市面上几个成熟度较高的开源引擎进行了深度调研。最终经过内部讨论决定用Apache SeaTunnel作为数据集成的基础能力。

overfit同步小助手 2024-02-28 08:04:28 0 收藏

Kettle——大数据ETL工具

kettle概念组件介绍，kettle下载安装以及简单使用。

overfit同步小助手 2024-02-28 08:03:29 0 收藏

(11)Hive调优——explain执行计划

Hive调优——explain执行计划

overfit同步小助手 2024-02-28 07:03:55 0 收藏

人工智能=机器学习+大数据

但对于AI程序，程序员只能向模型提供数据，至于模型最终生成的判断逻辑，程序员往往难以完全理解。以AlphaGo为例，虽然它能够击败世界冠军，但其背后的每一步决策逻辑，程序员可能并不清楚，这是因为AlphaGo学习了人类几乎所有的棋谱，并结合自身的算法进行决策。2024年2月，OpenAI继ChatG

overfit同步小助手 2024-02-28 06:03:50 0 收藏

spark内存管理模型

本文主要粗略的介绍了spark使用的两种内存模型

overfit同步小助手 2024-02-28 05:03:32 0 收藏

spark基础

spark python java scala

overfit同步小助手 2024-02-28 01:03:34 0 收藏

快速部署 Apache SeaTunnel Web

将下载的apache-seatunnel-web-1.0.0-bin.tar.gz解压 tar -zxvf apache-seatunnel-web-1.0.0-bin.tar.gz，这样会生成一个apache-seatunnel-web-1.0.0-bin 目录。apache-seatunnel-

overfit同步小助手 2024-02-28 01:02:43 0 收藏

人工智能顶会ICLR 2024热门研究方向大揭秘

本文可视化分析了人工智能顶会ICLR 2024的研究热点，归纳和总结了十大热门研究方向，可以为读者追踪人工智能的研究热点提供一些有价值的参考。

overfit同步小助手 2024-02-28 01:01:41 0 收藏

DeepBI引领智能革命：AI智能代替结构团队工作模式

数据分析#DeepBI智能数据分析软件，这个充满科技感的名词，似乎在宣告着人类工作的一大变革：数据分析团队的“终结者”来了。但真的可以这么说吗？这篇文章让我们一起探究一下。在当前数字化风潮下，人工智能（AI）代表着企业提高生产效率和创造力的新时代工具。AI的代表性工具，如DeepBI，通过其在数据分

overfit同步小助手 2024-02-27 21:01:13 0 收藏

基于大数据的淘宝电子产品数据分析的设计与实现

（2）框架可以帮助程序开发者快速构建软件的整体层次，本次开发所使用的框架为python和Django，具有较强的开发环境部署的优势，程序开发者可以快速构建出相关的软件基本框架，通过多种框架的开发可以帮助程序开发者减少代码量，提升系统的安全和稳定性，能够帮助大数据的淘宝电子产品数据分析功能模块的处理[

overfit同步小助手 2024-02-27 20:03:53 0 收藏

架构设计内容分享(二百一十)：设计一个大并发、大数据的系统架构，说说设计思路

也就是说，一个类应该对自己需要耦合或调用的类知道的最少，类与类之间的关系越密切，耦合度越大，那么类的变化对其耦合的类的影响也会越大，这也是我们面向对象设计的核心原则：低耦合，高内聚。优秀的架构和产品都是一步一步迭代出来的，用户量的不断增大，业务的扩展进行不断地迭代升级，最终演化成优秀的架构。其根本思

overfit同步小助手 2024-02-27 20:03:50 0 收藏