大数据 - overfit.cn

推荐文章：Kafka Connect HTTP Connector - 实时数据捕获的高效工具

推荐文章：Kafka Connect HTTP Connector - 实时数据捕获的高效工具 kafka-connect-httpKafka Connect connector that enables Change Data Capture from JSON/HTTP APIs into Ka

overfit同步小助手 2024-09-07 17:10:01 0 收藏

【LangChain编程：从入门到实践】对话场景

【LangChain编程：从入门到实践】对话场景1. 背景介绍1.1 问题的由来在当今的人工智能时代，构建对话系统已经成为一个热门话题。随着自然语言处理(NLP)技术的不断进步,人们对于与机器进行自然、流畅的对话交互有着越

overfit同步小助手 2024-09-07 17:09:53 0 收藏

Kylin Cube设计：维度自动分区的智能之旅

在大数据时代，数据仓库的设计与优化是企业实现数据驱动决策的关键。Apache Kylin作为领先的分布式分析引擎，其Cube设计是实现高效数据查询的核心。本文将深入探讨Kylin的Cube设计是否支持维度的自动分区，并提供详细的解释和代码示例。

overfit同步小助手 2024-09-07 16:04:03 0 收藏

推荐文章：深度探索——使用Deep连接Apache Spark与NoSQL数据库的神器

推荐文章：深度探索——使用Deep连接Apache Spark与NoSQL数据库的神器 deep-sparkConnecting Apache Spark with different data stores [DEPRECATED]项目地址:https://gitcode.com/gh_mirro

overfit同步小助手 2024-09-07 16:03:36 0 收藏

flink入门案例

flink 入门程序

overfit同步小助手 2024-09-07 15:03:48 0 收藏

hive的first_value、last_value函数，可取非null值

介绍hive函数first_value、last_value用法

overfit同步小助手 2024-09-07 14:03:47 0 收藏

探索云端大数据处理的新纪元 —— MaxCompute Spark项目深度解析

探索云端大数据处理的新纪元 —— MaxCompute Spark项目深度解析 MaxCompute-SparkMaxCompute spark demo for building a runnable application.项目地址:https://gitcode.com/gh_mirrors/

overfit同步小助手 2024-09-07 12:03:49 0 收藏

Python深度学习实践：实时语音转换技术探索

Python深度学习实践：实时语音转换技术探索作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍1.1 问题的由来随着深度学习技术的

overfit同步小助手 2024-09-07 12:03:44 0 收藏

引领未来事件流处理：Kafka-on-Pulsar (KoP)

引领未来事件流处理：Kafka-on-Pulsar (KoP) kopKafka-on-Pulsar - A protocol handler that brings native Kafka protocol to Apache Pulsar项目地址:https://gitcode.com/gh_

overfit同步小助手 2024-09-07 11:03:49 0 收藏

从零开始大模型开发与微调：MNIST数据集的准备

从零开始大模型开发与微调：MNIST数据集的准备作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍1.1 问题的由来随着人工智能技

overfit同步小助手 2024-09-07 10:03:52 0 收藏

python操作kafka

overfit同步小助手 2024-09-07 10:03:29 0 收藏

推荐文章：深度探索TensorFrames —— 融合Apache Spark与TensorFlow的实验性利器

推荐文章：深度探索TensorFrames —— 融合Apache Spark与TensorFlow的实验性利器 tensorframes[DEPRECATED] Tensorflow wrapper for DataFrames on Apache Spark项目地址:https://gitcod

overfit同步小助手 2024-09-07 10:03:21 0 收藏

过拟合(Overfitting)：深入剖析过拟合的根源与解决之道

目前,超参数调优和最优模型结构搜索还需要较多人工参与,未来可能出现更多自动化的调参和搜索算法,自适应地权衡模型性能和复杂度。

overfit同步小助手 2024-09-07 09:03:44 0 收藏

插入Hive表数据SQL

Hive是一个建立在Hadoop之上的数据仓库工具，它提供了类似于SQL的语言HiveQL，使用户能够在Hadoop中进行数据分析和查询。在Hive中，表是数据存储和管理的基本单元，用户可以通过表来组织和存储数据。

overfit同步小助手 2024-09-07 09:03:31 0 收藏

高性能kafka消费

在进行spring-kafka消费的过程中，大部分人可能都遇到过kafka消息堆积的情况，尤其是大数据处理的场景，这时候就要想办法提高消费能力。

overfit同步小助手 2024-09-07 08:03:59 0 收藏

大数据-119 - Flink Window总览窗口机制-滚动时间窗口-基于时间驱动&基于事件驱动

Flink 的滚动时间窗口（Tumbling Window）是一种常见的基于时间的窗口机制，可以通过事件驱动进行计算。通俗讲，Window是用来对一个无限的流的设置一个有限的集合，从而有界数据集上进行操作的一种机制，流上的集合由Window来划定范围，比如“计算过去10分钟”或者“最后50个元素的和

overfit同步小助手 2024-09-07 08:03:37 0 收藏

Kafka

可以理解为分配的结果带有“粘性的”。即在执行一次新的分配之前，考虑上一次分配的结果，尽量少的调整分配的变动，可以节省大量的开销。粘性分区是Kafka从0.11.x版本开始引入这种分配策略，首先会尽量均衡的放置分区到消费者上面，在出现同一消费者组内消费者出现问题的时候，会尽量保持原有分配的分区不变化。

overfit同步小助手 2024-09-07 08:03:31 0 收藏

Springboot项目中利用 RabbitMQ 消息队列来实现邮件 100% 被投递

虽然，上面案例可以成功的实现消息的发送，但是上面的流程很脆弱，例如： rabbitMQ 突然蹦了、邮件发送失败了、重启 rabbitMQ 服务器出现消息重复消费，应该怎处理呢？当 rabbitMQ 服务器突然挂掉之后，生成者就无法正常进行投递数据，此时因为消息已经被记录到数据库，因此我们可以利用定数

overfit同步小助手 2024-09-07 07:03:39 0 收藏

谈一谈Flinksql的Join和Lookupjoin的区别

在实时数仓中，通过动态查询、内存优化、高效处理大规模数据以及灵活的数据源连接，能够更好地满足实时性要求和资源利用效率，因此被更广泛地应用在实时数仓中使用普通JOIN会面临内存消耗大、延迟高、扩展性差、数据倾斜、动态数据处理困难以及难以与外部系统集成等问题。这些缺点使得普通JOIN难以满足实时数仓对于

overfit同步小助手 2024-09-07 07:03:34 0 收藏

自己开源的一个jsonl多轮对话数据集创建器（HTML形式）

自己开源的一个可以帮助你快速构建jsonl多轮对话数据集的工具来了！再也不用在fine tuning时自己手动格式化数据了

overfit同步小助手 2024-09-07 06:03:49 0 收藏