大数据 - overfit.cn

【大数据】Flink 内存管理（四）：TaskManager 内存分配（实战篇）

在《Flink 内存管理（一）：设置 Flink 进程内存》中我们提到，必须使用下述三种方法之一配置 Flink 的内存（本地执行除外），否则 Flink 启动将失败。这意味着必须明确配置以下选项子集之一，这些子集没有默认值。

overfit同步小助手 2024-03-02 05:03:45 0 收藏

Flink 实战：如何计算实时热门合约

要实现一个实时热门合约基本需求每隔 5 分钟输出最近一小时交易量最多的前N个合约过滤出属于合约的交易数量解决思路抽取出业务时间戳，告诉 Flink 框架基于业务时间做窗口在所有交易行为数据中，过滤出合约行为进行统计构建滑动窗口，窗口长度为1小时，滑动距离为 5 分钟将KeyedStream中的元素存

overfit同步小助手 2024-03-02 05:03:41 0 收藏

简单使用Spark、Scala完成对天气数据的指标统计

学习Spark和Scala编程可以帮助我们处理大规模数据，进行数据分析。使用Spark和Scala编写程序可以提高数据处理的效率和灵活性，同时还能够充分发挥分布式计算的优势。通过学习这两门技术，我们可以更好地理解数据处理的流程和原理，并且可以应用到实际的数据分析和统计工作中。总而言之，学习Spark

overfit同步小助手 2024-03-02 05:03:33 0 收藏

AI大语言模型的未来发展趋势

1.背景介绍1.1 人工智能的崛起人工智能（AI）已经成为现代科技领域的一股强大力量，它正在改变我们的生活方式，工作方式，甚至思考方式。特别是在自然语言处理（NLP）领域，AI的发展已经达到了前所未有的高度。1.2 大语言模型的出现

overfit同步小助手 2024-03-02 05:01:27 0 收藏

电商内容生成：AI大语言模型的创新应用

随着电子商务的飞速发展，内容生成已经成为电商平台的重要组成部分。从商品描述、用户评论到广告文案，大量的内容需要人工编写，这不仅耗费大量人力物力，而且难以保证内容的质量和一致性。近年来，人工智能（AI）技术的发展为解决这一问题提供了新的可能性。特别是大语言模型，如GPT-3等，已经在文本生成、对话系统

overfit同步小助手 2024-03-02 05:01:22 0 收藏

勒索事件翻倍！亚信安全发布《勒索家族和勒索事件监控报告》

亚信安全发布2024年第3期《勒索家族和勒索事件监控报告》，本期共监测到勒索事件77起，相比上周增长1倍！

overfit同步小助手 2024-03-02 02:07:08 0 收藏

AI大语言模型的模型可复用性设计

1. 背景介绍1.1 人工智能的发展随着计算机技术的飞速发展，人工智能（AI）已经成为了当今科技领域的热门话题。从早期的图灵测试到现在的深度学习和神经网络，AI技术已经取得了令人瞩目的成果。特别是在自然语言处理（NLP）领域，AI大语言模型的出现为人们提供了更加智能化的语言理解和生成能力。

overfit同步小助手 2024-03-02 02:01:45 0 收藏

[ 2024春节 Flink打卡 ] -- 优化(draft)

堆内：taskmanager.memory.task.heap.size，默认none，由Flink内存扣除掉其他部分的内存得到。堆外：taskmanager.memory.task.off-heap.size，默认0，表示不使用堆外内存。堆外：taskmanager.memory.framewor

overfit同步小助手 2024-03-02 00:03:38 0 收藏

【flink番外篇】16、DataStream 和 Table 相互转换示例

系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分，比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和S

overfit同步小助手 2024-03-01 23:03:42 0 收藏

39、Flink 的CDC 格式：maxwell部署以及示例

Maxwell是一个CDC（Changelog Data Capture）工具，可以将MySQL中的数据变化实时流式传输到Kafka、Kinesis和其他流式连接器中。Maxwell为变更日志提供了统一的格式模式，并支持使用JSON序列化消息。Flink支持将Maxwell JSON消息解释为INS

overfit同步小助手 2024-03-01 23:03:31 0 收藏

AI大语言模型的应用领域：从NLP到CV的广泛应用

1. 背景介绍1.1 人工智能的发展历程人工智能（Artificial Intelligence，简称AI）是计算机科学的一个重要分支，旨在研究、开发用于模拟、延伸和扩展人类智能的理论、方法、技术及应用系统。自20世纪50年代以来，人工智能已经经历了多次发展高潮与低谷，如今已经成为科技领域的热

overfit同步小助手 2024-03-01 21:01:10 0 收藏

《2023大数据产业年度创新服务企业》榜重磅发布丨第六届金猿奖

‍第六届年度金猿榜单/奖项“第六届年度金猿季策划活动——2023大数据产业创新服务企业榜单/奖项”由金猿X数据猿X上海大数据联盟共同推出。大数据产业创新服务媒体——聚焦数据· 改变商业第六届 “年度金猿季大型主题策划活动”由金猿、数据猿、上海大数据联盟共同组成的金猿组委会发起，在继续深耕大数据产业，

overfit同步小助手 2024-03-01 20:03:43 0 收藏

spark-sql orderby遇到的shuffle问题

第3点减少shuffle的数据量，这个我也有考虑，原本三列合并为一列（key: id_data_type），没有用到的列我也drop掉。shuffle read(Map阶段)的时候数据的分区数则是由spark提供的一些参数控制，如果这个。参数值设置的很小，同时shuffle read的量很大，那么

overfit同步小助手 2024-03-01 19:03:52 0 收藏

Spark的timestamp 数据时间问题

使用Spark来处理国际业务数据，涉及到数据时区转换，在实际项目中出现时区转换问题。但在实际Cluster 去run job的时候，如果给一个eff_dt为的时间，但是往往会出现df_eff_dt为20240131的日期。

overfit同步小助手 2024-03-01 19:03:49 0 收藏

大数据的演变

大数据是结构化、半结构化和非结构化数据的大集合。与单独的结构化数据相比，它的数据量大得多，速度快得多，文件格式多种多样，来源也多种多样。“大数据”一词自1990年代末就出现了，当时它是由美国宇航局的研究人员迈克尔·考克斯和大卫·埃尔斯沃思在1997年发表的论文中正式提出的。他们用这个术语来描述处理和

overfit同步小助手 2024-03-01 19:03:38 0 收藏

大数据之Flink优化

以计算每个 mid 出现的次数为例，keyby 之前，使用 flatMap 实现 LocalKeyby 功能//Checkpoint 时为了保证 Exactly Once，将 buffer 中的数据保存到该 ListState 中//本地 buffer，存放 local 端缓存的 mid 的 cou

overfit同步小助手 2024-03-01 18:03:49 0 收藏

利用Hadoop进行数据湖构建与管理

数据湖是一个集中式的存储和处理平台，可以存储各种类型的数据，而不需要事先进行结构化的处理。Hadoop，作为一个分布式计算平台，为数据湖的构建和管理提供了强大的支持。它可以存储各种类型的数据，包括结构化数据、非结构化数据和半结构化数据。数据湖不需要对数据进行预先的结构化处理，这使得它可以快速地存储和

overfit同步小助手 2024-03-01 17:03:51 0 收藏

图神经网络与大数据：创新融合的数据智能时代

图神经网络与大数据的融合为数据智能时代带来了更多可能性。未来，随着技术的进一步发展，相信这一领域将迎来更多创新和突破。愿图神经网络和大数据的结合，在科技发展的道路上绘就更加辉煌的篇章！

overfit同步小助手 2024-03-01 17:03:32 0 收藏

宋绪杰：我的大数据成长之旅 | 提升之路系列（三）

导读为了发挥清华大学多学科优势，搭建跨学科交叉融合平台，创新跨学科交叉培养模式，培养具有大数据思维和应用创新的“π”型人才，由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块，形成了大数据思维与技能、

overfit同步小助手 2024-03-01 17:03:29 0 收藏

AI大模型应用入门实战与进阶：6. 图像识别大模型的实战与进阶

1.背景介绍图像识别是人工智能领域的一个重要分支，它涉及到计算机视觉、深度学习、机器学习等多个领域的知识和技术。随着数据量的增加和计算能力的提升，图像识别大模型的应用也逐渐成为了人工智能领域的一个热点话题。本文将从以下几个方面进行阐述：1.1 图像识别大模型的发展历程1.2 图像识别大模型的应用场景

overfit同步小助手 2024-03-01 17:01:31 0 收藏