深度学习 - overfit.cn

用GPT打造一个专门写网文小说的AI智能体！轻松掌控故事发展

它可以根据你提供的输入（prompt）生成符合逻辑的内容，而训练一个AI智能体就是定制和优化这个能力，使其更符合你的个人需求，比如专门为你撰写某种风格或类型的网文小说。通过训练，你可以让AI根据指定的角色、剧情线、写作风格等，自动生成大量文本，极大地提升写作效率，同时还可以为你提供不同的灵感。你可以

overfit同步小助手 2024-10-22 20:01:44 0 收藏

【AI大模型】深入Transformer架构：输入和输出部分的实现与解析

因为在Transformer的编码器结构中, 并没有针对词汇位置信息的处理，因此需要在Embedding层后加入位置编码器，将词汇位置不同可能会产生不同语义的信息加入到词嵌入张量中, 以弥补位置信息的缺失.

overfit同步小助手 2024-10-22 09:01:23 0 收藏

开源模型应用落地-Qwen2.5-7B-Instruct与vllm实现离线推理-降本增效（一）

将Qwen2.5模型与vLLM框架进行有效整合，通过离线推理为实际项目带来更大的价值。

overfit同步小助手 2024-10-21 16:03:53 0 收藏

AnimeGANv3: 快速将照片和视频转换为动漫风格的革命性AI模型

AnimeGANv3作为一种革命性的图像风格转换模型,不仅在技术上取得了突破,还为创意产业带来了新的可能性。随着AI技术的不断发展,我们可以期待看到更多像AnimeGANv3这样创新的应用,不断推动艺术创作和内容制作的边界。无论你是专业的创意工作者,还是对动漫和艺术感兴趣的普通用户,AnimeGAN

overfit同步小助手 2024-10-21 11:01:54 0 收藏

MoH：融合混合专家机制的高效多头注意力模型及其在视觉语言任务中的应用

这篇论文提出了一种名为混合头注意力(Mixture-of-Head attention, MoH)的新架构,旨在提高注意力机制的效率,同时保持或超越先前的准确性水平。

Deephub 2024-10-21 09:09:55 0 收藏

ai写的论文查重率高吗?分享4款ai论文查重软件

如果AI写作软件所使用的训练数据与已有的文献高度相似，或者用户输入的关键词和句式与已有的文献相同，那么生成的文本内容可能与已有的文献高度重复，从而导致较高的查重率。在实际应用中，AI写作论文的查重率并不是固定的，受到算法、数据、主题、领域和用户操作等多种因素的影响。因此，选择全面且可靠的文献数据库，

overfit同步小助手 2024-10-21 09:01:44 0 收藏

关于Linux中引用auto_gptq提示“CUDA extension not installed”

引用auto_gptq时报CUDA extension not installed的提示。2、安装bitsandbytes。3、从源码安装gptq。

overfit同步小助手 2024-10-21 04:06:38 0 收藏

【AI知识点】交叉注意力机制（Cross-Attention Mechanism）

交叉注意力机制（Cross-Attention Mechanism）是一种在深度学习中广泛使用的技术，尤其在序列到序列（sequence-to-sequence）模型和Transformer 模型中被大量应用。它主要用于不同输入之间的信息交互，使模型能够有效地将来自不同来源的上下文进行对齐和关注，

overfit同步小助手 2024-10-21 04:01:41 0 收藏

联邦学习研究方向及论文推荐（二）

第二篇联邦学习论文推荐。

overfit同步小助手 2024-10-21 04:01:35 0 收藏

Vit transformer中class token作用

因为transformer输入为一系列的patch embedding，输出也是同样长的序列patch feature，但是最后要总结为一个类别的判断，简单方法可以用avg pool，把所有的patch feature都考虑算出image feature。其中训练的时候，class token的em

overfit同步小助手 2024-10-21 00:01:45 0 收藏

【AI知识点】残差网络（ResNet，Residual Networks）

残差网络（ResNet，Residual Networks）是由微软研究院的何凯明等人在 2015 年提出的一种深度神经网络架构，在深度学习领域取得了巨大的成功。它通过引入残差连接（Residual Connection）解决了深层神经网络中的梯度消失（Vanishing Gradient）问

overfit同步小助手 2024-10-20 02:01:21 0 收藏

扩散引导语言建模(DGLM):一种可控且高效的AI对齐方法

随着大型语言模型(LLMs)的迅速普及,如何有效地引导它们生成安全、适合特定应用和目标受众的内容成为一个关键挑战。例如,我们可能希望语言模型在与幼儿园孩子互动时使用不同的语言,或在撰写喜剧小品、提供法律支持或总结新闻文章时采用不同的风格。目前,最成功的LLM范式是训练一个可用于多种任务的大型自回归模

overfit同步小助手 2024-10-20 00:01:39 0 收藏

Resnet结构介绍

ResNet，全称为残差网络（Residual Networks），是一种深度卷积神经网络架构，由微软研究院的Kaiming He等人于2015年提出。ResNet在多个视觉识别任务中取得了当时的最佳性能，并在深度学习领域产生了深远的影响。

overfit同步小助手 2024-10-19 21:01:40 0 收藏

开源模型应用落地-从源代码构建和运行vLLM-以满足您更高的需求

通过vLLM源码构建Docker镜像，提升了构建的灵活性与安全性，同时也优化了研发与部署的效率。

overfit同步小助手 2024-10-19 17:04:12 0 收藏

【动手学深度学习】8.1. 序列模型（个人向笔记）

想象一下有人正在看网飞（Netflix，一个国外的视频网站）上的电影。一名忠实的用户会对每一部电影都给出评价，毕竟一部好电影需要更多的支持和认可。然而事实证明，事情并不那么简单。随着时间的推移，人们对电影的看法会发生很大的变化。

overfit同步小助手 2024-10-19 16:07:16 0 收藏

Agent Q：自主 AI 智体的高级推理和学习

24年8月来自MultiOn AGI公司和斯坦福大学的论文“”Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents“。

overfit同步小助手 2024-10-19 13:01:47 0 收藏

人工智能 | BP神经网络

到这里已经可以重新描述BP神经网络的定义了，官方的说法是“按照误差逆向传播算法训练的。

overfit同步小助手 2024-10-19 00:01:19 0 收藏

CNN卷积神经网络代码实现及解析（仅全连接层）

CNN卷积神经网络代码实现及解析（仅全连接层），适合0基础，非常详细的学习记录

overfit同步小助手 2024-10-18 23:01:44 0 收藏

关于深度学习中的cuda编程，cuda相关介绍

CUDA（Compute Unified Device Architecture，统一计算设备架构）是由Nvidia开发的编程模型和并行计算平台。在模式识别任务中，使用cuda进行GPU加速可以显著提升计算能力，通过并行化任务更快的执行简单矩阵操作PyTorch提供了torch.cuda库来设置和运

overfit同步小助手 2024-10-18 10:01:43 0 收藏

【增量学习】7种典型场景

所有训练样本属于同一个任务，并分批到达。

overfit同步小助手 2024-10-18 08:01:20 0 收藏