MiTS与PoTS:面向连续值时间序列的极简Transformer架构

本文详细阐述了使原始Transformer架构能够高效处理连续值时间序列数据所需的最小化结构调整方案。

信息检索系统评估指标的层级分析:从单点精确度到整体性能度量

现代评估指标体系正是基于这些真实用户行为模式设计的,并且随着研究不断深入,评估方法也在持续演进以捕获更多细微交互特征。

PyTorch PINN实战:用深度学习求解微分方程

PINN通过将物理定律(具体表现为微分方程)融入训练过程,显著提高了数据利用效率。

时间序列特征提取:18 种高效工具库及其应用分析

时间序列特征提取是数据科学工作流程中的关键环节,能够将原始时间序列数据转化为具有分析价值的特征表示。本文详细介绍 18 种专业的 Python 库

SigLIP 2:多语言语义理解、定位和密集特征的视觉语言编码器

SigLIP 2 是一个新型多语言视觉-语言编码器系列,通过整合基于字幕的预训练、自监督学习机制(包括自蒸馏和掩码预测)以及在线数据管理策略,对原始 SigLIP 模型进行了显著改进。

FANformer:融合傅里叶分析网络的大语言模型基础架构

FANformer通过将傅里叶分析网络(Fourier Analysis Network, FAN)整合到Transformer的注意力机制中,形成了一种创新的模型结构。

S3FT选择性自监督微调:通过智能选择训练样本提升大模型整体表现

选择性自我监督微调(Selective Self-to-Supervised Fine-Tuning,S3FT)是一种创新的大语言模型微调方法,该方法通过部署专门的语义等价性判断器来识别训练集中模型自身生成的正确响应。

大语言模型中的归一化技术:LayerNorm与RMSNorm的深入研究

本文将系统分析归一化技术的必要性,并详细阐述为何原始Transformer架构中的LayerNorm在LLama模型中被RMSNorm所替代的技术原理。

NeoBERT:4096 tokens上下文窗口,参数更少但性能翻倍

NeoBERT代表了双向编码器模型的新一代技术发展,通过整合前沿架构改进、现代大规模数据集和优化的预训练策略,有效缩小了传统编码器与高性能自回归语言模型之间的性能差距。

Chain of Draft: 借鉴人类草稿思维让大型语言模型更快地思考

这个研究探讨了大型语言模型(LLMs)在执行复杂推理任务时面临的计算资源消耗与响应延迟问题。研究特别聚焦于思维链(Chain-of-Thought, CoT)提示范式的效率局限性。

Visual-RFT:基于强化学习的视觉语言模型微调技术研究

Visual-RFT 的核心理念在于促进模型通过渐进式推理进行学习,而非简单地记忆标准答案。该方法鼓励模型生成多样化的响应并进行自主推理,随后基于答案正确性的验证信号调整学习方向。

深入解析图神经网络注意力机制:数学原理与可视化实现

本文旨在通过可视化方法和数学推导,揭示图神经网络自注意力层的内部运作机制。我们将采用"位置-转移图"的概念框架,结合NumPy编程实现,一步步拆解自注意力层的计算过程,使读者能够直观理解注意力权重是如何生成并应用于图结构数据的。

深入解析Tiktokenizer:大语言模型中核心分词技术的原理与架构

Tiktokenizer通过整合这些方法,构建了一个通用且适应性强的工具,能够应对各种文本处理场景的需求。

机器学习特征筛选:向后淘汰法原理与Python实现

向后淘汰法(Backward Elimination)是机器学习领域中一种重要的特征选择技术,其核心思想是通过系统性地移除对模型贡献较小的特征,以提高模型性能和可解释性。

趋势还是噪声?ADF与KPSS检验结果矛盾时的高级时间序列处理方法

当我们遇到ADF检验失败而KPSS检验通过的情况时,这表明我们面对的是一个平稳但具有确定性趋势的时间序列。

PyTorch内存优化的10种策略总结:在有限资源环境下高效训练模型

本文将系统性地介绍多种内存优化策略,这些技术组合应用可使模型训练的内存消耗降低近20倍,同时不会损害模型性能和预测准确率。以下大部分技术可以相互结合,以获得更显著的内存效率提升。

LLM模型添加自定义Token代码示例:为Llama 3.2模型添加思考与回答标记

本文将介绍如何为大型语言模型(LLM)添加自定义token并进行训练,使模型能够有效地利用这些新增token。

Featurewiz-Polars:基于XGBoost的高性能特征选择框架,一行代码搞定特征选择

,Featurewiz已成为许多数据科学家的首选工具,在学术领域获得**140多篇Google Scholar论文引用**。

Logic-RL: 小模型也能强推理,通过基于规则的强化学习提升大语言模型结构化推理能力

这篇论文探讨了基于规则的强化学习(RL)如何解锁LLM中的高级推理能力。通过在受控的逻辑谜题上进行训练并强制执行结构化的思考过程,即使是相对较小的模型也能开发出可转移的问题解决策略。

SelfCite:  通过自监督奖励提升LLM对上下文内容的引用质量

SelfCite 提出了一种新颖的自监督方法,通过上下文消融技术和自监督奖励机制,提升大型语言模型 (LLM) 对上下文内容的引用质量,生成更准确、更可靠的句子级别引用,从而提高基于上下文的生成任务的整体性能。

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈