BERT的继任者ModernBERT:融合长序列处理、代码理解与高效计算的新一代双向编码器

。ModernBERT 是一个全新的模型系列,在**速度**和**准确性**两个维度上全面超越了 BERT 及其后继模型。

使用PyTorch实现GPT-2直接偏好优化训练:DPO方法改进及其与监督微调的效果对比

本文将探讨RLHF技术,特别聚焦于直接偏好优化(Direct Preference Optimization, DPO)方法,并详细阐述了一项实验研究:通过DPO对GPT-2 124M模型进行调优,同时与传统监督微调(Supervised Fine-tuning, SFT)方法进行对比分析。

LEC: 基于Transformer中间层隐藏状态的高效特征提取与内容安全分类方法

通过利用Transformer中间层的隐藏状态,研究提出了层增强分类(LEC)技术,该技术能够以极少的训练样本和参数实现高效的内容安全和提示注入攻击分类,显著提升了模型的性能,并验证了其跨架构和领域的泛化能力。

Differential Transformer: 通过差分注意力机制提升大语言模型性能

DIFF Transformer通过创新的差分注意力机制成功提升了模型性能,特别是在长文本理解、关键信息检索和模型鲁棒性等方面。

Designify——AI优化图像设计,自动去背景、调整构图、添加视觉效果,创建高质量的设计图像

Designify是一款强大的 AI 驱动图像设计工具,适合需要快速生成高质量图片的用户。通过自动化背景移除、图像优化和智能裁剪等功能,它大大简化了图像处理的流程,尤其适合电商、广告和社交媒体的图像需求。虽然对一些高级用户来说其定制功能可能不够精细,但对于大部分需要快速完成设计任务的场景,Desig

【智能流体力学】ANSYS Fluent计算流体力学原理、仿真过程分析方法介绍

计算流体动力学(CFD)是研究流体流动、传质、传热、化学反应及相关现象的一门科学。它通过对质量守恒、动量守恒和能量守恒等基本方程的计算,来预测和分析这些现象。CFD能够为工程师和科学家提供流体流动行为的详细信息,从而帮助在设计和优化过程中做出更科学的决策。CFD的基本原理质量守恒(Continuit

可解释性:走向透明与可信的人工智能

随着人工智能的不断发展,模型的可解释性已经成为了一个不可忽视的问题。尽管深度学习模型具有强大的预测能力,但其“黑盒”特性限制了其在一些高风险领域的应用。通过采用LIME、SHAP等可解释性方法,我们不仅能够提高模型的透明度,还能够增强模型的可靠性与公平性。

开源模型应用落地-安全合规篇-用户输入价值观判断(四)

通过对用户输入内容的价值观判断,不仅审核信息的合法性和合规性,还深入洞察伦理道德与社会责任,旨在识别潜在冲突,营造安全和谐的交流环境。

使用PaliGemma2构建多模态目标检测系统:从架构设计到性能优化的技术实践指南

本文详细阐述了如何利用PaliGemma2构建高性能的多模态目标检测系统。

深度学习大模型推理性能优化策略

1. 量化;2. 投机采样;3. TTFT 与 TPOT 的优化;4. 通信优化。

AI生成图像模型的原理与优化技术-从对抗学习到高质量图像生成【附核心实战代码】

在本文中,我们探讨了AI生成图像模型(AIGC)的前沿技术,从生成原理到高质量图像生成的优化策略进行了深入分析。生成原理介绍了生成对抗网络(GAN)、变分自编码器(VAE)和扩散模型的基本概念和工作原理。这些模型通过学习数据分布,能够生成具有真实感的图像。模型训练讨论了模型训练中的关键步骤,包括数据

sliding window attention

同时,这种方式并不是意味着当前token只能获取到前window_size个token的信息,因为当前token前面的window_size个token也都是能够获取到前面的信息的,因此只要网络达到一定的深度,这样的sliding window attention是可行的,并不会损失太多信息。sli

“水刊之王”,发表直通车几乎全收,计算机人工智能四大水榜sci

今天给大家推荐计算机人工智能五大水榜sci

Beta分布与汤普森采样:智能决策系统概率采样的理论基础

Beta分布是二项分布和伯努利分布的共轭先验。当先验采用Beta分布,似然函数为二项分布或伯努利分布时,后验分布仍然是Beta分布。

【AI学习】Mamba学习(十八):S6的硬件感知设计

对于S6模型的硬件感知设计,尤其是所谓的并行扫描,看论文没有看清楚,查了相关博客,再进行一下梳理。

开箱即用!合合信息的智能文档处理“百宝箱”

在长沙召开,来自合合信息的常扬老师在“模型与工具”论坛上分享了合合信息的智能文档处理“百宝箱”,系统介绍了TextIn ParseX、acge-embedding、markdown_tester三种工具。比如说我们要在解析文档进行结果审核校对、效果测评等场景,需要可视化展示文档解析后的结果的时候就可

开源模型应用落地-安全合规篇-用户输入价值观判断(三)

通过对用户输入内容的价值观判断,不仅审核信息的合法性和合规性,还深入洞察伦理道德与社会责任,旨在识别潜在冲突,营造安全和谐的交流环境。

从方向导数到梯度:深度学习中的关键数学概念详解

本文将系统探讨方向导数与梯度的理论基础,并阐述二者的内在联系

ORCA:基于持续批处理的LLM推理性能优化技术详解

大语言模型(LLMs)推理过程中的批处理优化面临显著挑战,这主要源于其推理过程的迭代特性。核心问题在于批处理中的各个请求完成时间存在差异,这导致资源释放和新请求整合的复杂性显著提高,特别是在处理不同完成阶段的请求时。当批处理中序列的生成长度差异较大时,GPU资源利用率往往不够理想。如下图所示,序列1

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈