面试:CUDA Tiling 和 CPU tiling 技术详解

Tiling(平铺)是一种将大的问题或数据集分解为较小的子问题或子数据集的技术,目的是提高数据局部性和缓存利用率,从而提升程序性能。(一)技术原理在 CUDA 编程中,常见的优化策略包括利用共享内存和循环分块。共享内存可被一个线程块内的所有线程访问,循环分块则将大循环分解为小循环,减少内存访问冲突,

CUDA编程06 - 性能优化指南

并行程序的执行速度在很大程度上取决于程序的资源需求与硬件的资源限制。在几乎所有并行编程模型中,管控并行代码与硬件资源约束之间的相互影响对于实现高性能非常重要的。这是一种实用的技能,需要对硬件体系结构有深刻理解,并需要在为高性能设计的并行编程模型下不断练习。到目前为止,我们已经了解了GPU架构的各个方

本地多卡(3090)部署通义千问Qwen-72B大模型提速实践:从龟速到够用

本文记录了多卡部署72B通义千问过程,将推理速度提到10token/s水平。

【CUDA】thrust进行前缀和的操作

可以看到,此处thrust调用了cub的Dispatchscan操作,而cub中是使用全局内存的,因此造成了效率还不如手动编写使用共享内存的算法。,可以发现使用CUDA提供的API进行前缀和扫描时,第一次运行的时间不如共享内存访问,猜测是使用到了全局内存。:路径可能与实际有偏差,可以在/usr/lo

Linux|ubuntu22.04安装CUDA最新完整教程

流程:安装前检查->安装->安装后配置版本: CUDA12.5系统: Ubuntu22.04内核: 6.5.0-35-generic本文参考官方指南。

Ubuntu22.04安装Nvidia 550驱动和CUDA toolkit 12.4.1

4. 验证CUDA toolkit 12.4.1安装成功。3. 为CUDA12.4在.bashrc中添加环境变量。

【抄作业】ubuntu完全卸载CUDA,彻底卸载cuda,卸载不同版本的cuda,cuda不同版本的卸载方法

我们都知道,cuda的一般卸载需要依次选中需要卸载的CUDA包,鼠标右键点击卸载即可,一般需要保留3个已经安装的CUDA包,分别为NVIDIA GeForce Experience x.x.x.x、NVIDIA PhysX 系统软件 x.x.x、NVIDIA 图形驱动程序 x.x。因为cudnn文件

Ubuntu 20.04,cuda 12.4安装对应的cuDNN, 2024最新教程(附带最新查看cuDNN版本指令)

cuDNN 9.0版本的cudnn_version.h 的路径已经改变,所以网上之前的验证方法都会报错,直接用下面指令进行验证。文件,右键点击属性 Properties,查看该文件的具体路径(红色框中)如果还是报错 或者 报路径找不到的错误,那就在。显示类似如下信息,表示cuDNN安装成功。进入nv

Linux离线状态下安装cuda、cudnn、cudatoolkit

Linux离线状态下安装cuda、cudnn、anaconda中安装cudatoolkit

混合输入矩阵乘法的性能优化

AI驱动的技术正逐渐融入人们日常生活的各个角落,有望提高人们获取知识的能力,并提升整体生产效率。语言大模型(LLM)正是这些应用的核心。LLM对内存的需求很高,通常需要专用的硬件加速器,以高效地提供数百亿亿次浮点运算(Exaflops级别)的计算能力。本文将展示如何通过更有效地利用内存来解决计算方面

ubuntu20.04系统4060安装cuda11.8和cudnn8.6

ubuntu20.04系统4060安装cuda11.8和cudnn8.6

配置VScode开发环境-CUDA编程

如果觉得本篇文章对您的学习起到帮助作用,请关注评论,留下您的足迹💪💪💪本文主要介绍VScode下的CUDA编程配置,因此记录以备日后查看,同时,如果能够帮助到更多人,也不胜荣幸。

MLX vs MPS vs CUDA:苹果新机器学习框架的基准测试

如果你是一个Mac用户和一个深度学习爱好者,你可能希望在某些时候Mac可以处理一些重型模型。苹果刚刚发布了MLX,一个在苹果芯片上高效运行机器学习模型的框架。

Ubuntu20.04软件安装大全

Ubuntu20.04软件安装大全

解决ubuntu cuda版本nvcc -V和nvidia-smi不一致问题

本文主要解决ubuntu cuda版本nvcc -V和nvidia-smi不一致问题

docker 获取Nvidia 镜像 | cuda |cudnn

本文分享如何使用docker获取Nvidia 镜像,包括cuda10、cuda11等不同版本,cudnn7、cudnn8等,快速搭建深度学习环境。

Linux安装CUDA & 添加环境变量 & 多版本CUDA切换 (软链接)

Linux安装多CUDA & 添加环境变量 & 多版本CUDA切换 (软链接)

NVIDIA显卡 - CUDA算力总结概览

NVIDIA显卡 - CUDA算力总结概览

CUDA的卸载

CUDA卸载的详细教程,等您来拿哦~

windows10下whisper的安装使用和CUDA的配置

本地语音识别whisper的安装

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈