TPU 架构与 Pallas Kernel 编程入门:从内存层次结构到 FlashAttention
本文通过四个复杂度递增的 kernel 展示了 Pallas 的核心编程模式
JAX性能优化实战:7个变换让TPU/GPU吃满算力
我们今天就来总结7个能够提高运行速度的JAX变换组合
本文通过四个复杂度递增的 kernel 展示了 Pallas 的核心编程模式
我们今天就来总结7个能够提高运行速度的JAX变换组合