20240809 每日AI必读资讯

**乒乓球AI机器人赢了人类！正反手灵活转换，擦网球高球都能接 **

** 通义千问推出专门的数学语言模型：Qwen2-Math **

性能超越GPT-4o、Claude-3.5等
Qwen2-Math 包括 1.5B、7B 和 72B 。是基于 Qwen2 LLM 构建的专门针对数学解题的模型。
在多个数学基准测试中数学能力显著超越了开源模型包括Llama-3.1-405B，甚至超过了闭源模型（包括GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro ）。

苹果发布一种新的图像和视频生成方法：Matryoshka Diffusion Models (MDM)

可以理解为“套娃扩散模型”。名字来源于俄罗斯套娃，因为它像套娃一样，把小的结构嵌套在大的结构里。
MDM 能够在不同清晰度下同时处理图像，比如它可以同时生成低清晰度的草图和高清晰度的细节部分。这种方法让整个过程更快，而且生成的图像质量更高。
用于生成高质量图像和视频的模型面临很大的计算和优化难题。大多数方法要么在图像的像素层面上逐步生成，要么通过先训练一个压缩图像的模型，再在低分辨率的图像上进行处理。
MDM 的创新在于它能同时处理不同分辨率的图像。就像你在画一幅画，先画小的细节，然后再画大的背景，MDM 就是这样同时处理不同层次的内容。
训练过程是从低分辨率到高分辨率逐步进行的，这让生成高分辨率图像和视频变得更加高效。
MDM 不仅限于静态图像生成，还可以扩展到视频生成领域，生成符合文本描述的动态视频序列。
研究表明，这种方法可以生成分辨率高达 1024x1024 像素的图像，并且即使使用相对较少的数据，它也能很好地生成出符合要求的图像。