20240916 每日AI必读资讯

超强o1模型智商已超120！1小时写出NASA博士1年代码，最新编程赛超越99.8%选手

一位UCI物理学博士实测o1，发现自己用时1年完成的博士论文代码，竟被AI在1个小时之内实现了。
o1在最新门萨智商测试中，IQ水平竟超过了120分。35个智商题，答对了25道，把其他模型甩出好几条街。

🔗 超强o1模型智商已超120！1小时写出NASA博士1年代码，最新编程赛超越99.8%选手

**GOT-OCR2.0：一款端到端的 OCR 模型 **

可以处理各种复杂的OCR任务，不仅包括普通文本，还可以识别公式、表格、乐谱等复杂内容。
OCR-2.0主要支持中文和英文字符识别，并能够通过进一步的微调扩展到更多语言。

• 场景文本识别：能够处理自然场景中的文本识别任务，如街道标志、广告牌上的文字等。

• 文档OCR：处理文档中完整页面的文字识别，无论是纯文本文档，还是含有表格、公式等的复杂文档。

• 格式化文本OCR：支持将光学文档中的文本直接转换为 Markdown、Latex 等格式，保持复杂文档的原始排版和格式。

• 动态分辨率：GOT 支持对超高分辦率图像（如大幅海报、拼接PDF页面）进行OCR处理，使用动态分辨率技术确保在图像过大时保持识别准确性。

• 多页OCR：GOT 能够批量处理多页文档，例如长篇PDF文件或包含多张图片的OCR任务，极大提升了处理效率。

• 公式、表格、图表识别：除了基本文本识别，GOT 还能识别和处理文档中的数学公式、化学分子式、表格、图表等复杂结构，并将其转换为可编辑的格式（如LaTex 或 Python 字典格式）。

• 格式化输出：OCR-2.0支持生成多种格式化输出，包括Markdown、TikZ、SMILES、LATEX等，能够将识别到的字符以结构化的方式输出，例如表格、数学公式、分子结构等。