2024年9月第2周AI资讯

阅读时间：3-4min

更新时间：2024.9.9-2024.9.13

Groq推出多模态大模型LLaVA v1.5 7B

概要

Groq 刚刚推出了LLaVA v1.5 7B，这是一种功能强大的新型多模态大模型，可以理解图像和文本，据称运行速度比 OpenAI 的 GPT-4o 快 4 倍。

详情

LLaVA v1.5 7B 可以回答有关图像的问题、生成字幕以及进行涉及文本、语音和图片的对话。
该模型还可用于各种任务，例如视觉产品检查、库存管理以及为视障用户创建图像描述。
Groq目前免费提供此模型

链接

Groq官方博客
HuggingFace
开发者控制台

AI通过重读问题可以变得更聪明

概要

研究人员发现，让人工智能系统模仿人类行为，“重读”问题两次，可以显著提高他们在各种任务中的推理和解决问题的能力。

详情

这项技术被称为 RE2（重读），通过在回答之前简单地重复问题，可以提高人工智能在数学、常识和符号推理方面的表现。
它适用于不同的人工智能模型，并且可以与其他人工智能推理技术相结合。
该方法在重复问题两次时最有效——重复次数越多，性能就会降低。
RE2 甚至改进了非指令微调的 AI 模型，显示出广泛的适用性。

链接

论文

美国Weave公司发布Isaac多功能个人机器人

概要

Isaac是一款多功能个人机器人，旨在帮助完成各种家务任务，将于 2025 年秋季向首批客户发货。

详情

Isaac可以自主整理、折叠衣物、整理空间以及执行许多其他家务。
机器人管家可以响应语音或文本命令，并可以通过应用程序进行编程。
出于隐私原因，Isaac随身携带的相机在不使用时可以折叠起来并存放在外壳中。
售价：59,000 美元（或 48 个月每月 1,385 美元）以及 1,000 美元的预订费。

链接

官网

特斯拉电动汽车将实现无线充电

概要

特斯拉的一项新专利展示了其先进的无线充电系统，有可能解决电动汽车手动充电的需要——允许自动机器人出租车在无需人工干预的情况下充电。

详情

该专利于二月份提交并于最近公布，重点介绍了一种使用智能技术来适应无线充电条件变化的系统。
它提到了一个接地垫和一个车辆垫，它们一起工作，无需任何电线即可为汽车充电。
充电站可以估计和调整线圈电感的变化，从而提高效率和安全性。
特斯拉可能会在下个月即将举行的 Robotaxi 活动中推出这种无线充电技术，以契合该技术使自动驾驶车辆能够自动充电的潜力。

链接

WIPO - Search International and National Patent Collections

Adobe开启视频编辑新时代

概要

Adobe展示了其 Firefly AI 视频模型，其中包括扩展现有视频以及根据文本或图像提示创建新剪辑的工具。

详情

即将推出三个关键功能：文本到视频、图像到视频和生成扩展。
文本到视频可以根据提示创建剪辑，并提供相机控制和参考图像的选项。
图像到视频将静态图像或插图转换为真人剪辑。
Premiere Pro 测试版中的生成式扩展可以添加素材来覆盖间隙或扩展镜头。

链接

Bringing generative AI to video with Adobe Firefly Video Model | Adobe Blog

无人驾驶汽车超越人类

概要

Waymo 新碰撞数据的深入研究表明，无人驾驶汽车比人类驾驶的车辆安全得多，造成伤害的碰撞事故和每英里行驶安全气囊的部署次数更少。

详情

Waymo 车辆已行驶超过 2200 万英里，仅报告了 20 起造成伤害的事故。
这个比率还不到类似条件下人类驾驶员预期的三分之一。
在 23 起严重事故中，有 16 起涉及人类驾驶员追尾 Waymo 车辆。
Waymo 估计，其车辆发生碰撞而引发安全气囊展开的可能性是人类驾驶员的六分之一。

链接

Human drivers are to blame for most serious Waymo collisions

AI辅助设计的步行桌“Carpentopod”

概要

这是一款荷兰工程师打造的无线行走木制咖啡桌，采用AI优化设计的腿部结构。

详情

该桌子有 12 个腿（每端 6 个），由精密切割的层压竹制成，由两个电机控制。
腿部结构优化了行走速度、间隙和效率。
Carpentier 开发了一款定制电机控制软件，并使用经过改造控制器进行远程操作。

链接

Carpentopod: A walking table project

bilibili：荷兰工程师打造了AI辅助设计的步行桌“Carpentopod”

Mistral发布多模态大模型Pixtral 12B

概要

法国AI初创公司 Mistral发布了Pixtral 12B，这是他们的第一个能够处理图像和文本的多模态模型，可以免费下载。

详情

Pixtral 12B 是一个拥有 120 亿个参数的模型，大小约为 24GB，基于 Mistral 的文本模型 Nemo 12B 构建。
Pixtral 12B 是初创公司的第一个多模式模型，这意味着它可以处理和回答有关图像和文本的问题。
它可以在 Apache 2.0 许可证下通过GitHub和Hugging Face下载，允许不受限制的使用和微调。
Mistral 计划很快在其聊天机器人和 API 平台 Le Chat 和 Le Plateforme 上提供 Pixtral 12B。

链接

https://huggingface.co/mistral-community/pixtral-12b-240910?utm_source=www.therundown.ai&utm_medium=referral&utm_campaign=google-s-new-ai-turns-notes-into-podcasts

标签：人工智能

本文转载自: https://blog.csdn.net/weixin_38369492/article/details/142061174
版权归原作者 MOLWH 所有，如有侵权，请联系我们删除。

2024年9月第2周AI资讯

Groq推出多模态大模型LLaVA v1.5 7B

概要

详情

推荐理由

链接

AI通过重读问题可以变得更聪明

概要

详情

推荐理由

链接

美国Weave公司发布Isaac多功能个人机器人

概要

详情

推荐理由

链接

特斯拉电动汽车将实现无线充电

概要

详情

推荐理由

链接

Adobe开启视频编辑新时代

概要

详情

推荐理由

链接

无人驾驶汽车超越人类

概要

详情

推荐理由

链接

AI辅助设计的步行桌“Carpentopod”

概要

详情

推荐理由

链接

Mistral发布多模态大模型Pixtral 12B

概要

详情

推荐理由

链接

发表评论

“2024年9月第2周AI资讯”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航