0


[240903] Qwen2-VL: 更清晰地看世界 | Elasticsearch 再次拥抱开源!

目录

Qwen2-VL: 更清晰地看世界

历经一年研发,阿里云推出新一代视觉语言模型 Qwen2-VL,支持多语言、长视频理解、视觉推理及智能体交互,性能超越 GPT-4o 等模型,并开源 2B 和 7B 模型。

一、 Qwen2-VL 的突破

  1. 视觉理解更强大:支持不同分辨率、长宽比图片,在多项基准测试中取得全球领先,例如文档理解方面优势明显。
  2. 长视频理解:可理解20分钟以上长视频,应用于问答、对话、内容创作。
  3. 视觉智能体:集成到手机、机器人等设备,根据视觉和指令自动操作。
  4. 多语言支持:支持中英多语种,包括欧洲语言、日韩语、阿拉伯语、越南语等。

二、 模型性能

  • 72B 模型在大部分指标上达到最优,超越 GPT-4o 和 Claude3.5-Sonnet,刷新开源多模态模型最佳表现。
  • 7B 模型在文档理解和多语言文字图像理解方面处于 SOTA 水平。
  • 2B 模型支持移动端应用,在视频文档和通用问答方面表现优异。

三、 模型能力案例

  1. 细节识别理解:识别植物、地标、手写文字、多语言,例如:User: 转录图中内容,并识别图中每段内容的语言。(图片)Qwen2-VL: 1. 汉语,也称为“华语”。(...省略) 语言:中文 2. 日本語は地方ごとに多様な方言があり、(...省略) 语言:日语 (...省略)
  2. 视觉推理:解决数学、编程、信息提取等现实问题,例如:User: Solve the algorithmic problem in the web page. (网页截图)Qwen2-VL: To solve the “Snake in Matrix” problem, we need to implement a function (...省略,并给出Python代码)
  3. 视频理解与实时聊天:总结视频要点、回答问题、连贯对话,例如:User: 视频中的人在做什么? (视频)Qwen2-VL: 视频中的人正在使用吸尘器清理地板。User: 如果要进一步清洁地面的话,接下来该怎么做?Qwen2-VL: 如果要进一步清洁地面,可以使用拖把或湿布擦拭地面,以去除吸尘器无法清除的污渍和灰尘。(...省略,后续对话)
  4. Visual Agent 能力:函数调用和视觉交互,例如:# 使用API调用Qwen2-VL-72B识别图片defget_response(): client = OpenAI( api_key=os.getenv("DASHSCOPE_API_KEY"), base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",) completion = client.chat.completions.create( model="qwen-vl-max-0809", messages=[{"role":"user","content":[{"type":"text","text":"What is this?"},{"type":"image_url","image_url":{"url":"https://dashscope.oss-cn-beijing.aliyuncs.com/images/dog_and_girl.jpeg"},},# ...],}],# ...)# ...- 函数调用:实时检索航班、天气、包裹等信息。- 视觉交互:操作手机、玩游戏、控制机器人等。

四、 模型架构

  • 支持原生动态分辨率,处理任意分辨率图像。
  • 多模态旋转位置嵌入(M-ROPE),捕捉文本、图像、视频的位置信息。

五、 玩转 Qwen2-VL

  • 使用官方 API 体验 Qwen2-VL-72B。
  • 开源 2B 和 7B 模型可在 Hugging Face 和 ModelScope 上获取。

六、 未来展望

  • 打造更强的视觉语言模型。
  • 研究结合更多模态,实现真正意义的统一模型。

来源:

https://qwenlm.github.io/zh/blog/qwen2-vl/


x-cmd 用户实际应用案例:

  • Github-QwenLM/Qwen2-VL# 使用浏览器打开 QwenLM/Qwen2-VL 的 GitHub 仓库x gh browse --repo QwenLM/Qwen2-VL
  • Hugging Face-Qwen2-VL# 设置在全局环境中使用 huggingface-clix env use huggingface# 从 Qwen Hub 中下载 Qwen2-VL-2B-Instruct 模型huggingface-cli download Qwen/Qwen2-VL-2B-Instruct# 扫描缓存目录查看已下载的模型信息huggingface-cli scan-cache

在这里插入图片描述

进一步探索:

  • mod/gh
  • pkg/huggingface

Elasticsearch 再次拥抱开源!

Elasticsearch 是一个分布式、RESTful 风格的搜索和数据分析引擎,同时是可扩展的数据存储和矢量数据库,能够应对日益增多的各种用例。近日,该项目宣布再次开源。

核心要点:

  • Elasticsearch 和 Kibana 将再次以开源软件的形式提供!
  • 开发公司 Elastic 将在未来几周内为 Elasticsearch 添加 AGPL 许可证选项,与现有的 ELv2 和 SSPL 许可证并存。
  • 此举旨在消除用户对 Elasticsearch 开源性的任何疑虑,并为开源世界提供更多选择。

背景:

  • 三年前,由于 AWS 推出与其功能相似的服务,导致市场混乱,Elastic 修改了 Elasticsearch 的许可证,不再将其视为完全开源。
  • 这一决定虽然有效地解决了市场混乱问题,但也导致 Elasticsearch 出现了一个名为 OpenSearch 的分支。

回归开源:

  • 三年后,市场环境已发生变化,Elastic 与 AWS 的合作关系也更加稳固。
  • Elastic 认为现在是时候回归开源了,并选择 AGPL 作为新的许可证选项。
  • AGPL 是 OSI 批准的许可证,MongoDB 和 Grafana 等项目都在使用。

对用户的意义:

  • 现有的 Elasticsearch 用户不会受到任何影响,可以继续使用现有的许可证。
  • 新用户可以选择 AGPL 许可证,享受更自由的开源体验。

Elastic 对未来的展望:

  • Elastic 对 Elasticsearch 的未来充满信心,并将在开源领域继续投入。
  • Elastic 希望与 OSI 合作,为开源世界提供更多选择。

一些常见问题的解答:

  • 修改许可证是否意味着 Elastic 此前的决定是错误的? Elastic 认为,三年前的决定是正确的,它有效地解决了当时的市场混乱问题。而现在的决定则是基于当前市场环境做出的,是为了更好地服务用户 。
  • AGPL 是否是真正的开源许可证? AGPL 是 OSI 批准的许可证,被广泛认为是真正的开源许可证。
  • Elastic 修改许可证是否因为公司经营状况不佳? Elastic 对公司未来的发展充满信心,修改许可证是为了更好地服务用户,与公司经营状况无关。

Elasticsearch 再次拥抱开源是一个令人振奋的消息,它将为用户提供更多选择,并为开源世界做出贡献。

来源:

https://www.elastic.co/cn/blog/elasticsearch-is-open-source-again

更多内容请查阅 : blog-240903


关注微信官方公众号 : oh my x

获取开源软件和 x-cmd 最新用法


本文转载自: https://blog.csdn.net/edwinjhlee/article/details/141847514
版权归原作者 x-cmd 所有, 如有侵权,请联系我们删除。

“[240903] Qwen2-VL: 更清晰地看世界 | Elasticsearch 再次拥抱开源!”的评论:

还没有评论