多模态 - overfit.cn

Pixeltable:一张表搞定embeddings、LLM、向量搜索，多模态开发不再拼凑工具

Pixeltable提供了一个统一的声明式接口，文档、embeddings、图像、视频、LLM 输出、分块文本、对话历史、工具调用这些东西，全部以表的形式存在

Deephub 2025-11-24 20:59:42 0 收藏

KG4MM：融合知识图谱与多模态数据预测药物相互作用

Deephub 2025-04-24 12:56:47 0 收藏

SmolVLM：资源受限环境下的高效多模态模型研究

SmolVLM是专为资源受限设备设计的一系列小型高效多模态模型。尽管模型规模较小，但通过精心设计的架构和训练策略，SmolVLM在图像和视频处理任务上均表现出接近大型模型的性能水平，为实时、设备端应用提供了强大的视觉理解能力。

Deephub 2025-04-21 10:39:40 0 收藏

多模态AI核心技术：CLIP与SigLIP技术原理与应用进展

OpenAI提出的CLIP和Google研发的SigLIP模型重新定义了计算机视觉与自然语言处理的交互范式，

Deephub 2025-03-29 10:02:10 0 收藏

Ferret-UI——于移动用户界面的多模态大规模语言模型

移动应用程序已成为我们日常生活中不可或缺的工具，涉及信息搜索、预订和娱乐等多个领域。我们通常会目测屏幕，然后根据自己的目的执行必要的操作。将这一过程自动化可以让用户更轻松地实现目标。自动化还可应用于无障碍改进、用户界面导航、应用程序测试和可用性研究等不同领域。要顺利实现用户界面感知和交互的自动化，需

overfit同步小助手 2024-11-07 06:04:23 0 收藏

AI大模型在企业应用中的前沿技术与趋势

预训练模型（Pre-trained Models, PTMs）是近年来大模型技术中的重要突破，特别是在自然语言处理领域，预训练模型通过大规模数据的预训练，学习到了丰富的语言表示，再通过微调（fine-tuning）应用到具体任务中。大模型在数据分析中的应用越来越广泛，特别是在金融、零售等领域，通过大

overfit同步小助手 2024-09-09 12:01:18 0 收藏

IT之家最新科技热点 | 小米 AI 研究院开创多模态通用模型

这是一个引人注目的技术突破，快来看看它是如何改变我们对 AI 的理解和应用的吧！它不仅在技术层面上带来了新颖的应用，也让我们离更智能的未来生活更近了一步！：对于科技迷们来说，小米 AI 研究院的不断突破不仅展示了中国科技企业的创新实力，也为我们未来的智能生活打开了更多的可能性。：多模态技术正在改变我

overfit同步小助手 2024-07-10 05:01:35 0 收藏

【文档智能】符合人类阅读顺序的文档模型-LayoutReader原理及权重开源

LayoutReader模型使用seq2seq模型捕获文本和布局信息，用于阅读顺序预测，在实验中表现出色，并显著提高了开源和商业OCR引擎在文本行排序方面的表现。在编码阶段，LayoutReader将源序列和目标序列打包成一个连续的输入序列，并设计了自注意力掩码来控制token之间的可见性。具体来说

overfit同步小助手 2024-06-19 12:04:33 0 收藏

多模态大模型是新一代人工智能技术范式

本文主要介绍了推开通用人工智能大门，多模态大模型是新一代人工智能技术范式，希望能对学习大模型的同学们有所帮助。文章目录1. 前言2. 书籍推荐 2.1 内容简介 2.2 本书作者 2.3 本书目录 2.4 适合读者

overfit同步小助手 2024-05-23 23:01:12 0 收藏

趋势来袭！大模型时代的文档图像发展与图像安全剖析

人人都能享受大模型时代的红利，文档图像必将跨越式发展，图像安全问题也愈发严峻

overfit同步小助手 2023-10-21 11:06:52 0 收藏

文档图像前沿技术探索 | 多模态及图像安全

第六届中国模式识别与计算机视觉大会，文档图像前沿技术探索 | 多模态及图像安全

overfit同步小助手 2023-10-21 11:06:45 0 收藏

【人工智能 | 多模态】几种常见的多模态任务

overfit同步小助手 2023-06-25 00:02:03 0 收藏

首个大规模图文多模态数据集LAION-400M介绍

openAI的图文多模态模型CLIP证明了图文多模态在多个领域都具有着巨大潜力，随之而来掀起了一股图文对比学习的风潮。就在前几天（2022年12月），连Kaiming都入手这一领域，将MAE的思路与CLIP的思路结合，推出了FLIP，有兴趣可戳（https://arxiv.org/abs/2212.

overfit同步小助手 2023-05-30 00:01:33 0 收藏

Multi-Modal Knowledge Graph（多模态知识图谱）

本篇博文梳理一篇knowledge-based方向的文章，结合了多模态知识的多模态知识图谱。来自复旦大学。知识图谱本质上是一个以实体、概念为节点、以概念之间的各种语义关系为边的大规模语义网络。知识图谱在现实生活中广泛应用，包括文本理解、推荐系.

overfit同步小助手 2022-11-20 23:21:45 0 收藏