AI前沿论文速递 24.01.23

1.PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding

Zhen Li, Mingdeng Cao, Xintao Wang, Zhongang Qi, Ming-Ming Cheng, Ying Shan

github：https://github.com/TencentARC/PhotoMaker ★2593

paper: https://arxiv.org/abs/2312.04461v1

Task: Diffusion Personalization, Diffusion Personalization Tuning Free, Image Generation, Text-to-Image Generation

摘要：图像生成的最新进展在根据给定文本提示合成逼真的人类照片方面取得了显著进展。然而，现有的个性化生成方法无法同时满足高效率、有前途的身份（ID）保真度和灵活的文本可控性的要求。在这项工作中，我们介绍了 PhotoMaker，这是一种高效的个性化文本到图像生成方法，它主要将任意数量的输入 ID 图像编码为堆栈 ID 嵌入，以保存 ID 信息。这种嵌入作为统一的ID表示，不仅可以全面封装同一输入ID的特征，而且可以容纳不同ID的特征以便后续集成。这为更有趣且具有实际价值的应用铺平了道路。此外，为了推动 PhotoMaker 的训练，我们提出了一个面向 ID 的数据构建管道来组装训练数据。在通过所提出的管道构建的数据集的滋养下，我们的 PhotoMaker 表现出了比基于测试时微调的方法更好的 ID 保存能力，同时提供了显著的速度改进、高质量的生成结果、强大的泛化能力和广泛的应用程序。

2.InstantID: Zero-shot Identity-Preserving Generation in Seconds

Qixun Wang, Xu Bai, Haofan Wang, Zekui Qin, Anthony Chen

github: https://github.com/instantid/instantid ★1491

paper:https://arxiv.org/abs/2401.07519v1

**Task: **Diffusion Personalization, Diffusion Personalization Tuning Free, Image Generation

摘要：通过 Textual Inversion、DreamBooth 和 LoRA 等方法，个性化图像合成取得了重大进展。然而，它们在现实世界中的适用性受到高存储需求、冗长的微调过程以及对多个参考图像的需求的阻碍。相反，现有的基于 ID 嵌入的方法虽然只需要一次前向推理，但也面临着挑战：它们要么需要对众多模型参数进行广泛的微调，要么缺乏与社区预训练模型的兼容性，要么无法保持高面部保真度。为了解决这些限制，我们引入了 InstantID，这是一种基于扩散模型的强大解决方案。我们的即插即用模块仅使用单个面部图像就能熟练地处理各种风格的图像个性化，同时确保高保真度。为了实现这一目标，我们设计了一个新颖的 IdentityNet，通过强加语义和弱空间条件，将面部和地标图像与文本提示相结合来引导图像生成。InstantID 展示了卓越的性能和效率，在身份保存至关重要的现实应用中非常有用。此外，我们的工作与流行的预训练文本到图像扩散模型（如 SD1.5 和 SDXL）无缝集成，作为一个适应性强的插件

3.LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression

Huiqiang Jiang, Qianhui Wu, Xufang Luo, Dongsheng Li, Chin-Yew Lin, Yuqing Yang, Lili Qiu

github: https://github.com/microsoft/LLMLingua ★2386

paper: https://arxiv.org/abs/2310.06839v1

**Task: **Code Completion, Few-Shot Learning

摘要：在长上下文场景中，大型语言模型（LLM）面临三个主要挑战：更高的计算/财务成本、更长的延迟和较差的性能。一些研究表明，法学硕士的表现取决于输入提示中关键信息（问题相关）的密度和位置。受这些发现的启发，我们建议使用 LongLLMLingua 进行快速压缩，以提高法学硕士对关键信息的感知，从而同时应对这三个挑战。我们对各种长上下文场景进行评估，包括单/多文档 QA、小样本学习、摘要、合成任务和代码完成。实验结果表明，LongLLMLingua压缩提示可以以更低的成本获得更高的性能。端到端系统的延迟也减少了。例如，在 NaturalQuestions 基准测试中，LongLLMLingua 的性能比原始提示提高了 17.1%，而 GPT-3.5-Turbo 的输入标记数量减少了约 4 倍。根据 LongBench 和 ZeroScrolls 基准测试，每 1,000 个样本可分别节省28.5美元和 27.4美元的成本。此外，当以 2x-10x 的压缩率压缩约 10k 令牌的提示时，LongLLMLingua 可以将端到端延迟加快 1.4x-3.8x。

4.TaskWeaver: A Code-First Agent Framework

Bo Qiao, Liqun Li, Xu Zhang, Shilin He, Yu Kang, Chaoyun Zhang, Fangkai Yang, Hang Dong, Jue Zhang, Lu Wang, Minghua Ma, Pu Zhao, Si Qin, Xiaoting Qin, Chao Du, Yong Xu, QIngwei Lin, Saravan Rajmohan, Dongmei Zhang

github: https://github.com/microsoft/taskweaver ★3490

paper:https://arxiv.org/abs/2311.17541v2

Task: Natural Language Understanding

摘要：大型语言模型 (LLM) 在自然语言理解和生成方面表现出了令人印象深刻的能力，导致它们在聊天机器人和虚拟助理等应用中得到使用。然而，现有的法学硕士框架在处理具有丰富数据结构的特定领域数据分析任务时面临局限性。此外，他们还难以灵活地满足不同的用户需求。为了解决这些问题，TaskWeaver 被提议作为构建 LLM 支持的自主代理的代码优先框架。它将用户请求转换为可执行代码，并将用户定义的插件视为可调用函数。TaskWeaver 提供丰富的数据结构、灵活的插件使用和动态插件选择的支持，并利用 LLM 编码能力来实现复杂的逻辑。它还通过示例整合了特定领域的知识，并确保生成的代码的安全执行。TaskWeaver 提供了一个强大而灵活的框架，用于创建智能会话代理，可以处理复杂的任务并适应特定领域的场景。

微信公众号同步更新

标签：计算机视觉人工智能

本文转载自: https://blog.csdn.net/qitazhang/article/details/135792050
版权归原作者 ftsao 所有，如有侵权，请联系我们删除。

AI前沿论文速递 24.01.23

1.PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding

2.InstantID: Zero-shot Identity-Preserving Generation in Seconds

3.LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression

4.TaskWeaver: A Code-First Agent Framework

发表评论

“AI前沿论文速递 24.01.23”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航