🌍 Google Bard全球更新:
- 支持Gemini Pro,覆盖40种语言、230多个国家和地区。
- 新增图像生成功能,基于Imagen 2模型,目前仅支持英语。
- 多语言双重检查功能,通过“G”图标验证Bard回答的准确性。
- 图像生成中加入可识别水印(SynthID)。
🔗 https://blog.google/products/bard/google-bard-gemini-pro-image-generation/
🔗 https://blink.csdn.net/details/1640176
📷 JoyTag开源图像标注模型:
- 输出5000多个标签预测,无内容过滤,支持性正面内容。
- 基于ViT-B/16构建,输入尺寸448x448x3,9100万参数,训练样本660M。
- 适合多样化图像内容,特别优化Diffusion模型训练。
🔗 https://blink.csdn.net/details/1640164
🎥 Wonder Studio摄像机追踪与点云技术:
- 自动识别摄像机移动和拍摄场景,精确CGI与实景融合。
- 包括摄像机追踪和点云技术,支持3D场景重建和CG元素自然移动。
🔗 https://blink.csdn.net/details/1640165
🖼️ Google ImageFX工具: - 基于Imagen 2,通过点击关键词合成提示词生成图片。
- 类似Google MusicFX操作体验。
🔗 https://aitestkitchen.withgoogle.com/tools/image-fx
🔗 https://blink.csdn.net/details/1640166
🔧 InstructIR图像恢复工具:
- 根据文字描述改善图片,支持去噪、去雨、去模糊等。
- 使用NAFNet和指令条件块(ICB),支持多任务学习。
🔗 https://mv-lab.github.io/InstructIR/
🔗 https://arxiv.org/abs/2401.16468
🔗 https://blink.csdn.net/details/1640168
📝 InternLM-XComposer图文创作模型:
- 自由形式输入下的图文创作和理解,包含海量图文知识库。
- 支持图像识别、感知和视觉推理。
🔗 https://github.com/InternLM/InternLM-XComposer/tree/main
🔗 https://arxiv.org/abs/2401.16420
🔗 https://blink.csdn.net/details/1640175
🎨 Poe Image Remix功能:
- 修改AI生成图片的风格、布局和颜色。
- 支持SDXL和Playground v2图像生成机器人,适用于Web、macOS、Windows,计划扩展到iOS和Android。
🔗 https://blink.csdn.net/details/1640178
版权归原作者 程序员的店小二 所有, 如有侵权,请联系我们删除。