苹果开源图像新技术ml-mgie 可通过指令修改图片
苹果开源了一种新的技术,名为多模态大语言模型引导的编辑,这项技术能够帮助用户通过自然语言指令来修改图片,使得编辑图片更加简单和自然。MGIE采用多模态大型语言模型进行图像编辑指令的生成,通过端到端训练,模型不仅捕捉视觉想象力执行图像处理操作。在实现更加直观和自由的图像编辑过程中,这一方法有望为未来的计算机视觉和图像处理研究提供新的思路。