苹果开源的图片编辑神器MGIE怎么用？

编号：11658 分类：互联网资讯阅读：次时间：2024-03-06

本文讨论了苹果公司即将发布的生成式AI技术，引起了业界的广泛关注。根据库克在电话会议上的确认，苹果计划在今年出这项技术。在ChatGPT引发全球热潮之后，苹果也在AI领域加大力度。据悉，苹果的大模型框架Ajax、AppleGPT等工具让人们对其AI能力充满期待。预计在即将举行的WWDC上，苹果将宣布将各种AI能力整合到iOS18、iPadOS18等软件产品中。

与此同时，针对iPhone用户，他们已经可以提前体验到AI超能力。只需通过简单的口头指令，用户便可以在短短10秒内完成照片编辑，例如将哭脸变成笑脸、调整照片亮度、移除背景人物等等。这项神奇技术的背后是一个名为MGIE的基于自然语言修改图片的新模型，由UCSB和苹果全华人团队联合完成。通过多模态模型，用户可以通过简短话语实现卓越的图像编辑能力。该技术已正式开源，为用户带来了前所未有的编辑体验。研究表明，多模态大模型（MLLM）可以自然地处理图片输入，并提供视觉感知响应，展现出强大的编辑能力。MGIE作为MLLM的应用，结合了扩散模型，可以根据给定指令编辑输入图像，实现预期目标。

相比于其他类似模型，MGIE在处理模糊的人类指令方面表现优异，能够准确理解并执行编辑任务。研究人员使用IPr2Pr作为预训练数据集，其中包含大量指令和图像数据，用于模型的训练和评估。实验证明，MGIE在各种编辑任务中表现出色，包括Photoshop风格的修改、全局照片优化和局部对象修改。通过学习基于指令的图像编辑，研究人员发现，MGIE能够根据明确的指导执行准确的编辑任务，增强图像编辑效果。在零样本和微调场景中，MLLM引导的图像编辑都有显著改进。

研究人员还探索了不同的架构来表达指令，结果显示具有关键视觉感知的表达指令始终具有优势。综合而言，MGIE展现了强大的潜力，为用户提供更直观、高效的编辑方式。随着技术的不断完善和推广，相信将给用户带来更多惊喜和便利。

标签： MGIE下载地址在哪、苹果开源的图片编辑神器MGIE怎么用、

本文地址： https://blogs.03hz.cn/hlwzxwz/11658.html

上一篇：04月30日每天60秒读懂全世界星期二

下一篇：利用在线图床更好地管理您的图片资源