苹果开源的图片编辑神器MGIE怎么用?
编号:11658 分类:互联网资讯 阅读: 时间:2024-03-06

本文讨论了苹果公司即将发布的生成式AI技术,引起了业界的广泛关注。根据库克在电话会议上的确认,苹果计划在今年出这项技术。在ChatGPT引发全球热潮之后,苹果也在AI领域加大力度。据悉,苹果的大模型框架Ajax、AppleGPT等工具让人们对其AI能力充满期待。预计在即将举行的WWDC上,苹果将宣布将各种AI能力整合到iOS18、iPadOS18等软件产品中。

与此同时,针对iPhone用户,他们已经可以提前体验到AI超能力。只需通过简单的口头指令,用户便可以在短短10秒内完成照片编辑,例如将哭脸变成笑脸、调整照片亮度、移除背景人物等等。这项神奇技术的背后是一个名为MGIE的基于自然语言修改图片的新模型,由UCSB和苹果全华人团队联合完成。通过多模态模型,用户可以通过简短话语实现卓越的图像编辑能力。该技术已正式开源,为用户带来了前所未有的编辑体验。研究表明,多模态大模型(MLLM)可以自然地处理图片输入,并提供视觉感知响应,展现出强大的编辑能力。MGIE作为MLLM的应用,结合了扩散模型,可以根据给定指令编辑输入图像,实现预期目标。

相比于其他类似模型,MGIE在处理模糊的人类指令方面表现优异,能够准确理解并执行编辑任务。研究人员使用IPr2Pr作为预训练数据集,其中包含大量指令和图像数据,用于模型的训练和评估。实验证明,MGIE在各种编辑任务中表现出色,包括Photoshop风格的修改、全局照片优化和局部对象修改。通过学习基于指令的图像编辑,研究人员发现,MGIE能够根据明确的指导执行准确的编辑任务,增强图像编辑效果。在零样本和微调场景中,MLLM引导的图像编辑都有显著改进。

研究人员还探索了不同的架构来表达指令,结果显示具有关键视觉感知的表达指令始终具有优势。综合而言,MGIE展现了强大的潜力,为用户提供更直观、高效的编辑方式。随着技术的不断完善和推广,相信将给用户带来更多惊喜和便利。

网址推荐 网址推荐