>本文介绍了苹果
公司最新发布的研究本文,展示了他们开发的Ferret-
UIAI系统,该系统能够理解
应用程序屏幕上的
内容。虽然以ChatGPT为代表的大语言模型(
LLMs)在处理文本内容方面表现出色,但要让AI模型理解图像、视频和音频等非文本内容,就需要发展出多模态大语言模型(MLLMs)。目前的MLLMs仍然存在一些问题,特别是在理解移动应用程序方面。主要原因包括手机屏幕的宽高比与
训练图像的宽高比不匹配,以及图标和按钮相对较小难以识别。
为解决这些问题,苹果提出了名为Ferret-UI的MLLM系统。据本文介绍,相较于现有的GPT-4V和其他MLLMs模型,Ferret-UIAI模型表现更出色。这一新系统的提出标志着在处理移动应用程序方面迈出了一大步,为将来的多模态大语言模型发展铺平了道路。