苹果推出 Ferret-UI Lite 端侧 AI 模型:3B 参数看懂 iPhone 复杂屏幕内容

抖音秀 百科资讯 1

2 月 21 日消息,苹果研究团队在最新论文中,推出展示 Ferret-UI Lite 端侧 AI 模型,仅有 30 亿(3B)参数,却在性能上匹配甚至超越了体积大 24 倍的大型模型。

注:Ferret-UI Lite 是专为移动设备打造的多模态大语言模型(MLLM),参数量仅为 30 亿(3B),属于典型的“轻量级”模型,可以在算力有限的手机端,精准理解与操作复杂图形用户界面(UI)。

不过在多项基准测试中,Ferret-UI Lite 的性能不仅追平,甚至超越了参数量高达其 24 倍的大型服务器端模型。

在核心技术方面,通用大模型往往难以看清手机屏幕上微小的图标和文本,而 Ferret-UI Lite 通过引入“推理时裁剪(Inference-time Cropping)”技术解决了这一痛点。

模型在处理任务时,会先进行一次粗略预测,然后智能地“剪切”并放大相关区域,就像人眼凑近观察细节一样,再次进行精准识别。这种策略让小模型无需处理海量图像数据,也能捕捉到界面中的关键信息,从而更好理解屏幕元素。

在训练方面,研究团队为了解决高质量训练数据匮乏的问题,构建了一套合成数据生成系统。该系统包含“任务生成器”、“规划器”、“执行者”和“批评者”四个角色,让 AI 在模拟环境中不断尝试操作、犯错并自我修正。

这种机制不仅生成了海量训练样本,还让模型学会了如何应对现实操作中的错误与意外情况(如点击无反应或弹出干扰窗口),其效果远优于单纯依赖人工标注的清洁数据。

测试结果显示,该模型在执行短流程、基础 UI 操作时表现优异,但在处理复杂的多步长任务时仍有提升空间。

最重要的是,Ferret-UI Lite 能够完全在本地运行,无需将屏幕截图上传至云端服务器,这在赋予手机“自动操作 App”能力的同时,最大程度地保障了用户隐私。

附上参考地址

  • Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents

  • arxiv:Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents