11 月 14 日消息,北京人形机器人创新中心昨晚宣布全面开源具身智能 VLM 模型 ——Pelican-VL 1.0。
从官方介绍获悉,该模型覆盖 7B、72B 参数规模,是迄今为止“最大规模的开源具身多模态大模型”,同时,也是迄今为止全球性能最强大的具身智能 VLM 模型。根据测试,其性能超越 GPT-5 同类模型 15.79% ,与 Google gemini 系列模型相比提升 19.25%,同时也超越通义千问、书生万象等国内模型,成为了目前最强的开源具身多模态大模型。
文章称,该团队还提出了一套全新的 DPPO(刻意训练)训练范式,是全球首创的具身多模态大模型后训练自进化算法框架。凭借 DPPO,Pelican-VL 实现‘性能最强’这一目标使用的数据量为 200K,仅仅是其他大模型的 1/10 甚至 1/50,是名副其实的开源 VLM 性价比之王。
Pelican-VL 1.0 的开源,能够大幅提升具身智能在商业服务、工业泛工业、高危特种作业、家庭服务等多种真实场景中,通过视觉-语言感知辅助多步任务规划的能力。而 VLM 作为目前实现机器人全自主的核心,Pelican 的开源也将推动我国具身智能全自主发展。
本次开源的 Pelican-VL 1.0 的核心优势在于深度整合海量数据与自适应学习机制,在由 1000+ A800 GPU 组成的集群上训练,单次检查点训练耗费超过 50,000 A800 GPU-小时;团队从原始数据中蒸馏出的包含数亿 token 的高质量元数据以做训练基石。基于上述优势,Pelican-VL 1.0 实现了在基线基础上性能提升 20.3%,平均超过 Qwen3-VL 系列、InternVL3.5 系列等同级别开源模型 10.6%。
得益于“刻意练习”DPPO(Deliberate Practice Policy Optimization)训练范式,Pelican-VL 就像一名刻苦钻研的学生:每次训练循环都会“看视频 — 自主练习 — 发现错误 — 纠正提升”。通过 DPPO 模仿人类元认知的学习方式,通过强化学习(RL)探索弱点、生成失败样本,再进行有针对性地监督微调(SFT),让模型不断自我纠错和迭代进步。
就像学生做错题后总结经验一样,Pelican-VL 能在训练中发现“薄弱知识点”并补齐,从而持续提高在视觉-语言和具身任务上的能力。通过这种机制,Pelican-VL 能够更准确地理解图像内容、语言指令和物理常识,最终在决策和操作执行环节中,实现了具身智能在空间-时间推理和动作规划方面的大幅突破。