上海智元机器人发布全国首个通用具身基座大模型GO-1，助力人形机器人多场景应用_J9九游会-真人游戏第一品牌

上海人形机器人正在迎来另一个重要的进展。 3月10日，Zhiyuan机器人发布了Zhiyuan Qiyuan Big Model Go-1（Genie Operator-1），该模型是该国的第一个通用浮雕基本大型型号，并成功部署到了许多机器人机构中。据报道，GO-1可以使用人类的视频学习，并且还可以将机器人调整为具有很少数据甚至零样本的不同场景和任务，从而降低了使用具体模型的阈值。

基于数百万个真实机器数据建造

“ GO-1模型建立在体现领域的数字金字塔上，并吸收来自人类世界的多个维度和类型的数据。” Zhiyuan的合伙人兼体现商业部门总裁Yao Maoqing向记者展示了数字金字塔。

Zhiyuan展示的数字金字塔。

底层是Internet的大规模纯文本和图形数据，可以帮助机器人了解一般知识和场景。第二层是大规模的人类操作和跨主页视频，它们可以帮助机器人学习人类或其他本体论的动作操作模式。第三层是仿真数据，用于增强概括并允许机器人适应不同的场景，对象等。金字塔的顶层是用于训练精确动作执行的高质量实时教学数据。

但是，传统的VLA（视觉语言动作）体系结构无法利用大规模的人类和交叉主体学视频数据，并且缺乏重要的数据源，从而导致迭代成本更高，进化速度较慢。

简而言之，在过去，机器人使用Internet的图形和文本数据和仿真数据来“模仿”人们的行为，但是没有真正的人在遇到各种情况时教机器人如何做他们应该做的事情。

为了解决具体情报的数据问题，Zhiyuan在去年年底启动了Agibot World Machine数据集，其中包含超过100万个轨迹，涵盖了217个任务，并涉及五个主要情况。基于此，Zhiyuan今天发布了通用浮雕基础模型GO-1。

Zhiyuan推出了其第一个浮雕的通用型号GO-1。

在Agibot World诞生之前，Google还为不同的机器人培训构建了开源数据集开放式X型设备，但是由于缺乏大多数数据的统一和标准化的采购过程，因此质量格式不平衡。

相比之下，Zhiyuan Agibot世界数据集涵盖了日常生活所需的大部分动作需求，包括诸如抓取，放置，推动和拉动的基本操作到精细的长距离，远程和复杂的相互作用，例如搅拌，折叠和熨烫。它的远程数据量表高出10倍，场景覆盖率大100倍，并且数据质量从实验室级别升级到工业级别标准。

“这些机器人的动作数据集似乎是非常基本的，并且没有酷炫的显示器，但是数据的准确性和覆盖范围是世界上最高的。”上海Zhiyuan机器人频道销售总监Liu Qiang说。

平均成功率增加了32％

有了高质量的数据保证，还必须跟上更可靠的技术体系结构。

为了更好地利用这些数据，Zhiyuan提出了一个新的别墅（视觉语言隐式动作）体系结构。与VLA体系结构相比，它可以通过预测潜在动作令牌并增强机器人的概括能力来弥合图像文本输入和机器人执行动作之间的差距。

通过别墅建筑，Zhiyuan机器人在五个不同的复杂任务上测试了GO-1。与现有的最佳模型相比，GO-1具有明显的领先成功率，平均成功率为32％。其中，倒水，清洁桌面和补充饮料的三个任务特别出色。这也意味着GO-1在现实世界中的敏捷操作和长期任务中表现出色，远远超过了最先进的开源浮雕基础模型。

测试结果表明，GO-1在绩效方面带领世界。

Maoqing说，GO-1模型可以帮助机器人完全全面的“基础教育”和“职业教育”，并且自然可以适应新的场景，轻松面对各种环境和物体，并迅速学习新的操作。

他以“挂衣服”为例。该模型可以根据您看到的图片来理解与此句子相对应的任务要求，然后基于您在培训期间看到的挂衣服的数据，他想象该过程包含哪些操作步骤，最后执行此系列步骤以完成整个任务操作。

如果我们看一下，机器人需要以四个步骤悬挂衣服：

步骤1：通过学习“互联网的大规模纯文本和图形数据”，机器人在这种情况下了解句子“挂衣服”的含义和要求；

步骤2：机器人已经学习了人类的操作视频和其他机器人的各种操作视频，并且知道“悬挂衣服”中包含的所有步骤和链接；

步骤3：由于模拟数据包含不同的衣服，不同的衣柜和不同房间等场景，因此机器人模拟了“仿真世界”中“挂衣服”的所有操作，因此它可以理解每个操作链接中的相应对象和环境。

步骤4：通过预先学习的真实教学数据，机器人可以准确地完成“挂衣服”的整个任务。

机器人的“大脑”变得越来越成熟

作为一般压花的基本模型，GO-1不再受到机器人的特定模型和适用场景的约束，而是具有概括功能，并且可以支持不同的机器人以快速适应新任务并学习新技能。

Yao Maoqing介绍了GO-1模型可以从互联网视频和真实的人类演示中学到，以增强模型对人类行为的理解。通过强大的概括功能，GO-1可以概括为新的方案和新任务，而新的任务很少，甚至零样本却可以降低使用体现模型的阈值，并使培训后的成本非常低。

值得一提的是，GO-1模型还配备了Zhiyuan中完整的数据反流系统，该系统可以不断地发展并从实际执行中遇到的有问题的数据中学习，并且您使用它的越多，您将会越聪明。

通用大型模型和体现智力的结合是机器人向AGI（通用人工智能）转向的唯一途径，并且体现的基本模型还标志着机器人的“大脑”变得越来越成熟。

实际上，十多年前，机器人可以“擦拭桌子”和“玩小提琴”，这似乎并不新鲜。但是过去，这些机器人只是完成了预设程序，这并不意味着机器人具有独立完成任务的能力，或者它们没有真正的智能。如今，随着具体智能的持续发展，智能机器人已经完成了“从单个任务到多个任务”的三层演变，“从封闭的环境到开放世界”，以及“从预设程序到指令的概括”。

“目前，机器人可以在不同的情况下执行多个任务，而无需对每个新任务进行重新训练，而不再限于预设程序，可以理解自然语言指示并具有某些推理能力。” Yao Maoqing说，一旦机器人“理解人类的单词”，它可以在许多领域（例如商业，工业和家庭）中发挥更大的作用。

列编辑：李Ye