揭开谷歌的 PaLM-E：用于机器人控制的最大多模态具体化视觉语言模型

谷歌的 PaLM E 是一个接受命令的通才大脑机器人

PaLM-E 是一种多模式视觉语言模型，具有 5620 亿个变量，集成了用于机器人控制的语言和视觉。研究人员声称，这是迄今为止开发的最大的 VLM，无需重新训练即可执行许多任务。

PaLM-E 通过分析来自机器人摄像头的数据来实现这一点，而不需要经过预处理的场景表示。它消除了人工预处理数据或对其进行注释的要求，从而允许进行更自主的机器人控制。

来源和详细信息：
https://arstechnica.com/information-technology/2023/03/embodied-ai-googles-palm-e-allows-robot-control-with-natural-commands/?utm_medium=social&utm_source=facebook&utm_brand=ars&utm_social-type=owned

谷歌AI优化指南

揭开谷歌的 PaLM-E：用于机器人控制的最大多模态具体化视觉语言模型

发表回复取消回复

发表回复 取消回复

发表回复取消回复