谷歌的 PaLM E 是一个接受命令的通才大脑机器人
PaLM-E 是一种多模式视觉语言模型,具有 5620 亿个变量,集成了用于机器人控制的语言和视觉。 研究人员声称,这是迄今为止开发的最大的 VLM,无需重新训练即可执行许多任务。
PaLM-E 通过分析来自机器人摄像头的数据来实现这一点,而不需要经过预处理的场景表示。 它消除了人工预处理数据或对其进行注释的要求,从而允许进行更自主的机器人控制。
来源和详细信息:
https://arstechnica.com/information-technology/2023/03/embodied-ai-googles-palm-e-allows-robot-control-with-natural-commands/?utm_medium=social&utm_source=facebook&utm_brand=ars&utm_social-type=owned