Emu2：创新的 370 亿参数多模态模型，重新定义任务解决和自适应推理

这篇来自中国的论文介绍了 Emu2——一个 370 亿参数的多模态模型，它重新定义了任务求解和自适应推理。

多模式任务是需要以多种模式理解和生成信息的任何活动。这些活动可能多种多样且时间较长。多模态系统很难扩展，因为它们依赖于大量的监督训练集和特定于任务的架构，而每个新任务都必须重复这些架构。当今的多模式模型尚未掌握人们在上下文中学习新任务的能力。这意味着即使有最少的指导或演示，他们也无法做到这一点。最近的研究表明，生成式预训练语言模型能够从上下文中学习。

来自北京人工智能研究院 (BAAI)、清华大学和北京大学的研究人员开发了 Emu2，这是一个拥有 370 亿个参数的模型，已针对多个多模态任务进行了训练和评估。他们发现，多模态预训练模型在扩展到更大尺寸时，仍然可以在上下文中学习并轻松推广到新的多模态问题。预测下一个多模态元素（文本标记或视觉嵌入）的目标是 Emu2 训练期间唯一使用的目标。这种统一的预训练技术使用大规模多模态场景（例如图像、文本对或交错的视频-图像-文本）来训练模型。

Emu2 是多模式和生成性的。它学习预测多模式环境中的元素。 Emu2 围绕三个主要组件进行设计：视觉编码器多模态建模和视觉解码器。 Visual Encoder 对输入图像进行标记，然后将它们与文本标记交错，为自回归建模做好准备。 Visual Decoder 将回归嵌入转换为电影或图像。

来源和详细信息：
https://www.marktechpost.com/2023/12/24/this-ai-paper-from-china-introduces-emu2-a-37-billion-parameter-multimodal-model-redefining-task-solving-and-adaptive-reasoning/

谷歌AI优化指南

Emu2：创新的 370 亿参数多模态模型，重新定义任务解决和自适应推理

发表回复取消回复

发表回复 取消回复

发表回复取消回复