微软发布人工智能模型解决视觉难题

微软研究人员周一推出了 Kosmos-1。 该模型是一种多模式模型,据报道可以执行诸如解决视觉难题、执行视觉文本识别、通过视觉智商测试和理解自然语言指令等任务。 研究人员认为,集成文本、音频和图像输入的多模态人工智能是构建通用人工智能的关键一步。

Kosmos-1 论文展示了模型分析和回答问题、阅读文本和编写标题以及进行视觉智商测试的视觉示例,准确率在 22% 到 26% 之间。

来源和详细信息:
https://arstechnica.com/information-technology/2023/03/microsoft-unveils-kosmos-1-an-ai-language-model-with-visual-perception-abilities/

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注