Swin Transformer 兼容 30 亿参数的视觉模型,允许在训练中使用更高分辨率的图像。

我们视觉计算组的研究团队在去年初展示了 Swin Transformer。 这种基于 Transformer 的通用计算机视觉架构在重要的视觉基准 COCO 对象检测基准测试中大幅击败卷积网络。 长期以来,卷积神经网络 (CNN) 以及其他计算机视觉任务一直被用作对图像进行分类和检测其中对象的首选架构。 Swin Transformer 是另一种选择。 Swin 的准确性可以通过利用 Transformer 架构及其自适应计算功能来提高。 Swin Transformer 提供了一个统一计算机视觉和自然语言处理 (NLP) 架构的机会,其中 Transformer 架构由于其扩展能力而一直占据主导地位并对该领域有益。

Swin Transformer 显示出它可以成为解决广泛的计算机视觉问题的强大骨干架构的早期迹象。 它已经在几个重要的基准测试中名列前茅,包括 COCO 对象检测和 ADE20K 语义图像分割。 计算机视觉界也对其赞不绝口,将马尔奖授予 2021 年计算机视觉国际会议最佳论文。 Swin 与其他 Microsoft 团队的作品(例如 CSWin 和 Focal Transformers)一起展示了用于各种视觉挑战的 Transformer 架构。 我们相信还有很多工作要做,并且正在探索 Swin Transformer 的全部力量。

过去几年 NLP 最重要的发现之一是增加模型容量可以推进各种 NLP 任务。 模型越大,即使数据很少或没有数据,它也能适应新任务。 这可以在计算机视觉中完成吗?

来源和详细信息:

Swin Transformer supports 3-billion-parameter vision models that can train with higher-resolution images for greater task applicability

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注