如果您使用光学神经网络运行 Transformer 模型会怎样?

深度学习模型的规模呈指数级增长,这既是推动当前技术水平发展的力量,也是对能源消耗、速度以及大规模学习可行性的日益关注的来源。 康奈尔大学的研究人员最近讨论了 Transformer 拓扑结构,以及它们在扩展到数十亿或数万亿个参数时如何得到显着改进。 这导致深度学习计算的使用呈指数级增长。 大型变形金刚已成为许多任务的流行但昂贵的解决方案。 这是因为数字硬件的能效跟不上对尖端深度学习模型不断增长的 FLOP 要求。 这些大型 Transformer 在许多其他领域(例如图形和多模态设置)中的表现也令人印象深刻。

他们还表现出迁移学习能力,这使他们能够快速概括某些活动。 这可以在零样本环境中完成,无需额外培训。 这些模型的成本和一般机器学习能力是支持快速有效推理的硬件加速器背后的主要驱动力。 深度学习硬件,如 GPU、FPGA 和移动加速器芯片,在数字电子领域得到了广泛的发展。 据说基于光学的神经网络比数字神经网络更高效且延迟更低。 模拟计算也越来越受欢迎。

尽管这些模拟系统容易受到错误和噪声的影响,但它们通常能够以较低的成本进行光学操作。 主要成本通常是与权重加载相关的开销电力成本以及通过大型线性操作分摊的数据。 这使得大型模型(例如变形金刚)的加速特别有前途。 与数字系统相比,缩放理论上每个 MAC 的能效更高。 他们展示了变形金刚如何利用这种扩展来发挥自己的优势。 他们使用 Transformer 的操作示例在基于空间光调制器的实验系统上对语言进行建模。 然后将结果用于创建光学运行的 Transformer 的校准模拟器。 这样做的目的是为了证明 Transformer 可以在这些系统上运行,尽管它们具有噪声特性和错误特性。

来源和详细信息:
https://www.marktechpost.com/2023/02/26/what-happens-if-you-run-a-transformer-model-with-an-optical-neural-network/

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注