谷歌、纽约大学和马里兰大学的 U 令牌丢弃方法将预训练 BERT 时间减少了 25%
预训练 BERT 类型的大型语言模型——可以扩展到数十亿个参数——对于在许多 NLP 任务上实现最先进的性能至关重要。 预训练过程成本高昂,一直是大型语言模型工业化应用的瓶颈。
谷歌和纽约大学的一个研究团队在论文中提出了一种简单但有效的“token-dropping”技术,可以降低预训练 transformer 模型(例如 BERT 模型)的成本,同时又不影响性能 下游微调任务的性能。
该团队总结了他们的主要贡献:
来源和详细信息:
https://syncedreview.com/2022/03/29/google-nyu-maryland-us-token-dropping-approach-reduces-bert-pretraining-time-by-25/