AI语言模型在无损压缩方面优于FLAC和PNG。

找到可以在不牺牲信息的情况下减少数据的模式是有效压缩的关键。 当它能够正确猜测一系列数据中的下一个数据时,这是一个好的算法或模型的标志。 这将良好猜测的想法(GPT-4 等大型语言模型非常擅长)与实现良好的压缩联系起来。

研究人员在题为“语言建模就是压缩”的 arXiv 论文中详细介绍了他们的发现。他们发现 DeepMind Chinchilla 70B 大语言模型可以将 ImageNet 图像数据库中的图像补丁压缩高达 43.4%,而 PNG 算法仅压缩图像补丁 至 58.5%。 对于从 LibriSpeech 获取的样本,Chinchilla 的音频压缩率为原始大小的 16.4%,而 FLAC 的压缩率为 30.3%。

数字越低,压缩程度就越大。 无损压缩是指在压缩过程中没有数据丢失。 这与 JPEG 等有损压缩技术形成对比,后者会丢失数据,然后在解码后使用近似值重建数据以减小文件大小。

来源和详细信息:
https://arstechnica.com/information-technology/2023/09/ai-language-models-can-exceed-png-and-flac-in-lossless-compression-says-study/

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注