使用新的 AI 模型探索音乐合成和源分离的可能性:多源扩散模型

来自意大利的一项新 AI 研究引入了一种基于扩散的生成模型,该模型能够进行音乐合成和源分离

在音乐创作、合成和分析中,源分离对人类来说是可能的。 人脑能够从混音中分离出声源,反之亦然。 研究人员使用源的联合概率密度以数学方式表达这一知识。 音乐混合的上下文使得源的联合概率密度不会影响到单个源产品。

没有深度学习模型可以组合许多来源以形成连贯的混合,然后将每个来源从混合物中分离出来。 在音乐创作和生成任务中,模型直接学习混合物的分布。 他们可以准确地对混合物进行建模,但会丢失有关各个来源的所有知识。 相比之下,用于源分离的模型在推理期间针对每个源分布和混合条件学习一个模型。 因此,有关源之间相互依赖性的所有重要细节都丢失了。 在任何一种情况下,都很难创建混合物。

罗马大学 GLADIA 研究实验室的研究人员开发了多源扩散模型 (MSDM),作为构建能够进行源分离和音乐生成的深度学习模型的第一步。 该模型是使用共享上下文的源的联合概率构建的。 这称为先验分布。 分离任务是通过将先验分布条件化为混合,然后对后验分布进行采样来执行的。 这是开发通用音频模型的重要的第一步,因为它是一个能够同时执行分离和生成任务的模型。

来源和详细信息:
https://www.marktechpost.com/2023/02/13/a-new-ai-research-from-italy-introduces-a-diffusion-based-generative-model-capable-of-both-music-synthesis-and-source-separation/