Citation :
Résumé Nous introduisons MusicLM, un modèle générant de la musique haute fidélité à partir de descriptions textuelles telles que "une mélodie de violon apaisante soutenue par un riff de guitare déformé". MusicLM présente le processus de génération conditionnelle de musique comme une tâche de modélisation séquence à séquence hiérarchique, et il génère de la musique à 24 kHz qui reste cohérente pendant plusieurs minutes. Nos expériences montrent que MusicLM surpasse les systèmes précédents à la fois en qualité audio et en respect de la description textuelle. De plus, nous démontrons que MusicLM peut être conditionné à la fois sur du texte et sur une mélodie en ce sens qu'il peut transformer des mélodies sifflées et fredonnées selon le style décrit dans une légende de texte. Pour soutenir les recherches futures, nous publions MusicCaps, un ensemble de données composé de 5,5 000 paires musique-texte, avec des descriptions textuelles riches fournies par des experts humains.
|