Je joue un peu avec Suno, je note les quelques trucs intéressants dans la génération.
Usage :
[…]
: [metatags]. Ils ne sont pas verbalisés sauf bug, mais servent à donner diverses indications.(…)
: (ad libs). Les “ad libs” sont des effets d'échos, plus adaptés à la fin de la ligne d'invite. Elles sont verbalisées.“…”
: les guillemets ajoutent de l'emphase, du “focus”, cette partie sera considéré comme plus percutante, avec effet, etc.La casse modifie aussi la pondération1) :
ALL CAPS
, Tout en majuscule : priorité haute, sera lu avec plus d'emphases (y compris dans les ad libs)Title Caps
, Majuscules en début de mots : priorité moyennelower case
, tout en minuscule : priorité basseSuno préconise de mettre les genres tout en majuscule, les titres des descripteurs (tags) en majuscule sur la première lettre et les instruments en minuscule “pour la meilleure qualité”.
Autres éléments :
Utiliser entre 5 à 7 tags pour un bon résultat. Éviter les termes génériques (“Beautiful”), essayer d'être précis (“Lush Strings, Dreamy Atmosphere, Melancholic”).
La structure en début de prompt est idéalement de ce type :
[Title: “Test Song”] [Genre: Pop] [Tags: Uplifting, Bright, Energetic] [Tempo: 120 BPM, Upbeat and Driving] [Production: High-fidelity mix, Clean and Bright]
À voir si cela marche dans la version actuelle de Suno et quand on a des paroles précises, s'il faut laisser des espaces ou non entre les crochets…
Voir aussi https://sunoaiwiki.com/tips/2024-07-08-simplify-prompting-methods-for-suno-v35/ qui propose les formules suivantes :
La méthode suivante devrait aussi fonctionne2) :
SEE <SONG_DETAILS> IN THE LYRICS FIELD FOR DETAILED INFORMATION
dans le champs des Styles de musique (après quelques genres quand même)<SONG_DETAILS> [GENRES: Chilled Lofi, Ambient, Downtempo] [SOUNDS LIKE: Tycho, Bonobo, Nujabes] [STYLE: Relaxing, Atmospheric, Lush, Clean] [MOOD: Calm, Serene, Reflective, Dreamy] [VOCALS: Female, Ethereal, Background] [ARRANGEMENT: Slow tempo, Laid-back groove, Ethereal textures, Clean guitar melodies] [INSTRUMENTATION: Clean electric guitar, Synthesizers, Ambient pads, Subtle percussion] [TEMPO: Slow, 70-90 BPM] [PRODUCTION: Lo-fi aesthetic, Warm tones, Soft compression, Analog warmth, Masterpiece, Perfectly Recorded, Produced by Emancipator] [STRUCTURE: Intro, Verse, Chorus, Verse, Chorus, Bridge, Outro] [DYNAMICS: Gentle throughout, Gradual builds and releases, Smooth transitions] [EMOTIONS: Peacefulness, Contemplation, Tranquillity, Nostalgia] </SONG_DETAILS> [Intro] [Verse 1] start your lyrics here...
Jouer sur les contradictions donne évidement des résultats plus aléatoires : on ne peut pas demander une “instrumentation légère” et une “superposition dense” en même temps et espérer que ça aie du sens.
Exemple :
Termes utilisables et interprétés dans les metatags (non exahaustif) :
Quelque chose comme ceci donne aussi de très bons résultats (style “doo-wop” avec tentative de faire un canon ; mais ça, ça ne marche pas) :
<SONG_DETAILS> [GENRE: Doo-Wop] [STYLE: Canon + Concaténation] [QUALITY: Studio, 48kHz, 24bit, Stereo] [MIC: Neumann U87, SM7B Layered] [MIX: Wide stereo, balanced vocals, clear highs, warm lows, slight reverb] [VOICES: 4-part harmonies (lead, tenor, baritone, bass), with a call-and-response structure] [CHORUS: Layered harmonies in canon, each voice entering at 2-bar intervals] [INTERVAL: Canon at the 4th, with harmonies echoing each phrase] [TEMPO: Moderate (90 BPM), syncopated rhythm with a smooth swing feel] [INSTRUMENTATION: Doo-wop style piano, brushed snare drum, upright bass, finger snaps] [FX: Gentle delay on harmonies, warm reverb on lead, light vinyl crackle for vintage feel] [CONCATENATION: Verse 1 + Chorus + Bridge + Verse 2] [TRANSITION: Smooth crossfade from chorus to bridge via instrumental break] [CONCATENATE_VOICES: Repeat harmony layers at end of each verse to lead into next section] </SONG_DETAILS>
À indiquer dans les metatags. BPM (beat per minute) pour le rythme de la piste, complété par une description, par exemple :
Décrire les changements de tempo, par exemple :
Pour des effets liés au mix, mastering, la qualité du studio.
Exemples:
On peut aussi ajouter
Exemples :
L'utilisation de bruits (animaux, environnementaux) peut être un peu aléatoire, il semble qu'une combinaison de technique donne les meilleurs résultats4) :
Par exemple : [BIRD SONG], [JUNGLE SOUNDS], [THUNDER CLAP], [WOLF HOWL], [OCEAN WAVES]…
À tester : utiliser la balise [Background] pour les bruitages, puis la rappeler quand on veut.
C'est à déclarer au niveau de “Instrumentation”.
La syntaxe est [Instrument: (Description, Effects)].
Exemple :
Pour que ce soit bien pris en compte :
On peut aussi utilise des familles d'instruments :
Enfin on peut appliquer des effets. Dans les communs :
hall
, plate
, spring
).high-pass
, low-pass
).Exemples :
Avoir LA voix qu'on veut est technique.
Il faut arriver à qualifier la voix proprement :
Par exemple :
Arriver à faire des duos à la demande est un challenge de haute volée (duet).
Généralement les tags de structures vont qualifier les voix, par exemple :
Pour avoir un morceau parlé :
Styles précis :
Il y a des avis variés : ponctuation ou non, usage de symboles ou non… Il y a quand même des concours où le jeu est de faire lire les émojis. Bref, faut tester, mais il faut aussi avoir conscience que la ponctuation est lue et interprétée, ce qui peut être utilisé mais aussi créer des soucis.
Ça, faut que je teste plus parce que jusque là c'était pas top. Il y a plusieurs formes d'ad libs.
Les adlibs et les effets vocaux doivent être nommés explicitement, en utilisant des descripteurs anglais entre parenthèses. Par exemple :
Je galère sur les murmures.
À tester :
Ça demande de connaitre un peu plus la théorie musicale, mais il est possible d'indiquer des accords (faire de la techno en ré mineur ? Chiche !)5).
Je ne suis pas certaine de la syntaxe, il va falloir tester.
Indiquer le style et les paroles séparément :
Style: instrumental trance in A minor Lyrics: [Am] [F] [G] [Em]
Taguer la progression :
Chord progression: [Am] [F] [G] [Em]
Utiliser un mood :
Mood: sad (for minor scales)
Il est aussi possible de donner vraiment le détail des notes :
[Verse 1: Piano & Strings] [#CC | DDEE | FFED | CCCC] [Variation: BbBb | CCDE | FFGF | EEDD]
Un exemple virtuose ici : https://suno.com/song/5ad6908b-d480-4b72-a2cb-8dd9aa2c9f50?sh=S1uedxGDzZtJHwQb/
Genres musicaux “sûrs”. Il en interprète d'autres mais ça c'est référencé dans la doc.
Suno en détecte tout seul, mais en utilisant les metatags de structure, on a plus de chance d'arriver à ce qu'on veut.
Il est utile de taguer les verses/chorus de cette façon :
[Verse_1: (ambiance)] 1 ou autre, mais avec le tiret _ Deux points, ouvrez les parenthèses est une syntaxe fonctionnelle. [Chorus_1: (choir)] Ça permet de le rappeler précisément ensuite dans la chanson en appelant [Chorus_1] sans réécrire les paroles. [Verse_2 - Operatic belting] Le tiret semble bien fonctionner pour appliquer le style.
C'est important de revenir à la ligne après les tags du type “verse/chorus”. Et si on commence en mettant plein de tags pour donner une atmosphère… En fait ça donne l'atmosphère en question à la première partie qui sera considérée comme “verse 1”. Ok ça influence la chanson quand même.
Par exemple :
[A symphonic rock arrangement with sweeping, ethereal strings, dissonant brass, and thunderous percussion.][Verse_1]
Va appliquer le “style” au verset, tandis que :
[A symphonic rock arrangement with sweeping, ethereal strings, dissonant brass, and thunderous percussion.] [Verse_1]
Va créer une première partie instrumentale avec cette sonorité avant de passer au verset.
Structures essentiels (si on ne les déclare pas, Suno a tendance à les décider seul) :
Metatag | Usage |
---|---|
[Intro] | Description de l'intro musicale. Donne l'ambiance et l'instrumentation de base. |
[Verse] | Couplet |
[Chorus] | Refrain, mais aussi un pic émotionnel ou thématique |
[Bridge] | Pont : transition entre deux parties qui apporte une variation (pause ou tension), un contraste |
[Outro] | Conclusion musicale de l'œuvre |
Structures de variations (facultatives mais peuvent apporter un plus) :
Metatag | Usage |
---|---|
[Interlude] | Une brève pause instrumentale pour réinitialiser ou fournir une transition |
[Breakdown] | Dépouille les pistes pour créer des tensions ou pour mettre en évidence des éléments spécifiques, offrant un contraste dynamique avec d'autres sections. |
[Build-up] | Augmentation progressive de l'intensité |
[Drop] | Chute de l'intensité musicale |
[Coda] | Section de conclusion musicale (peut être un post-scriptum après l'outro) |
[Transition] | Similaire à [bridge] mais plus soft, indiquant un changement de tempo par exemple |
[Pre-Chorus] | pré-refrain, pour indiquer une montée en puissance ou un suspense par exemple ? |
[Post-Chorus] | post-refrain, même genre |
[Break] | Pause (sans parole, mais possiblement avec musique) |
[Instrumental] | Partie sans voix ; à éviter en intro si on veux que les paroles soient prises en compte |
[Solo] | solo instrumental ou vocal |
[End] | Force s'arrêter clairement |
[Fade out] | “fondu au noir” (semble faire criser les gens ; facile à ajouter en post-prod) |
[Ostinato] | Pour une section avec des phrases répétées (peut éviter que Suno répète là où on ne veut pas ?) |
[Motif] ou [Hook] | “catchy sections” : accroches |
[Tag] | Répète la ligne finale |
Il y a aussi quelques tags utilisables mais peu communs et sans doute à réserver à certains styles de musique, vu qu'il y a des équivalences avec d'autres tags :
[Act I] | Pour structurer une chanson complexe |
[Antecedent] | En alternative à [Verse] |
[Consequent] | En alternative à [Pre-Chorus] |
[] |
À tester (non documenté mais structure musicale existante) ?
[Backing vocals] ou [Harmony] ou [Harmonies] | À voir si ça permettrait une mélopée en arrière-plan |
[Vocal Ad-lib] | Liberté vocale ou improvisée |
[Vocal] | aide le modèle à savoir que ce morceau doit être chanté. On peut spécifier des genres, comme “female” ou “male” |
[Choir] | Utilisation d’un chœur vocal |
[Pause] | Faire un silence |
Exemples :
Par ailleurs, chaque genre attends une certaine structure, et il y a plus de risque de voir Suno inventer si on ne respecte pas du tout le genre. Mais, ça peut être fun quand même.
Effets possibles, propre à la synthèse vocale (héritier de “bark”), à la base de Suno :
Est-ce que la doc est éparpillée ? Grave.