IA : Suno, Astuces
Je joue un peu avec Suno, je note les quelques trucs intéressants dans la génération.
- Éviter les ponctuations en fin de ligne
- Revenir à la ligne va changer les interprétations
- Il est possible d'indiquer un instrument précis, ce qui change la coloration.
- Ce qui n'est pas entre crochet “[]” est chanté tel quel. Ces crochets (métatags) s'appliquent au verset en cours.
- Décrire la musique en début de chanson entre crochet pose une petite ambiance, mais sera principalement appliqué à l'intro (sauf si on respecte le template des balises, cf plus bas ?
- Les aspects descriptifs (tag etc) fonctionnent mieux en anglais. Et mieux vaut descriptif et simple (un mot, une expression, même en liste séparé par des virgules) que trop poétique, j'ai l'impression.
Syntaxe
Usage :
- Syntaxe
[…]
: [metatags]. Ils ne sont pas verbalisés sauf bug, mais servent à donner diverses indications.- Bug où ils sont verbalisés : quand ils sont trop longs, ou s'il y a des espaces en trop avant les parenthèses.
(…)
: (ad libs). Les “ad libs” sont des effets d'échos, plus adaptés à la fin de la ligne d'invite. Elles sont verbalisées.“…”
: les guillemets ajoutent de l'emphase, du “focus”, cette partie sera considéré comme plus percutante, avec effet, etc.- Majuscules : ce sera lu avec plus d'emphases (y compris dans les ad libs).
Autres éléments :
- Le titre n'est pas optionnel, il donne l'intention de la musique. On peut le changer après la génération.
Metatags
Utiliser entre 5 à 7 tags pour un bon résultat. Éviter les termes génériques (“Beautiful”), essayer d'être précis (“Lush Strings, Dreamy Atmosphere, Melancholic”).
La structure en début de prompt est idéalement de ce type :
[Title: “Test Song”] [Genre: Pop] [Tags: Uplifting, Bright, Energetic] [Tempo: 120 BPM, Upbeat and Driving] [Production: High-fidelity mix, Clean and Bright]
À voir si cela marche dans la version actuelle de Suno et quand on a des paroles précises, s'il faut laisser des espaces ou non entre les crochets…
Jouer sur les contradictions donne évidement des résultats plus aléatoires : on ne peut pas demander une “instrumentation légère” et une “superposition dense” en même temps et espérer que ça aie du sens.
- Peut servir à indiquer un style musical dans la chanson (par exemple combiner folk puis hard metal… pourquoi pas).
- Ajouter un retour à la ligne après la zone concernée par le metatag permet de mieux différencier les trucs1). On commence par [metatags], on met son verset (sans retour à la ligne), puis un retour à la ligne. Voir les exemples plus bas.
Exemple :
Termes utilisables et interprétés dans les metatags (non exahaustif) :
- Mood: Melancholic, Joyful, Introspective, Energetic, Dreamy, Nostalgic, Playful, Dark, Introspective, Triumphant, Hopeful.
- Style: Ethereal, Retro, Gritty, Lush, Minimalist.
- Instrumentation: Layered Guitars, Sparse Drums, Lush Strings, Analog Synths, Evolving Synths, Brass Section, Acoustic Piano.
- Effects: Vinyl Crackle, Reverb-Heavy, Filtered Vocals, Tape Saturation, Distorted Vocals, Lo-fi Filter, Tape Delay, Chorus Effect.
Tempo
À indiquer dans les metatags. BPM (beat per minute) pour le rythme de la piste, complété par une description, par exemple :
- [Tempo: 120 BPM, Rhythmic and Driving]
- [Tempo: 85 BPM, Slow and Reflective]
- [Tempo: 140 BPM, Upbeat and Energetic]
Décrire les changements de tempo, par exemple :
- [Tempo: Starts at 90 BPM, increases to 120 BPM during chorus]
- [tempo] slow/fast/ 120 BPM
- [speed] Allegro / Adagio / Andante / Presto
Effets et production
Pour des effets liés au mix, mastering, la qualité du studio.
Exemples:
- Dolby Atmos mix, High Fidelity, Warm Analog Tones.
- Live Session with minimal processing, emphasis on natural acoustics.
- Lo-Fi mixing with tape saturation and vinyl crackle.
- Clean, digital production with wide stereo imaging.
On peut aussi ajouter
- Des effets d'ambiance : Rain, Wind, Thunder, Vinyl Crackle, City Noise, Crowd Sounds, etc.
- Des effets “spéciaux” (SFX) : Cinematic risers, Atmospheric drones, Unexpected Instruments, etc.
Exemples :
- [Sound Effects: (Rain, distant thunder, and soft vinyl crackle)]
- [SFX: (Cinematic risers building to the chorus)]
Instrumentation
La syntaxe est [Instrument: (Description, Effects)].
Exemple :
- [Electric Guitar: (Clean arpeggios, shimmering delay)]
- [Drums: (Sparse, soft snare hits and cymbals)]
- [Synth: (Ambient, evolving textures with low-pass filter)]
- [Bass: (Melodic and groovy, anchoring the rhythm)]
- [Strings: (Lush and subtle, supporting the emotional depth)]
Pour que ce soit bien pris en compte :
- Être spécifique sur le nom de l'instrument : une guitare accoustique n'est pas une guitare électrique.
- Être concis sur la description, en se concentrant sur le timbre ou l'humeur.
- Décrire l'interaction entre les instruments (“layered with”, “supporting the”…)
On peut aussi utilise des familles d'instruments :
- [String Family: (Warm, flowing melodies)]
- [Percussion Family: (Layered, dynamic rhythms)]
- [Synth Family: (Ambient, shimmering textures)]
- [Brass Family: (Majestic swells, bold fanfares)]
- [Woodwinds Family: (Melodic flourishes, ethereal accents)]
Enfin on peut appliquer des effets. Dans les communs :
- Reverb: Ajoute de la profondeur et de l'espace. Spécifiez le type de réverbération (par exemple
hall
,plate
,spring
). - Delay: Crée des échos et des couches rythmiques. Spécifiez le type et la vitesse du délai.
- Distortion: Crée du relief ou de l'intensité. Décrivez le niveau et le type de distorsion.
- Filters: Ils façonnent les plages de fréquences (par exemple
high-pass
,low-pass
). - Chorus: Crée un effet de chatoiement et de superposition.
- Flanger: Ajoute un effet de tourbillon et de déphasage.
- Phaser: Crée un effet de balayage éthéré.
- Panning: Place un instrument dans l'espace stéréo (par exemple, à gauche ou à droite).
Exemples :
- [Electric Guitar: (Clean arpeggios, shimmering delay, soft reverb)]
- [Vocals: (Filtered, ethereal, distant echoes)]
- [Piano: (Warm, flowing chords with plate reverb)]
- [Bass: (Subtle chorus effect with a light distortion)]
Vocal
Avoir LA voix qu'on veut est technique.
Il faut arriver à qualifier la voix proprement :
- Ton : douce, chaude, rauque, granuleuse… (soft, warm, raw, gritty, etc).
- La façon dont les mots sont scandés : melismatic, staccato, legato, breathy…
- Hauteur : low, mid, high, soprano, bass, etc.
- Techniques : vibrato, falsetto, vocal fry, etc.
- Filtres : muffled,distorted, filtered…
- Superposition (Layering) : harmonies, whispers, call-and-response…
Par exemple :
- [Vocals: (Female, ethereal, soft vibrato, mid-pitch range)]
- [Vocals: (Male, gritty, expressive vibrato, filtered with soft distortion)]
- [Vocals: (Filtered, distorted, reversed in outro)]
Arriver à faire des duos à la demande est un challenge de haute volée (duet).
- [Vocals 1: (Female, ethereal, soft)], [Vocals 2: (Male, deep, resonant)]
Généralement les tags de structures vont qualifier les voix, par exemple :
- [Verse 1: (Ethereal, soft whispers)]
Pour avoir un morceau parlé :
- [Spoken Word: (Calm, reflective)]
Styles précis :
- [Operatic belting] pour des voix d'opéra marche très bien. Presque un peu trop, jusque là ça prend le dessus sur tout le reste (plus de rock, plus d'instruments !)
Il y a des avis variés : ponctuation ou non, usage de symboles ou non… Il y a quand même des concours où le jeu est de faire lire les émojis. Bref, faut tester, mais il faut aussi avoir conscience que la ponctuation est lue et interprétée, ce qui peut être utilisé mais aussi créer des soucis.
Ad libs
Ça, faut que je teste plus parce que jusque là c'était pas top. Il y a plusieurs formes d'ad libs.
- Ad libs “simples” : un mot ou une onomatopée en fin de vers, qui va être dit par une seconde voix, en interjections.
- Exemple : “J’aurais voulu être un Profond, oh, oui, un vrai ! (Ho yeah, Iä, Iä)”
- “Dynamic Adlibs” : plus ambiance, et alors entre crochets (à tester)
- Exemple : “[Adlib: (Filtered whispers: “Tu n'es pas seule…”)]”
Les adlibs et les effets vocaux doivent être nommés explicitement, en utilisant des descripteurs anglais entre parenthèses. Par exemple :
- [Adlib: (Whispered harmonies)]
- [Vocals: (Reverb with a slight echo)]
Murmures
Je galère sur les murmures.
À tester :
- [Vocals: (Whispers)]
- [Vocals: (Layered whispers, ethereal harmonies)]
- (Whispered: “un truc murmuré”)
Genres
- Utiliser des virgules pour séparer les genres ou les sous-genres lors de la combinaison de multiples influences
- Le premier genre est le principal, l'ordre a un sens.
- Le champs “Genre” est évidement le plus important, mais on peut aussi utiliser ça dans les metatags, et c'est même parfois nécessaire pour avoir ce qu'on veut comme rendu sur certains couplets.
Genres musicaux “sûrs”. Il en interprète d'autres mais ça c'est référencé dans la doc.
- Acoustic, African, Alternative metal, Alternative pop, Ambient, Atlanta rap, Ballad, Baroque, Blues, Boom bap, Cello, Chill, Christian & Gospel, Christmas, Country & Americana, Dance & Electronic, Drums, EDM, Girl group, Gospel, Hardcore rap, Heavy metal, Hip hop, Indie, Indie rock, J-pop, Jazz, K-pop, Lo-fi, Orchestra, Party, Piano, Pop, Pop-Rock, Post-Hardcore, Punk Rock, R&B, R&B & Soul, Rap, Reggae, Rock, Romantic, Soul, Synth, Synth pop, Techno
Structure
Suno en détecte tout seul, mais en utilisant les metatags de structure, on a plus de chance d'arriver à ce qu'on veut.
Il est utile de taguer les verses/chorus de cette façon :
[Verse_1: (ambiance)] 1 ou autre, mais avec le tiret _ Deux points, ouvrez les parenthèses est une syntaxe fonctionnelle. [Chorus_1: (choir)] Ça permet de le rappeler précisément ensuite dans la chanson en appelant [Chorus_1] sans réécrire les paroles. [Verse_2 - Operatic belting] Le tiret semble bien fonctionner pour appliquer le style.
C'est important de revenir à la ligne après les tags du type “verse/chorus”. Et si on commence en mettant plein de tags pour donner une atmosphère… En fait ça donne l'atmosphère en question à la première partie qui sera considérée comme “verse 1”. Ok ça influence la chanson quand même.
Par exemple :
[A symphonic rock arrangement with sweeping, ethereal strings, dissonant brass, and thunderous percussion.][Verse_1]
Va appliquer le “style” au verset, tandis que :
[A symphonic rock arrangement with sweeping, ethereal strings, dissonant brass, and thunderous percussion.] [Verse_1]
Va créer une première partie instrumentale avec cette sonorité avant de passer au verset.
Structures essentiels (si on ne les déclare pas, Suno a tendance à les décider seul) :
Metatag | Usage |
---|---|
[Intro] | Description de l'intro musicale. Donne l'ambiance et l'instrumentation de base. |
[Verse] | Couplet |
[Chorus] | Refrain, mais aussi un pic émotionnel ou thématique |
[Bridge] | Pont : transition entre deux parties qui apporte une variation (pause ou tension), un contraste |
[Outro] | Conclusion musicale de l'œuvre |
Structures de variations (facultatives mais peuvent apporter un plus) :
Metatag | Usage |
---|---|
[Interlude] | Une brève pause instrumentale pour réinitialiser ou fournir une transition |
[Breakdown] | Dépouille les pistes pour créer des tensions ou pour mettre en évidence des éléments spécifiques, offrant un contraste dynamique avec d'autres sections. |
[Build-up] | Augmentation progressive de l'intensité |
[Drop] | Chute de l'intensité musicale |
[Coda] | Section de conclusion musicale (peut être un post-scriptum après l'outro) |
[Transition] | Similaire à [bridge] mais plus soft, indiquant un changement de tempo par exemple |
[Pre-Chorus] | pré-refrain, pour indiquer une montée en puissance ou un suspense par exemple ? |
[Post-Chorus] | post-refrain, même genre |
[Break] | Pause (sans parole, mais possiblement avec musique) |
[Instrumental] | Partie sans voix ; à éviter en intro si on veux que les paroles soient prises en compte |
[Solo] | solo instrumental ou vocal |
[End] | Force s'arrêter clairement |
[Fade out] | “fondu au noir” (semble faire criser les gens ; facile à ajouter en post-prod) |
À tester (non documenté mais structure musicale existante) ?
[Backing vocals] ou [Harmony] ou [Harmonies] | À voir si ça permettrait une mélopée en arrière-plan |
[Vocal Ad-lib] | Liberté vocale ou improvisée |
[Vocal] | aide le modèle à savoir que ce morceau doit être chanté. On peut spécifier des genres, comme “female” ou “male” |
[Choir] | Utilisation d’un chœur vocal |
[Pause] | Faire un silence |
[Hook] | Section “accrocheuse” |
Combiner
Exemples :
- [Intro: (Soft guitar arpeggios)],
- [Verse 1: (Reflective, gentle vocals)],
- [Chorus: (Expansive, with layered harmonies)],
- [Bridge: (Melancholic, reflective strings, subtle percussion)]
- [Verse 2: (Minimal, sparse guitar and soft percussion)]
- [Transition: (Layered whispers building tension)]
- [Outro: (Fading echoes with reverb-heavy synth pads)]
Par ailleurs, chaque genre attends une certaine structure, et il y a plus de risque de voir Suno inventer si on ne respecte pas du tout le genre. Mais, ça peut être fun quand même.
Problèmes
- Des morceaux se répètent :
- Ajouter un breakdown ou un bridge.
- Les paroles se répètent :
- C'est trop cliché/redondant. Signaler les [hook] et [chorus] et appelez-les. Et/ou variez les mots.
Divers
Effets possibles, propre à la synthèse vocale (héritier de “bark”, à la base de Suno :
- [announcer], [applause], [audience laughing], [barking], [beeping], [bell dings], [birds chirping], [bleep], [boy], [censored], [cheering], [cheers and applause], [chuckles], [clapping], [clears throat], [cough], [female narrator], [female], [fighting], [giggles], [giggling], [girl], [groaning], [man], [phone ringing], [reporter], [ringing], [screams], [sighs], [silence], [squawking], [upbeat music], [whispers], [whistling], [woman]
Sources
Est-ce que la doc est éparpillée ? Grave.