Je continue un peu tous les jours ma veille sur les nouvelles avancées en Intelligence Artificielle. Cette semaine, il s’est passé beaucoup de choses :
– Dans le monde de la recherche : avec notamment un papier proposant une nouvelle architecture RetNet plus performante pour remplacer celle qui a donné naissance à ChatGPT appelée Transformer,
– Dans la course aux modèles de plus en plus puissants : Google a commencé à diffuser à quelques entreprises leur tout nouveau modèle Gemini censé rivaliser avec GPT-4 voire même le dépasser sur pas mal d’aspects, et Meta continue à jouer les trouble-fêtes en annonçant leur prochain modèle Open Source (qui sera donc public et gratuit) Lama 3 qui lui aussi aura vraissemblablement la capacité de rivaliser avec GPT-4 dès le premier trimestre 2024.
Concernant le papier sur RetNet, si vous souhaitez un résumé ou une aide à la compréhension, je vous rappelle une autre publication où je vous expliquais comment je me servais de l’IA pour m’aider à mieux comprendre les articles scientifiques.
J’aime beaucoup suivre aussi les tous derniers outils proposés. Deux d’entre eux ont retenu mon attention, et j’aimerais vous en présenter un aujourd’hui : Stable Audio. J’utilise déjà sur mon PC Stable Diffusion, l’équivalent permettant de créer des images à partir de texte (les images de toutes mes publications proviennent soit de Stable Diffusion soit de MidJourney), mais il s’agit cette fois d’un outil permettant de créer de la musique. C’est complètement fou ! A quand la vidéo ? Et ben… ça existe déjà, même si c’est pour l’instant très moche. Je vous en reparlerai.
Comme la grande majorité des nouveautés en IA, Stable Audio n’est utilisable qu’en anglais. Toutefois, il est facile en réalité d’utiliser une autre IA (ChatGPT, Claude, Bard…) afin de créer des instructions en anglais reflétant ce que vous souhaitez créer. Il suffit pour cela de recopier le manuel présent sur le site et de le proposer à l’IA pour qu’elle nous crée de magnifiques musiques en fonction de nos goûts.
Manuel à recopier :
With Stable Audio, you describe the audio you want with a text prompt, and the system generates it for you. This guide shares some tips on how to prompt.
This is just what works for us - we encourage you to experiment and find what works for you!
Add detail
If you have something specific in mind, include it. Genres, descriptive phrases, instruments and moods work particularly well.
For example, a detailed prompt might look something like this:
Cinematic, Soundtrack, Wild West, High Noon Shoot Out, Percussion, Whistles, Horses, Action Scene, SFX, Shaker, Guitar, Bass, Timpani, Strings, Tense, Climactic, Atmospheric, Moody
Set the mood
When including detail on the mood you want, try using a combination of musical and emotional terms.
Musical might be groovy or rhythmic. Emotional might be sad or beautiful. Using both musical and emotional words in combination can work well.
Choose instruments
We’ve found that adding adjectives to instrument names is helpful.
For example, Reverberated Guitar, Powerful Choir, or Swelling Strings.
Set the BPM
Setting the beats per minute is a great way to ensure your output is the tempo you want, and can help keep it in time. The key here is to try to stick to BPM settings that are appropriate to the genre you’re generating.
For example, if you were generating a Drum and Bass track, you might want to add 170 BPM to your prompt.
C’est loin d’être toujours parfait. Ce n’est qu’une première version. Mais si on se souvient de la progression de leur autre outil Stable Diffusion en quelques mois seulement, c’était impressionnant. Même chose pour MidJourney, regardez plutôt l’évolution en moins d’un an et demi :
Ce sera pareil pour la musique.
Je vous laisse avec ma création préférée du jour et les instructions associées qui ont permis de la générer.
Instructions : chillout track with pads, drones, soft arpeggios, and field recordings. 90 BPM, relaxing, calm, soothing, dreamy