ElevenLabs propose maintenant de générer des sons d'ambiance.
Ça peut être des bruitages comme des applaudissements mais aussi des voix avec un style particulier comme "voix d'une vieille dame en sanglot".
Bonne nouvelle pour le monde de la création de contenu audio-visuel !
Une IA qui appel et répond au téléphone.
C'est assez incroyable, on peut mettre son numéro de téléphone et l'IA nous appelle.
Je lui ait demandé ce qu'elle pensait de mon entreprise par exemple et on a eu une conversation sur le futur de e-learning.
OpenAI fait un peu de teasing sur son modèle de text-to-speech et le produit VoiceEngine qui permet de créer des voix à partir d'un court extrait audio.
Des boîtes comme Heygen auraient déjà accès à ce modèle.
Pour l'instant ce produit reste en usage restreint, notamment pour laisser le temps de remplacer les systèmes de sécurité basés sur la voix
Le modèle SeamlessStreaming de chez Facebook est disponible en Open Source.
Il permet de faire de la traduction en temps réel d'une langue vers une autre (audio + texte).
Voir la vidéo de démo
De la recherche vectorielle sur des fichiers audio avec Elasticsearch et librosa
Le nouveau modèle Text-to-Speech de OpenAI, Whisper Large v3, est capable de transcrire 2.5h d'audio en moins de 2 minutes
Google ajoute un watermark inaudible dans les fichiers audio générés par son modèle Lyria.
Une API de Text-to-Speech avec une latence très basse (300ms).
Ça veut dire que l'on peut envoyer du texte en streaming et recevoir de l'audio en streaming en pluguant GPT4 directement sur Turbo par exemple.
C'est la porte ouvertes aux conversations quasi temps réel (reste encore le Speech-to-Text et surtout l'envoi du prompt à GPT4 qu'il ne sera pas possible de streamer par contre)
Une IA générative qui génère du son depuis un prompt.
ça rend super bien, ils sont capable de générer des musiques entières avec des paroles et un genre précis genre "Upbeat EDM"
Des réseaux de neurones de Google qui génèrent de l'audio à partir de prompt