Les voix de l’IA visent généralement à être réalistes d’une manière amicale, imitant des gens détendus, heureux et serviables. Mais un nouveau modèle open source nommé Dia se penche sur le spectre plus émotionnel de voix, y compris des cris vraiment intenses.
Les créateurs de Dia à Nari Labs sont un minuscule groupe, mais ont donné aux voix de l’IA la possibilité de ressembler à un artiste quelque peu mélodramatique, capable de faire des rires, une toux, un nettoyage de la gorge, un reniflement et oui, des hurlements.
Vous ne pensez peut-être pas que crier est un gros problème pour l’IA à ce stade, mais crier est difficile à simuler. Il ne peut pas simplement parler fort; C’est un mode de discours entièrement différent.
Le discours émotionnellement expressif est un écart dans la plupart des voix de l’IA. Il est facile pour un modèle vocal de lire une histoire au coucher. Cependant, il est beaucoup plus difficile que cela sonne comme s’il essaie de calmer un ami, ou comme si cela a juste vu quelque chose de choquant. La plupart des modèles commerciaux évitent le son robotique en lissant le ton de la voix, qui ne laisse pas de place au type d’asymétrie audio de parler émotionnellement.
La DIA traite la communication non verbale dans le cadre de la performance. Il sait que “(toux)” n’est pas quelque chose à ignorer ou à lire littéralement. Il sait qu’un cri n’est pas seulement une ligne plus forte. Et il exécute ces choses avec un niveau de synchronisation, de modulation de hauteur et de contrôle de la respiration qui les rend plus réels.
Un utilisateur entreprenant l’a même utilisé pour recréer un peu du célèbre croquis Leroy Jenkins réalisé sur World of Warcraft.
Cela ne veut pas dire qu’Openai, ElevenLabs, Google, Sesame et d’autres n’ont pas produit de modèles vocaux AI incroyables. Vous pouvez personnaliser le mode vocal avancé d’Openai pour parler avec différentes émotions, et ElevenLabs est bon pour interpréter la capitalisation et la ponctuation pour ajuster la parole, mais ce n’est pas la même chose que le jacent en surprise ou en une respiration sifflante de rire.
Le sésame est particulièrement bon pour sonner et réagir comme une vraie personne, mais même ses modèles se trompent envers les dégradés joyeux et généralement positifs.
Bien sûr, le réalisme est subjectif, et vous pourriez déterminer assez rapidement que la dia est une voix d’IA. Là encore, les faux cris et rires sont également des sons assez humains à faire dans le bon contexte.
Deux étudiants de premier cycle. Un encore dans l’armée. Zéro financement.Un objectif ridicule: construire un modèle TTS qui rivalise avec le podcast Notebooklm, ElevenLabs Studio et Sesame CSM.SomeHow… nous l’avons réussi. Voici comment 👇 pic.twitter.com/8cfjsegcix21 avril 2025
Crier pour ai
Ce qui en fait une histoire plus grande que «la voix de l’IA apprend une astuce de fête», c’est ce qu’il signale pour la race plus large dans l’IA pour l’intelligence émotionnelle.
Nous entrons rapidement à une époque où il ne suffira pas pour que votre assistant dise la bonne chose; Il faudra le dire de la bonne manière. Pensez aux robots de support client qui semblent vraiment désolés, des enseignants qui semblent encourageants au lieu de pédagogiques et des personnages en jeu qui transmettent la sincérité.
Bien sûr, donner à l’IA le pouvoir d’émoter de manière convaincante la rend plus convaincante et donc potentiellement plus manipulatrice. Si le discours émotionnel peut être juste un autre outil d’IA, alors plus que quelques personnes peuvent avoir envie de se crier.
Pourtant, je peux imaginer du plaisir à écrire une histoire de fantôme pour que le dia ne lise pas seulement, mais joue, crie et tout.