ElevenLabs heeft Expressive Mode gelanceerd voor zijn AI-spraakagenten. Het verschil met eerdere AI-stemmen is opvallend: deze agents passen hun toon, tempo en emotie aan op basis van wat er in het gesprek gebeurt. Klinkt de beller gestrest? Dan schakelt de AI over naar een rustigere, empathische toon. Is iemand opgelucht? Dan reageert de stem vrolijker. Het systeem luistert niet alleen naar wat er gezegd wordt, maar ook naar hoe het gezegd wordt: spreeksnelheid, volume en intonatie worden meegewogen. De technologie werkt in meer dan zeventig talen en ondersteunt zelfs tags als [fluistert] of [zucht] om specifieke momenten extra expressief te maken.
Het grote verschil met eerdere AI-spraak zit in twee dingen: het spraakmodel onthoudt de emotionele context van een heel gesprek in plaats van elke zin los te verwerken, en een verbeterd systeem voelt beter aan wanneer de AI moet spreken, moet pauzeren of juist even moet wachten. Dat klinkt als een detail, maar het maakt een groot verschil in hoe natuurlijk een gesprek aanvoelt.
Voor het onderwijs is dit een ontwikkeling om in de gaten te houden. AI-tutors en oefenomgevingen worden steeds realistischer, en spraak speelt daar een cruciale rol in. Denk aan een spreekvaardigheidsapp die bemoedigend reageert als je aarzelt, of een simulatie voor studenten verpleegkunde die oefenen met lastige patiëntgesprekken. Hoe menselijker de interactie, hoe groter de kans dat leerlingen en studenten er ook echt van leren. Tegelijk roept het vragen op die je met je klas kunt bespreken: als je niet meer kunt horen of je met een mens of een machine praat, wat betekent dat dan?
