Dit schooljaar (2025–2026) moet het jaar worden waarin we AI écht gaan toepassen in de klas. Niet blijven praten over AI, maar doen. Om het onderwijs te verbeteren voor de lerenden en ons werk als docenten leuker/makkelijker te maken. De komende tijd ga ik verschillende praktische tips & tricks delen. Vandaag gaan we het hebben over een thema waar veel winst voor docenten ligt: Opdrachten en toetsvragen genereren
AI kan docenten ondersteunen bij tal van taken, waardoor ze sneller en beter kunnen werken. De huidige generatie AI is zo krachtig dat ze onder andere kan helpen bij het maken van opdrachten en toetsvragen (ja, zelfs Copilot 😉), mits we het slim inzetten (!).
Geen zin om dit hele artikel te lezen? Bekijk de AI-video!
In AI in de onderwijspraktijk #1 heb ik uitgelegd dat AI-video’s simpel te maken zijn en al heel handig zijn. Practice what you preach:
Praktisch aan de slag
We gaan een toets genereren met AI die direct bruikbaar is in het onderwijs. Dit doen we aan de hand van een concreet voorbeeld. Enkele jaren geleden werkte ik als docent Economie op het Kandinsky College. Toen maakte ik handmatig een toets voor H1 t/m H4 van het boek Jong en Oud (LWEO) voor Havo 4 (download). Nu laten we zien hoe we eenzelfde toets met de gratis versie van ChatGPT kunnen maken (de betaalde versie is te goed en dan is het te makkelijk, hier meer over op het einde).
AI slim inzetten
Een belangrijk uitgangspunt is het mens‑machine‑mens‑principe:
1) MENS: Jij als docent moet goed nadenken over welke opdracht (prompt) je gaat geven aan de AI. Hoe beter je prompting, hoe beter de output. Hier gaan we straks op in.
2) MACHINE: De AI gaat zijn best doen om jouw opdracht zo goed mogelijk uit te voeren.
3) MENS: Jij als expert gaat kritisch kijken naar de output van de AI. Zelf met goede prompting en met het allerbeste AI model kan de output nog steeds niet naar wens zijn. Jij bent de eindverantwoordelijke voor de opdracht / toetsvraag / antwoordmodel enzovoorts. Altijd checken!
Jij als mens maakt het verschil. Hoe meer AI‑geletterd je bent en hoe dieper je expertise, hoe meer je uit de AI haalt. Een illustratief voorbeeld: Vorig jaar zei een kritische scheikundedocente tijdens een presentatie dat AI waardeloos was voor het genereren van toetsvragen. Haar proces was als volgt: ze gaf Copilot de prompt “genereer een volledige toets voor hoofdstuk 5 van boek X”. Het resultaat had de vorm van een toets, maar de inhoud was waardeloos. Na een half uur brainstormen met de zaal ontwikkelden we een toets die de docent wel tevreden stelde. Na het lezen van dit artikel kun jij hetzelfde doen.
AI als nieuwe collega (hulpmiddel)
Ik vergelijk AI soms met een nieuwe collega. Deze collega is speciaal en heeft zowel zwaktes als sterktes:
Zwaktes
- De nieuwe collega durft geen dingen te vragen als het iets niet weet en geeft ook niet aan als het iets niet weet.
- De nieuwe collega doet soms te hard zijn/haar best om jou te pleasen. Als jij geen duidelijke instructies geeft, dan gaat het gokken wat jij wilt en daar heel hard z’n best voor doen.
- De nieuwe colleg is ‘blut’. Het gaat niet boeken kunnen kopen of artikelen kunnen lezen die achter een paywall zitten.
Sterktes
- De nieuwe collega werkt 24/7
- De nieuwe collega is heel slim en weet bijna alles op alle vlakken (Copilot<gratis ChatGPT<betaalde versie ChatGPT)
- Bovenmenselijk snel qua lezen en schrijven.
Om goede output te krijgen, moeten we de zwaktes aanpakken en de sterktes benutten.
Prompting: van slecht naar beter
1) Platte prompt
genereer een volledige toets voor H1 t/m H4 van het boekje ‘Jong en Oud’.

Analyse van de output: De theorie lijkt redelijk te kloppen. We hebben echter geen idee waar het de informatie vandaan heeft gehaald. Het is niet het internet opgegaan, dit is een gemiste kans. Het mist wel enkele belangrijke concepten. Het niveau is duidelijk te laag. Er is een verdeling van punten maar dat zou ik zelf heel anders hebben gedaan.
2) Voeg content toe
‘genereer een volledige toets voor H1 t/m H4 van het boekje ‘Jong en Oud’. Zie de bijlage voor een uitgebreide samenvatting van H1 t/m H4.’ [voeg bijlage toe]

Analyse van de output: Dit is al stukken beter. De AI heeft de juiste content en het niveau is ook al beter. Echter, we hebben in de prompt totaal niet aangegeven hoeveel vragen we willen, wat voor type vragen we willen, wie de doelgroep is, de moeilijkheidsgraad, belangrijke thema’s, met of zonder casus, al met al zijn we niet erg concreet geweest over wat we precies willen. En precies dat zie je ook terug in de toets. Sommige vragen zijn bruikbaar maar ik heb nog wel een hoop werk als docent.
3) Voeg criteria en context toe
‘genereer een volledige toets voor H1 t/m H4 van het boekje ‘Jong en Oud’.’ De toets is voor Havo 4. De toets moet 60 minuten duren. Ik wil 3 opdrachten die allemaal bestaan uit 3 tot 5 vragen. Er moet een casus bij elke vraag komen van 1-2 alinea’s. De eerste 1-2 vragen per opdracht zijn reproductievragen, de andere vragen zijn toepassingsvragen’. De toepassingsvragen zijn altijd open vragen. Zie de bijlage voor een uitgebreide samenvatting van H1 t/m H4. [voeg bijlage toe].

Analyse van de output: Nu krijgen we iets wat er echt op begint te lijken. Het heeft de vorm die ik wil en het is gebaseerd op de content die ik wil. Hier en daar vind ik het niveau nog niet goed. Het is best moeilijk voor die nieuwe collega om perfect in te schatten wat het niveau moet zijn.
4) Voeg een voorbeeld toe
‘genereer een volledige toets voor H1 t/m H4 van het boekje ‘Jong en Oud’.’ De toets is voor Havo 4. De toets moet 60 minuten duren. Ik wil 3 opdrachten die allemaal bestaan uit 3 tot 5 vragen. Er moet een casus bij elke vraag komen van 1-2 alinea’s. De eerste 1-2 vragen per opdracht zijn reproductievragen, de andere vragen zijn toepassingsvragen’. De toepassingsvragen zijn altijd open vragen. Zie de bijlage voor een uitgebreide samenvatting van H1 t/m H4. Ook heb ik een toets van vorig jaar toegevoegd, analyseer deze grondig om inzicht te krijgen in het niveau. De nieuwe toets moet wel echt een nieuwe toets zijn en niet voor 95% een kopie van de vorige toets’. [voeg 2 bijlages toe].

Analyse van de output: Nu is de toets nog beter. Je merkt dat het geven van een voorbeeld een duidelijke boost geeft aan de kwaliteit van de gegenereerde toets. Het niveau is beter en het is nog meer in de stijl zoals ik het graag zie. Als we dit wat opschonen (bijv. punten per vraag erbij) zouden we volgens mij een goede eerste versie hebben. Maar als we willen, kunnen we het nog beter maken.
5) Maak het kleiner, ga brainstormen en geef mee hoe het moet acteren
‘genereer een volledige toets voor H1 t/m H4 van het boekje ‘Jong en Oud’. De toets is voor Havo 4. De toets moet 60 minuten duren. Ik wil 3 opdrachten die allemaal bestaan uit 3 tot 5 vragen. Er moet een casus bij elke vraag komen van 1-2 alinea’s. De eerste 1-2 vragen per opdracht zijn reproductievragen, de andere vragen zijn toepassingsvragen’. De toepassingsvragen zijn altijd open vragen. Zie de bijlage voor een uitgebreide samenvatting van H1 t/m H4. Ook heb ik een toets van vorig jaar toegevoegd, analyseer deze grondig om inzicht te krijgen in het niveau. De nieuwe toets moet wel echt een nieuwe toets zijn en niet voor 95% een kopie van de vorige toets’. [voeg 2 bijlages toe]. We gaan niet de volledige toets in één keer genereren. We gaan ons eerst focussen op 1 opdracht. Geef me 10 ideeën voor een goede casus en leg uit welke vragen we daarover kunnen stellen en hoe dit zich relateert naar de content van onze toets. Pas als ik expliciet zeg dat ik tevreden ben over opdracht 1 gaan we door naar opdracht 2 en dan gaan we dezelfde werkwijze volgen. Als er dingen onduidelijk zijn, vraag ze aan mij. Ik heb liever dat je mij 10 extra vragen stelt dan dat je dingen genereert die ik niet wilt omdat je mij niet hebt begrepen.”

Analyse van de output: Met deze laatste toevoeging zul je merken dat jij als expert nog meer ‘in the loop’ bent. Ook kan je duidelijk zien aan welke onderwerpen uit de theorie de vragen zijn gekoppeld. Jij kiest welke casus en welke vragen goed zijn. AI kan veel opties geven en jij kiest de juiste. Dit kost iets meer moeite voor jou maar zal de kwaliteit ten goede komen. Gebruik deze methode als je het helemaal goed wilt doen en meer controle wilt houden.
En na de generatie?
In het vorige hoofdstuk hebben we het constant gehad over de prompting. Dit is slechts de eerste mens in het ‘mens-machine-mens’ principe. Na de generatie ligt er ook nog een belangrijke taak voor jou als expert. Jij gaat kritisch kijken naar de output. Jij bent uiteindelijk eindverantwoordelijk voor de opdracht / toets / antwoordmodel. Je kunt natuurlijk ook AI inzetten om kritisch te kijken naar de generatie. Wat goed helpt is als je AI dan in een andere rol zet (goede tip van Vincent Lubbers ) en duidelijk mee geeft waar het feedback op moet geven. Bijvoorbeeld:
“Acteer als een kritisch lid van de examencommissie. Het is jouw taak om deze toets te beoordelen en te voorzien van feedback. Ik wil dat je specifiek kijkt naar 1) komt de content van de toets overeen met wat ze moesten leren; 2) is de toets op het juiste niveau. Geef ook andere bevindingen. Bekijk de toets kritisch.”
Regelmatig kom ik tegen dat AI nog verbeteringen kan maken aan z’n eigen generatie. Uiteindelijk zul jij moeten bepalen of de kwaliteit voldoende is. Zo niet, dan gaan we dat zeggen tegen de AI en begint de Mens-Machine-Men opnieuw.
Overige
Dit is natuurlijk slechts een voorbeeld. Je kunt het ook op vele andere manieren doen. Je moet hier vooral handig in worden. Misschien wil je de leerdoelen nog toevoegen. Bij wiskundige dingen wil je nog aangeven dat het python moet gebruiken voor de berekeningen. Als je afbeeldingen wilt hebben, dan is er weer een andere werkwijze. Je merkt bij dit voorbeeld ook dat het geen opdrachten genereert waarbij er getekend moet worden, dit is wel mogelijk maar nog wel lastig. Zo zijn er nog wel 100 dingen die anders kunnen. Misschien dat jullie in de comments nog tips kunnen geven die ik ben vergeten.
Belangrijke observatie: Bovenstaande gegenereerde toetsen zijn allemaal gemaakt met het gratis model van ChatGPT. Toen ik de slechtste prompt in mijn betaalde versie gaf, vroeg het meteen allerlei vragen omdat het niet iets wilde genereren voordat het meer informatie had. Een van de conclusies die je hieruit mag trekken is dat het steeds minder belangrijk wordt dat je goed kan prompten. De AI gaat je namelijk helpen hiermee omdat het de belangrijkste zaken aan je gaat vragen.
Conclusie
Probeer dit uit. Het belangrijkste is dat je er zelf handig mee wordt. Serieus. Probeer dit uit.
Zoals veel rondom AI: Je gaat dit pas echt leren als je het gaat toepassen. De AI is op een niveau dat het je heel goed kan helpen bij het genereren van opdrachten en toetsvragen. Het kan je veel tijd en kwaliteit opleveren als je dit op een goede manier inzet.
Er zullen vast casussen en contexten zijn waarin deze werkwijze nog niet tot een goede toets leidt. Daar ben ik me zeker van bewust. Maar ik denk dat we met de betaalde versie van ChatGPT en goede prompting zo’n 80% van de opdrachten en toetsen in het huidige onderwijs kunnen genereren. Met de gratis versie komen we ook al heel ver. Probeer het maar eens uit!
