
“Grote taalmodellen kunnen indrukwekkende antwoorden geven, maar raken verrassend snel de weg kwijt in een lang gesprek.”
De inzet van taalmodellen als digitale collega groeit snel. Toch blijkt uit recent onderzoek van Microsoft Research en Salesforce dat grote taalmodellen (GPT-4.1, Claude 3 en Gemini 2.5 Pro) fundamenteel tekortschieten in een situatie die voor mensen volkomen normaal is: het stap voor stap verduidelijken van een opdracht tijdens een gesprek.
Uit het onderzoek blijkt dat grote taalmodellen gemiddeld 39% slechter presteren wanneer informatie over meerdere gespreksmomenten wordt verdeeld. Overigens verdwalen deze modellen ook bij het veelvuldig repliceren van dezelfde afbeelding, zoals dit voorbeeld laat zien.
Onderzoeksmethode en achtergrond
Voor dit onderzoek simuleerden de onderzoekers ruim 200.000 gesprekken met 15 grote taalmodellen. De kernvraag: blijven grote taalmodellen even goed presteren als je de opdracht niet in één keer, maar stukje bij beetje geeft?
Om dit te testen gebruikten ze een nieuwe methode, genaamd sharded prompting. Daarbij wordt een complete opdracht opgedeeld in kleinere stukjes (shards), die pas later in het gesprek worden gedeeld. Dat simuleert hoe mensen in de praktijk taalmodellen gebruiken: eerst een globaal verzoek, daarna extra context, voorwaarden of details.
Wat is het Lost in Conversation-effect?
Het onderzoek laat zien dat veel grote taalmodellen truikelen over gesprekken waarin informatie stapsgewijs wordt opgebouwd.
De cijfers:
- Prestatiedaling van gemiddeld 39% bij gefragmenteerde instructies: als je een opdracht in delen geeft in plaats van in één keer, scoren grote taalmodellen gemiddeld 39 punten lager op een schaal van 0 tot 100. Ze leveren dus merkbaar slechtere antwoorden op precies dezelfde taak.
- Betrouwbaarheid halveert: het verschil tussen de beste en slechtste uitkomst voor dezelfde taak loopt soms op tot 50 punten op een schaal van 0 tot 100.
- Dit effect treedt al op bij gesprekken van slechts twee stappen.
Wat er precies misgaat:
- De grote taalmodellen doen te vroeg een gok en blijft daarna hangen in die eerste, vaak verkeerde interpretatie.
- De grote taalmodellen reageren overdreven op de laatste input, en vergeet wat eerder is gezegd.
- Antwoorden worden langer en ‘opgeblazen’, met meer irrelevante details en minder precisie.
Waarom deze bevindingen relevant zijn voor juristen
Steeds meer juristen gebruiken grote taalmodellen als copiloot bij het schrijven van adviezen, het analyseren van documenten of het structureren van gesprekken. Maar wie daarbij vertrouwt op een vloeiend gesprek met een taalmodel, loopt risico.
Want:
- Juristen werken vaak met stapsgewijze informatie, zoals bij dossiervorming, cliëntinstructies of onderhandelingen.
- In de praktijk veranderen opdrachten gedurende het gesprek. Grote taalmodellen blijken daar nog slecht mee om te gaan.
- Betrouwbare samenwerking vraagt om taalmodellen die contextvast zijn: taalmodellen die eerdere informatie niet vergeten en nieuwe input correct kunnen integreren. Zulke grote taalmodellen zijn er nu nog nauwelijks.
Drie niveaus van instructies aan grote taalmodellen en hun risico’s
- Volledige instructie in één keer
✓ Hoogste betrouwbaarheid.
✓ Beste prestatie. - Informatie als lijst (concat)
▪ In deze aanpak geef je alle informatie tegelijk, maar niet in één doorlopende tekst. Je zet de onderdelen puntsgewijs onder elkaar, bijvoorbeeld als bullet points.
▪ De prestaties zijn iets lager (95%) dan bij een volledige instructie in één keer, maar nog steeds stabiel en bruikbaar. - Gespreksgewijze opbouw (sharded prompts)
✗ Informatie wordt over meerdere stappen gedeeld, zoals in een dialoog. Dit lijkt op hoe mensen praten, maar hier raken grote taalmodellen de draad kwijt.
✗ Resultaat: grotere kans op fouten, inconsistenties en verwarring.
Conclusie: nieuwe inzichten, nieuwe vaardigheden
Wat betekent dit voor juristen die taalmodellen slim willen inzetten? Je moet leren om te prompten met structuur en duidelijkheid. Het is niet genoeg om ‘een gesprek te voeren’ met zo’n taalmodel.
Vijf tips uit het onderzoek:
- Bundel je instructie
- Geef een zo volledig mogelijke opdracht in één keer.
- Formuleer doel, context, randvoorwaarden en gewenst format samen.
- Zeg expliciet wat het taalmodel wél en niet moet doen
- Begin met een heldere taakomschrijving, gevolgd door achtergrond.
- Vermijd vage tussenzinnen als: “wat denk je tot nu toe?” Die maken de opdracht onduidelijk.
- Gebruik opsommingen of bullets bij complexe taken
- Opsommingen (zoals in concat-prompts) werken beter dan losse opmerkingen verspreid over het gesprek.
- Bijvoorbeeld: “Houd rekening met: 1. Vertrouwelijkheid, 2. Termijn, 3. Toepasselijk recht.”
- Voorkom dat het taalmodel gaat gokken
- Grote taalmodellen vullen graag zelf ontbrekende informatie in.
- Als ze dat doen, blijft die aanname hardnekkig hangen in het gesprek.
- Schrijf dus liever: “Gebruik geen veronderstellingen over partijen of context.”
- Herstart je gesprek als het vastloopt
- Als het taalmodel blijft hangen in een verkeerde interpretatie, start dan een nieuwe sessie.
- Laat het taalmodel eerst alles samenvatten: “Wat weet je tot nu toe?”
- Breng die samenvatting daarna in als nieuwe, volledige prompt. Zo voorkom je dat eerdere fouten blijven doorsijpelen.
Goede output begint dus met een duidelijke opdracht, zeker als je samenwerkt met een taalmodel.