AI versus de jurist: wie schrijft de betere eerste versie?
“De toekomst van contracten opstellen wordt niet bepaald door mens of machine alleen, maar door de samenwerking ertussen.”
Uit de eerste grote benchmarkstudie naar AI en contractdrafting blijkt dat kunstmatige intelligentie steeds vaker even goed, of zelfs beter, presteert dan juristen bij het opstellen van contracten. De studie van LegalBenchmarks.ai vergelijkt de prestaties van 13 AI-tools (o.a. Wordsmith, August en de grote generatieve taalmodellen, zoals ChatGPT) met die van ervaren juristen op het gebied van contractdrafting. Het resultaat: de top-AI’s scoren hoger dan de ervaren jurist op betrouwbaarheid. Bij het beoordelen van bruikbaarheid is het verschil iets minder, maar ook daar doet AI niet onder voorervaren juristen. Kortom: AI als volwaardige assistent bij het maken van contracten? Volgens dit onderzoek wel.
Maar wat zegt dit onderzoek écht? En kunnen we deze uitkomsten zomaar vertrouwen?
De eerste echte AI-benchmark voor juristen
Het onderzoek ‘Benchmarking Humans & AI in Contract Drafting’ vergelijkt 13 AI-tools met juristen aan de hand van 30 concrete contracttaken.
Elk output werd beoordeeld op drie onderdelen:
- Betrouwbaarheid van de output: is de tekst juridisch en feitelijk correct?
- Nuttigheid van de tekst: helpt de draft om sneller tot een bruikbare versie te komen?
- Workflow ondersteuning: hoe goed past de tool in de dagelijkse praktijk van juristen?
De belangrijkste conclusie: AI evenaart, en overtreft in sommige gevallen, het niveau van ervaren juristen. De best presterende tool, Gemini 2.5 Pro, leverde in 73,3% van de gevallen een juridisch betrouwbare eerste versie op. Dat is hoger dan de best scorende jurist (70%) én het gemiddelde van het juridisch team (56,7%).
AI ziet risico’s die mensen soms over het hoofd zien
Opvallend is dat juridische AI-tools in scenario’s met verhoogd risico vaker expliciete waarschuwingen geven dan juristen. In 83% van de risicovolle taken gaven gespecialiseerde AI-tools een waarschuwing over mogelijke ongeldigheid of strijdigheid met wetgeving.
Bij juristen gebeurde dit in de onderzochte gevallen niet, maar dat betekent niet dat ze risico’s niet herkennen. Het kan ook liggen aan interpretatie, prioritering of de beperkte tijd per taak.
In een taak over een boetebeding onder New Yorks recht signaleerden meerdere AI-tools dat het percentage dat daarin genoemd werd, (10%) mogelijk als boete in plaats van schadevergoeding wordt gezien, wat juridische gevolgen kan hebben. Deze waarschuwing ontbrak bij de antwoorden van juristen.
Voor juristen die AI inzetten als hulpmiddel, is dit een waardevolle aanvulling. Juist bij complexe of routineuze clausules kan AI als extra controlelaag dienen, mits het goed wordt ingezet.
Hoe verhouden AI-tools zich tot elkaar?
De benchmark maakt onderscheid tussen twee typen AI-tools:
- Algemene AI-tools: presteren verrassend goed op het gebied van outputbetrouwbaarheid.
- Juridische AI-tools: scoren beter op bruikbaarheid en sluiten beter aan op de dagelijkse werkpraktijk van juristen.
In de praktijk betekent dit:
- Algemene tools kunnen goed schrijven, maar missen juridische context en integratie in juridische workflows.
- Juridische tools zijn beter afgestemd op hoe juristen daadwerkelijk werken, met functies zoals integratie in tekstverwerkers, templates, risicosignalering en ondersteuning bij het opstellen en redigeren van contracten.
Deze workflow ondersteuning maakt juridisch gerichte AI-tools bij uitstek geschikt voor contractwerk. Ze vormen geen losstaande oplossing, maar sluiten direct aan op bestaande processen en versterken zo de productiviteit van juristen.
Mensen blijven sterker in context en nuance
Toch blijven er taken waar AI tekortschiet. Bij opdrachten die veel context vereisen, zoals het combineren van templates, e-mails en term sheets, presteren juristen beter.
Ook bij commerciële inschattingen en strategische concessies blijft de jurist de standaard. AI schrijft soms clausules die te gunstig zijn voor de wederpartij, of laat cruciale nuances weg. Hier blijft menselijk oordeelsvermogen essentieel.
De echte winst: samenwerken tussen mens en AI
Het interessantste resultaat? De combinatie mens plus AI scoorde het hoogst op betrouwbaarheid (61,5%). AI is dus geen vervanging, maar een toevoeging. Mits goed ingezet, maakt het juristen sneller, preciezer en beter voorbereid op risico’s.
Voorbeeld: bij taken waarbij AI een eerste draft maakte en de jurist redigeerde, nam de doorlooptijd af van gemiddeld 13 minuten naar minder dan 3 minuten. Dat is tijdswinst én kwaliteitswinst.
Kritische kanttekeningen
Toch is voorzichtigheid geboden bij de interpretatie van deze benchmark.
Zo kunnen we de volgende kritiek op de methodologie aanwijzen:
- Niet alle tools werden in hun volledige modus getest. Zo werd bij ChatGPT geen gebruik gemaakt van ‘Thinking mode’, en bij Gemini niet van ‘DeepThink’, terwijl juist dat de kwaliteit van de output sterk kan verbeteren.
- Er ontbreekt transparantie over de exacte prompts, instellingen en werkwijze per tool, waardoor het moeilijk is om de resultaten te herhalen of te verifiëren.
- De vergelijking blijft vrij generiek, terwijl AI-tools vaak juist voor specifieke use cases zijn ontwikkeld en daar ook op hun best presteren.
Daar komt bij dat niet duidelijk is hoe streng de beoordelaars zijn geweest, hoeveel tijd de juristen kregen, en of zij bijvoorbeeld toegang hadden tot eigen modellen of kennisbanken.
Zonder context is het verschil tussen een score van 73% en 57% snel verkeerd geïnterpreteerd. De hoogste score, 73%, komt van de best presterende AI-tool in de benchmark (Gemini 2.5 Pro). De 57% is het gemiddelde van álle geteste AI-tools. Ter vergelijking: menselijke juristen kwamen gemiddeld tot 56,7%, met een uitschieter van 70% voor de best scorende jurist.
Deze kritiek raakt een belangrijk punt: benchmarks zoals deze zijn waardevol als signaal, maar moeten transparant, herhaalbaar en realistisch zijn. Zeker in het juridische domein, waar zorgvuldigheid vooropstaat, blijft nuance essentieel.
Wat betekent dit voor juridische teams?
Deze benchmark bevestigt echter wel wat veel juristen al ervaren: AI is snel, consistent en vaak verrassend scherp. Maar het vereist kritisch gebruik, duidelijke instructies en menselijk toezicht.
Voor juridische afdelingen en advocatenkantoren zijn dit de kernvragen:
- Welke taken kunnen we vandaag al aan AI overlaten zonder risico?
- Waar willen we AI inzetten als hulplijn en waar blijft menselijke nuance essentieel?
- Hoe ontwerpen we een hybride workflow waarin jurist én AI samenwerken aan kwaliteit?
Teams die deze vragen nu serieus oppakken, zetten een belangrijke stap. Niet alleen omdat het werk efficiënter kan, maar vooral omdat ze leren wanneer je AI kunt inzetten en wanneer menselijk inzicht onmisbaar blijft.
Conclusie: AI schrijft goed, maar niet zonder toezicht
De benchmark van LegalBenchmarks.ai onderstreept dat AI-tools steeds beter in staat zijn om juridisch bruikbare contracten op te stellen. In sommige gevallen zelfs beter dan menselijke juristen. Maar dat betekent niet dat we nu achterover kunnen leunen. Zonder inzicht in hoe de tools precies zijn getest, hoe ze omgaan met context en welke instellingen zijn gebruikt, blijft er ruimte voor twijfel en nuancering.
Voor juristen is dit vooral een uitnodiging om AI serieus te nemen, maar ook met een scherp oog te blijven kijken naar de grenzen van deze technologie. AI kan een waardevolle assistent zijn, maar het is geen vervanger van menselijk inzicht en ervaring. Zeker niet bij complexe onderhandelingen of juridisch gevoelige clausules.
Een belangrijk punt uit de praktijk is dat snelheid niet alles zegt. Een van de respondenten gaf aan dat hij zijn jongere zelf van 25 niet meer zou aannemen, omdat AI tegenwoordig sneller en consistenter werkt. Tegelijkertijd benadrukte hij dat je wel moet weten wanneer je moet bijsturen. Die vaardigheid blijft onvervangbaar.
De les? Laat je niet imponeren door de snelheid van AI, maar leer ermee werken. Gebruik het als hulpmiddel om beter te worden in wat jou als jurist uniek maakt: scherpte, context, nuances en gezond verstand.