Kom naar het congres: Van hype naar houvast op donderdag 4 december 2025.
Lees hier meer

Zijn AI-tools al beter dan advocaten in juridisch onderzoek?

“Alle geteste AI-tools scoorden hoger dan de advocaat.”

Dat is de opvallende conclusie van het nieuwe VLAIR Legal Research Benchmark-onderzoek, uitgevoerd door Vals AI. Deze benchmark richt zich op een van de meest kritische taken binnen de juridische praktijk: juridisch onderzoek. De prestaties van vier AI-producten werden vergeleken met die van advocaten. En wat blijkt? In 75% van de onderzochte vragen presteerden de AI-tools beter dan de jurist.

Maar betekent dit dat je ChatGPT nu blind kunt vertrouwen voor je jurisprudentie onderzoek? Zeker niet. De resultaten geven een genuanceerd beeld: AI kan indrukwekkend presteren, maar vooral onder specifieke omstandigheden. En in sommige gevallen blijven juristen simpelweg onmisbaar. De kracht van AI ligt vooral in snelheid, structuur en toegang tot enorme hoeveelheden informatie, maar interpretatie, strategisch denken en nuance blijven mensenwerk.

In deze blog nemen we het onderzoek onder de loep: wat werd precies getest, hoe deden de AI-tools het, en wat kunnen juridische professionals hiervan leren?

De opzet van het onderzoek

De benchmark is een vervolg op het eerdere VLAIR-onderzoek naar juridische AI-tools. Dit keer lag de focus volledig op juridisch onderzoek: het beantwoorden van juridische vragen op basis van Amerikaanse wet- en regelgeving. Juridisch onderzoek wordt vaak gezien als een fundamenteel onderdeel van de juridische praktijk, waarbij nauwkeurigheid, betrouwbaarheid en brongebruik essentieel zijn.

De onderzoekers vergeleken vier AI-producten:

  • Alexi
  • Counsel Stack
  • Midpage
  • ChatGPT (generalistische AI)

Hun antwoorden werden getoetst aan een Lawyer Baseline: een controlegroep van advocaten die dezelfde vragen kreeg, zonder hulp van AI. In totaal ging het om 200 juridische vragen die in de praktijk veel voorkomen. Deze vragen kwamen uit een dataset die werd samengesteld in samenwerking met toonaangevende Amerikaanse advocatenkantoren.

Beoordeling vond plaats op drie criteria:

  • Correctheid (50%) – Is het antwoord inhoudelijk juist?
  • Brongebruik (40%) – Zijn de juiste juridische bronnen aangehaald?
  • Leesbaarheid (10%) – Is het antwoord begrijpelijk en direct bruikbaar?

Alle antwoorden werden beoordeeld door een team van juristen en bibliothecarissen, die anoniem werkten en geen kennis hadden van welke tool welk antwoord had gegenereerd.

Vijf lessen uit het onderzoek

  1. AI scoort beter dan de gemiddelde advocaat

Alle vier AI-tools presteerden beter dan de controlegroep van advocaten. Counsel Stack was de best scorende tool, maar ook de andere AI’s zaten dicht bij elkaar met scores tussen de 74% en 78%. Ter vergelijking: de gemiddelde score van de advocaten was 69%. De AI-tools presteerden dus allemaal boven de menselijke benchmark.

In 75% van de gevallen won AI van de mens. Wanneer AI beter scoorde, was het verschil gemiddeld 31 procentpunt. Dit betekent dat AI niet alleen sneller werkt, maar ook vaak completer en consistenter is in het beantwoorden van juridische vragen. Tegelijkertijd bleven er specifieke scenario’s waarin de jurist het beter deed.

  1. Nauwkeurigheid is sterk, maar brongebruik maakt het verschil

AI scoorde hoog op correctheid: tussen de 78% en 81%. Opvallend is dat ChatGPT als generalistische tool qua juistheid nauwelijks onderdeed voor de gespecialiseerde juridische AI’s. De prestaties tussen de AI-tools lagen dicht bij elkaar, wat suggereert dat de basisintelligentie van generatieve modellen inmiddels op een hoog niveau zit.

Het verschil zat vooral in het gebruik van bronnen. Juridische AI-tools verwezen vaker naar primaire, valide bronnen zoals wetgeving of rechterlijke uitspraken. ChatGPT gebruikte soms slechts publieke samenvattingen of vergat te verwijzen. Vooral bij complexe vragen met veel juridische details bleek het correct aanhalen van bronnen doorslaggevend.

  1. AI heeft moeite met complexe jurisdicties

Zodra een vraag ging over meerdere rechtsgebieden daalden de scores van alle deelnemers, ook van de legal AI. Alleen ChatGPT hield stand met een constante score, mogelijk door het bredere trainingsbereik van het model.

In zulke gevallen bleek menselijke contextkennis belangrijk. Juristen wisten beter hoe ze onvolledige of onduidelijke vragen moesten interpreteren, en kregen minder vaak een nulscore. AI-tools daarentegen gaven soms helemaal geen antwoord of verwezen naar irrelevante wetgeving.

  1. AI is razendsnel, maar niet altijd volledig

AI gaf snel en vaak uitgebreid antwoord. Maar die lengte was niet altijd een voordeel. Soms werd de kern gemist of werden irrelevante details toegevoegd. Dit heeft te maken met het feit dat AI vaak alle mogelijkheden probeert te benoemen, zonder onderscheid te maken in relevantie. Advocaten leverden daarentegen kortere, concretere antwoorden. Die waren soms incompleet volgens de formele beoordelingscriteria, maar inhoudelijk wel correct en bruikbaar in de praktijk. In de commerciële context, waarin snelheid en helderheid belangrijk zijn, blijft die menselijke scherpte waardevol.

  1. De combinatie mens + AI blijft het sterkst

De studie toont aan: AI alleen kan al veel, maar is niet onfeilbaar. Juristen kunnen fouten opvangen, ontbrekende context toevoegen en beoordelen of de gevonden bron echt overtuigt. De combinatie van mens en machine leverde in eerdere benchmarks zelfs de hoogste scores op.

Wat betekent dit voor jouw praktijk?

Deze benchmark laat zien dat juridisch onderzoek, traditioneel een tijdrovende en specialistische taak, zich uitstekend leent voor (gedeeltelijke) automatisering met behulp van AI. Maar dan moet je weten wat je doet. AI-tools hebben potentieel om werk te versnellen, maar zonder toezicht kunnen ze ook voor fouten  zorgen.

Drie tips voor juridische teams:

  • Gebruik gespecialiseerde AI-tools als het moet kloppen. Alleen dan krijg je betrouwbare bronverwijzingen die voldoen aan de juridische standaarden van je kantoor of cliënt.
  • Combineer AI met menselijk toezicht. Laat AI de eerste versie maken en controleer zelf de citaten, interpretatie en relevantie.
  • Kies de juiste workflow. AI scoort slechter bij onduidelijke vragen of als het niet weet welk rechtsgebied relevant is. Met de juiste context en begeleiding presteert AI veel beter.

Daarnaast is het raadzaam om duidelijke richtlijnen op te stellen voor het gebruik van AI binnen het team, inclusief afspraken over broncontrole, aansprakelijkheid en vertrouwelijkheid.

Conclusie: juridisch onderzoek met AI werkt, maar niet op de automatische piloot

De nieuwste VLAIR-studie toont overtuigend aan dat AI inmiddels een serieuze speler is in juridisch onderzoek. Niet perfect, niet autonoom, maar wel sneller, consistenter en vaak accurater dan de gemiddelde jurist, zeker bij standaardvragen.

Toch is het geen vervanger van menselijk inzicht. Vooral bij complexe vragen, onduidelijke context of meerdere jurisdicties blijft de jurist onmisbaar. Wie AI slim inzet als hulpmiddel en niet als vervanger, haalt er het meeste uit.

De toekomst van juridisch onderzoek? Een hybride samenwerking waarin AI het zoekwerk doet en de jurist de duiding en eindcontrole. Wie dat slim organiseert, wint tijd, kwaliteit én vertrouwen, bij cliënten én in de eigen organisatie. Laat AI het voorwerk doen. Maar jij blijft de jurist die de puntjes op de i zet.

Of zoals de onderzoekers het zelf samenvatten: “AI is geen vervanging van de jurist, maar een verdubbeling van zijn of haar slagkracht.”