Zijn AI-assistenten al beter dan advocaten?

“Vier van de zeven onderzochte juridische taken werden beter uitgevoerd door AI dan door advocaten.”

Dat is de opvallende conclusie van het eerste grootschalige benchmarkonderzoek naar juridische AI-assistenten, uitgevoerd door Vals AI, een bedrijf dat onafhankelijke, praktijkgerichte benchmarks ontwikkelt om taalmodellen eerlijk en nauwkeurig te evalueren op realistische, domeinspecifieke taken met behulp van een eigen, veilige evaluatie-infrastructuur, in samenwerking met Legaltech Hub. In deze studie, die eind februari 2025 werd gepubliceerd, werden vier veelgebruikte AI-assistenten getest op zeven concrete juridische taken. Hun prestaties werden systematisch vergeleken met het werk van advocaten in een controlegroep – de zogeheten ‘Lawyer Baseline’.

De resultaten laten weinig ruimte voor twijfel: generatieve AI is op weg een volwaardig juridisch hulpmiddel te worden. Sommige AI-assistenten presteren nu al beter dan advocaten bij taken zoals het beantwoorden van juridische vragen over documenten, het samenvatten van juridische teksten en het analyseren van transcripties. Tegelijkertijd blijven er duidelijk afgebakende situaties waarin menselijke expertise vooralsnog beter presteert.

Hoe ziet dit onderzoek er precies uit? Hoe presteren de AI-assistenten precies? En wat kunnen juridische professionals hiervan leren bij het selecteren en toepassen van AI in hun dagelijkse praktijk?

De opzet van het onderzoek

Voor het onderzoek werden geen hypothetische casussen gebruikt, maar échte vragen en documenten uit de dagelijkse praktijk van advocatenkantoren.

Taken die centraal stonden

Samen met acht internationale kantoren werd een takenlijst vastgesteld met zeven uiteenlopende juridische taken:

  1. Gegevensextractie

AI moest specifieke gegevens (zoals clausules, bedragen of voorwaarden) opzoeken in juridische documenten. Denk aan het vinden van een bepaling over beëindiging of het opstellen van een overzicht van zekerheden uit meerdere contracten.

  1. Vragen beantwoorden over documenten (Q&A)

De AI-assistenten kregen juridische vragen voorgelegd over onder meer arbeidscontracten, beleidsteksten of compliance-documenten, die in het onderzoek verder niet worden gespecifieerd. Cruciaal hierbij was of het antwoord inhoudelijk juist én volledig was.

  1. Samenvattingen maken van juridische documenten

AI werd gevraagd om complexe documenten – zoals wetteksten en contracten – samen te vatten tot één of enkele paragrafen.

  1. Redlining

Hier ging het om het herkennen van afwijkingen ten opzichte van een standaardclausule, het beoordelen van wijzigingen of het zelf aanpassen van bepalingen op basis van een gebruikersinstructie.

  1. Analyse van zittingsverslagen

De AI-assistenten moeten relevante informatie uit rechtbanktranscripten halen, zoals wie welke partij vertegenwoordigt of wanneer bepaalde opmerkingen of verklaringen tijdens de zitting zijn gedaan.

  1. Opstellen van tijdlijnen

AI moest feiten en gebeurtenissen uit een document in de juiste volgorde plaatsen, inclusief datums en beschrijvingen.

  1. EDGAR Research

Een complexe taak waarbij AI vragen moest beantwoorden op basis van openbare documenten in de Amerikaanse database EDGAR waarin financiële documenten zijn opgenomen, zoals jaarverslagen en prospectussen.

Werkwijze en beoordeling

Voor elke taak verzamelden de deelnemende kantoren voorbeeldvragen, bijbehorende documenten en duidelijke beoordelingscriteria. In totaal ging het om meer dan 500 scenario’s, voornamelijk afkomstig van grote internationale kantoren. Hiermee vormt de dataset een representatief beeld van écht juridisch werk.

Vier AI-assistenten namen deel: Harvey, CoCounsel (Thomson Reuters), Vincent AI (vLex) en Oliver (Vecflow). Iedere aanbieder koos zelf op welke taken hun tool werd getest. LexisNexis trok zich terug vóór de publicatie.

Om de prestaties goed te kunnen vergelijken, werd ook een Lawyer Baseline vastgesteld: een controlegroep van ervaren advocaten voerde dezelfde taken uit, zonder hulp van AI. Hun resultaten werden vervolgens systematisch vergeleken met de output van de AI-assistenten.

Alle antwoorden werden automatisch beoordeeld met behulp van een speciaal beoordelingsmodel, ontwikkeld door Vals AI. Dit model werkt volgens het zogeheten LLM-as-judge-principe: het vergelijkt elk antwoord met een vooraf opgestelde referentie en toetst afzonderlijke juridische elementen – zoals correcte wetsverwijzingen, relevante feiten of passende toepassing van een norm – aan objectieve criteria. Elk onderdeel wordt beoordeeld met een pass/fail-score en telt mee in de totaalscore van het antwoord. Deze methode maakt het mogelijk om honderden antwoorden schaalbaar, consistent en objectief te beoordelen – iets wat handmatig ruim 400 uur zou kosten én onderhevig is aan interpretatieverschillen tussen juristen.

Hoe presteren AI-assistenten per juridisch taakgebied?

Het onderzoek geeft een gedetailleerd beeld van de prestaties van AI-assistenten voor de zeven juridische taken.

  1. Data-extractie

Het automatisch ophalen van specifieke informatie uit documenten is een taak waar AI zich inmiddels goed mee redt. AI-assistenten als Harvey (75.1%) en CoCounsel (73.2%) scoren hoger dan de Lawyer Baseline, die op 71,1% lag. In deze taak ging het bijvoorbeeld om vragen als “Wat is de looptijd van deze huurovereenkomst?” of “Wat staat er in de clausule over overdraagbaarheid?”

De prestaties waren vooral sterk bij eenvoudige vragen met korte documenten. Zodra meerdere documenten gecombineerd moesten worden of juridische vaktermen zoals “most favored nation” impliciet benoemd waren, ging het vaker mis. Desondanks blijkt AI hier een waardevol startpunt te bieden.

  1. Document Q&A

AI-assistenten blinken uit in het beantwoorden van gerichte vragen over juridische documenten. Met een gemiddelde score van 80,2% was dit de best presterende taakcategorie van het hele onderzoek. Harvey Assistant (94,8%) en CoCounsel (89,6%) zetten de toon.

Voorbeeldvragen zijn: “Kan dit contract worden beëindigd bij wanprestatie?” of “Wat zijn de verplichtingen van de verhuurder volgens artikel X?” AI bleek niet alleen snel, maar ook consistent in het herkennen van relevante passages – vaak nauwkeuriger dan de juristen, die soms cruciale details vergaten te vermelden.

  1. Samenvatten van documenten

Het op hoofdlijnen samenvatten van juridische documenten – bijvoorbeeld een prospectus of contract – is een taak die AI opvallend goed uitvoert. Alle geteste AI-assistenten scoorden hier hoger dan de Lawyer Baseline (50,3%). CoCounsel haalde met 77,2% de hoogste score, gevolgd door Harvey met 72,1%.

De nauwkeurigheid bleek mede afhankelijk van hoe beknopt de samenvatting moest zijn. Assistenten die langere antwoorden gaven, scoorden vaak beter omdat zij meer relevante elementen wisten te benoemen. AI kan hiermee een nuttig hulpmiddel zijn voor eerste documentverkenning.

  1. Redlining

Het aanpassen of analyseren van contractteksten op basis van een standaardbepaling blijkt een van de lastigste klussen voor AI. De Lawyer Baseline lag hier op 79,7% – aanzienlijk hoger dan de best scorende AI-tool (Harvey: 65,0%).

Het verschil zit vooral in nuance. Waar juristen zorgvuldig afwegen hoe een bepaling moet worden aangepast aan de context, kopiëren AI-assistenten vaak letterlijk standaardteksten in het contract. Complexe herformuleringen of afwegingen ontbreken. AI is hiervoor voorlopig niet geschikt als zelfstandig juridisch instrument.

  1. Transcriptanalyse

Bij het analyseren van zittingsverslagen en processtukken liet AI een overtuigend resultaat zien. Zowel Harvey als Vincent AI scoorden ruim boven de Lawyer Baseline van 53,7%, met respectievelijk 77,8% en 64,8%.

De uitdaging bij deze taak zit in de rommelige opmaak van transcripties en de noodzaak om verbanden te leggen over meerdere pagina’s. AI blijkt hier verrassend goed in staat om sprekers, context en inhoud met elkaar te verbinden – een taak die voor juristen veel tijd kost.

  1. Chronologiebouw

Het genereren van een chronologisch overzicht van gebeurtenissen – bijvoorbeeld in een geschil of compliance onderzoek – bleek een taak waarin zowel AI als juristen sterk scoorden. Harvey en de Lawyer Baseline eindigden gelijk op 80,2%. CoCounsel volgde met 78%.

Hoewel de verschillen klein zijn, is dit een schoolvoorbeeld van de kracht van een ‘mens + machine’ benadering: AI levert een eerste opzet van de tijdlijn, waarna een jurist de details controleert en aanvult waar nodig.

  1. EDGAR Research

Onderzoek in Amerikaanse beursdocumentatie via het EDGAR-systeem was met afstand de lastigste taak voor AI. De enige tool die het aandurfde om hieraan mee te doen was Oliver en die scoorde 55,2%, beduidend lager dan de Lawyer Baseline van 70,1%.

Conclusie

Uit het benchmarkonderzoek van Vals AI blijkt dat AI-assistenten inmiddels beter presteren dan advocaten op vier van de zeven onderzochte juridische taken. Vooral bij document Q&A, samenvattingen en transcriptanalyse laat AI zich van zijn sterkste kant zien. Toch blijven er duidelijke grenzen: bij taken die meer juridische nuance of afweging vereisen, zoals redlining of open zoekopdrachten in EDGAR, zijn mensen voorlopig nog beter.

De kracht van deze studie ligt in de combinatie van realistische praktijksituaties, objectieve beoordeling én een eerlijke vergelijking met het werk van ervaren juristen. Tegelijkertijd zijn er ook beperkingen: sommige AI-assistenten werden getest buiten hun optimale workflow en de automatische beoordeling door Vals AI – gebaseerd op de ‘LLM-as-judge’-methode – is een redelijke benadering van menselijke toetsing, maar geen vervanging voor een ervaren jurist. Waar nodig werd een tweede controle uitgevoerd op foutieve scores, maar volledige juridische beoordeling blijft wenselijk voor een definitief oordeel.

Toch is de conclusie helder: generatieve AI ontwikkelt zich snel tot een volwaardig hulpmiddel binnen de juridische praktijk. Door deze AI-assistenten te combineren met menselijke juridische kennis en ervaring ontstaat een krachtige nieuwe werkwijze waarin tijdwinst, kwaliteit en toegankelijkheid hand in hand kunnen gaan.