
“De centrale vraag die we bij aanvang stelden was simpel maar fundamenteel: kun je deze vier systemen vertrouwen voor dagelijks juridisch werk? Het antwoord blijkt genuanceerd maar helder: ja, mits je de systemen inzet waar ze sterk in zijn én hun output systematisch verifieert.”
Dit is de conclusie van een recent onderzoek van ICTRecht, een juridisch adviesbureau gespecialiseerd in ICT en recht. In dit onderzoek testte een team van juridische experts vier generatieve AI-systemen: ChatGPT, Claude, Copilot en Gemini. Het doel? Inzicht krijgen in hoe betrouwbaar en bruikbaar deze systemen zijn voor het verrichten van juridisch werk. Daarbij werd niet alleen gekeken naar de prestaties van de verschillende systemen, maar ook naar de verschillen tussen gratis en betaalde varianten.
De resultaten laten aan duidelijkheid niets te wensen over: zo zijn de gratis versies van de onderzochte AI-systemen ongeschikt voor juridisch werk. Ze missen consistentie, geven vaker foutieve antwoorden en hebben beperkte functionaliteiten. Maar wat betekent dit voor juridische professionals die AI willen integreren in hun werkprocessen? Welk AI-systeem presteert het beste op juridisch gebied? Wat zijn de grootste risico’s bij het gebruik van AI voor juridische analyses? En hoe zorg je ervoor dat AI een waardevolle aanvulling wordt en geen bron van fouten?
De opzet van het onderzoek
Aangezien juridisch werk precisie, nuance en een diepgaand begrip van wet- en regelgeving vereist, is het onderzoek van ICTRecht bewust opgezet als een praktijktest die aansluit op de dagelijkse werkwijze van juridische professionals. Zo werd bij het testen van de vier AI-systemen geen gebruik gemaakt van geoptimaliseerde prompts of uitgebreide aanvullende instructies, maar van directe vragen zoals een gemiddelde jurist ze zou stellen. Hierdoor weerspiegelen de testresultaten puur de basisprestaties van de AI-systemen.
Om een breed beeld te krijgen van de prestaties van AI in verschillende juridische contexten, werden vijf rechtsgebieden geselecteerd:
- Privacyrecht
- Contractenrecht
- Intellectueel eigendomsrecht
- Ondernemingsrecht
- Arbeidsrecht
Per rechtsgebied werden drie typen vragen voorgelegd:
- Basisvragen over wetgeving – Bijvoorbeeld: “Welke doorgiftemechanismen kent de AVG?”
- Praktijkgerichte vragen met jurisprudentie – Bijvoorbeeld: “Hoe verschilt de bescherming van databanken onder de Databankenrichtlijn van de bescherming onder het auteursrecht?”
- Complexe casussen – Bijvoorbeeld: “Een werknemer met een concurrentiebeding wil na een fusie overstappen naar een nieuwe werkgever, maar de nieuwe functie overlapt (sinds de fusie) deels met het verboden werkgebied. Wat zijn hiervan de consequenties?”
De volledige lijst met vragen per rechtsgebied is als aparte bijlage gepubliceerd bij het onderzoek.
Bovendien werd een beoordelingsmodel gehanteerd dat drie kernaspecten van juridische kwaliteit meet:
- Accuratesse: zijn de wetsartikelen, termijnen en vereisten correct?
- Relevantie: beantwoordt de AI de kern van de vraag?
- Volledigheid: is de juridische analyse voldoende diepgaand?
De gegenereerde antwoorden werden beoordeeld zoals een bedrijfsjurist een juridisch advies zou toetsen: niet alleen op juistheid, maar ook op toepasbaarheid en onderbouwing.
De vier AI-systemen werden in twee fasen getest:
- December 2024 – Gratis versies (elke vraag werd tweemaal gesteld om consistentie te meten).
- Januari 2025 – Betaalde versies (een enkele testronde, aangezien de antwoorden consistenter bleken).
Daarnaast werd uitsluitend gewerkt met de standaard chatinterface, zonder extra systeemprompts of instellingen.
De inzichten uit het onderzoek
De onderzoeksresultaten laten zien dat de vier AI-systemen binnen de juridische sector een ondersteunende rol kunnen spelen, mits de systemen op de juiste manier worden ingezet. De prestaties van de AI-systemen lopen sterk uiteen, waarbij met name betaalde modellen zich onderscheiden in nauwkeurigheid en consistentie. Tegelijkertijd blijft er een structureel risico op fouten en onnauwkeurigheden bij het gebruik van de geteste AI-systemen.
Belangrijke beperkingen en risico’s bij het gebruik van de vier AI-systemen voor juridisch werk:
- AI mist juridische diepgang – betaalde AI-modellen genereren uitgebreide antwoorden, maar missen vaak de noodzakelijke juridische nuance. Hoewel de relevantie hoog is, bevatten antwoorden regelmatig irrelevante uitweidingen.
- Blind vertrouwen op AI is risicovol – alle geteste systemen hebben de neiging om niet-bestaande jurisprudentie en wetsartikelen te genereren. Dit risico is kleiner bij betaalde versies. Sommige AI-antwoorden bevatten juridische redeneringen gebaseerd op foutieve aannames.
- Gratis versies zijn niet bruikbaar voor juridisch werk – de gratis versies laten eigenlijk op alle gebieden ondermaatse prestaties zien, waarbij het dus sterk wordt afgeraden om deze te gebruiken in de juridische praktijk.
- Geheimhouding – gratis versies van AI-systemen bevatten vaak geen expliciete geheimhoudingsbepalingen en kunnen klantinvoer verwerken voor verdere training van de modellen. Hierdoor is niet altijd duidelijk hoe de informatie wordt gebruikt of opgeslagen. De enterprise-versies van AI-systemen bieden in sommige gevallen expliciete geheimhoudingsbepalingen, vergelijkbaar met een Non-Disclosure Agreement (NDA). Dit biedt enige bescherming, maar vereist dat organisaties duidelijke interne richtlijnen hanteren voor het gebruik van AI bij vertrouwelijke dossiers.
- Gegevensbescherming en privacy – de vier geteste AI-systemen draaien op Amerikaanse servers. Dit betekent dat elke juridische vraag of elk document dat in deze systemen wordt ingevoerd, buiten de EU kan worden verwerkt. Dit roept AVG-compliancevraagstukken op, vooral vanwege Amerikaanse wetten zoals de CLOUD Act, die Amerikaanse autoriteiten toegang kan geven tot opgeslagen data, ook als deze zich in de EU bevindt. Betaalde versies, en met name enterprise-licenties, bevatten vaak strengere bepalingen over gegevensbeveiliging, vertrouwelijkheid en aansprakelijkheid. Microsoft’s Copilot Enterprise met EU data boundaries biedt de meest robuuste waarborgen, maar andere aanbieders introduceren eveneens beveiligingsmaatregelen.
De sterke punten van de vier AI-systemen bij het gebruik voor juridisch werk:
- AI is geschikt voor verkennend juridisch werk – betaalde AI-modellen kunnen effectief worden ingezet voor het structureren van juridische informatie, zoals het opstellen van checklists voor due diligence en het categoriseren van contractbepalingen. Dit vereist wel een systematische verificatie van alle bronverwijzingen.
- Claude 3.5 Sonnet en ChatGPT 4o Plus presteren het beste – deze betaalde modellen scoren het hoogst op juridische nauwkeurigheid en consistentie. Claude 3.5 Sonnet blinkt uit in volledigheid en analytisch vermogen. Microsoft Copilot en Google Gemini leveren wisselende resultaten, met grote kwaliteitsverschillen tussen antwoorden.
- AI presteert beter bij complexe analyses dan bij basisvragen – in tegenstelling tot verwachtingen scoren AI-modellen beter bij complexe, logisch gestructureerde vraagstukken dan bij eenvoudige wetgevingsvragen. Dit suggereert dat de geteste systemen beter inzetbaar zijn voor juridische analyses en argumentatiestructuren dan voor het simpelweg reproduceren van wetsteksten en vaste regels.
- Europees recht wordt beter begrepen dan nationaal recht – de vier geteste AI-systemen presteren sterk in geharmoniseerde rechtsgebieden zoals privacyrecht en intellectueel eigendom.
- AI is een hulpmiddel, geen vervanging – de systemen zijn nuttig voor oriënterend juridisch onderzoek en kunnen helpen bij het snel verkennen van nieuwe rechtsgebieden.
Conclusie
Generatieve AI heeft de potentie om juridische professionals te ondersteunen bij het structureren en analyseren van informatie, maar het onderzoek van ICTRecht toont aan dat deze technologie nog niet feilloos is. De betaalde versies van de vier geteste AI-modellen, zoals Claude 3.5 Sonnet en ChatGPT 4o Plus, leveren de beste prestaties op het gebied van juridische nauwkeurigheid en consistentie. Toch blijven er beperkingen: AI mist consistente juridische diepgang, genereert soms foutieve bronnen en heeft moeite met nationaal recht.
De grootste valkuil ligt in blind vertrouwen op AI-output. Systemen presenteren antwoorden overtuigend, zelfs wanneer ze juridisch onjuist zijn. Dit betekent dat elke bron moet worden gecontroleerd en dat AI-uitvoer niet zonder meer als juridisch advies kan worden gebruikt. Daarnaast zijn er belangrijke compliance-uitdagingen, vooral rondom gegevensbescherming en vertrouwelijkheid. Veel AI-systemen draaien op Amerikaanse servers en vallen onder wetten zoals de CLOUD Act. Dit kan juridische risico’s met zich brengen.
Kortom, generatieve AI kan juridische professionals ondersteunen, maar menselijke expertise blijft onmisbaar. De toekomst ligt in een combinatie van juridische kennis en technologische vaardigheden, waarbij AI niet de beslisser is, maar een krachtig hulpmiddel in de handen van de getrainde juridische professional.