Leken vinden advies van ChatGPT vaak betrouwbaarder dan van een echte advocaat

“Wanneer leken niet wisten of het advies afkomstig was van een advocaat of een taalmodel, vertrouwden ze vaker op het door taalmodel gegenereerde advies.”

Kun je als jurist of advocaat nog altijd rekenen op het vertrouwen van je cliënten? Nieuw onderzoek van de Universiteit Antwerpen en de Universiteit van Southampton laat zien dat leken juridisch advies van een taalmodel, zoals ChatGPT, soms betrouwbaarder vinden dan advies van echte advocaten. Zeker als ze niet weten wie het advies heeft gegeven.

Wat verklaart deze voorkeur? Hoe goed kunnen leken advies van een taalmodel van echt juridisch advies onderscheiden? En wat zijn de risico’s als het publiek blind vertrouwt op adviezen van een taalmodel?

Opzet van het onderzoek

De onderzoekers onderzochten met drie experimenten hoe leken omgaan met juridisch advies van een advocaat versus dat van een taalmodel.

Daarbij stonden twee hoofdvragen centraal:

  1. Zijn leken meer bereid om te handelen op basis van juridisch advies van een taalmodel of van een advocaat?
  2. Kunnen leken, als ze de bron niet weten, herkennen of juridisch advies afkomstig is van een taalmodel of van een mens?

De adviezen betroffen drie rechtsgebieden: verkeersrecht, huurrecht en omgevingsrecht. Zowel het taalmodel (ChatGPT-4o) als Britse advocaten gaven antwoorden op exact dezelfde juridische vragen, op basis van het Engelse recht.

Inzicht in experiment 1

In het eerste experiment bleek dat leken juridisch advies van een taalmodel hoger waardeerden dan van een advocaat, wanneer zij niet wisten van wie het advies afkomstig was. De bron van het advies was in die gevallen dus onbekend.

Werkwijze

  • 100 deelnemers werden willekeurig verdeeld over twee groepen:
    • Groep A kreeg te zien wie het advies had geschreven (advocaat of taalmodel).
    • Groep B kreeg dezelfde adviezen, maar zonder vermelding van wie het advies had geschreven.
  • Elke deelnemer las in totaal 18 juridische adviezen verdeeld over verkeersrecht, huurrecht en omgevingsrecht.
  • Na het lezen van ieder advies gaven deelnemers aan in hoeverre ze bereid waren het advies op te volgen, op een schal van 1 (helemaal niet) tot 9 (volledig.
  • De adviezen van het taalmodel en de adviezen van de advocaat werden gelijk verdeeld en willekeurig gepresenteerd.

Samengevatte voorbeelden van gestelde vragen

  • Verkeersrecht: mijn vader kreeg een boete nadat hij met zijn auto vast kwam te zitten op een verkeersdrempel. Hoe kan hij zich juridisch verdedigen?
  • Huurrecht: mijn verhuurder wil mij mijn huis uitzetten omdat ik een hond heb, terwijl hij bij aanvang mondeling toestemming gaf. Wat zijn mijn rechten?
  • Omgevingsrecht: ik mag van de gemeente geen gekleurde metalen schutting plaatsen. Mag dat zomaar volgens de wet?

Zowel het taalmodel als de advocaten gaven antwoord op dezelfde vragen zonder elkaars antwoorden te kennen.

Resultaten

  • Advies van het taalmodel: gemiddelde score 7,23.
  • Advies van de advocaat: gemiddelde score 6,74.

Zodra de bron bekend was, verdwenen de verschillen grotendeels.

Inzicht in experiment 2

Het tweede experiment herhaalde de testopzet waarbij deelnemers niet te zien kregen of het juridisch advies afkomstig was van het taalmodel of van de advocaat.

Werkwijze

  • 78 nieuwe deelnemers die niet hadden meegedaan aan experiment 1.
  • Dezelfde 18 juridische casussen werden voorgelegd.
  • Deelnemers wisten opnieuw niet of het advies afkomstig was van een taalmodel of een advocaat.
  • Voor iedere casus gaven zij aan hoe groot hun bereidheid was om het advies op te volgen, op een schaal van 1 tot 9.

Resultaten

  • Advies van het taalmodel: gemiddelde score 7,08.
  • Advies van de advocaat: gemiddelde score 6,82.

Ook in deze herhaling vertrouwden deelnemers vaker op de adviezen van het taalmodel dan op adviezen van advocaten. De verschillen waren statistisch significant, waarmee de uitkomsten van experiment 1 werden bevestigd.

Inzicht in experiment 3

In het derde experiment werd onderzocht of leken het verschil konden herkennen tussen het advies van het taalmodel en het advies van de advocaat.

Werkwijze

  • 110 deelnemers beoordeelden 18 adviezen en moesten inschatten wie het had geschreven.
  • Gebruik van een schaal van 1 (zeker taalmodel) tot 6 (zeker advocaat).

Resultaten

De gemiddelde onderscheidingsscore was 0,59. Dit betekent dat deelnemers net zo goed hadden kunnen gokken. Met andere woorden: het onderscheid is niet zichtbaar. De score van 0,59 laat zien dat leken iets beter dan toeval konden inschatten of een advies door een taalmodel of een advocaat was geschreven, maar hun vermogen bleef beperkt.

De belangrijkste bevindingen

  • Leken zijn, wanneer de bron niet bekend is, vaker geneigd te vertrouwen op juridisch advies dat door een taalmodel is gegenereerd dan op advies van een advocaat. Dit komt in belangrijke mate voort uit het feit dat taalmodellen vaak zelfverzekerd en complex taalgebruik hanteren.
  • Complex taalgebruik door taalmodellen kan ten onrechte als een kwaliteitsindicator worden gezien.
  • De voorkeur voor het advies van het taalmodel gold alleen wanneer leken niet wisten wie het advies had geschreven. In de groep waarbij de bron wél bekend was, maakten deelnemers geen onderscheid tussen het advies van het taalmodel en dat van de advocaat.
  • Deelnemers konden het verschil tussen het advies van het taalmodel en de advocaat slechts beperkt onderscheiden.

Conclusie

Het onderzoek laat zien dat leken juridisch advies van een taalmodel sneller vertrouwen dan dat van een advocaat, zolang niet duidelijk is wie het advies heeft geschreven. Dit benadrukt hoe belangrijk het is om transparant te zijn over de herkomst van juridisch advies en gebruikers beter te informeren over de werking en beperkingen van taalmodellen. Daarom is er meer investering nodig in AI-geletterdheid en in het vermogen om taalmodelteksten te herkennen, want alleen zo kunnen risico’s zoals te veel vertrouwen in automatisch gegenereerd advies worden beperkt.