Tekoäly vs. Tuomarit - kumpi voittaa?

10.09.2024

Palataanhan ajassa taaksepäin aikaan, jolloin shakin valtikka siirtyi ihmiseltä tietokoneelle. Oli vuosi 1996, ja Garry Kasparov voitti Deep Blue -tietokonetta käymänsä ensimmäisen ottelun Philadelphiassa lukemin 4–2. Seuraavana vuonna Deep Blue voitti uusintaottelun lukemin 3½–2½. Sen jälkeen tietokone on mennyt shakissa menojaan.

Nyt on aika nostaa kierroksia, ja siirtää Garry Kasparov syrjään. Areenalle astelee tuomarit kantamaan ihmiskunnan mainetta leveillä harteillaan. Miten käy tekoälyn, kun se joutuu tuomarin paikalle ratkaisemaan haastavia oikeudellisia kysymyksiä? Tässäpä onkin mielenkiintoinen kysymys, josta täytyy ehdottomasti ottaa selvää! 

Päätimme tehdä testin, jota varten valitsimme satunnaisotannalla parikymmentä markkinaoikeuden ratkaisua. Niiden avulla ja tekoälyn avustuksella selvitimme, miten hyvin tietokone selviäisi tuomarin tehtävästä. Tämän artikkelin lukemalla saat selville, miten mittelössä kävi ja kumpi tuomaroi paremmin!

Miten testi toteutettiin?

Valitsimme vertailua varten 20 markkinaoikeuden satunnaisesti valittua tuomiota vuosilta 2022-2024. Pyysimme ChatGPT 4o:ta analysoimaan niiden selostusosan siten, että tuomioista ei ilmennyt tuomareiden asiassa tekemiä johtopäätelmiä tai oikeudellista arviointia. Todettakoon, että tuomion ns. "resiitti" on itsessään vaativaa juridista työtä, jossa argumentit tulee kirjoittaa selkeään muotoon. Tämä ihmisen tekemä taustatyö helpottaa osaltaan tekoälyn analyysiä.

Aineiston valinnassa kävi sattumalta niin, että tasan puolessa tapauksista (10 kpl) markkinaoikeus oli hylännyt valituksen, kun taas toisessa puolikkaassa (10 kpl) valitus oli menestynyt ja hankintapäätös kumottu. Jos ratkaisun lopputuloksena oli valituksen peruuttaminen tai tutkimatta jättäminen, kyseinen tapaus jätettiin pois aineistosta. 

Markkinaoikeuden ratkaisut valittiin aineistoksi sen vuoksi, että olen aiemmin ollut laatimassa niitä muutamia satoja. Näin ollen perustelujen rakenne ja johdonmukaisuus ovat valmiiksi tuttuja. Lisäksi hankintavalitukset muodostavat varsin selkeän kokonaisuuden, josta on tekoälynkin mahdollista tehdä päätelmiä.

Kysymyksenasettelu ja vastaukset

Testiä varten ChatGPT:tä pyydettiin ottamaan kantaa kysymykseen siitä, kumpi vaihtoehdoista on todennäköisempi: valituksen menestyminen ja hylkääminen. Alla kuvakaappaus keskustelusta, jolla testin aloitettiin:


Ratkaisujen tekstejä syötettiin ChatGPT:lle copy-paste -tyylillä. Vastauksenaan tekoäly antoi prosentuaalisesti ilmoitetun todennäköisyyden siitä, miten asia sen mielestä ratkeaisi. Varsin usein tekoäly eritteli useampia todennäköisyyksiä ja antoi myös sanallisia perusteluja, kuten alla olevassa esimerkissä:



Miten hyvin tekoäly suoriutui?

Siirrytään sitten tuloksiin, eli miten hyvin tekoäly sitten onnistui ratkaisujen tehtailussa? Alla olevaan taulukkoon on listattu, a) minkä vastauksen ChatGPT antoi todennäköisimmäksi ratkaisuksi, b) mikä markkinaoikeuden ratkaisun tosiasiallinen lopputulos oli, ja c) oma arvioni ristikkäin menneistä ratkaisuista.



Yhteensä 20 ratkaisuista 16:ssa tekoäly oli tuomareiden kanssa lopputuloksesta samaa mieltä. Kuitenkin neljässä tapauksessa eli 20 %:ssa tekoälyn antama lopputulos poikkesi tuomioistuimen lopputuloksesta. Näiden tapausten osalta teimme vielä oman arvion siitä, miten hyvin tuomarit tai tekoäly olivat onnistuneet. 

Päätelmänä näiden tapausten osalta oli, että markkinaoikeus osui oikeaan 3/4 tapauksesta, kun taas tekoälyn osumatarkkuus oli 1/4 ratkaisussa ihmistä parempaa. Koska joku tätä kuitenkin pohtii, niin avataan hieman arviota. Tekoäly vei yhden pisteen tuomiossa, jossa tuomarit olivat tulkinneet referenssivaatimuksia yleistä tulkintakäytäntöä tiukemmalla kammalla. Sen sijaan tekoälyllä oli hankaluuksia arvioida tilannetta, jossa virhe oli sinällään selkeä mutta sen merkitys kokonaisuuden kannalta olematon. 

Voittajan julistaminen

On siis aika julistaa voittaja: onnittelut ihmiskuntaa edustaville tuomareille! 

...samalla kuitenkin muistaen, että voittihan myös Kasparov Deep Bluen ensimmäisessä kohtaamisessa.

Tuomarit ja tekoäly olivat samaa mieltä 16 tapauksessa 20:stä. Lopuista neljästä tekoäly voitti yhden ja tuomarit kolme, eli voitaneen julistaa voitto ihmistuomareille maalein 3-1. Tuomioiden osumaprosentteina mitattuna ihmisten tuomiot osuivat 95 % oikeaan, tekoälyn 85 %:n tarkkuudella. 

Lopuksi

Vaikka tutkimuksen otos on aika pieni, tuloksista voidaan päätellä, että tekoälyn käytöllä voi hyvinkin olla roolia tulevaisuuden oikeudellisessa ratkaisutoiminnassa. Käytössämme ei nytkään ollut mitään erityistä tekoälyassistenttia, joka olisi nimenomaisesti koulutettu hakemaan lainalaisuuksia tietystä aineistosta, vaan ihan tavallinen kaupallinen lisenssi ChatGPT 4o:sta. Jos tuomioistuinten laajempi aineisto ja varsinkin perustelumuistioiden tasoinen aineisto olisi tekoälyn käytettävissä, sille tuskin olisi kovinkaan suuri tehtävä päihittää ihmistä tuomioiden ennustettavuudessa. 

Selkeä etu tekoälylle olisi, etteivät inhimilliset tunteet tai asiaan vaikuttamattomat seikat pääse vahingossa vaikuttamaan lopputulokseen. Ihminen saattaa olla vaikutuksille altis, vaikkei hän asiaa itse tunnistaisi. Toisaalta emme myöskään tiedä, millä monimutkaisella päättelyketjulla algoritmi on lopulta päätynyt lopputulokseensa. Eipä sillä, eihän ihmisenkään päättelyketjusta saa jälkikäteen sen enempää selvää.

Ei pidä myöskään unohtaa, että useimmiten oikeudellinen ratkaisutoiminta vaatii, että ratkaisua tekevä nauttii asianosaisten luottamusta. Olisimmeko valmiita antamaan tekoälyn päättää elämästämme ja omaisuuttamme koskevista asioista? Olisiko virheellinen päätös helpompi hyväksyä ihmisen kuin koneen tekemänä? Näitä voimme joutua pohtimaan yllättävänkin pian! Sanoisin silti, että suinkaan kaikissa oikeudenkäynneissä tällä seikalla ei ole niin suurta merkitystä, mitä äkkiseltään voisi ajatella.

Mitä mieltä itse olet: onko tekoälysovelluksissa oikeudellisen ratkaisutoiminnan tulevaisuus?


Teksti: Tomi Rantasaari

LinkedIn: linkedin.com/in/tomirantasaari/