Voidaanko tekoälyä käyttää luotettavasti humanistisessa tutkimuksessa?
Turun yliopistossa väittelevän FM Liina Revon tutkimus nostaa esiin yhden digitaalisen humanismin perustavanlaatuisista kysymyksistä: miten varmistaa, että tekoälyn tekemät tulkinnat ovat ymmärrettäviä, läpinäkyviä ja luotettavia myös silloin, kun aineisto on vanhaa, virheellistä ja syntynyt aikakausina, jolloin vallan ja luokan jakautuminen näkyi jokaisessa tekstissä. Repo ei tyydy mittaamaan koneoppimismallien suorituskykyä, vaan pureutuu siihen, miksi mallit tekevät virheitä ja millaisiin kielellisiin piirteisiin ne todellisuudessa kiinnittävät huomiota.
”Mallien ymmärtäminen on tärkeää, jotta niitä voidaan käyttää luotettavasti myös humanistisessa tutkimuksessa”, sanoo FM Liina Repo Turun yliopiston tiedotteessa (27.1.2026).
Revon mukaan selitysmenetelmät – explainability, eli menetelmät, joilla voidaan avata koneoppimismallien päätöksentekoa – paljastavat, miten mallit painottavat sanoja, rakenteita ja tekstin alkuja. Tämä on ratkaisevaa, sillä historialliset aineistot ovat usein epätäydellisiä, täynnä digitointivirheitä ja syntyneet tilanteissa, joissa yhteiskuntaluokkien välinen epätasa-arvo määritti sen, kenen ääni tallentui arkistoihin ja millä tavalla.
Tekoäly löytää järjestyksen virheidenkin keskeltä
Revon väitöstutkimus osoittaa, että koneoppiminen kykenee jäsentämään historiallisia tekstiaineistoja huomattavasti tarkemmin kuin aiemmin on oletettu. Mallit oppivat tunnistamaan erilaisia tekstilajeja niiden kielellisten piirteiden perusteella, vaikka aineisto olisi täynnä virheitä tai aikakaudelle tyypillisiä vaihteluita.
Tekstilajit erottuvat mallille jo tekstin alusta. Repo korostaa, että tunnistamiseen ei tarvita pitkiä katkelmia, vaan muutama kappale riittää.
”On yllättävää, kuinka paljon tietoa tekstilajista on luettavissa heti tekstin alusta jopa silloin, kun aineisto on vanhaa ja täynnä digitointivirheitä”, sanoo Repo.
Kirjeiden henkilökohtainen ja puhuttelevampi sävy erottuu malleille selvästi, kun taas oikeustapaukset tunnistuvat muodollisesta rakenteestaan ja vakiintuneista ilmaisuistaan. Selkeät tekstilajit ovat koneelle helpoimpia, mutta hybriditekstit – eli tekstit, joissa yhdistyy useiden lajien piirteitä – tuottavat enemmän virheitä. Näiden tapausten tarkastelu auttaa hahmottamaan mallien rajoja ja sitä, millaiset kielelliset piirteet ovat koneelle vaikeita.
Virheiden syyt paljastavat mallien todellisen logiikan
Revon tutkimuksen keskiössä on kysymys siitä, miksi koneoppimismallit tekevät tiettyjä virheitä. Selitysmenetelmien avulla voidaan nähdä, mihin sanoihin ja rakenteisiin mallit todella kiinnittävät huomiota. Tämä on välttämätöntä, jotta tekoälyä voidaan käyttää vastuullisesti humanistisessa tutkimuksessa, jossa tulkinnan läpinäkyvyys on keskeinen osa tieteellistä prosessia.
Repo painottaa, että mallien toiminnan ymmärtäminen ei ole tekninen sivuseikka, vaan tutkimuksen luotettavuuden edellytys. Historiallisissa aineistoissa virheet eivät ole vain teknisiä ongelmia, vaan osa aineiston luonnetta – ja osa menneisyyden valtasuhteiden jälkiä. Siksi myös tekoälyn tekemät virheet voivat kertoa jotakin olennaista siitä, miten mallit lukevat tekstejä ja millaisia vinoumia ne mahdollisesti uusintavat.
Käytännön hyötyjä tutkijoille ja arkistoille
Revon tutkimus tarjoaa konkreettisia työkaluja suurten tekstikokoelmien käsittelyyn. Koneoppimisen avulla aineistoja voidaan rikastaa automaattisesti tekstilajitiedolla, mikä helpottaa tutkijoiden työtä ja avaa uusia näkökulmia menneisyyden kieleen.
”Tuloksia voidaan hyödyntää esimerkiksi historiallisessa kielentutkimuksessa ja oikeushistorian parissa, joissa tekstilajien tunnistaminen auttaa hahmottamaan, millaisia asiakirjoja eri aikoina on tuotettu ja mihin tarkoitukseen”, sanoo Repo.
Tämä avaa mahdollisuuksia myös arkistoille, jotka voivat automatisoida aineistojensa luokittelua ja parantaa niiden saavutettavuutta. Laajojen tekstimassojen käsittely on perinteisesti ollut hidasta ja työvoimavaltaista, mutta tekoäly voi toimia työvälineenä, joka vapauttaa tutkijoiden aikaa analyyttisempään työhön.
Digitaalinen humanismi ja vallan kysymykset
Revon tutkimus sijoittuu digitaalisen humanismin kenttään, jossa teknologiaa käytetään ihmistieteellisten kysymysten ratkaisemiseen. Tämä avaa myös laajempia yhteiskunnallisia näkökulmia. Historialliset tekstiaineistot ovat syntyneet tilanteissa, joissa valta on jakautunut epätasaisesti – esimerkiksi oikeustapaukset, viralliset asiakirjat ja hallinnolliset tekstit heijastavat aikansa luokkarakenteita ja vallankäyttöä.
Tekoälyn avulla voidaan paljastaa näiden tekstien rakenteellisia piirteitä ja sitä, miten eri yhteiskuntaluokat ovat tulleet dokumentoiduiksi. Tämä on erityisen kiinnostavaa radikaalivasemmistolaiselle ja marxilaiselle analyysille, joka tarkastelee, miten työväenluokan ääni on historiassa usein jäänyt pääoman ja hallitsevien luokkien tuottamien tekstien varjoon. Voiko koneoppiminen auttaa tunnistamaan myös marginaaliin jääneitä tekstilajeja ja toimijuuden muotoja, jotka eivät ole aiemmin nousseet tutkimuksessa esiin?
Piditkö lukemastasi?
Auta Tiedonantajaa julkaisemaan jatkossakin ja tue Tiedonantajaa lahjoituksella tai tilaa lehti!