Monday, March 6, 2023

John Oliver puhui täyttä asiaa.


 Jos englanti sujuu, niin tässä on helmikuun 2023 lopulta Last Week Tonight with John Oliver käsittelemässä tekoälyä.

En huomannut mitään kyseenalaisia väitteitä tässä videossa, eli suosittelen kuuntelemaan.

Sunday, February 12, 2023

Taustatietoa 1: Data & Tietue & Tieto

Data & Tietue

Data sitä, data tätä, Datakeskeinen, datavetoinen ja niin edelleen. Yksi nykyaikana kaikkialle levinnyt sana, jonka tarkka merkitys on täysin tapauskohtainen. 

Data on yksinkertaisesti kasa faktoja, jotka on kerätty tiettyä käyttöä varten. Joskus nämä faktat voivat olla jopa tosia, mutta sille ei ole käytännössä mitään takeita. (Tämä on aihe tulevalle postaukselle.) Yleensä datassa olevat tietueet ovat muodoltaan identtisiä, eli kaikki ovat esimerkiksi saman kokoisia kuvia taikka sisältävät samat tiedot eri autoista.

Tieto

Tieto on paljon muutakin kuin mitä data, se on fysiikan lakeja, matemaattisia kaavoja, syy-seuraus -suhteita. Ihmiskunta on kerännyt uskomattoman määrän tietoa, jonka hyödyntäminen on vasta lastenkengissä tekoälyn suhteen.

Yksi suuri hankaluus tämän tiedon hyödyntämisessä on se, että se on hajautettuna joka puolelle ja harvoin koneen ymmärrettävässä muodossa. Monesti tekoälyn kehittäjiltä uupuu suuri määrä jopa kriitistä tietoa tekoälyn sovellusalasta, esimerkkinä COVIDia havaitsevat tekoälyt jotka eivät toimineetkaan. Harva tekoälyekspertti on röntgenekspertti ja toisinpäin. Tämä ongelma tulee esille myös monissa muissa tietotekniikkaprojekteissa, ei vain tekoälyprojekteissa. Jos tekijöillä ei ole tietoa siitä miten ohjelmistoa käytetään se ei toimi suoraan paketista.

Friday, February 10, 2023

Googlen Bardi ja tekoälyttömyys

Googlen mokasi

Itseäni ei ihmetytä yhtään se, että kielipohjainen tekoäly ei tiedä mitään vaan tuottaa väärää tietoa. Minua ihmetyttää se, että Googlella ei huomattu tätä ja moka päästettiin mainosmateriaaliin. Bardi väitti että muutama vuosi sitten kiertoradalle lähetetty JWST otti ensimmäisen kuvan toista tähteä kiertävästä planeetasta, kun todellisuudessa ensimmäinen kuva otettiin liki 20 vuotta sitten.

Kun tämä moka tuli julkisuuteen, Googlen osakkeiden arvo käytännössä romahti. Edellinen postaukseni: Chat GPT dominoi uutisia kertoo mistä tässä on kyse. Kielitekoälyt ovat papukaijoja, jotka toistavat oppimaansa, eivät tiedosta totuusarvoja.

Tämä koko juttu mielestäni kertoo siitä kuinka vähän päättävässäkin asemassa olevat ymmärtävät tekoälyn toiminnasta. Yksi tämän blogin tehtävistä on lisätä ymmärrystä tekoälyn toiminnasta. Jos tekoälyn älyttömyyttä ei ymmärrä, niin helposti uskoo sen ylivertaisuuteen ja kun totuus tulee vastaan niin tämä usko romahtaa ja korvaantuu liiallisella skeptisyydellä. Tämä taasen johtaa tekoälyvastaisuuteen, joka hidastaa tekoälyn käyttöönottoa niissäkin tilanteissa, joissa se olisi etu.

Friday, February 3, 2023

Chat GPT dominoi uutisia

Tammikuun YLE:n uutisointi tekoälystä keskittyi liki täysin Chat GPT:n käsittelyyn. Kuusi yhdeksästä tekoälyä käsittelevästä uutisesta vähintäänkin sivusi Chat GPT:tä.

Chat GPT - mikä se on? Kala? Lintu? Teräsmies?

Tilastollinen papukaija

Kaikki kielelliset tekoälyt ovat pohjimmiltaan papukaijoja, toistaen mitä ne ovat oppineet. Koska tämä toistaminen pohjautuu tilastollisiin yhteyksiin sanojen välillä, niin sen papukaijamaisuuden havaitseminen on hankalaa.
Kaikki tekoälyt pohjaavat tilastotieteisiin ja niille syötetyn datan tilastollisiin ominaisuuksiin (enemmän tai vähemmän). Tekoäly hakee datasta yhteyksiä: tämä esiintyy yleensä tuon kanssa ja joskus myös noiden kanssa jos mukana on tietty. Kun tekoälyn sitten käsketään tuottaa jotain missä esiintyy sanat Artturi ja Ilmari niin se tuottaa tekstiä A.I. Virtasesta ja maataloudesta, jos taasen Ilmarin sijasta on sana pöytä niin se tuottaa jotain ritareista.
Mitä suuremman määrän aineistoa tekoälylle annetaan opittavaksi, sitä enemmän sillä on vaihtoehtoja omaan tuotantoonsa ja sitä hankalampaa on huomata kyseessä olevan tekoäly. Suurimpia hankaluuksia tekoälylle tuottaa erikoisasiantuntemus, jossa se helposti sortuu tuottamaan kasan jargonia, ilman syvempää merkitystä. Itse epäilen hankalimman aiheet olevan kvanttimekaniikka, sillä netti on jo täynnä kvanttimekaniikan terminologiaa käyttävää new age -humpuukia.

Tekoälyn koulutus

Yhdessä uutisessa kerrottiin kuinka kenialaiset työntekijät joutuivat olemattomalla palkalla lukemaan netin syövereistä hyvin häiritseviä tekstejä. Tätä tarvittiin jotta Chat GPT ei alkaisi toistamaan juurikin epäillyttävää materiaalia. Uutisen mukaan tätä materiaalia käytettiin toisen tekoälyn koulutukseen, tämä toinen tekoäly sitten yritti havaita samankaltaista tekstiä muun materiaalin joukosta.
Uutisesta ei käy ilmi miten tätä sitten käytettiin Chat GPT:n koulutuksessa. Itse tiedän kaksi vaihtoehtoista tekniikkaa. Ensimmäinen vaihtoehto on materiaalin karsinta, jos se havaitsee kyseenalaista materiaalia koulutusmateriaalista, niin se poistetaan ennenkuin materiaali annetaan Chat GPT:lle. Toinen vaihtoehto on että sitä käytetään Chat GPT:n "rankaisemiseen" jos se tuottaa kyseenalaista materiaalia. Yksi tekoälyn koulutustavoista perustuu "palkintoihin" ja "rangaistuksiin", tekoäly pyrkii maksimoimaan saamansa pisteet ja muuttaa toimintaansa sen perusteella mistä se saa pisteitä tai mistä vähennetään pisteitä.

Monday, January 30, 2023

Tekoälyä ja älyttömyyttä

Tässä blogissa keskustellaan tekoälystä, sen käytöstä ja siihen liittyvästä tutkimuksesta. Aloitin väitöskirjatutkimuksen generativiisesta tekoälystä viime vuonna (2022), mutta informaatioteknologian graduni käsitteli jo sitä mitä COVID-diagnoosia tekevältä tekoälyltä vaaditaan.

COVID-aiheinen työni vahvisti aikaisempaa epäluuloani tekoälyn suhteen. Suurin osa mediassa hehkutetuista COVIDiin liittyvistä tekoälysovelluksista oli täysin sopimattomia lääketieteelliseen käyttöön. Selkein puute oli tekoälyn kehittäjien tietämättömyys lääketieteen alalta ja kiire saada työt julkaistua ilman kunnollista testausta.

Perinteisesti tekoäly koulutetaan puhtaasti käyttäen "dataa", joka sisältää ainoastaan yksittäisiä "tietopisteitä". Yksittäinen tietopiste antaa kasan arvoja jotka liittyvät jotenkin toisiinsa, esimerkkeinä tästä käyvät yksittäinen kuva ja auton tekniset tiedot. Koulutettaessa tekoälyä se käy läpi tätä dataa etsien miten näiden tietopisteiden antamat arvot riippuvat toisistaan. Kuvien kohdalla se esimerkiksi oppii että jos kuvassa on avattuja sateenvarjoja niin siinä on myöskin vesisadetta, taikka jos siinä on ruohoa niin siinä on myös lampaita. Tämä on ongelma kun tekoälylle annetaan kuva joka ei vastaakkaan näitä opittuja tilanteita, esimerkiksi aurinkovarjo, taikka linnut istumassa nurmella.

Oma tutkimukseni pyrkii antamaan tekoälylle muutakin tietoa, jolla voimme estää tälläisen virheellisen oppimisen. Yksi näistä tiedoista on syy-seuraus -suhde, joka on monesti tiedossa: sateenvarjo ei aiheuta sadetta, mutta sade lisää sateenvarjojen esiintyvyyttä. Toinen tieto on matemaattiiset kaavat, tiedämme yleensä kuinka fysiikan tulee käyttäytyä tilanteessa ja voimme laittaa sen ennakkotietona tekoälylle.

Tarkoituksenani on kirjoittaa tätä blogia pari kertaa viikossa, mutta nyt on juurikin apurahojen hakukausi niin aika on tiukassa helmikuun loppuun saakka.

John Oliver puhui täyttä asiaa.

 Jos englanti sujuu, niin tässä on helmikuun 2023 lopulta Last Week Tonight with John Oliver käsittelemässä tekoälyä. En huomannut mitään ky...