Oma valokuva
Tarkoitukseni on saada lukija pohtimaan ja kysymään kysymyksiä. Tämän takia esitän tarkoituksella yleiselle ymmärrykselle vastakkaisia argumentteja. Teemat valitsen sen mukaan, missä valtavirralle vastakkaiset argumentit ovat mielestäni perusteltuja ja yhteiskunnallisesti tärkeitä. Konsensus on mielestäni usein sekä harhaanjohtavaa että vaarallista. Vaarana on ”yksimielisyyden illuusio”, joka on valitettavan yleinen älyllisen epärehellisyyden muoto: ollaan samaa mieltä, mutta kukaan ei oikein kykene perustelemaan miksi, saati sitten että perusteluista oltaisiin yhtä mieltä. Blogikirjoitukseni kumpuavat omasta päivätyöstäni tutkijana ja opettajana. Toiset käsittelevät yritysten toimintaan liittyviä kysymyksiä liiketaloustieteellisen tutkimuksen näkökulmasta. Toisissa taas käsittelen tieteen roolia yhteiskunnassa, jota pohdin ensisijaisesti tieteen käytäntöjen näkökulmasta -- siis siitä, millaista tiede on ihmisen harjoittamana toimintana. Monet teksteistäni heijastavat taustaani tilastotieteen soveltajana -- tilastollinen päättely on tärkein tutkimustyökaluni. Muokkaan toisinaan julkaistuja tekstejäkin uusien havaintojen tai saamani palautteen perusteella.

keskiviikko 19. joulukuuta 2012

Tulevaisuutta ei saa sekoittaa menneisyyteen

Luin huolestuneena uutisointia raportista, jossa oli selvitetty Suomessa joukkosurmiin syyllistyneiden taustoja. Yhteisiä tekijöitä löytyi kaksi: tekijät ovat miehiä ja kärsivät mielenterveyden ongelmista. Minua huolestutti se, että ainakaan minun lukemassani uutisessa ei kerrottu, kuinka paljon mielenterveyden ongelmista kärsiviä miehiä Suomesta löytyy. Ehkä -- ja toivottavasti -- tämä mainitaan itse raportissa, koska tieto on erittäin olennainen: valtaosa (prosenttiosuus lienee vähintäänkin 99,9%) mielenterveysongelmaisista miehistä ei ole uhka kenellekään ulkopuoliselle.

Psykiatrisia mielenterveyspalveluja käyttää Suomessa kertaluokkaa sata tuhatta miestä (lähde: THL). Mielenterveysongelmista kärsivien miesten määrä on tuota vielä huomattavasti korkeampi; miehet valitettavasti hakeutuvat hoitoon naisia harvemmin.

On harhaanjohtavaa puhua mielenterveysongelmasta riskitekijänä. Riskitekijät arvioidaan ennen tapahtumaa eikä sen jälkeen. Tupakointi on riskitekijä kun puhutaan keuhkosyövästä. Se, että 90% keuhkosyöpää sairastavista on tupakoitsijoita, ei kuitenkaan ole riskin kannalta oleellinen: oleellista on ”toiseen suuntaan” menevä todennäköisyys eli tupakoitsijan todennäköisyys sairastua keuhkosyöpään.

Mielenterveystyötä Suomessa täytyy vaalia ja siihen täytyy osoittaa määrärahoja, mutta ei sillä perusteella, että näin estetään joukkosurmia, vaan sillä, että mielenterveyden ongelmista kärsiviä täytyy auttaa, olivat he uhkia tai ei. Mielenterveyden ongelmista kärsivät takuulla aavistavat, jos heihin aletaan suhtautua potentiaalisina uhkina. Miten tällainen potilas voi luottaa häntä hoitaviin lääkäreihin? Miten hoitoa tarvitsevat mutta sitä vaille jäävät toimivat huomattuaan, että uhkaavasti käyttäytymällä saa paremmin huomiota? Miten koulukiusattu reagoi aavistettuaan, että häntä on alettu pelätä?

---

Vaarana kaikissa jälkikäteen tehdyissä selvityksissä on se, että niissä menneisyys ja tulevaisuus menevät helposti sekaisin. Menneisyyteen on verrattain helppo katsoa ”deterministisellä otteella”, kun taas tulevaisuus on perustavalla tavalla epävarma, suorastaan epämääräinen: me emme voi edes aavistaa, mitä kaikkea maailmassa ylipäänsä voi tapahtua. Viime viikon tapahtumat Newtownissa USA:ssa ovat olleet tästä karmaiseva muistutus. Ja juuri ilmestyneen netti-Hesarin uutisen mukaan Hyvinkään ampumistapauksen välitön syy oli ”painihäviön aiheuttama raivo”.

Duncan J. Watts tekee myös kirjassaan Everything is Obvious tärkeän huomion: menneisyyttä selittäessämme kaikki huomiomme kiinnittyy siihen mitä tapahtui eikä lainkaan siihen mitä olisi voinut tapahtua. Lukemattomat tapahtumat -- esimerkiksi onnettomuudet -- ovat kuitenkin ”pienestä kiinni” ja yhteensattuman merkitys voi olla suuri. Aika harvoissa selityksissä korostetaan yhteensattuman tai satunnaisuuden merkitystä: selitykset ovat tosiaankin deterministisiä.

Joukkosurmaajien taustalta ”deterministisellä otteella” löytyneillä yhteisillä tekijöillä ei välttämättä ole minkäänlaista ennustearvoa tulevaisuutta ajatellen; ja todistuksen taakka on ilman muuta ennusteisiin uskovilla, ei niitä epäilevillä. Philip Tetlock kiteyttää ajatuksen teoksessaan Expert Political Judgment oivasti:

”retrospective explanations do not travel well into the future”

eli

”menneisyyden selittäminen ei ole matkalippu tulevaisuuteen”

Tetlock argumentoi myös varsin vakuuttavasti -- laajaan empiiriseen aineistoon perustuvaan tutkimukseen nojaamalla --, että sikäli kuin on kyse tulevaisuuden ennustamisesta, kukaan ei ole asiantuntija. Asiantuntijat eivät tuota oman asiantuntemuksensa alalta yhtään sen parempia ennusteita tulevaisuudesta kuin ei-asiantuntijat; tohtorintutkinnon suorittaneet eivät ole yhtään sen parempia ennustajia kuin muut; työkokemuksella ei myöskään ole merkitystä. Tämä on osoitus lähinnä siitä, että valtaosa ennusteista on yksinkertaisesti arvauksia.

Joukkosurmien sekä ennustaminen että ennakointi lienevät mahdottomia tehtäviä: väärät hälytykset jättävät jälkeensä armotonta tuhoa. Kyseessä ei ole ongelma vaan dilemma, pulma johon ei ole ratkaisua:

”Costs of misidentification and labeling of children as dangerous are very serious, as are those associated with failure to recognize those in need of help.”

eli

”Lasten leimaaminen virheellisesti vaarallisiksi on erittäin vakavaa; erittäin vakavaa on myös avun tarpeessa olevan huomaamatta jääminen.”

(lähde: Verlinden et al., 2000, Risk factors in school shootings, Clinical Psychology Review)

Tilastollinen tosiasia on valitettavasti se, että nämä kaksi -- virheellisen leimaamisen todennäköisyys ja todennäköisyys että avun tarpeessa oleva ei apua saa -- ovat toisilleen vastakkaisia: yhden todennäköisyyden pienentäminen automaattisesti kasvattaa toista.

Dilemma täytyy tunnistaa ja tunnustaa: kuinka monta nuorta mielenterveyden ongelmista kärsivää miestä olemme valmiita uhraamaan väärien hälytysten alttarilla?

---

Eikö mielenterveyden ongelmista kärsiville voida antaa hoitoa ja koulukiusaamiseen puuttua ilman että ketään leimataan potentiaaliseksi uhkaksi?

sunnuntai 2. joulukuuta 2012

Jos korrelaatio ei tarkoita mitään...

... niin mikä on vaihtoehto? Lienee hyvien tapojen mukaista ehdottaa vaihtoehtoja, jos jotain kritisoi. Seuraavassa muutama korrelaatiokertoimelle varsin käyttökelpoinen vaihtoehto, jotka ainakin minulle opetettiin jo tilastotieteen peruskursseilla.

1 -- Piirrä kuva. Jos tarkastelun kohteena on kaksi muuttujaa X ja Y, niin yksinkertainen kuvaaja (ns. scatterplot -- en valitettavasti tunne yhtään toimivaa suomennosta) antaa jo varsin hyvän kuvan assosiaation luonteesta, muodosta ja sen vahvuudesta (googlaamalla löytyy esimerkkejä pilvin pimein). Scatterplot-kuvaaja on monessa mielessä erittäin käyttökelpoinen. Ensinnäkin, siinä on mukana koko aineisto, eli assosiaatiota ei ole pelkistetty yhdeksi tunnusluvuksi. Scatterplot-kuvaajasta näkee selvästi myös molempien muuttujien vaihteluvälin aineistossa. Hyvin usein muuttujien välisestä assosiaatiosta saa tarpeeksi hyvän ymmärryksen ilman sen kummempia tilastollisia analyyseja. Yli 40 vuotta tilastollista tutkimusta erilaisilla aineistoilla tehnyt kollegani totesi osuvasti kuukauden takaisessa keskustelussamme, että jos tilastollista assosiaatiota ei saada havaittua ilman monimutkaisia tilastollisia menetelmiä, niin kyse ei voi olla käytännön kannalta merkittävästä assosiaatiosta. Tapanani kun on tarjota ilmaita lounaita, niin tässä taas siihen mahdollisuus: kumoa autenttisella esimerkillä kollegani väite.

2 -- Tee taulukko. Jos muuttujat ovat kategorisia (esim. X ja Y ovat tapahtumia, jotka siis joko tapahtuvat tai eivät tapahdu), ristiintaulukointi on ilman muuta paras vaihtoehto. Se kertoo tilastollisesta assosiaatiosta kaiken olennaisen. Ristiintaulukosta voi laskea varsin käyttökelpoisia ehdollisia todennäköisyyksiä: mikä on tapahtuman X:n todennäköisyys -- siis P(X) -- verrattuna sen todennäköisyyteen tilanteessa, jossa Y on tapahtunut -- siis P(X|Y)?

3 -- Jos käytät regressioanalyysia, tulkitse ei-standardoituja regressiokertoimia, ne kertovat kuinka paljon Y-muuttujan arvot vaihtelevat X-muuttujan arvojen vaihdellessa. Ei-standardoiduissa regressiokertoimissa on se hyvä puoli, että ne säilyttävät X:n ja Y:n alkuperäiset mittayksiköt.

4 -- Jatkoa edelliseen... laske regressioanalyysin perusteella Y:lle ennustevälejä. Monien käytännön sovellusten kannalta olennainen kysymys on se, kuinka tarkasti Y-muuttujan arvo pystytään ennustamaan X-muuttujien arvojen perusteella. Regressioanalyysin tulosten perusteella lasketut ennustevälit antavat tähän yksiselitteisen vastauksen. Kuten edellisessä kirjoituksessani jo totesin, ennustevälit tuppaavat olemaan hyvin vahvojenkin korrelaatioiden tapauksessa yllättävän leveitä. Yrityksen liikevaihdon ennustaminen henkilöstömäärän perusteella on hyvä esimerkki. Korrelaatiota 0,90 ei saa koskaan automaattisesti tulkita vahvaksi ainoastaan sen takia, että se nyt vaan on niin lähellä ykköstä.

5 -- Mieti, kuinka mielekäs tilastollisen assosiaation mittari ylipäänsä on. Tilastollisen assosiaation tunnusluvut ovat pääsääntöisesti otostason tendenssien mittareita. Mutta onko otostason tendenssi juuri se, johon pitäisi kiinnittää kyseisen tutkimuskysymyksen kohdalla huomiota? Ehkä mielenkiintoiset kysymykset eivät koskekaan aineiston yleisiä tendenssejä vaan sen ääriarvoja: erityisen hyvämaineiset yritykset, vakavasti masentuneet potilaat, poikkeuksellisen vahvan syrjinnän kohteeksi joutuneet maahanmuuttajat, ja niin edelleen. Tällöin vastaus tutkimuskysymykseen löytyy todennäköisemmin aineiston reunoilta eikä otostason tendensseistä. Tähän löytyy varsin mittava valikoima erilaisia työkaluja; ensimmäisenä tulee mieleen taloustieteessä käytetty Data Envelopment Analysis.

Eiväthän nämä vaihtoehdot tietenkään kaikkia edellisessä kirjoituksessani mainitsemia ongelmia poista, mutta ne helpottavat aika lailla itse tilastollisen assosiaation vahvuuden ja muodon ymmärrystä.

Uskottavaa ja perusteltua tulkintaa pohdittaessa tilastollinen päättely onkin sitten ainoastaan sivuosassa: tilastollinen päättely ei koskaan tuota tulkintaa.