Oma valokuva
Tarkoitukseni on saada lukija pohtimaan ja kysymään kysymyksiä. Tämän takia esitän tarkoituksella yleiselle ymmärrykselle vastakkaisia argumentteja. Teemat valitsen sen mukaan, missä valtavirralle vastakkaiset argumentit ovat mielestäni perusteltuja ja yhteiskunnallisesti tärkeitä. Konsensus on mielestäni usein sekä harhaanjohtavaa että vaarallista. Vaarana on ”yksimielisyyden illuusio”, joka on valitettavan yleinen älyllisen epärehellisyyden muoto: ollaan samaa mieltä, mutta kukaan ei oikein kykene perustelemaan miksi, saati sitten että perusteluista oltaisiin yhtä mieltä. Blogikirjoitukseni kumpuavat omasta päivätyöstäni tutkijana ja opettajana. Toiset käsittelevät yritysten toimintaan liittyviä kysymyksiä liiketaloustieteellisen tutkimuksen näkökulmasta. Toisissa taas käsittelen tieteen roolia yhteiskunnassa, jota pohdin ensisijaisesti tieteen käytäntöjen näkökulmasta -- siis siitä, millaista tiede on ihmisen harjoittamana toimintana. Monet teksteistäni heijastavat taustaani tilastotieteen soveltajana -- tilastollinen päättely on tärkein tutkimustyökaluni. Muokkaan toisinaan julkaistuja tekstejäkin uusien havaintojen tai saamani palautteen perusteella.

keskiviikko 19. joulukuuta 2012

Tulevaisuutta ei saa sekoittaa menneisyyteen

Luin huolestuneena uutisointia raportista, jossa oli selvitetty Suomessa joukkosurmiin syyllistyneiden taustoja. Yhteisiä tekijöitä löytyi kaksi: tekijät ovat miehiä ja kärsivät mielenterveyden ongelmista. Minua huolestutti se, että ainakaan minun lukemassani uutisessa ei kerrottu, kuinka paljon mielenterveyden ongelmista kärsiviä miehiä Suomesta löytyy. Ehkä -- ja toivottavasti -- tämä mainitaan itse raportissa, koska tieto on erittäin olennainen: valtaosa (prosenttiosuus lienee vähintäänkin 99,9%) mielenterveysongelmaisista miehistä ei ole uhka kenellekään ulkopuoliselle.

Psykiatrisia mielenterveyspalveluja käyttää Suomessa kertaluokkaa sata tuhatta miestä (lähde: THL). Mielenterveysongelmista kärsivien miesten määrä on tuota vielä huomattavasti korkeampi; miehet valitettavasti hakeutuvat hoitoon naisia harvemmin.

On harhaanjohtavaa puhua mielenterveysongelmasta riskitekijänä. Riskitekijät arvioidaan ennen tapahtumaa eikä sen jälkeen. Tupakointi on riskitekijä kun puhutaan keuhkosyövästä. Se, että 90% keuhkosyöpää sairastavista on tupakoitsijoita, ei kuitenkaan ole riskin kannalta oleellinen: oleellista on ”toiseen suuntaan” menevä todennäköisyys eli tupakoitsijan todennäköisyys sairastua keuhkosyöpään.

Mielenterveystyötä Suomessa täytyy vaalia ja siihen täytyy osoittaa määrärahoja, mutta ei sillä perusteella, että näin estetään joukkosurmia, vaan sillä, että mielenterveyden ongelmista kärsiviä täytyy auttaa, olivat he uhkia tai ei. Mielenterveyden ongelmista kärsivät takuulla aavistavat, jos heihin aletaan suhtautua potentiaalisina uhkina. Miten tällainen potilas voi luottaa häntä hoitaviin lääkäreihin? Miten hoitoa tarvitsevat mutta sitä vaille jäävät toimivat huomattuaan, että uhkaavasti käyttäytymällä saa paremmin huomiota? Miten koulukiusattu reagoi aavistettuaan, että häntä on alettu pelätä?

---

Vaarana kaikissa jälkikäteen tehdyissä selvityksissä on se, että niissä menneisyys ja tulevaisuus menevät helposti sekaisin. Menneisyyteen on verrattain helppo katsoa ”deterministisellä otteella”, kun taas tulevaisuus on perustavalla tavalla epävarma, suorastaan epämääräinen: me emme voi edes aavistaa, mitä kaikkea maailmassa ylipäänsä voi tapahtua. Viime viikon tapahtumat Newtownissa USA:ssa ovat olleet tästä karmaiseva muistutus. Ja juuri ilmestyneen netti-Hesarin uutisen mukaan Hyvinkään ampumistapauksen välitön syy oli ”painihäviön aiheuttama raivo”.

Duncan J. Watts tekee myös kirjassaan Everything is Obvious tärkeän huomion: menneisyyttä selittäessämme kaikki huomiomme kiinnittyy siihen mitä tapahtui eikä lainkaan siihen mitä olisi voinut tapahtua. Lukemattomat tapahtumat -- esimerkiksi onnettomuudet -- ovat kuitenkin ”pienestä kiinni” ja yhteensattuman merkitys voi olla suuri. Aika harvoissa selityksissä korostetaan yhteensattuman tai satunnaisuuden merkitystä: selitykset ovat tosiaankin deterministisiä.

Joukkosurmaajien taustalta ”deterministisellä otteella” löytyneillä yhteisillä tekijöillä ei välttämättä ole minkäänlaista ennustearvoa tulevaisuutta ajatellen; ja todistuksen taakka on ilman muuta ennusteisiin uskovilla, ei niitä epäilevillä. Philip Tetlock kiteyttää ajatuksen teoksessaan Expert Political Judgment oivasti:

”retrospective explanations do not travel well into the future”

eli

”menneisyyden selittäminen ei ole matkalippu tulevaisuuteen”

Tetlock argumentoi myös varsin vakuuttavasti -- laajaan empiiriseen aineistoon perustuvaan tutkimukseen nojaamalla --, että sikäli kuin on kyse tulevaisuuden ennustamisesta, kukaan ei ole asiantuntija. Asiantuntijat eivät tuota oman asiantuntemuksensa alalta yhtään sen parempia ennusteita tulevaisuudesta kuin ei-asiantuntijat; tohtorintutkinnon suorittaneet eivät ole yhtään sen parempia ennustajia kuin muut; työkokemuksella ei myöskään ole merkitystä. Tämä on osoitus lähinnä siitä, että valtaosa ennusteista on yksinkertaisesti arvauksia.

Joukkosurmien sekä ennustaminen että ennakointi lienevät mahdottomia tehtäviä: väärät hälytykset jättävät jälkeensä armotonta tuhoa. Kyseessä ei ole ongelma vaan dilemma, pulma johon ei ole ratkaisua:

”Costs of misidentification and labeling of children as dangerous are very serious, as are those associated with failure to recognize those in need of help.”

eli

”Lasten leimaaminen virheellisesti vaarallisiksi on erittäin vakavaa; erittäin vakavaa on myös avun tarpeessa olevan huomaamatta jääminen.”

(lähde: Verlinden et al., 2000, Risk factors in school shootings, Clinical Psychology Review)

Tilastollinen tosiasia on valitettavasti se, että nämä kaksi -- virheellisen leimaamisen todennäköisyys ja todennäköisyys että avun tarpeessa oleva ei apua saa -- ovat toisilleen vastakkaisia: yhden todennäköisyyden pienentäminen automaattisesti kasvattaa toista.

Dilemma täytyy tunnistaa ja tunnustaa: kuinka monta nuorta mielenterveyden ongelmista kärsivää miestä olemme valmiita uhraamaan väärien hälytysten alttarilla?

---

Eikö mielenterveyden ongelmista kärsiville voida antaa hoitoa ja koulukiusaamiseen puuttua ilman että ketään leimataan potentiaaliseksi uhkaksi?

sunnuntai 2. joulukuuta 2012

Jos korrelaatio ei tarkoita mitään...

... niin mikä on vaihtoehto? Lienee hyvien tapojen mukaista ehdottaa vaihtoehtoja, jos jotain kritisoi. Seuraavassa muutama korrelaatiokertoimelle varsin käyttökelpoinen vaihtoehto, jotka ainakin minulle opetettiin jo tilastotieteen peruskursseilla.

1 -- Piirrä kuva. Jos tarkastelun kohteena on kaksi muuttujaa X ja Y, niin yksinkertainen kuvaaja (ns. scatterplot -- en valitettavasti tunne yhtään toimivaa suomennosta) antaa jo varsin hyvän kuvan assosiaation luonteesta, muodosta ja sen vahvuudesta (googlaamalla löytyy esimerkkejä pilvin pimein). Scatterplot-kuvaaja on monessa mielessä erittäin käyttökelpoinen. Ensinnäkin, siinä on mukana koko aineisto, eli assosiaatiota ei ole pelkistetty yhdeksi tunnusluvuksi. Scatterplot-kuvaajasta näkee selvästi myös molempien muuttujien vaihteluvälin aineistossa. Hyvin usein muuttujien välisestä assosiaatiosta saa tarpeeksi hyvän ymmärryksen ilman sen kummempia tilastollisia analyyseja. Yli 40 vuotta tilastollista tutkimusta erilaisilla aineistoilla tehnyt kollegani totesi osuvasti kuukauden takaisessa keskustelussamme, että jos tilastollista assosiaatiota ei saada havaittua ilman monimutkaisia tilastollisia menetelmiä, niin kyse ei voi olla käytännön kannalta merkittävästä assosiaatiosta. Tapanani kun on tarjota ilmaita lounaita, niin tässä taas siihen mahdollisuus: kumoa autenttisella esimerkillä kollegani väite.

2 -- Tee taulukko. Jos muuttujat ovat kategorisia (esim. X ja Y ovat tapahtumia, jotka siis joko tapahtuvat tai eivät tapahdu), ristiintaulukointi on ilman muuta paras vaihtoehto. Se kertoo tilastollisesta assosiaatiosta kaiken olennaisen. Ristiintaulukosta voi laskea varsin käyttökelpoisia ehdollisia todennäköisyyksiä: mikä on tapahtuman X:n todennäköisyys -- siis P(X) -- verrattuna sen todennäköisyyteen tilanteessa, jossa Y on tapahtunut -- siis P(X|Y)?

3 -- Jos käytät regressioanalyysia, tulkitse ei-standardoituja regressiokertoimia, ne kertovat kuinka paljon Y-muuttujan arvot vaihtelevat X-muuttujan arvojen vaihdellessa. Ei-standardoiduissa regressiokertoimissa on se hyvä puoli, että ne säilyttävät X:n ja Y:n alkuperäiset mittayksiköt.

4 -- Jatkoa edelliseen... laske regressioanalyysin perusteella Y:lle ennustevälejä. Monien käytännön sovellusten kannalta olennainen kysymys on se, kuinka tarkasti Y-muuttujan arvo pystytään ennustamaan X-muuttujien arvojen perusteella. Regressioanalyysin tulosten perusteella lasketut ennustevälit antavat tähän yksiselitteisen vastauksen. Kuten edellisessä kirjoituksessani jo totesin, ennustevälit tuppaavat olemaan hyvin vahvojenkin korrelaatioiden tapauksessa yllättävän leveitä. Yrityksen liikevaihdon ennustaminen henkilöstömäärän perusteella on hyvä esimerkki. Korrelaatiota 0,90 ei saa koskaan automaattisesti tulkita vahvaksi ainoastaan sen takia, että se nyt vaan on niin lähellä ykköstä.

5 -- Mieti, kuinka mielekäs tilastollisen assosiaation mittari ylipäänsä on. Tilastollisen assosiaation tunnusluvut ovat pääsääntöisesti otostason tendenssien mittareita. Mutta onko otostason tendenssi juuri se, johon pitäisi kiinnittää kyseisen tutkimuskysymyksen kohdalla huomiota? Ehkä mielenkiintoiset kysymykset eivät koskekaan aineiston yleisiä tendenssejä vaan sen ääriarvoja: erityisen hyvämaineiset yritykset, vakavasti masentuneet potilaat, poikkeuksellisen vahvan syrjinnän kohteeksi joutuneet maahanmuuttajat, ja niin edelleen. Tällöin vastaus tutkimuskysymykseen löytyy todennäköisemmin aineiston reunoilta eikä otostason tendensseistä. Tähän löytyy varsin mittava valikoima erilaisia työkaluja; ensimmäisenä tulee mieleen taloustieteessä käytetty Data Envelopment Analysis.

Eiväthän nämä vaihtoehdot tietenkään kaikkia edellisessä kirjoituksessani mainitsemia ongelmia poista, mutta ne helpottavat aika lailla itse tilastollisen assosiaation vahvuuden ja muodon ymmärrystä.

Uskottavaa ja perusteltua tulkintaa pohdittaessa tilastollinen päättely onkin sitten ainoastaan sivuosassa: tilastollinen päättely ei koskaan tuota tulkintaa.

torstai 22. marraskuuta 2012

Korrelaatio ei tarkoita mitään

Kysyn tilastollisten menetelmien tutkijaseminaarin alussa opiskelijoilta, mitä tilastollinen korrelaatio tarkoittaa. Usein tarkennan kysymällä: jos korrelaatiokerroin kahden muuttujan X ja Y välillä on 0,56, niin mitä tämä tarkoittaa?

Tyypillinen vastaus on: 0,56 tarkoittaa melko vahvaa tai jopa vahvaa korrelaatiota. Näin kuulemma opetetaan tilastotieteen peruskurssilla. Myös Wikipedian mukaan 0,56 on tulkittavissa vahvaksi korrelaatioksi.

Tuo ei kuitenkaan ole vastaus esitettyyn kysymykseen. En kysynyt, onko 0,56 vahva korrelaatio vai ei, kysyin mitä korrelaatio 0,56 ylipäänsä tarkoittaa: mikä on 0,56?

”-10 astetta Celsiusta on jo aika kylmä” ei vastaa kysymykseen ”Mikä on Celsius-aste?” saati sitten kysymykseen ”Mitä lämpötila on ja millaisilla mittareilla sitä arvioidaan?” Sitä paitsi jos kontekstina on pakastimen lämpötila, niin -10 astettahan ei ole ”aika kylmä” vaan ennemminkin ”aivan liian lämmin”.

Olen vetänyt seminaaria 12 vuotta. Kertaakaan en ole saanut kysymykseen oikeaa vastausta. Syy tähän ei ole se, että opiskelijat ovat tyhmiä vaan yksinkertaisesti se, että korrelaatiokerroin ei tarkoita yhtään mitään; sille ei ole olemassa millään muotoa mielekästä tulkintaa.

Tilastollisen korrelaation määritelmät ja havainnollistukset ovat joko aritmeettisia (Pearsonin kaava) tai geometrisia (kahden regressiosuoran y=f[x] ja x=f[y] välisen kulman kosini) artefaktoja. Näille on aivan turha etsiä yksinkertaisia yleistajuisia tulkintoja. Siispä seminaarissa opiskelijoiden usein esittämään kysymykseen ”Voisitko antaa yleistajuisen tulkinnan korrelaatiokertoimelle?” vastaukseni on aina yhtä turhauttava: sellaista ei ole olemassa. Tilastollisessa analyysissa ja laajemmin tieteellisessä tutkimuksessa on aika vähän yksinkertaisia ja yleistajuisia asioita. Mene ja tiedä, olisikohan tämä syy, miksi tutkijalta vaaditaan tutkijan koulutus?

Tämän kirjoituksen voisi lopettaa tähän, jos kaikki ylläoleva otettaisiin tieteellisessä retoriikassa huomioon. Mutta todellisuus on päinvastainen: sekä tieteellisissä keskusteluissa että erityisesti tieteen popularisoinnissa korrelaatiokertoimesta puhutaan ja kirjoitetaan ikään kuin sen merkitys olisi yksiselitteisesti kaikkien tiedossa. Tottahan kaikki tietävät, mitä korrelaatio 0,56 tarkoittaa ja miten se tulkitaan; ne jotka eivät tiedä eivät vaan yksinkertaisesti ymmärrä tilastollista tutkimusta.

Pari vuotta sitten törmäsin aineistossa korrelaatioon, jonka vahvuus oli 0,82. Tarkempi analyysi osoitti, että muuttujien välinen yhteys oli kuitenkin tutkimuskysymystä ajatellen niin heikko, ettei sillä ollut oikeastaan mitään käytännön merkitystä. Syy oli se, että aineiston perusteella lasketut ennustevälit yksittäisille havainnoille olivat niin leveitä, että Y-muuttujalle ei saatu X-muuttujan perusteella käyttökelpoista ennustetta. Tämä ei ole ainoastaan yksittäistapaus, vaan erikoistapaus hyvin yleisestä ilmiöstä: hyvinkin vahvat korrelaatiot tuottavat yllättävän leveitä ennustevälejä.

Yritysten henkilöstömäärän ja liikevaihdon korrelaatio on noin 0,90. Henkilöstömäärä ja liikevaihto menevät siis käsi kädessä? Ei ihan, esimerkiksi Suomessa noin 500 henkeä työllistävien yritysten liikevaihdot vaihtelevat vajaasta sadasta miljoonasta aina miljardiin euroon asti.

Tulkinta on aina kontekstoitava.

Yksi sekaannusta aiheuttava tekijä saattaa hyvinkin olla se, että korrelaatio tarkoittaa tilastollisena käsitteenä hyvin eri asiaa kuin arkikielessä. Esimerkiksi www.dictionary.com antaa sanalle correlation synonyymeiksi seuraavia: similarity (=samankaltaisuus), equivalence (=vastaavuus) ja matching (=yhteensopiva). Näillä ei ole oikeastaan mitään tekemistä tilastollisen korrelaation määritelmän kanssa.

Seuraavassa muutama tärkeä huomio tilastollisesta korrelaatiosta, jolla tarkoitan tässä yhteydessä yleisimmin käytössä olevaa ns. Pearsonin korrelaatiokerrointa. Monet allaolevista huomioista pätevät moniin muihinkin tilastollisen assosiaation mittareihin.

---

1 -- Vahva korrelaatio ei ole merkki siitä, että X:n ja Y:n välillä on vahva yhteys. Se tarkoittaa ainoastaan, että muuttujien välinen yhteys on tietyn muotoinen (Pearsonin korrelaatiokertoimen tapauksessa: lineaarinen). Vastaavasti nollakorrelaatio ei automaattisesti tarkoita, että muuttujien välillä ei ole yhteyttä; muuttujien välinen yhteys voi olla sen muotoinen, että lineaarinen korrelaatiokerroin ei sitä rekisteröi. Tämä jälkimmäinen on tosin ainakin minun analysoimissani aineistoissa sangen harvinaista: olen omissa aineistoissani päätynyt nollakorrelaation havaittuani käytännössä aina siihen, että tilastollista (saati käytännön kannalta merkittävää) yhteyttä ei ole. En kuitenkaan suosittele tällaisen johtopäätöksen tekemistä automaattisesti vaan aineistoa tarkemmin tarkastelemalla.

2 -- Vahva korrelaatiokerroin ei tarkoita, että X:n muuttuessa paljon myös Y muuttuu paljon. Ensinnäkin, sana paljon menettää korrelaation kohdalla merkityksensä, tai oikeammin: sen merkitys muuttuu absoluuttisesta suhteelliseksi. Korrelaatiota laskettaessa muuttujat nimittäin standardoidaan niiden vaihtelun suhteen. Tämä tarkoittaa sitä, että korrelaatiolla ei oikeastaan ole mitään ymmärrettävää ja yksiselitteistä mittayksikköä. Korrelaatiota ei siis koskaan voida tulkita sen numeroarvon perusteella, koska tästä numeroarvosta on riisuttu pois sekä molempien muuttujien alkuperäiset mittayksiköt että niiden vaihteluväli aineistossa.

Jos minä haluan tietää, onko sinulla mukanasi tarpeeksi käteistä, niin vastauksesi ”minulla on lompakossani puoli keskihajontaa enemmän kuin keskimäärin” ei juurikaan lisää ymmärrystäni. Standardointi arkipäivän tilanteissa on hölmöläisen hommaa.

Miksi siis tieteellisessä tutkimuksessa aineisto standardoidaan tilastollisia assosiaatioita laskiessa? Erittäin hyvä kysymys, johon en itse osaa vastata. Eivät osaa tosin monet muutkaan tutkijat, jotka standardointia harjoittavat. Ilmeisesti se on yksi tilastollisen tutkimuksen tapa, jonka mielekkyyttä ei sen kummemmin pysähdytä miettimään. Lähes aina kun itse pysähdyn pohtimaan kysymystä yksittäisen aineiston tai analyysin kohdalla, päädyn siihen, että standardointia ei kannata tehdä.

Nämä ovat yhtäältä teknisiä detaljeja, mutta toisaalta niiden seuraamukset ovat sekä konkreettiset että merkittävät: korrelaatiokerroin ei kerro yhtään mitään siitä, onko jotain (vaihtelua, tilastollista yhteyttä, kausaalista vaikutusta) absoluuttisessa mielessä vähän tai paljon. Käytännön merkittävyyttä arvioidaan kuitenkin ensisijaisesti absoluuttisen eikä suhteellisen efektin kautta; suhteelliset efektit eivät ole käytännön päätöksentekotilanteissa kovinkaan relevantteja. Jos jokin lääke puolittaa sairastumisen todennäköisyyden, niin lienee relevanttia kysyä: kuinka suuri sairastumisen todennäköisyys ylipäätään on? Verbin puolittaa käytännön merkitys kun ymmärrettävästi riippuu täysin siitä, minkä suuruista todennäköisyyttä ollaan puolittamassa.

Otoskeskihajonnalla standardointi tarkoittaa myös sitä, että kahden eri tutkimusaineiston perusteella lasketut korrelaatiokertoimet ovat vertailukelpoisia ainoastaan jos tarkasteltujen muuttujien otosvarianssit ovat aineistoissa identtisiä; en ole tutkijanurani aikana törmännyt kertaakaan tilanteeseen, jossa otosvarianssit olisivat niin lähellä toisiaan, että korrelaatiokertoimia voidaan verrata. Jos siis ruotsalaisella otoksella laskettu korrelaatio on 0,50 ja suomalaisella otoksella laskettu korrelaatio 0,25, niin johtopäätös ”Ruotsin aineistossa yhteys on kaksi kertaa niin vahva kuin Suomen aineistossa” ei ole mitenkään perusteltu. Ja itse asiassa vaikka se olisikin, niin ainakaan minä en tiedä mitä tuo ”kaksi kertaa niin vahva” oikeasti tarkoittaa, koska... niin, koska korrelaatiokerroin ei tarkoita yhtään mitään.

Korrelaatiokerroin ei tyypillisissä tilastollisissa tutkimuksissa myöskään kerro muutoksesta yhtään mitään: kun tilastollisissa tutkimuksissa todetaan, että ”X:n muuttuessa myös Y muuttuu”, niin tällöin tarkoitetaan otoksen havaintoyksikköjen välisiä eroja X:n ja Y:n arvoissa, ei suinkaan yksittäisessä havaintoyksikössä ajassa tapahtuvaa muutosta. Verbiä muuttua käytetään siis sangen erikoisessa merkityksessä; niin erikoisessa, että muutoksesta puhuminen tilastollisten poikkileikkausaineistojen -- ja yllättävää kyllä, myös monien seuranta-aineistojen! -- kohdalla on erittäin harhaanjohtavaa. Yksi syy tähän voi olla se, että merkitykseltään kaksi hyvin erilaista englannin kielen verbiä to change and to vary käännetään molemmat usein suomen kielelle samaksi verbiksi muuttua. Kun lisäksi englanninkielisissä tilastoteksteissä käytetään usein verbiä to change kun pitäisi käyttää to vary, niin väärinymmärryksen todennäköisyys on maksimoitu.

Liiketaloustieteellisissä poikkileikkausaineistoissa on esimerkiksi havaittu yrityksen koon ja toimitusjohtajan palkan välillä hyvin vahva positiivinen yhteys. Mutta kun tarkastellaan ajassa yksittäisen yrityksen koon muutosta ja saman yrityksen toimitusjohtajan palkan muutosta, huomataankin yhteyden olevan varsin heikko (Lambert R. A., D. F. Larcker and K. Weigelt, 1991. ”How sensitive is executive compensation to organizational size?” Strategic Management Journal, vol. 12, no. 5, 395-402).

3 -- Korrelaatio ei kerro kausaalisuudesta yhtään mitään. Tämä tuttu hokema opetetaan jo tilastotieteen peruskurssilla, mutta niin kauan kuin se saman tien unohdetaan, on paikallaan muistuttaa asiasta. Sekä tieteellisissä keskusteluissa että tulosten popularisoinnissa korrelaation tulkintaan nimittäin salakuljetetaan käytännössä aina jonkinlainen ajatus kausaalisuudesta, jolle aineisto ja tilastollinen analyysi eivät anna oikeastaan minkäänlaista metodologista oikeutusta. Syitä on lukuisia, mainitsen tässä kaksi.

Selvin syy on minusta se, että korrelaatio lasketaan aina otoksen tasolla (korrelaatio on perusjoukon parametri), mutta mielenkiinnon kohteena olevat kausaalimekanismit -- sikäli kuin sellaisia on olemassa -- eivät juuri koskaan operoi perusjoukon vaan havaintoyksikön tasolla. Otostason korrelaation kausaalinen tulkinta on valtaosassa tapauksista ei enempää eikä vähempää kuin kategoriavirheen erikoistapaus. Ja kategoriavirhehän ei ole pieni kauneusvirhe vaan metodologisesti fataali.

Tilastollisen tutkimuksen tuloksia tulkittaessa tehdään hämmentävän usein seuraava ajatusvirhe: jos aineisto koostuu sadasta havaintoyksiköstä, joista kaikista on yksi havainto, niin tulokset kuitenkin tulkitaan ikäänkuin olisi tehty sata havaintoa yhdestä ja samasta havaintoyksiköstä.

Toinen syy miksi korrelaation kausaalisessa tulkinnassa on syytä olla varovainen on se, että tyypillisissä tilastollisissa tutkimuksissa mallien selittävät eli eksogeeniset muuttujat ainoastaan havainnoidaan, niitä ei manipuloida (vrt. kokeellinen tutkimus). Hyvin usein tulokset tulkitaan kausaalisesti (X->Y) ikään kuin X olisikin ollut kokeellisesti manipuloitu muuttuja. Kun siis aikoinaan tilastollisen analyysin perusteella toimitusjohtajan sukupuolella (X) väitettiin olevan kausaalinen yhteys yrityksen suorituskykyyn (Y), tehtiin implisiittinen metodologinen oletus, että toimitusjohtajat valikoituvat yritysten johtotehtäviin satunnaisesti. Voiko tämän väärempää oletusta enää tehdä?

Kumpi on fiksumpaa: (a) tehdä aineiston perusteella metodologisesti perustelematon, spekulatiivinen johtopäätös kahden muuttujan välisestä kausaalivaikutuksesta vai (b) jättää johtopäätös tekemättä? Mikä tieteellisen tutkimuksen periaate mahtaisi perustella vaihtoehdon (a) valinnan?

Pidätkö uskottavana sellaista lääketutkimusta, johon osallistuvat saavat itse valita, laitetaanko heidät oikeaa lääkettä vai lumelääkettä saavaan ryhmään?

4 -- Tekstiäni lukeva luonnontieteilijä saattaa tuudittautua ajatukseen, että kirjoitan yhteiskuntatieteiden ongelmista. Kokeellinen tutkimus -- luonnontieteellistä tai ei -- ei ole kuitenkaan kausaalisuuden suhteen oikeastaan yhtään sen autuaampaa kuin havaintoaineistoihin perustuva tutkimuskaan. Lienee myös paikallaan muistuttaa, että huomattava osa luonnontieteen tutkimusta ei ole kokeellisiin vaan havaintoaineistoihin perustuvaa.

Kokeellisessa tutkimuksessa on tietysti omat kiistattomat vahvuutensa. Jos muuttujaa X voidaan koeasetelmassa manipuloida, niin tällöin voidaan toki tehdä metodologisesti vahvempia johtopäätöksiä kausaalisuudesta, koska X on tilastollisissa malleissa ns. aidosti eksogeeninen muuttuja. Mutta tämä kausaalisuus havaitaan kontrolloidussa koetilanteessa, jossa ulkoiset häiriötekijät on suljettu pois. Mitä tapahtuu kausaaliefektille tilanteessa, jossa kaikki hairiötekijät ovat läsnä sekä (a) vaikuttamassa vastemuuttujaan Y että (b) häiritsemässä kokeellisesti manipuloidun tekijän X vaikutusta vastemuuttujaan Y? Lisäksi on muistettava, että muuttuja X ei todennäköisesti käyttäydy tosielämässä samalla lailla kuin koetilanteessa manipuloitaessa ja/tai että X:n luonnollinen vaihtelu on jotain aivan erilaista kuin koetilanteessa: X saattaa olla esimerkiksi muuttuja, jonka arvoon vaikuttaa olennaisesti yksilön valinta. Jätänkö lääkkeeni ottamatta sivuvaikutusten takia? Tilastotieteen termein: X ei koetilanteen ulkopuolella olekaan enää eksogeeninen vaan endogeeninen muuttuja.

Esim. lääketieteellisessä tutkimuksessa on aina tärkeää erottaa lääkkeen tai hoidon kliinisissä tutkimuksissa havaittu tehokkuus (efficacy) sen tehokkuudesta ihmisten jokapäiväisessä elämässä (effectiveness). Se, että nämä kaksi tehokkuutta eroteltaisiin hyvin selvästi sekä tieteellisissä keskusteluissa että kuluttajille suunnatussa mainonnassa, taitaa jäädä ainoastaan toiveeksi.

---

Jos tämä teksti sai lukijansa solmuun, niin viestini meni perille: uskon vakaasti siihen, että on paljon rakentavampaa tunnistaa asioiden monimutkaisuus kuin olettaa vastaukset yksinkertaisiksi. Pearsonin korrelaatiohan tyypillisesti käsitellään jo lukiomatematiikan kursseilla. Olisi julmetun mielenkiintoista olla kärpäsenä katossa kuuntelemassa, miten teemaa käsitellään. Omasta lukioajastani muistan nimittäin lähinnä sen, että vaikka kuinka kauan Pearsonin kaavaa tuijotin, vääntelin ja kääntelin, en tajunnut siitä juuri mitään; en millään ymmärtänyt, mitä hyötyä on siitä, että X:n ja Y:n kovarianssi jaetaan muuttujien keskihajonnoilla.

Jostain syystä ymmärrykseni ei noista päivistä ole juurikaan lisääntynyt.

perjantai 18. toukokuuta 2012

Argumentti ei ole uskon asia


Esitin aikaisemmassa blogikirjoituksessani argumentin, joka kiteytyi ajatukseen: yrityksen kasvu ei luo työpaikkoja. Ei liene yllättävää, että juuri tämä kirjoitus on aiheuttanut jonkin verran vasta-argumentteja ja aika kiivastakin kritiikkiä.

Voisi olla paikallaan hiukan pohtia sitä, mitä argumentillani tarkoitin, ja mitä argumentointi mielestäni yleisemmällä tasolla on.

Ensinnäkin, argumenttini ei tarkoita sitä, että yksikään kasvuyritys ei koskaan luo uusia työpaikkoja. Erityisesti yhteiskuntatieteellisten argumenttien kohdalla on tärkeää muistaa, että yhdenkään argumentin tarkoitus ei ole kattaa kaikkia niitä yksittäisiä maailman tapahtumia, jotka väitteen empiiriseen piiriin kuuluvat. Se, että joku esittää esimerkin yrityksestä, joka on aidosti luonut uusia työpaikkoja, ei osoita väitettäni vääräksi yhtään enempää kuin se, että minä esitän väitteeni oikeaksi kaivamalla esiin esimerkin yrityksestä, joka on kasvanut, mutta jonka vaikutus Suomen nettotyöllisyyteen on ollut nolla (näitä löytyy hyvin helposti vaikka kuinka paljon). Argumentointi ei ole irtokarkkikaupassa asioimista, jossa saa poimia eri laareista pussiinsa sellaisia karkkeja, joista itse pitää.

Kaikilla argumenteilla on meriittiä, toisilla enemmän ja toisilla vähemmän. Minun tulkintani mukaan argumentilla ”kasvuyritykset eivät luo uusia työpaikkoja” on enemmän meriittiä kuin argumentilla ”kasvuyritykset luovat uusia työpaikkoja”. Perusteluni on empiirinen: valtaosa Suomessa kasvuyritysten palvelukseen rekrytoiduista henkilöistä on jo valmiiksi työllistyneitä ja/tai työllistyisi muutenkin; käsite ”uusi työpaikka” on epämääräinen ja (ilmeisen tarkoitushakuisesti) harhaanjohtava. Tämä ei kumoa argumenttia ”kasvuyritykset luovat uusia työpaikkoja”, mutta vie siltä merkittävällä tavalla meriittiä; tämä oli argumenttini ydin. Jos tähän on olemassa vasta-argumentti, niin olen pelkkänä korvana. Ainakaan minun argumenttiani suoraan kritisoineet eivät ole sellaista esittäneet. Jos he sellaisen esittävät ja jos se on uskottava, niin alkuperäisen argumentin meriitti tietysti kasvaa.

Argumentti ei siis ole lause, jonka totuusarvo (tosi/epätosi) on yksiselitteinen, saati sitten olennainen ja mielekäs -- ei ainakaan niillä tieteenaloilla, joita itse tunnen. Aika harva tieteenala tuottaa ”rasti ruutuun” -tyyppistä tietoa. Julkinen keskustelu ”viimeisimmistä tutkimustuloksista” on tietysti sitten ihan eri asiansa. Meillä näyttää valitettavasti olevan jostain syystä kollektiivinen psykologinen pakko vetää mutkat suoriksi: kun yhteys kahden asian välillä on löydetty, niin missään kohtaa ei mainita, kuinka vahvasta yhteydestä on kyse. Yksi syy tähän voi tietysti olla se, että valtaosa tieteellisessä tutkimuksessa löydetyistä yhteyksistä on käytännön kannalta niin merkityksettömiä, että havaitun yhteyden vahvuuden paljastaminen vesittäisi uutisen täysin.

Argumenttini ei siis tarkoita sitä, että uskon sataprosenttisesti siihen, että kasvuyritykset eivät luo työpaikkoja. Argumentissa ei yleensäkään ole kyse siitä mihin argumentin esittäjä uskoo. Yritysten kasvusta ja talouskasvusta ei ole olemassa yhtä totuutta, jota kaikki teemaa tutkivat yhdessä etsivät. Tällainen ajatus on romantisoitua toiveajattelua sekä (talous)tieteen harjoittamisesta että yhteiskunnallisen todellisuuden perusluonteesta. Tai tarkemmin: jos tällaisesta naiivista ontologisesta realismista halutaan pitää kiinni, niin todellisuus täytynee määritellä tavalla, joka on ainakin kaikkien vähänkään relevanttien yhteiskunnallisten ongelmien ratkaisun näkökulmasta täysin tyhjänpäiväinen.

Kaikki selitykset ovat ensisijaisesti tulkintoja, eivät kuvia maailmasta sinänsä. Jokainen tulkinta perustuu havaintoaineiston lisäksi perusoletuksiin, joiden metodologinen perusta on aina hyvin häilyvä. Itse asiassa kaikki tutkimusaineistotkin ovat osaltaan oletusten tuottamia: yrityksen kasvua ei voida alkaa mittaamaan ja analysoimaan ennenkuin käsite on määritelty; määritelmä ei ole millään muotoa objektiivinen vaan edustaa aina jotain paradigmaa. Esimerkiksi yleisesti käytössä oleva OECD:n määritelmä perustuu henkilöstömäärän kasvuun; liikevaihdon tai jalostusarvon kasvattaminen ei siis riitä. OECD ei ole tieteellinen vaan poliittinen organisaatio.

Taloudesta on aina olemassa ”sata totuutta”, niin kuin professori Bengt Holmström osuvasti totesi TV-haastattelussa vuosi pari sitten. Meitä tutkijoita (erityisesti taloustieteilijöitä) haukutaan monesti siitä, että emme ”kykene” esittämään yksiselitteisiä tulkintoja. Kriitikoille vastaan toteamalla, että kyllä meistä jokainen siihen kykenee, mutta aika harva pitää sitä mielekkäänä.

Itse tunnistan tieteestä yhden totuuden, joka on tämä: monimutkaiseen kysymykseen ei voi olla olemassa yksinkertaista vastausta. Ajatus tunnetaan yleisessä systeemiteoriassa nimellä Ashby’s Rule of Requisite Variety.

Edesmennyt talousnobelisti Herbert Simon totesi aikoinaan, että ”jos tuntuu että jokin näkökulma saa ajatuksissasi liikaa tilaa, niin liity hetkeksi vastakkaista näkökulmaa edustavien joukkoon”. Tiedeyhteisö olisi minusta paljon stimuloivampi ja mielenkiintoisempi paikka, jos tutkijat ottaisivat tästä neuvosta vaarin.

Ajatus siitä, että se mihin minä uskon olisi argumenttini kannalta edes relevanttia, on loppujen lopuksi varsin tympeää narsismia. Kollegallani oli tapana muistuttaa -- erittäin osuvasti -- aloitteleville tohtoriopiskelijoille ensimmäisessä seminaarissa: tutkimuksen tekemisessä ei ole kyse sinusta.