Oma valokuva
Tarkoitukseni on saada lukija pohtimaan ja kysymään kysymyksiä. Tämän takia esitän tarkoituksella yleiselle ymmärrykselle vastakkaisia argumentteja. Teemat valitsen sen mukaan, missä valtavirralle vastakkaiset argumentit ovat mielestäni perusteltuja ja yhteiskunnallisesti tärkeitä. Konsensus on mielestäni usein sekä harhaanjohtavaa että vaarallista. Vaarana on ”yksimielisyyden illuusio”, joka on valitettavan yleinen älyllisen epärehellisyyden muoto: ollaan samaa mieltä, mutta kukaan ei oikein kykene perustelemaan miksi, saati sitten että perusteluista oltaisiin yhtä mieltä. Blogikirjoitukseni kumpuavat omasta päivätyöstäni tutkijana ja opettajana. Toiset käsittelevät yritysten toimintaan liittyviä kysymyksiä liiketaloustieteellisen tutkimuksen näkökulmasta. Toisissa taas käsittelen tieteen roolia yhteiskunnassa, jota pohdin ensisijaisesti tieteen käytäntöjen näkökulmasta -- siis siitä, millaista tiede on ihmisen harjoittamana toimintana. Monet teksteistäni heijastavat taustaani tilastotieteen soveltajana -- tilastollinen päättely on tärkein tutkimustyökaluni. Muokkaan toisinaan julkaistuja tekstejäkin uusien havaintojen tai saamani palautteen perusteella.

torstai 22. marraskuuta 2012

Korrelaatio ei tarkoita mitään

Kysyn tilastollisten menetelmien tutkijaseminaarin alussa opiskelijoilta, mitä tilastollinen korrelaatio tarkoittaa. Usein tarkennan kysymällä: jos korrelaatiokerroin kahden muuttujan X ja Y välillä on 0,56, niin mitä tämä tarkoittaa?

Tyypillinen vastaus on: 0,56 tarkoittaa melko vahvaa tai jopa vahvaa korrelaatiota. Näin kuulemma opetetaan tilastotieteen peruskurssilla. Myös Wikipedian mukaan 0,56 on tulkittavissa vahvaksi korrelaatioksi.

Tuo ei kuitenkaan ole vastaus esitettyyn kysymykseen. En kysynyt, onko 0,56 vahva korrelaatio vai ei, kysyin mitä korrelaatio 0,56 ylipäänsä tarkoittaa: mikä on 0,56?

”-10 astetta Celsiusta on jo aika kylmä” ei vastaa kysymykseen ”Mikä on Celsius-aste?” saati sitten kysymykseen ”Mitä lämpötila on ja millaisilla mittareilla sitä arvioidaan?” Sitä paitsi jos kontekstina on pakastimen lämpötila, niin -10 astettahan ei ole ”aika kylmä” vaan ennemminkin ”aivan liian lämmin”.

Olen vetänyt seminaaria 12 vuotta. Kertaakaan en ole saanut kysymykseen oikeaa vastausta. Syy tähän ei ole se, että opiskelijat ovat tyhmiä vaan yksinkertaisesti se, että korrelaatiokerroin ei tarkoita yhtään mitään; sille ei ole olemassa millään muotoa mielekästä tulkintaa.

Tilastollisen korrelaation määritelmät ja havainnollistukset ovat joko aritmeettisia (Pearsonin kaava) tai geometrisia (kahden regressiosuoran y=f[x] ja x=f[y] välisen kulman kosini) artefaktoja. Näille on aivan turha etsiä yksinkertaisia yleistajuisia tulkintoja. Siispä seminaarissa opiskelijoiden usein esittämään kysymykseen ”Voisitko antaa yleistajuisen tulkinnan korrelaatiokertoimelle?” vastaukseni on aina yhtä turhauttava: sellaista ei ole olemassa. Tilastollisessa analyysissa ja laajemmin tieteellisessä tutkimuksessa on aika vähän yksinkertaisia ja yleistajuisia asioita. Mene ja tiedä, olisikohan tämä syy, miksi tutkijalta vaaditaan tutkijan koulutus?

Tämän kirjoituksen voisi lopettaa tähän, jos kaikki ylläoleva otettaisiin tieteellisessä retoriikassa huomioon. Mutta todellisuus on päinvastainen: sekä tieteellisissä keskusteluissa että erityisesti tieteen popularisoinnissa korrelaatiokertoimesta puhutaan ja kirjoitetaan ikään kuin sen merkitys olisi yksiselitteisesti kaikkien tiedossa. Tottahan kaikki tietävät, mitä korrelaatio 0,56 tarkoittaa ja miten se tulkitaan; ne jotka eivät tiedä eivät vaan yksinkertaisesti ymmärrä tilastollista tutkimusta.

Pari vuotta sitten törmäsin aineistossa korrelaatioon, jonka vahvuus oli 0,82. Tarkempi analyysi osoitti, että muuttujien välinen yhteys oli kuitenkin tutkimuskysymystä ajatellen niin heikko, ettei sillä ollut oikeastaan mitään käytännön merkitystä. Syy oli se, että aineiston perusteella lasketut ennustevälit yksittäisille havainnoille olivat niin leveitä, että Y-muuttujalle ei saatu X-muuttujan perusteella käyttökelpoista ennustetta. Tämä ei ole ainoastaan yksittäistapaus, vaan erikoistapaus hyvin yleisestä ilmiöstä: hyvinkin vahvat korrelaatiot tuottavat yllättävän leveitä ennustevälejä.

Yritysten henkilöstömäärän ja liikevaihdon korrelaatio on noin 0,90. Henkilöstömäärä ja liikevaihto menevät siis käsi kädessä? Ei ihan, esimerkiksi Suomessa noin 500 henkeä työllistävien yritysten liikevaihdot vaihtelevat vajaasta sadasta miljoonasta aina miljardiin euroon asti.

Tulkinta on aina kontekstoitava.

Yksi sekaannusta aiheuttava tekijä saattaa hyvinkin olla se, että korrelaatio tarkoittaa tilastollisena käsitteenä hyvin eri asiaa kuin arkikielessä. Esimerkiksi www.dictionary.com antaa sanalle correlation synonyymeiksi seuraavia: similarity (=samankaltaisuus), equivalence (=vastaavuus) ja matching (=yhteensopiva). Näillä ei ole oikeastaan mitään tekemistä tilastollisen korrelaation määritelmän kanssa.

Seuraavassa muutama tärkeä huomio tilastollisesta korrelaatiosta, jolla tarkoitan tässä yhteydessä yleisimmin käytössä olevaa ns. Pearsonin korrelaatiokerrointa. Monet allaolevista huomioista pätevät moniin muihinkin tilastollisen assosiaation mittareihin.

---

1 -- Vahva korrelaatio ei ole merkki siitä, että X:n ja Y:n välillä on vahva yhteys. Se tarkoittaa ainoastaan, että muuttujien välinen yhteys on tietyn muotoinen (Pearsonin korrelaatiokertoimen tapauksessa: lineaarinen). Vastaavasti nollakorrelaatio ei automaattisesti tarkoita, että muuttujien välillä ei ole yhteyttä; muuttujien välinen yhteys voi olla sen muotoinen, että lineaarinen korrelaatiokerroin ei sitä rekisteröi. Tämä jälkimmäinen on tosin ainakin minun analysoimissani aineistoissa sangen harvinaista: olen omissa aineistoissani päätynyt nollakorrelaation havaittuani käytännössä aina siihen, että tilastollista (saati käytännön kannalta merkittävää) yhteyttä ei ole. En kuitenkaan suosittele tällaisen johtopäätöksen tekemistä automaattisesti vaan aineistoa tarkemmin tarkastelemalla.

2 -- Vahva korrelaatiokerroin ei tarkoita, että X:n muuttuessa paljon myös Y muuttuu paljon. Ensinnäkin, sana paljon menettää korrelaation kohdalla merkityksensä, tai oikeammin: sen merkitys muuttuu absoluuttisesta suhteelliseksi. Korrelaatiota laskettaessa muuttujat nimittäin standardoidaan niiden vaihtelun suhteen. Tämä tarkoittaa sitä, että korrelaatiolla ei oikeastaan ole mitään ymmärrettävää ja yksiselitteistä mittayksikköä. Korrelaatiota ei siis koskaan voida tulkita sen numeroarvon perusteella, koska tästä numeroarvosta on riisuttu pois sekä molempien muuttujien alkuperäiset mittayksiköt että niiden vaihteluväli aineistossa.

Jos minä haluan tietää, onko sinulla mukanasi tarpeeksi käteistä, niin vastauksesi ”minulla on lompakossani puoli keskihajontaa enemmän kuin keskimäärin” ei juurikaan lisää ymmärrystäni. Standardointi arkipäivän tilanteissa on hölmöläisen hommaa.

Miksi siis tieteellisessä tutkimuksessa aineisto standardoidaan tilastollisia assosiaatioita laskiessa? Erittäin hyvä kysymys, johon en itse osaa vastata. Eivät osaa tosin monet muutkaan tutkijat, jotka standardointia harjoittavat. Ilmeisesti se on yksi tilastollisen tutkimuksen tapa, jonka mielekkyyttä ei sen kummemmin pysähdytä miettimään. Lähes aina kun itse pysähdyn pohtimaan kysymystä yksittäisen aineiston tai analyysin kohdalla, päädyn siihen, että standardointia ei kannata tehdä.

Nämä ovat yhtäältä teknisiä detaljeja, mutta toisaalta niiden seuraamukset ovat sekä konkreettiset että merkittävät: korrelaatiokerroin ei kerro yhtään mitään siitä, onko jotain (vaihtelua, tilastollista yhteyttä, kausaalista vaikutusta) absoluuttisessa mielessä vähän tai paljon. Käytännön merkittävyyttä arvioidaan kuitenkin ensisijaisesti absoluuttisen eikä suhteellisen efektin kautta; suhteelliset efektit eivät ole käytännön päätöksentekotilanteissa kovinkaan relevantteja. Jos jokin lääke puolittaa sairastumisen todennäköisyyden, niin lienee relevanttia kysyä: kuinka suuri sairastumisen todennäköisyys ylipäätään on? Verbin puolittaa käytännön merkitys kun ymmärrettävästi riippuu täysin siitä, minkä suuruista todennäköisyyttä ollaan puolittamassa.

Otoskeskihajonnalla standardointi tarkoittaa myös sitä, että kahden eri tutkimusaineiston perusteella lasketut korrelaatiokertoimet ovat vertailukelpoisia ainoastaan jos tarkasteltujen muuttujien otosvarianssit ovat aineistoissa identtisiä; en ole tutkijanurani aikana törmännyt kertaakaan tilanteeseen, jossa otosvarianssit olisivat niin lähellä toisiaan, että korrelaatiokertoimia voidaan verrata. Jos siis ruotsalaisella otoksella laskettu korrelaatio on 0,50 ja suomalaisella otoksella laskettu korrelaatio 0,25, niin johtopäätös ”Ruotsin aineistossa yhteys on kaksi kertaa niin vahva kuin Suomen aineistossa” ei ole mitenkään perusteltu. Ja itse asiassa vaikka se olisikin, niin ainakaan minä en tiedä mitä tuo ”kaksi kertaa niin vahva” oikeasti tarkoittaa, koska... niin, koska korrelaatiokerroin ei tarkoita yhtään mitään.

Korrelaatiokerroin ei tyypillisissä tilastollisissa tutkimuksissa myöskään kerro muutoksesta yhtään mitään: kun tilastollisissa tutkimuksissa todetaan, että ”X:n muuttuessa myös Y muuttuu”, niin tällöin tarkoitetaan otoksen havaintoyksikköjen välisiä eroja X:n ja Y:n arvoissa, ei suinkaan yksittäisessä havaintoyksikössä ajassa tapahtuvaa muutosta. Verbiä muuttua käytetään siis sangen erikoisessa merkityksessä; niin erikoisessa, että muutoksesta puhuminen tilastollisten poikkileikkausaineistojen -- ja yllättävää kyllä, myös monien seuranta-aineistojen! -- kohdalla on erittäin harhaanjohtavaa. Yksi syy tähän voi olla se, että merkitykseltään kaksi hyvin erilaista englannin kielen verbiä to change and to vary käännetään molemmat usein suomen kielelle samaksi verbiksi muuttua. Kun lisäksi englanninkielisissä tilastoteksteissä käytetään usein verbiä to change kun pitäisi käyttää to vary, niin väärinymmärryksen todennäköisyys on maksimoitu.

Liiketaloustieteellisissä poikkileikkausaineistoissa on esimerkiksi havaittu yrityksen koon ja toimitusjohtajan palkan välillä hyvin vahva positiivinen yhteys. Mutta kun tarkastellaan ajassa yksittäisen yrityksen koon muutosta ja saman yrityksen toimitusjohtajan palkan muutosta, huomataankin yhteyden olevan varsin heikko (Lambert R. A., D. F. Larcker and K. Weigelt, 1991. ”How sensitive is executive compensation to organizational size?” Strategic Management Journal, vol. 12, no. 5, 395-402).

3 -- Korrelaatio ei kerro kausaalisuudesta yhtään mitään. Tämä tuttu hokema opetetaan jo tilastotieteen peruskurssilla, mutta niin kauan kuin se saman tien unohdetaan, on paikallaan muistuttaa asiasta. Sekä tieteellisissä keskusteluissa että tulosten popularisoinnissa korrelaation tulkintaan nimittäin salakuljetetaan käytännössä aina jonkinlainen ajatus kausaalisuudesta, jolle aineisto ja tilastollinen analyysi eivät anna oikeastaan minkäänlaista metodologista oikeutusta. Syitä on lukuisia, mainitsen tässä kaksi.

Selvin syy on minusta se, että korrelaatio lasketaan aina otoksen tasolla (korrelaatio on perusjoukon parametri), mutta mielenkiinnon kohteena olevat kausaalimekanismit -- sikäli kuin sellaisia on olemassa -- eivät juuri koskaan operoi perusjoukon vaan havaintoyksikön tasolla. Otostason korrelaation kausaalinen tulkinta on valtaosassa tapauksista ei enempää eikä vähempää kuin kategoriavirheen erikoistapaus. Ja kategoriavirhehän ei ole pieni kauneusvirhe vaan metodologisesti fataali.

Tilastollisen tutkimuksen tuloksia tulkittaessa tehdään hämmentävän usein seuraava ajatusvirhe: jos aineisto koostuu sadasta havaintoyksiköstä, joista kaikista on yksi havainto, niin tulokset kuitenkin tulkitaan ikäänkuin olisi tehty sata havaintoa yhdestä ja samasta havaintoyksiköstä.

Toinen syy miksi korrelaation kausaalisessa tulkinnassa on syytä olla varovainen on se, että tyypillisissä tilastollisissa tutkimuksissa mallien selittävät eli eksogeeniset muuttujat ainoastaan havainnoidaan, niitä ei manipuloida (vrt. kokeellinen tutkimus). Hyvin usein tulokset tulkitaan kausaalisesti (X->Y) ikään kuin X olisikin ollut kokeellisesti manipuloitu muuttuja. Kun siis aikoinaan tilastollisen analyysin perusteella toimitusjohtajan sukupuolella (X) väitettiin olevan kausaalinen yhteys yrityksen suorituskykyyn (Y), tehtiin implisiittinen metodologinen oletus, että toimitusjohtajat valikoituvat yritysten johtotehtäviin satunnaisesti. Voiko tämän väärempää oletusta enää tehdä?

Kumpi on fiksumpaa: (a) tehdä aineiston perusteella metodologisesti perustelematon, spekulatiivinen johtopäätös kahden muuttujan välisestä kausaalivaikutuksesta vai (b) jättää johtopäätös tekemättä? Mikä tieteellisen tutkimuksen periaate mahtaisi perustella vaihtoehdon (a) valinnan?

Pidätkö uskottavana sellaista lääketutkimusta, johon osallistuvat saavat itse valita, laitetaanko heidät oikeaa lääkettä vai lumelääkettä saavaan ryhmään?

4 -- Tekstiäni lukeva luonnontieteilijä saattaa tuudittautua ajatukseen, että kirjoitan yhteiskuntatieteiden ongelmista. Kokeellinen tutkimus -- luonnontieteellistä tai ei -- ei ole kuitenkaan kausaalisuuden suhteen oikeastaan yhtään sen autuaampaa kuin havaintoaineistoihin perustuva tutkimuskaan. Lienee myös paikallaan muistuttaa, että huomattava osa luonnontieteen tutkimusta ei ole kokeellisiin vaan havaintoaineistoihin perustuvaa.

Kokeellisessa tutkimuksessa on tietysti omat kiistattomat vahvuutensa. Jos muuttujaa X voidaan koeasetelmassa manipuloida, niin tällöin voidaan toki tehdä metodologisesti vahvempia johtopäätöksiä kausaalisuudesta, koska X on tilastollisissa malleissa ns. aidosti eksogeeninen muuttuja. Mutta tämä kausaalisuus havaitaan kontrolloidussa koetilanteessa, jossa ulkoiset häiriötekijät on suljettu pois. Mitä tapahtuu kausaaliefektille tilanteessa, jossa kaikki hairiötekijät ovat läsnä sekä (a) vaikuttamassa vastemuuttujaan Y että (b) häiritsemässä kokeellisesti manipuloidun tekijän X vaikutusta vastemuuttujaan Y? Lisäksi on muistettava, että muuttuja X ei todennäköisesti käyttäydy tosielämässä samalla lailla kuin koetilanteessa manipuloitaessa ja/tai että X:n luonnollinen vaihtelu on jotain aivan erilaista kuin koetilanteessa: X saattaa olla esimerkiksi muuttuja, jonka arvoon vaikuttaa olennaisesti yksilön valinta. Jätänkö lääkkeeni ottamatta sivuvaikutusten takia? Tilastotieteen termein: X ei koetilanteen ulkopuolella olekaan enää eksogeeninen vaan endogeeninen muuttuja.

Esim. lääketieteellisessä tutkimuksessa on aina tärkeää erottaa lääkkeen tai hoidon kliinisissä tutkimuksissa havaittu tehokkuus (efficacy) sen tehokkuudesta ihmisten jokapäiväisessä elämässä (effectiveness). Se, että nämä kaksi tehokkuutta eroteltaisiin hyvin selvästi sekä tieteellisissä keskusteluissa että kuluttajille suunnatussa mainonnassa, taitaa jäädä ainoastaan toiveeksi.

---

Jos tämä teksti sai lukijansa solmuun, niin viestini meni perille: uskon vakaasti siihen, että on paljon rakentavampaa tunnistaa asioiden monimutkaisuus kuin olettaa vastaukset yksinkertaisiksi. Pearsonin korrelaatiohan tyypillisesti käsitellään jo lukiomatematiikan kursseilla. Olisi julmetun mielenkiintoista olla kärpäsenä katossa kuuntelemassa, miten teemaa käsitellään. Omasta lukioajastani muistan nimittäin lähinnä sen, että vaikka kuinka kauan Pearsonin kaavaa tuijotin, vääntelin ja kääntelin, en tajunnut siitä juuri mitään; en millään ymmärtänyt, mitä hyötyä on siitä, että X:n ja Y:n kovarianssi jaetaan muuttujien keskihajonnoilla.

Jostain syystä ymmärrykseni ei noista päivistä ole juurikaan lisääntynyt.