Simpsonin paradoksi. arvostelija. Toni Merivuori

Samankaltaiset tiedostot
Matematiikan tukikurssi, kurssikerta 2

Kausaalisuus ja kausaalipäättely. Pertti Töttö

Matematiikan tukikurssi

Matemaatikot ja tilastotieteilijät

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

Approbatur 3, demo 1, ratkaisut A sanoo: Vähintään yksi meistä on retku. Tehtävänä on päätellä, mitä tyyppiä A ja B ovat.

Ratkaisu: (b) A = x 0 (R(x 0 ) x 1 ( Q(x 1 ) (S(x 0, x 1 ) S(x 1, x 1 )))).

Yhtälönratkaisusta. Johanna Rämö, Helsingin yliopisto. 22. syyskuuta 2014

Matematiikan tukikurssi, kurssikerta 3

Matematiikan tukikurssi, kurssikerta 5

ABHELSINKI UNIVERSITY OF TECHNOLOGY

4 Matemaattinen induktio

Nollasummapelit ja bayesilaiset pelit

Todistusmenetelmiä Miksi pitää todistaa?

Tilastotiede ottaa aivoon

-Matematiikka on aksiomaattinen järjestelmä. -uusi tieto voidaan perustella edellisten tietojen avulla, tätä kutsutaan todistamiseksi

Jokaisen parittoman kokonaisluvun toinen potenssi on pariton.

30A02000 Tilastotieteen perusteet

Tenttiin valmentavia harjoituksia

b) Määritä myös seuraavat joukot ja anna kussakin tapauksessa lyhyt sanallinen perustelu.

Johdatus todennäköisyyslaskentaan Kertymäfunktio. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Totta vai tarua matematiikan paradokseja

Mat Tilastollisen analyysin perusteet, kevät 2007

= 3 = 1. Induktioaskel. Induktio-oletus: Tehtävän summakaava pätee jollakin luonnollisella luvulla n 1. Induktioväite: n+1

Odotusarvo. Odotusarvon ominaisuuksia Satunnaismuuttujien ominaisuuksia 61

NELIÖJUURI. Neliöjuuren laskusääntöjä

pitkittäisaineistoissa

Matemaatiikan tukikurssi

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Kertymäfunktio. TKK (c) Ilkka Mellin (2007) 1

2.1. Tehtävänä on osoittaa induktiolla, että kaikille n N pätee n = 1 n(n + 1). (1)

X k+1 X k X k+1 X k 1 1

1. Osoita, että joukon X osajoukoille A ja B on voimassa toinen ns. de Morganin laki (A B) = A B.

Ensimmäinen induktioperiaate

Matematiikan johdantokurssi, syksy 2016 Harjoitus 11, ratkaisuista

Sekalaiset tehtävät, 11. syyskuuta 2005, sivu 1 / 13. Tehtäviä

Ensimmäinen induktioperiaate

MATEMAATTIS- LUONNONTIETEELLINEN OSAAMINEN

Derivaatat lasketaan komponenteittain, esimerkiksi E 1 E 2

1. Tilastollinen malli??

Tilastotiede ottaa aivoon

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Ominaisarvot ja ominaisvektorit 140 / 170

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Malliratkaisut Demot

Johdatus lukuteoriaan Harjoitus 2 syksy 2008 Eemeli Blåsten. Ratkaisuehdotelma

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tehtäväsarja I Seuraavissa tehtävissä harjoitellaan erilaisia todistustekniikoita. Luentokalvoista 11, sekä voi olla apua.

3. Kirjoita seuraavat joukot luettelemalla niiden alkiot, jos mahdollista. Onko jokin joukoista tyhjä joukko?

Sovellettu todennäköisyyslaskenta B

Mat Sovellettu todennäköisyyslasku. Aiheet: Todennäköisyyslaskennan peruskäsitteet Todennäköisyyslaskennan peruslaskusäännöt Avainsanat:

Todennäköisyys (englanniksi probability)

Harjoitus 7: NCSS - Tilastollinen analyysi

Joukot. Georg Cantor ( )

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin

HAVAITUT JA ODOTETUT FREKVENSSIT

HY / Matematiikan ja tilastotieteen laitos Johdatus logiikkaan I, syksy 2018 Harjoitus 5 Ratkaisuehdotukset

Tarkastelemme ensin konkreettista esimerkkiä ja johdamme sitten yleisen säännön, joilla voidaan tietyissä tapauksissa todeta kielen ei-säännöllisyys.

pitkittäisaineistoissa

MATEMATIIKAN KOE, PITKÄ OPPIMÄÄRÄ HYVÄN VASTAUKSEN PIIRTEITÄ

5 Lineaariset yhtälöryhmät

Laskut käyvät hermoille

Johdatus matemaattiseen päättelyyn

YLEISKUVA - Kysymykset

Matematiikan tukikurssi, kurssikerta 1

Latinalaiset neliöt ja taikaneliöt

HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 2017 Harjoitus 1 Ratkaisuehdotuksia

Ratkaisu: Yksi tapa nähdä, että kaavat A (B C) ja (A B) (A C) ovat loogisesti ekvivalentit, on tehdä totuustaulu lauseelle

Varma tapahtuma, Yhdiste, Yhdistetty tapahtuma, Yhteenlaskusääntö

Surjektion käsitteen avulla kuvauksia voidaan luokitella sen mukaan, kuvautuuko kaikille maalin alkioille jokin alkio vai ei.

Diskreetin matematiikan perusteet Malliratkaisut 2 / vko 38

Sovellettu todennäköisyyslaskenta B

Todennäköisyyslaskenta IIa, syyslokakuu 2019 / Hytönen 2. laskuharjoitus, ratkaisuehdotukset

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

Diofantoksen yhtälön ratkaisut

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Matematiikan peruskurssi 2

T Luonnollisen kielen tilastollinen käsittely Vastaukset 8, ti , 8:30-10:00 Tilastolliset yhteydettömät kieliopit, Versio 1.

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Diskreetin matematiikan perusteet Laskuharjoitus 1 / vko 8

1. Kuusisivuista noppaa heitetään, kunnes saadaan silmäluku 5 tai 6. Olkoon X niiden heittojen lukumäärä, joilla tuli 1, 2, 3 tai 4.

2. Minkä joukon määrittelee kaava P 0 (x 0 ) P 1 (x 0 ) mallissa M = ({0, 1, 2, 3}, P M 0, P M 1 ), kun P M 0 = {0, 1} ja P M 1 = {1, 2}?

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

MAB3 - Harjoitustehtävien ratkaisut:

HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät 2017 Harjoitus 1 Ratkaisuehdotuksia Tehtäväsarja I

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

Ratkaisu: Käytetään induktiota propositiolauseen A rakenteen suhteen. Alkuaskel. A = p i jollain i N. Koska v(p i ) = 1 kaikilla i N, saadaan

Signalointi: autonromujen markkinat

(1) refleksiivinen, (2) symmetrinen ja (3) transitiivinen.

z muunnos ja sen soveltaminen LTI järjestelmien analysointiin

Konsensusongelma hajautetuissa järjestelmissä. Niko Välimäki Hajautetut algoritmit -seminaari

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Sovellettu todennäköisyyslaskenta B

Johdatus todennäköisyyslaskentaan Todennäköisyyslaskenta ja puudiagrammit. TKK (c) Ilkka Mellin (2005) 1

5.6.3 Matematiikan lyhyt oppimäärä

Internetin saatavuus kotona - diagrammi

Testit laatueroasteikollisille muuttujille

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Transkriptio:

hyväksymispäivä arvosana arvostelija Simpsonin paradoksi Toni Merivuori Helsinki 16. helmikuuta 2003 Kausaaliset mallit seminaari, kevät 2003 HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos

i Simpsonin paradoksi Toni Merivuori Kausaaliset mallit seminaari, kevät 2003 Tietojenkäsittelytieteen laitos Helsingin yliopisto 16. helmikuuta 2003, 9 sivua Simpsonin paradoksi Aiheluokat(Computing Reviews 1998): I.2.4, I.2.5, G.3, F.1.2 Avainsanat: kausaalisuus, kausaalinen mallintaminen, Simpsonin paradoksi

Sisältö ii 1 Johdanto 1 2 Simpsonin Paradoksi: esimerkki 2 3 Tilastollinen ahdistus 5 4 Kausaalinen käsittely 7

1 Johdanto 1 Simpsonin paradoksi perustuu havaintoon siitä, että mikä tahansa tilastollinen suhde kahden muuttujan välillä voi kääntyä päinvastaiseksi, jos löydetään kolmas muuttuja, joka korreloi molempien kanssa. Esimerkiksi tietyssä tilastollisessa analyysissä koskien koulun oppilaiden saamia arvosanoja voitaisiin havaita, että tupakoivat oppilaat saavat parempia arvosanoja kuin tupakoimattomat. Kuitenkin jos lisäämme tarkasteltavaksi tekijäksi oppilaan iän, tulos kääntyy päinvastaiseksi kaikissa erikseen tarkasteltavissa ikäryhmissä. Jos myöhemmin analyysiin lisätään tekijäksi oppilaiden vanhempien toimeentulo, voisi tulos jälleen kääntyä päinvastaiseksi, eli havaitaan tupakoinnin nostavan arvosanojen tasoa kussakin tarkasteltavassa ikä-toimeentulo-ryhmässä, ja niin edelleen. Tilastollisen analyysin parissa paradoksia ei ole kyetty ratkaisemaan, sillä kukaan ei vielä ole kyennyt antamaan täsmällistä menetelmää paradoksin tuomien ongelmien välttämiseksi tai oikeiden tekijöiden valitsemiseksi. Judea Pearl käsittelee artikkelissaan Simpson s Paradox: An Anatomy Simpsonin paradoksia kausaalisteoreettisista lähtökohdista ja analysoi syitä miksi ilmiö on käsitetty ja yhä käsitetään paradoksaaliseksi. Pearl osoittaa todennäköisyyslaskennan olevan riittämätön väline kausaalisten riippuvuuksien käsittelyyn ja tarjoaa vaihtoehdoksi edellisen laajennoksen, joka sallii mm. -operaattorin käytön.

2 Simpsonin Paradoksi: esimerkki 2 Ajatellaan tilannetta, missä tapahtuma lisää tapahtuman todennäköisyyttä annetussa populaatiossa ja samaan aikaan vähentää tapahtuman todennäköisyyttä jokaisessa annetun populaation osapopulaatiossa. Olkoon esimerkiksi ja toisensa komplementoivat ominaisuudet, jotka kuvaavat populaation osapopulaatioita. Tällöin voidaan hyvin kohdata seuraavat epäyhtälöt: (1) (2) (3) Todennäköisyyslaskennan kannalta tässä ei ole mitään hämmästyttävää. Tilanne voi muuttua paradoksaaliseksi silloin kun sille on annettu kausaalinen esitysmuoto. Esimerkiksi liitetään tapahtumille ja seuraavat merkitykset: kuvastaa tietyn lääkkeen käyttöä ja kuvastaa toipumista. Lisäksi asetetaan ominaisuus tarkoittamaan naisena olemista (jolloin tarkoittaa miehenä olemista ). Nyt epäyhtälöistä nähdään lääkkeen käytön olevan haitallista miehille ja naisille erikseen, mutta epäyhtälön mukaan lääke on hyödyllinen koko populaatiolle. Tämä tuntuu täysin järjen sekä intuition vastaiselta. (Alla olevassa taulukossa on annettu esimerkkiimme sopivat tilastolliset numeroarvot.)

3 Yhdistetty taulu Yht. Toipumisaste lääke 20 20 40 50% ei lääkettä 16 24 40 40% Yht. 36 44 80 Miehet taulu Yht. Toipumisaste lääke 18 12 30 60% ei lääkettä 7 3 10 70% Yht. 25 15 40 Naiset taulu Yht. Toipumisaste lääke 2 8 10 20% ei lääkettä 9 21 30 30% Yht. 11 29 40 Selitys löytyy todennäköisyyslaskennan tarjoamien välineiden puutteellisuudesta kausaalisten riippuvuussuhteiden käsittelyyn: ehdollinen todennäköisyys merkitsee ilmeistä riippuvuutta given that we see, kun taas -operaattori on laadittu esittämään kausaalista riippuvuutta given that we do. Epäyhtälössä tapahtuma ei kuvaa tapahtumaan vaikuttavaa kausaalitekijää vaan se on paremminkin tapahtumaan vaikuttava evidenssi. Paradoksaalisiin tuloksiin voidaan päätyä, koska tapahtumaan voi liittyä sekoittuneita(confounding) tekijöitä, jotka vaikuttavat molempiin tapahtumiin ja. Esimerkissämme lääke tulee hyödylliseksi koko populaatiolle, koska miehet, jotka toipuvat naisia useammin, ovat myös alttiinpia käyttämään lääkettä. Yleinen menetelmä käsitellä potentiaalisia sekoittumisalttiita tekijöitä on määrätä todennäköisyydet kaikille mahdollisille tekijöille, jotka voivat olla syy sekä tapahtumalle että : jos esimerkissämme miehenä oleminen ( ) nähdään

olevan syy sekä toipumiselle että lääkkeen käytölle, niin lääkkeen vaikutukset 4 täytyy arvioida erikseen miehille ja naisille (epäyhtälöt ). Jos siis oletamme että on ainoa sekoittuva tekijä, epäyhtälöt asianmukaisesti esittävät lääkkeen tehokkuutta omissa populaatioissaan, kun epäyhtälö esittää pelkästään suuntaa antavaa informaatiota sukupuolitiedon ( ) puuttuessa.

3 Tilastollinen ahdistus 5 Tilastotieteiden parissa ollaan kautta historian oltu innottomia käsittelemään Simpsonin paradoksia kausaalisista lähtökohdista. Paradoksi myönnetään todelliseksi ja häiritseväksi ongelmaksi, joka esiintyy tilastoissa ja voi johtaa tilastotarkastelijan vääriin johtopäätöksiin. Kausaalisuus on yleensä sivuutettu ongelman ratkaisemisen yhteydessä, koska sen on ajateltu olevan mentaalinen konstruktio, joka ei ole hyvin määritelty. Paradoksi on haluttu nähdä tilastollisena ilmiönä, joka voidaan havaita, ymmärtää ja välttää käyttämällä tilastollisia menetelmiä. Näin tehdessään tilastotieteilijät ovat kuitenkin sivuuttaneet ongelman perusluonteen, jonka juuret lepäävät kausaalisissa suhteissa. Pearson käsitti ilmiön johtuvan vääristyneistä kausaaliesityksistä, jotka hän oikaisi tilastollisten korrelaatioiden käsittelyllä sekä sattuma(contingency) taulujen avulla. Hänen seuraajansa jopa väittivät vakavissaan ettei kausaatio ole muuta kuin korrelaation laji. Kieltämällä kaikki viittaukset kausaaliseen intuitioon, päädyttiin paradoksi selittämään vain datan pahana ominaisuutena, joka voidaan välttää tarkkaavaisten tutkijoiden toimesta. Ajan myötä kuitenkin havaittiin puutteita kehitellyissä tilastollisissa menetelmissä paradoksin välttämiseen. Tuolloin käytössä olevat kielet eivät olleet riittäviä ilmaisemaan kausaalisia suhteita, joita tutkijat yrittivät ymmärtää. Lindlay ja Novick olivat ensimmäisinä osoittamassa, ettei ole tilastollista kriteeriä, jonka avulla voidaan välttää vetämästä vääriä johtopäätöksiä tai joka osoittaisi oikean vastauksen saamiseen käytettävän taulun. Lindlay ja Novick suuntasivat huomion ensin käytännön kysymyksiin, kuten käytämmekö lääkettä vai emmekö käytä uuden asiakkaan saapuessa vastaanotolle: ekvivalentisti luvun 1 esimerkkiin viitaten, käytämmekö yhdistettyä vai sukupuoliriippuvaista taulua. Kysymyksessä päädyttiin pitkien pohdintojen jäl-

6 keen vastaukseen, missä pitäisi käyttää sukupuoliriippuvaista taulua, jonka nojalla lääkettä ei pidä käyttää (vrt. luku 1). Seuraavaksi kysyttiin voisiko jokin muu tilastollinen tieto yleisesti osoittaa oikean taulun. Tähän jouduttiin vastaamaan kielteisesti, sillä tietyllä samalla aineistolla voitiin päätyä ristiriitaisiin tuloksiin: kun käytämme luvun 1 taulukon arvoja, mutta vaihdamme taustatilanteen siten että vaikuttaa ominaisuuteen (eikä toisinpäin, ks. kuva 1 b-kohta), niin voimme heti päätellä että vastaus löytyy yhdistetystä taulusta. tähän tulee kuva Ajattele kahta kausaalista mallia esittävän samaa tilastollista dataa (kuva 1, a- ja b-kohta ovat havainnollisesti (observationally) ekvivalentit) ja toinen niistä johtaa päätökseen käyttää lääkettä mutta toinen ei, niin on selvää, että päätös muodostuu kausaalisten tietojen eikä tilastollisten näkökohtien perusteella. Kuvan 1 c-kohta osoittaa, että ajallinen tieto ei vaikuta päätökseen, sillä nyt voi tapahtua ennen tai jälkeen :n ja silti päädytään yhdistetyn-taulun käyttöön. Nämä esimerkit osoittavat, että tilastollinen tieto yksinään on riittämätön sanomaan mitään varmaa tapahtumien seuraussuhteista ja niiden oikeellisuudesta. Meidän pitää siis käsitellä niitä kausaalisten menetelmien avulla.

4 Kausaalinen käsittely 7 Käsitellessämme Simpsonin paradoxia olemme joutuneet umpikujaan joko i) olettamalla että kausaaliset suhteet toimivat todennäköisyyslaskennan lakien alaisena, tai että ii) tekemämme epäsuorien oletusten joukko kausaalisista suhteista on väärä. Ensimmäisen luvun esimerkkimme nojalla epäyhtälöt ( ) ovat -kohdan mukaan samaan aikaan voimassa tarjoten meille todennäköisyysmallin väitteen tueksi, kun taas -kohdan mukaan ei voi olla olemassa lääkettä, joka on haitallinen sekä miehille että naisille, mutta samaan aikaan on edullinen koko populaatiolle. Ratkaistaksemme paradoksin meidän on joko näytettävä että kausaalinen intuitiomme on harhaanjohtava ( ) tai kiellettävä että kausaaliset suhteet ovat todennäköisyyslaskennan lakien alaiset ( ). Käymme kiinni -kohtaan ja yritämme näyttää, että kausaaliset suhteet omaavat oman logiikkansa niiden käsittelemiseen ja että tämä logiikka vaatii toimiakseen tärkeän laajennuksen todennäköisyyslaskentaan. Käytämme -operaattoria ja sen logiikkaa, joka soveltuu tilanteeseen mainiosti. Näytämme, että kyseinen logiikka mahdollistaa halutunlaisen lääkkeen olemassa olon. Kausalisen formalismin mukaan lääke on haitallinen miehille ja naisille, jos (4) (5)

8 Demonstroidaan, että tapahtuman on oltava haitallinen populaatiolle kokonaisuudessaan. Tällöin epäyhtälö (6) on osoitettava ristiriitaiseksi niiden tietojen kanssa mitä tiedämme lääkkeistä ja sukupuolesta. Teoreema 1 (The Sure-Thing Principle) Toimenpide, joka nostaa todennäköisyyttä tapahtumalle jokaisessa osapopulaatiossa, täytyy myös nostaa tapahtuman todennäköisyyttä kokonaispopulaatiossa, sillä ehdolla että toimenpide ei muuta osapopulaatioiden todennäköisyysjakaumia. Todistetaan teoreema luvun esimerkin valossa, missä populaatio on jaettu miehiin ja naisiin. Nyt on todistettava, että epäyhtälöjen nuolien suunnat eivät päde samanaikaisesti oletuksen kanssa, missä lääkkeellä ei ole vaikutusta sukupuoleen: (7) Laajennetaan yhtälöä ja käytetään yhtälöä saamme (8) Tekemällä samoin operaatiolle saamme: (9)

9 Koska kaikki termit yhtälön oikealla puolella ovat pienempiä kuin vastaavat yhtälössä, voimme päätellä, että, josta väitteemme seuraa. Näin ollen lääke on haitallinen myös populaatiolle kokonaisuudessaan, jos lääke ei vaikuta sukupuoleen. Nyt voimme hahmottaa mistä kausaalinen intuitiomme on kotoisin: ilmeinen, mutta ratkaiseva oletus meidän intuitiivisessa logiikassamme on ollut, että lääkkeet eivät vaikuta sukupuoleen. Tämä selittää miksi intuitiomme muuttuu rajusti, kun esitetään välitapahtumana, johon lääke ( ) vaikuttaa (ks. kuvan 1 b-kohta). Tällöin intuitiivisen logiikkamme mukaan on löydettävissä lääke, joka täyttää ehdot epäyhtälöille ( ) ja lisäksi jonka on sopimatonta vaikuttaa :ään. Jos vaikuttaa :ään, niin yhtälöä ( ) ei voida johtaa ja erotus voi olla positiivinen tai negatiivinen riippuen yhtälöiden ja suhteellisista voimakkuuksista. Kun tiedetään ettei :llä ja :llä ole yhteistä tekijää, :n tehokkuutta on arvioitava suoraan yhdistetty-taulusta, eikä sukupuoliriippuvaisista tauluista. Huomaa, että kausaalinen logiikkamme sallii meidän käsitellä luvun 1 esimerkin kaltaisia tapauksia, mutta kuitenkin torjuu hyväksymästä epäyhtälöiden samanaikaisen voimassaolon. Tässä mielessä -operaattorin ja sen käyttämä logiikka poikkeaa aikaisemmista menetelmistä ja näin ollen voimme välttää analyyseissämme ajautuvan Simpsonin paradoksin kaltaisiin tuloksiin.