FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 6. luento Pertti Palo 1.11.2012
Käytännön asioita Harjoitustöiden palautus sittenkin sähköpostilla. PalautusDL:n jälkeen tiistaina netistä löytyy palautetut työt sisältävä hakemisto. Myös harjoitustöiden arvostelu tapahtuu sähköpostilla. Noudattakaa ohjeita joka vaiheessa huolella: Ryhmiä on 17, eikä sooloiluun ole siksi varaa. Jos ohjeet ovat epäselviä tai monitulkintaisia, kertokaa siitä heti.
Kovarianssi Kovarianssi kuvaa kahden satunnaismuuttujan yhteisvaihtelua. Positiiviinen kovarianssi tarkoittaa, että toisen muuttujan kasvaessa toinenkin keskimäärin kasvaa. Negatiivien kovarianssi puolestaan tarkoittaa, että toisen muuttujan kasvaessa toinen keskimäärin pienenee. Jos kovarianssi on nolla, ei toisen muuttujan käytöksen perusteella voi sanoa, kasvaako vai pieneneekö toinen. X:n ja Y:n kovarianssi lasketaan (diskreetille) jakaumalle ja otokselle kaavoilla: n m Cov[X, Y ] = (x i E[X ])(y j E[Y ])P(X = x i ja Y = y j ) i=1 j=1 s xy = 1 n 1 n i=1 m (x i x)(y j y) j=1
Korrelaatio ja riippuvuus I Korrelaatio mittaa lineaarista riippuvuutta. (Pearsonin) korrelaatiokerroin lasketaan standardoimalla muuttujien X ja Y kovarianssi välille [-1, 1] (jakaumalle ja otokselle): ρ X,Y = Cov[X, Y ] Var[X ]Var[Y ] ja r X,Y = s xy s 2 X s 2 Y
Korrelaatio ja riippuvuus II Riippuvuus on ominaisuus joka kahdella muuttujalla joko on tai ei ole. Jos kaksi tapahtumaa ovat riippumattomia, ei toisen tapahtuminen tai tapahtumatta jääminen vaikuta toisen todennäköisyyteen tapahtua. Jos kaksi muuttujaa ovat riippumattomia, ei toisen arvon tietäminen auta mitenkään ennustamaan toisen arvoa. Korrelaatio kuvaa vain lineaarista riippuvuutta ja on siten vain osa mahdollisesti monimutkaisemmasta kuvasta.
Pari esimerkkiä korrelaatiosta ja riippuvuudesta -> Katsotaan Wikipediasta, kun siellä on niin kivat kuvat valmiina.
5min happipaussi
T-testi odotusarvolle (ja kertaus testaamisesta) Taustaoletukset: Kerätään yksi otos (n > 20) normaalijakautuneesta muuttujasta (tai muuttujasta, jota voidaan approksimoida normaalijakaumalla). Havainnot x i ovat riippumattomia. Hypoteesit: H 0 : µ = µ 0 (odotusarvo on oletuksen mukainen) H 1 : µ µ 0, H 1 : µ > µ 0 tai H 1 : µ < µ 0 Päättely: Lasketaan testisuureen arvo: t = x µ 0 s/ n Lasketaan testisuureen perusteella P-arvo. Verrataan P-arvoa riskitasoon (α) ja tehdään päätelmä.
T-testi odotusarvojen yhtäsuuruudelle Taustaoletukset: Kerätään kaksi otosta (n x, n y > 20) normaalijakautuneista muuttujista (tai muuttujista, joita voidaan approksimoida normaalijakaumalla). Havainnot x i ja y i ovat riippumattomia ryhmien välilla ja niiden sisällä. Testistä on kaksi eri versiota sen mukaan oletetaanko muuttujien varianssit yhtäsuuriksi. Tässä versiossa ei oleteta variansseista mitään. Hypoteesit: H 0 : µ x = µ y H 1 : µ x µ y, H 1 : µ x > µ y tai H 1 : µ x < µ y Testisuure: t = x y sx 2 /n x + sy 2 /n y
Esimerkki T-testistä Onko ensitavun pitkän ja lyhyen vokaalin kestoilla eroa normaalinopeudella lausutuissa sanoissa, jotka ovat tyyppejä cv.cv ja cvv.cv? Tehdään R:llä.
Luottamusvälit: Mitä ne ovat? On mahdotonta tuntea ilmiön teoreettisia parametreja varmuudella. Voidaan kuitenkin esittää arvioita parametrien arvosta. Jos lasketaan piste-estimaatti (keskiarvo odotusarvolle, otosvarianssi varianssille, otosmediaani mediaanille jne), ei epävarmuuden määrä ilmene arviosta mitenkään. Luottamusväli kertoo paitsi todennäköisen alueen, josta parametri löytyy, myös arvion luotettavuuden eli todennäköisyyden, jolla parametri annetulta väliltä löytyy. Tätä todennäköisyyttä kutsutaan luottamustasoksi. Kyse on ikään kuin testin kääntämisestä päin vastoin ja testejä vastaa usein luottamusväli ja päin vastoin.
Esimerkkejä luottamusväleistä Ehdokkaiden arvioitu kannatus. Tietyn ikä/sukupuoli-ryhmän pituuden odotusarvo. Tietyn ikä/sukupuoli/sosiaalinen konteksti -ryhmän keskimääräisen f 0 :n vaihteluväli. Mielikuvajaukaumien etäisyys Likert-asteikolla. Tehdään R:llä vielä pari laskua.
Luentokuulustelu 1. Mikä on korrelaation ja riippuvuuden välinen ero? 2. Mikä on luottamusväli?