Mitä tilastotiede o? Mat-.04 Tilastollise aalyysi perusteet, kevät 007. lueto: Johdato Tilastotiede kehittää ja soveltaa meetelmiä: reaalimaailma ilmiöistä johtopäätökset ilmiöitä kuvaavie tietoje perusteella tietoihi liittyy epävarmuutta ja satuaisuutta Tilastotietee meetelmät ja mallit ovat matemaattisia ja perustuvat todeäköisyyslasketaa Kai Virtae Kai Virtae Kuvaileva tilastotiede ja tilastollie päättely Kuvaileva tilastotietee meetelmiä: Tilastografiikka Tilastolliset tuusluvut Tilastolliset mallit Tilastollise päättely meetelmiä: Tilastolliset mallit Tilastollie testaus Kuvaileva tilastotiede ja tilastollie päättely kulkevat tilastollisessa tutkimuksessa käsi kädessä Perusjoukko, tilastollie aieisto, havaiot Tilastollise tutkimukse kaikki mahdolliset kohteet muodostavat tutkimukse (kohde-) perusjouko tavallisesti tilastollie tutkimus kohdistuu vai osaa perusjouko alkioita äärellie tai ääretö perusjoukko Tutkimukse kohteiksi valittuja perusjouko alkioita kutsutaa havaitoyksiköiksi Tilastollie aieisto koostuu havaitoyksiköitä koskevista kvatitatiivisista tai kvalitatiivisista tiedoista Havaitoyksiköitä koskevia tietoja kutsutaa havaitoarvoiksi tai havaioiksi Kai Virtae 3 Kai Virtae 4
Tilastolliste aieistoje keräämie Kohdistuuko tutkimus kaikkii perusjouko alkioihi vai johoki perusjouko osaa? (i) Tutkimus o kokoaistutkimus, jos kaikki perusjouko alkiot tutkitaa (ii) Tutkimus o otatatutkimus, jos tutkimus kohdistuu johoki perusjouko osajoukkoo - otokse perusteella tehdää johtopäätöksiä koko populaatiosta/perusjoukosta Muutetaako tutkimuksessa kohteide olosuhteita? (i) Tutkimus o koe, jos tutkimuksessa muutetaa kohteide olosuhteita Tilastollise aieisto mitta-asteikot Kohteide omiaisuuksia kuvaavat tiedot saadaa mittaamalla Mittaamie tarkoittaa kvatitatiiviste tai kvalitatiiviste arvoje liittämistä tutkimukse kohteide omiaisuuksii Mittaamisessa voidaa käyttää seuraavia mitta-asteikoita: (i) Nomiaaliasteikko (ii) Ordiaaliasteikko (iii) Itervalliasteikko (iv) Suhdeasteikko Kai Virtae 5 Kai Virtae 6 Nomiaaliasteikko ja ordiaaliasteikko Nomiaali- eli laatueroasteikko kertoo mihi luokkaa mittaukse kohde kuuluu Esimerkkejä: Sukupuoli, Asuipaikka, Väri, Viallisuus Ordiaali- eli järjestysasteikko kertoo oko mittaukse kohteella mitattavaa omiaisuutta eemmä tai vähemmä kui jollaki toisella kohteella Esimerkkejä: Kouluarvosaat, Aiee kovuus Itervalliasteikko ja suhdeasteikko Itervalli- eli välimatka-asteikko kertoo kuika paljo kahde mitattava kohtee omiaisuudet eroavat toisistaa Esimerkkejä: Lämpötila Celsius-asteissa Suhdeasteikko kertoo kuika mota kertaa eemmä tai vähemmä mittaukse kohteella o mitattavaa omiaisuutta kui jollaki toisella kohteella Esimerkkejä: Lukumäärä, Pituus, Pita-ala, Tilavuus, Paio, Aika, Nopeus, Paie, Rahamäärä, Korko Kai Virtae 7 Kai Virtae 8
Itervalliasteikko vs. suhdeasteikko Tilastotieteessä ei yleesä ole tarpee erottaa itervalli- ja suhdeasteikollisia muuttujia Itervalli- ja suhdeasteikolliste muuttujie mittaasteikoilla o kuiteki tavallisesti seuraava ero: (i) (ii) Itervalliasteikolliste muuttujie mitta-asteikossa ei yleesä ole luoollista ollapistettä Suhdeasteikolliste muuttujie mitta-asteikossa o yleesä luoollie ollapiste, jota pieempiä arvoja muuttuja ei voi saada Mat-.04 Tilastollise aalyysi perusteet, kevät 007. lueto: Tilastolliste aieistoje kuvaamie Kai Virtae 9 Kai Virtae 0 Havaitoarvoje jakauma Havaittuje arvoje jakaumaa voidaa kuvailla ja esitellä tiivistämällä havaitoarvot sopivaa muotoo Jakauma kokoaisuutea; graafie esitys: diskreetti muuttuja; frekvessijakauma ja pylväsdiagrammi jatkuva muuttuja; luokiteltu frekvessijakauma ja histogrammi Jakauma omiaisuudet; tuusluvut: keskiluku hajotaluku jakauma vious ja huipukkuus Välimatka- ja suhdeasteikolliste muuttujie tuusluvut Välimatka- tai suhdeasteikollise muuttuja x havaitut arvot x, x,, x Aritmeettie keskiarvo Variassi Keskihajota x + x + L+ x xi i= x = = s = xi x i= i= ( ) s = xi x ( ) Kai Virtae Kai Virtae 3
Vious ja huipukkuus Vious (skew) > 0 => Jakauma o vio oikealle oikeapuoleie hätä o pitempi kui vasemmapuoleie hätä Vious < 0 => Jakauma o vio vasemmalle vasemmapuoleie hätä o pitempi kui oikeapuoleie hätä Normaalijakautueella aieistolla Vious 0 Huipukkuus (kurt) > 0 => jakauma o huipukas ormaalijakautueesee aieistoo verrattua Huipukkuus < 0 => jakauma o laakea ormaalijakautueesee aieistoo verrattua Normaalijakautueella aieistolla Huipukkuus 0. Järjestysasteikolliste muuttujie tuusluvut Suuruusjärjestyksessä k. havaitoarvoa z k kutsutaa k. järjestystuusluvuksi Miimi ja maksimi eli piei ja suuri arvo Vaihteluväli ja se pituus Prosettipisteet z p : p. prosettipiste jakaa aieisto kahtee osaa: p% havaioista o prosettipistettä pieempiä ja loput (00-p)% suurempia Mediaai eli Me = z 50 jakaa aieisto kahtee yhtä suuree osaa Kvartiilit: Q = z 5, Q = z 50 =Me ja Q 3 = z 75 Kvartiilipoikkeama: (Q 3 -Q )/ Kai Virtae 3 Kai Virtae 4 Laatueroasteikolliste muuttujie tuusluvut Suhteelliset frekvessit f i /, missä f i o luoka i lukumäärä ja o otoskoko Moodi eli tyyppiarvo = yleisi havaitoarvo HUOM! Laatueroasteikolliste muuttujie tuuslukuja saa käyttää kuvaamaa järjestys-, välimatka- ja suhdeasteikolliste muuttujie havaittuje arvoje jakaumaa Järjestysasteikolliste muuttujie tuuslukuja saa käyttää kuvaamaa välimatka- ja suhdeasteikolliste muuttujie havaittuje arvoje jakaumaa Mat-.04 Tilastollise aalyysi perusteet, kevät 007. lueto: Estimoiti ja estimaattori Kai Virtae 5 Kai Virtae 6 4
Tilastollie aieisto Tilastollie aieisto koostuu tutkimukse kohteita kuvaavie muuttujie havaituista arvoista, esim: kohde työssäkäyvä suomalaie aie perusjoukko kaikki työssäkäyvät suomalaiset aiset havaitoyksiköt 000 satuaisesti valittua työssäkäyvää suomalaista aista (satuaisotos) kohdetta kuvaava muuttuja kuukausipalkka havaitoarvot/havaiot em. 000 aise kuukausipalkat Tilastollisissa tutkimusasetelmissa havaitoarvoihi liittyy aia epävarmuutta ja satuaisuutta, esim: mittausvirhe erilaie otos => erilaiset havaitoarvot Kai Virtae 7 Tilastollie malli Tilastollisella mallilla tarkoitetaa tutkimukse kohteita kuvaavie satuaismuuttujie todeäköisyysjakaumaa, joka ajatellaa geeroiee ko. satuaismuuttujie havaitut arvot esim. oletetaa, että aiste kuukausipalkka o ormaalijakautuut Todeäköisyysjakaumat riippuvat tavallisesti parametreistä, joide arvoja ei yleesä tueta esim. kuukausipalka odotusarvo ja variassi Tilastollista mallia sovellettaessa kohdataa yleesä seuraavat ogelmat: Parametrie arvoja ei tueta ja e o estimoitava eli arvioitava havaitoaieistosta; esim. mikä o aiste keskimääräie kuukausipalkka? Parametrie arvoista o olemassa oletuksia, joita halutaa testata haivaitoaieisto atama iformaatio avulla; esim. oko aiste keskimääräie kuukausipalkka yli 00? Kai Virtae 8 Yksikertaie satuaisotos Olkoot X,X,...,X riippumattomia, idettisesti jakautueita satuaismuuttujia, joilla o sama pistetodeäköisyystai tiheysfuktio f(x) Tällöi satuaismuuttujat X,X,...,X muodostavat yksikertaise satuaisotokse jakaumasta f(x) Ku otos o poimittu, satuaismuuttujat X,...,X N saavat havaituiksi arvoiksee havaitoarvot x,...,x Esim. Kuukausipalkka case: Oletetaa, että aiste palkka X o ormaalijakautuut, mutta jakauma odotusarvoa ja variassia ei tueta Valitaa satuaisesti aista, joide palkkoja kuvaavat satuaismuuttujat X,X,...,X Havaitaa havaitoarvot x,...,x (ämä ovat siis umeroita: 35, 895, etc.) Kai Virtae 9 Estimoiti Estimoidaa eli arvioidaa tutkimukse kohteea oleva ilmiö mallia käytettävä todeäköisyysjakauma tutemattomat parametrit ilmiötä koskevie havaitoje perusteella esim. estimoidaa havaittuje palkkoje perusteella palkkaa kuvaava ormaalijakauma odotusarvo ja variassi Mikä o keskimääräie palkka ja keskimääräise palka hajota? Havaitoje fuktiota, joka tuottaa estimaatteja (umero) parametrie todelliselle arvolle, kutsutaa parametri estimaattoriksi (kaava) Kai Virtae 0 5
Estimaattori ja estimaatti, esim. ormaalijakauma Oletetaa, että satuaismuuttuja X (esim. palkka) oudattaa ormaalijakaumaa N(µ, σ ), jolloi se tiheysfuktio o x µ f ( x; µ, σ ) = exp σ π σ Jakauma parametreia ovat jakauma odotusarvo E( X ) = µ ja variassi Var( X ) = σ Kai Virtae Estimaattori ja estimaatti, esim. ormaalijakauma Olkoo X, X,, X yksikertaie satuaisotos ormaalijakaumasta N(µ, σ ) Estimoidaa ormaalijakauma N(µ, σ ) parametrit µ ja σ iide harhattomilla estimaattoreilla: (i) Odotusarvoparametri harhato estimaattori: X = X i i = (ii) Variassiparametri harhato estimaattori: s = ( X i X ) Estimaattorit ovat satuaismuuttujia (otostuusluku ja se otosjakauma)! Olkoo havaitoarvot (umeroita) x,...,x työetää ämä umerot estimaattoreihi saadaa estimaatit (umerot) odotusarvolle (keskimääräie palkka) ja variassille (keskimääräise palka hajota) i= Kai Virtae Väliestimoiti Parametri estimaattii o aia syytä liittää väli, joka sisältää estimoidu parametri todellise, mutta tutemattoma arvo tietyllä todeäköisyydellä Väliestimoiissa määrätää tämä havaioista riippuva väli Kostruoitua väliä kutsutaa luottamusväliksi ja valittua todeäköisyyttä kutsutaa luottamustasoksi Esim. 95% todeäköisyydellä aiste keskimääräie palkka o 30 ±3 Kai Virtae 3 Normaalijakauma parametrie luottamusvälit Normaalijakauma odotusarvoparametri µ luottamusväli luottamustasolla ( α) o muotoa s s keskiarvo X tα /, X + tα / keskivirhe jossa X = havaitoje aritmeettie keskiarvo s = havaitoje harhato otosvariassi = havaitoje lukumäärä +t α/ = luottamustasoo ( α) liittyvä luottamuskerroi, eli α Pr( t > + t α / ) = jossa satuaismuuttuja t oudattaa Studeti t-jakaumaa vapausastei Kai Virtae 4 6
Luottamuskertoime määräämie Odotusarvo luottamusväli tulkita Esim. α = 0.05 ja = 30 t-jakauma taulukoista ähdää, että Pr(t +.045) = 0.05 Pr(t.045) = 0.05 ku vapausasteide lukumäärä = 9 Site luottamuskertoimet ovat: +t 0.05 = +.045 t 0.05 =.045 Kuvio oikealla havaiollistaa luottamuskertoimie valitaa. 0.5 0.4 0.3 0. 0. 0 t(9)-jakauma tiheysfuktio 0.05 0.95 0.05.045 0 +.045 Luottamusväli peittää parametri µ oikea arvo todeäköisyydellä ( α) ja se ei peitä parametri µ oikeata arvoa todeäköisyydellä α. Odotusarvo µ luottamusväli frekvessitulkita: (i) Jos otataa jakaumasta N(µ, σ ) toistetaa, keskimääri 00 ( α) % kostruoiduista luottamusväleistä peittää parametri µ oikea arvo (ii) Jos otataa jakaumasta N(µ, σ ) toistetaa, keskimääri 00 α % kostruoiduista luottamusväleistä ei peitä parametri µ oikeata arvoa Kai Virtae 5 Kai Virtae 6 Normaalijakauma parametrie luottamusvälit χ Normaalijakauma variassiparametri σ luottamusväli luottamustasolla ( α) o muotoa jossa s, χ α / α / ( ) s ( ) s, χα / χ α / = havaitoje harhato otosvariassi = havaitoje lukumäärä = luottamustasoo ( α) liittyvät luottamuskertoimet χ -jakaumasta vapausastei ( ) Esimerkki: Suhteellise osuude luottamusväli Valmistetaa kapistuksia. Kuika mota prosettia kapistuksista o viallisia? Otoskoko yhteesä kpl, joista viallisia f kpl Vaalit tulossa. Mikä o Kepu kaatusprosetti? Haastatellaa kpl ihmisiä, joista f kpl ilmoittaa ääestäväsä kepua Suhteellise osuude p harhato estimaattori p=f/ Luottamusväli määräämie perustuu Beroullijakaumaa Luottamusväli Beroulli-jakauma odotusarvolle Kai Virtae 7 Kai Virtae 8 7
Luottamusväli suhteelliselle osuudelle p Luottamuskertoimie määräämie Suhteelise osuude p approksimatiivie luottamusväli luottamustasolla ( α) o muotoa jossa ˆ ( ˆ ) ˆ ( ˆ ) ˆ p p /, ˆ p p z p z p α + α / ˆp = parametri p harhato estimaattori = havaitoje lukumäärä z α/, +z α/ = luottamustasoo ( α) liittyvät luottamuskertoimet ormaalijakaumasta N(0,) Luottamuskertoimet z α/ ja +z α/ jakavat ormaalijakauma tiheysfuktio kuvaaja alle jäävä todeäköisyysmassa kolmee osaa: () Pistee z α/ vasemmalle puolelle jää α/ % massasta () Pistee +z α/ oikealle puolelle jää α/ % massasta (3) Pisteide z α/ ja +z α/ välii jää ( α) % massasta 0.5 0.4 0.3 0. 0. 0 N(0,)-jakauma tiheysfuktio α/ α α/ z α/ 0 +z α/ Kai Virtae 9 Kai Virtae 30 8