Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Samankaltaiset tiedostot
Tilastotieteen kertaus. Kuusinen/Heliövaara 1

tilastotieteen kertaus

Sovellettu todennäköisyyslaskenta B

Estimointi. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

Tilastolliset menetelmät. Osa 1: Johdanto. Johdanto tilastotieteeseen KE (2014) 1

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Osa 2: Otokset, otosjakaumat ja estimointi

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Väliestimointi (jatkoa) Heliövaara 1

Tilastollinen aineisto Luottamusväli

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Testit laatueroasteikollisille muuttujille

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Harjoitus 2: Matlab - Statistical Toolbox

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Testejä suhdeasteikollisille muuttujille

Sovellettu todennäköisyyslaskenta B

Teema 8: Parametrien estimointi ja luottamusvälit

Sovellettu todennäköisyyslaskenta B

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen. TKK (c) Ilkka Mellin (2005) 1

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Testit järjestysasteikollisille muuttujille

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisten aineistojen kuvaaminen

Mat Tilastollisen analyysin perusteet, kevät 2007

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Tutkimustiedonhallinnan peruskurssi

Sovellettu todennäköisyyslaskenta B

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

9. laskuharjoituskierros, vko 12-13, ratkaisut

Regressioanalyysi. Vilkkumaa / Kuusinen 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Sovellettu todennäköisyyslaskenta B

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

Harjoitus 7: NCSS - Tilastollinen analyysi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Todennäköisyyden ominaisuuksia

pisteet Frekvenssi frekvenssi Yhteensä

Normaalijakaumasta johdettuja jakaumia

Johdatus todennäköisyyslaskentaan Jakaumien tunnusluvut. TKK (c) Ilkka Mellin (2005) 1

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

Johdatus todennäköisyyslaskentaan Jatkuvia jakaumia. TKK (c) Ilkka Mellin (2005) 1

D ( ) Var( ) ( ) E( ) [E( )]

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Jatkuvia jakaumia

Ilkka Mellin Todennäköisyyslaskenta. Osa 3: Todennäköisyysjakaumia. Diskreettejä jakaumia. TKK (c) Ilkka Mellin (2007) 1

Satunnaismuuttujat ja todennäköisyysjakaumat Kertymäfunktio

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Todennäköisyyslaskun kertaus. Heliövaara 1

7. laskuharjoituskierros, vko 10, ratkaisut

Johdatus todennäköisyyslaskentaan Diskreettejä jakaumia. TKK (c) Ilkka Mellin (2005) 1

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Tilastollisia peruskäsitteitä ja Monte Carlo

Johdatus tilastotieteeseen Otos ja otosjakaumat. TKK (c) Ilkka Mellin (2004) 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

1. Nollahypoteesi on, että teksti on kirjoitettu lyhyemmällä murteella. Mahdollisiavaihtoehtojaonvainyksieliettäteksti

Osa 2: Otokset, otosjakaumat ja estimointi

riippumattomia ja noudattavat samaa jakaumaa.

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Luennot, osa II

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

30A02000 Tilastotieteen perusteet

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

031021P Tilastomatematiikka (5 op) viikko 3

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

6. laskuharjoitusten vastaukset (viikot 10 11)

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Jakaumien tunnusluvut. TKK (c) Ilkka Mellin (2007) 1

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

031021P Tilastomatematiikka (5 op) viikko 4

10. laskuharjoituskierros, vko 14, ratkaisut

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

Diskreetin satunnaismuuttujan odotusarvo, keskihajonta ja varianssi

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Tilastollisen päättelyn perusteet

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Transkriptio:

Tilastotieteen kertaus Vilkkumaa / Kuusinen 1

Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin jostakin jakaumasta Havaintojen perusteella tätä jakaumaa voidaan kuvailla ja mallintaa, ja jakaumaan liittyviä oletuksia voidaan testata Tilastotiede kehittää ja soveltaa tällaisia kuvailun, mallinnuksen ja testauksen menetelmiä Vilkkumaa / Kuusinen 2

Kuvailun ja päättelyn menetelmiä Kuvailun menetelmiä: - Tilastografiikka - Tilastolliset tunnusluvut - Tilastolliset mallit Päättelyn menetelmiä: - Tilastolliset mallit - Tilastollinen testaus Vilkkumaa / Kuusinen 3

Aineiston kerääminen Kohdistuuko tutkimus koko perusjoukkoon vai vain johonkin sen osaan? - Tutkimusta kutsutaan kokonaistutkimukseksi, jos perusjoukon kaikki alkiot tutkitaan. - Tutkimusta kutsutaan otantatutkimukseksi, jos perusjoukon alkioista vain osa tutkitaan Muutetaanko tutkimuksessa aktiivisesti tutkimuksen kohteiden olosuhteita? - Jos olosuhteita ei muuteta aktiivisesti, tutkimus perustuu suoriin havaintoihin. - Jos tutkitaan olosuhteiden muuttamisen vaikutusta tutkimuksen kohteisiin, tutkimus on koe. Vilkkumaa / Kuusinen 4

Kontrolloidut kokeet Kokeesta ei voida tehdä luotettavia johtopäätöksiä, ellei koe ole kontrolloitu: - Kokeessa on vertailtava vähintään kahden erilaisen käsittelyn vaikutuksia. - Käsittelyjen kohdistamisessa on käytettävä satunnaistusta. - Kokeessa on tehtävä riittävästi koetoistoja. Vilkkumaa / Kuusinen 5

Aineistojen kuvaaminen Vilkkumaa / Kuusinen 6

Frekvenssit ja havaintoarvojen jakauma Jos muuttuja on diskreetti, havaittujen arvojen jakaumaa kuvataan frekvessijakaumalla ja sitä vastaavalla graafisella esityksellä, joka on pylväsdiagrammi. Jos muuttuja on jatkuva, havaittujen arvojen jakaumaa kuvataan luokitellulla frekvessijakaumalla ja sitä vastaavalla graafisella esityksellä, joka on histogrammi. Histogrammissa frekvenssiä vastaa pinta-ala ja pylväsdiagrammissa korkeus. Muuttujan x mahdolliset arvot y 1, y 2,..., y m yhdessä niiden havaittujen frekvenssien f 1, f 2,..., f m kanssa muodostavat muuttujan x havaittujen arvojen x 1, x 2,... x n frekvenssijakauman. Siinä missä todennäköisyyksien summa on aina yksi, niin f i = n. Vilkkumaa / Kuusinen 7

Esimerkki 1 Pylväsdiagrammi 30 heiton frekvenssijakaumasta harhattomalla nopalla 8 Frequency 6 4 2 0 1 2 3 4 5 6 Vilkkumaa / Kuusinen 8

Esimerkki 2 Histogrammi 30 havainnon otoksesta jakaumasta N(0, 1) Vilkkumaa / Kuusinen 9

Havaintoaineiston tunnuslukuja Aritmeettinen keskiarvo: n ˉx = 1 n i=1 x i Otosvarianssi: s 2 = 1 n 1 n i=1 (x i ˉx) 2 = 1 n 1 ( n i=1 x 2 i nˉx 2 ) Otoskeskihajonta: s = s 2 Vilkkumaa / Kuusinen 10

Standardointi Standardoitujen havaintoarvojen z i = x i ˉx s x aritmeettinen keskiarvo ja otosvarianssi ovat, i = 1, 2,..., n ˉz = 1 n n i=1 z i = 0 s 2 z = 1 n 1 n (z i ˉz) 2 = 1 i=1 Vilkkumaa / Kuusinen 11

Vinous Olkoot m 2 = 1 n n (x i x) 2 m 3 = 1 n i=1 havaintoarvojen 2. ja 3. keskusmomentti. n (x i x) 3 i=1 Tunnuslukua c 1 = m 3 m 3/2 2 käytetään kuvaamaan havaintoarvojen jakauman vinoutta. - Jos c 1 0, on havaintoarvojen jakauma symmetrinen painopisteensä suhteen. - Jos c 1 > 0, on havaintoarvojen jakauma positiivisesti vino. - Jos c 1 < 0, on havaintoarvojen jakauma negatiivisesti vino. Vilkkumaa / Kuusinen 12

Huipukkuus Olkoot m 2 = 1 n n (x i x) 2 m 4 = 1 n i=1 havaintoarvojen 2. ja 4. keskusmomentti. n (x i x) 4 i=1 Tunnuslukua c 2 = m 4 m 2 2 3 käytetään kuvaamaan havaintoarvojen jakauman huipukkuutta. - Normaalijakautuneella havaintoaineistolla c 2 0. - Jos c 2 > 0, on havaintoarvojen jakauma huipukas (Normaalijakautuneeseen havaintoaineistoon verrattuna). - Jos c 2 < 0, on havaintoarvojen jakauma laakea (Normaalijakautuneeseen havaintoaineistoon verrattuna). Vilkkumaa / Kuusinen 13

Esimerkki - 30 havainnon otos jakaumasta N(0,1) Mean SD Min Q 1 Q 3 Max Skew Kurtosis Otos 0.08 1.23-2.04-0.57 0.99 2.66-0.40 0.06 N(0, 1) 0 1 - -0.68 0.68-0 0 Vilkkumaa / Kuusinen 14

Klikkeri-kysely Kuva esittää 50 havainnon aineiston histogrammia. Mistä jakaumasta arvelet aineiston olevan peräisin? 1. Tasajakaumasta, 2. Normaalijakaumasta, 3. F-jakaumasta, 4. Bernoulli-jakaumasta. 5 Frequency 4 3 2 1 0 0 0.5 1 1.5 2 2.5 3 3.5 4 Vilkkumaa / Kuusinen 15

Otos ja otosjakaumat Vilkkumaa / Kuusinen 16

Tilastollinen aineisto Tilastollinen aineisto koostuu tutkimuksen kohteita kuvaavien muuttujien havaituista arvoista. Tilastollisissa tutkimusasetelmissa havaintoarvoihin liittyy aina epävarmuutta ja satunnaisuutta. Vilkkumaa / Kuusinen 17

Tilastollinen malli Tilastollisella mallilla tarkoitetaan tutkimuksen kohteita kuvaavien satunnaismuuttujien todennäköisyysjakaumaa, jonka ajatellaan generoineen ko. satunnaismuuttujien havaitut arvot. Nämä todennäköisyysjakaumat riippuvat tavallisesti parametreista, joiden arvoja ei yleensä tunneta. Tilastollista mallia sovellettaessa kohdataan tavallisesti seuraavat parametreja koskevat ongelmat: - Parametrien arvoja ei tunneta ja ne on estimoitava eli arvioitava havaintoaineistosta. - Parametrien arvoista on olemassa oletuksia, joita halutaan testata havaintoaineiston antaman informaation avulla. Vilkkumaa / Kuusinen 18

Yksinkertainen satunnaisotos Olkoot X 1, X 2,..., X n riippumattomia, identtisesti jakautuneita satunnaismuuttujia, joilla on sama pistetodennäköisyys- tai tiheysfunktio f(x). Tällöin satunnaismuuttujat X 1, X 2,..., X n muodostavat yksinkertaisen satunnaisotoksen jakaumasta f(x). Vilkkumaa / Kuusinen 19

Havainnot ja havaintoarvot Olkoon X 1, X 2,..., X n yksinkertainen satunnaisotos jakaumasta f(x). Satunnaismuuttujia X 1, X 2,..., X n kutsutaan havainnoiksi. Kun otos on poimittu, satunnaismuuttujat X 1, X 2,..., X n saavat havaituiksi arvoikseen havaintoarvot jotka eivät ole satunnaisia. x 1, x 2,..., x n, Vilkkumaa / Kuusinen 20

Aritmeettisen keskiarvon odotusarvo ja varianssi Oletetaan, että havainnot X 1, X 2,..., X n muodostavat yksinkertaisen satunnaisotoksen satunnaismuuttujan X jakaumasta, jonka odotusarvo ja varianssi ovat E(X) = μ ja V ar(x) = σ 2. Havaintojen aritmeettisen keskiarvon ˉX odotusarvo ja varianssi ovat E( ˉX) = μ V ar( ˉX) = σ2 n Aritmeettisen keskiarvon standardipoikkeamaa D( ˉX) = σ/ n kutsutaan keskiarvon keskivirheeksi. Vilkkumaa / Kuusinen 21

Aritmeettisen keskiarvon otosjakauma, kun otos on normaalijakautunut Oletetaan, että havainnot X 1, X 2,..., X n muodostavat yksinkertaisen satunnaisotoksen normaalijakaumasta N(μ, σ 2 ). Tällöin havaintojen aritmeettinen keskiarvo ˉX noudattaa eksaktisti normaalijakaumaa: ) ˉX N (μ, σ2 n Standardoitu satunnaismuuttuja Z = ˉX μ σ/ n noudattaa eksaktisti standardoitua normaalijakaumaa: Z N(0, 1) Vilkkumaa / Kuusinen 22

Keskeinen raja-arvolause Olkoon X i, i = 1, 2,..., n, riippumattomia, samoin jakautuneita satunnaismuuttujia, joiden odotusarvo ja varianssi ovat E(X i ) = μ ja D 2 (X i ) = σ 2. Keskeisen raja-arvolauseen mukaan n:n suurille, mutta äärellisille arvoille pätee: ˉX n = 1 n n i=1 ) X i a N (μ, σ2 n Vilkkumaa / Kuusinen 23

Keskeinen raja-arvolause Beta(0.5,0.5), μ=0.5, σ=0.35 n=4 n=20 0 0.2 0.4 0.6 0.8 1 LogN(0,1), μ=1.65, σ=2.16 0 0.2 0.4 0.6 0.8 1 n=10 0 0.2 0.4 0.6 0.8 1 n=40 0 1 2 3 4 5 0 1 2 3 4 5 0 1 2 3 4 5 Vilkkumaa / Kuusinen 24

Otosvarianssin odotusarvo ja varianssi Oletetaan, että havainnot X 1, X 2,..., X n muodostavat yksinkertaisen satunnaisotoksen satunnaismuuttujan X jakaumasta, jonka odotusarvo ja varianssi ovat E(X) = μ ja V ar(x) = σ 2. Havaintojen otosvarianssin s 2 odotusarvo ja varianssi ovat E(s 2 ) = σ 2 V ar(s 2 ) = 2σ4 n 1 Vilkkumaa / Kuusinen 25

Otosvarianssin otosjakauma, kun otos on normaalijakautunut Oletetaan, että havainnot X 1, X 2,..., X n muodostavat yksinkertaisen satunnaisotoksen normaalijakaumasta N(μ, σ 2 ). Tällöin satunnaismuuttuja V = (n 1)s2 σ 2 = n i=1 ( Xi ˉX σ ) 2 noudattaa eksaktisti χ 2 -jakaumaa vapausastein (n 1): V χ 2 (n 1) Vilkkumaa / Kuusinen 26

Frekvenssi ja suhteellinen frekvenssi Olkoon A jokin otosavaruuden S alkioiden ominaisuus Poimitaan otosavaruudesta yksinkertainen satunnaisotos, jonka koko on n Ominaisuuden A omaavien alkioiden lukumäärä satunnaisotoksessa, jonka koko on n, vastaa ominaisuuden A omaavien alkioiden frekvenssiä ja sitä merkitään f :llä Ominaisuuden A suhteellinen frekvenssi ˆp määritellään: ˆp = f n Vilkkumaa / Kuusinen 27

Frekvenssien odotusarvo ja varianssi Frekvenssi f noudattaa eksaktisti binomijakaumaa Bin(n, p). Frekvenssin f odotusarvo ja varianssi ovat siis: missä q = 1 p. E(f) = np V ar(f) = npq, Suhteellisen frekvenssin ˆp odotusarvo ja varianssi ovat: E(ˆp) = p V ar(ˆp) = pq n Vilkkumaa / Kuusinen 28

Suhteellisen frekvenssin normaaliapproksimaatio Keskeisestä raja-arvolauseesta johtuen suhteellinen frekvenssi ˆp noudattaa suurissa otoksissa approksimatiivisesti normaalijakaumaa: Standardoitu satunnaismuuttuja ˆp a N ( p, pq n ) Z = ˆp p pq/n noudattaa siten suurissa otoksissa approksimatiivisesti standardoitua normaalijakumaa: Z a N(0, 1) Vilkkumaa / Kuusinen 29

Klikkeri-kysely Oletetaan, että koripallopelaajan todellinen vapaaheittoprosentti on 70%. Pelaaja heittää testissä 30 vapaaheittoa. Mitä jakaumaa koriin menneiden heittojen suhteellinen osuus approksimatiivisesti noudattaa? 1. N(0.7, 0.08 2 ) 2. N(0.4, 0.007 2 ) 3. N(0.7, 0.21 2 ) Mieti, millä todennäköisyydellä em. jakaumasta saadaan havaintoja, jotka ovat joko pienempiä kuin 0 tai suurempia kuin 1. Vilkkumaa / Kuusinen 30