Sovellettu todennäköisyyslaskenta B

Samankaltaiset tiedostot
Sovellettu todennäköisyyslaskenta B

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Johdatus regressioanalyysiin. Heliövaara 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Harjoitus 9: Excel - Tilastollinen analyysi

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

Regressioanalyysi. Kuusinen/Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

Väliestimointi (jatkoa) Heliövaara 1

Johdatus tilastotieteeseen Yhteensopivuuden, homogeenisuuden ja riippumattomuuden testaaminen. TKK (c) Ilkka Mellin (2004) 1

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Testit laatueroasteikollisille muuttujille

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

11. laskuharjoituskierros, vko 15, ratkaisut

Harjoitus 7: NCSS - Tilastollinen analyysi

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Yhteensopivuuden, homogeenisuuden ja riippumattomuuden testaaminen

Mat Tilastollisen analyysin perusteet, kevät 2007

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Testit järjestysasteikollisille muuttujille

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Testejä suhdeasteikollisille muuttujille

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Kaksisuuntainen varianssianalyysi. Heliövaara 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

χ 2 -yhteensopivuustestissä käytetään χ 2 -testisuuretta χ = Mat Sovellettu todennäköisyyslasku A

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Sovellettu todennäköisyyslaskenta B

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Lohkoasetelmat. Kuusinen/Heliövaara 1

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

10. laskuharjoituskierros, vko 14, ratkaisut

HAVAITUT JA ODOTETUT FREKVENSSIT

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Tilastollinen aineisto Luottamusväli

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Mat Sovellettu todennäköisyyslasku A

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

Todennäköisyyden ominaisuuksia

Johdatus regressioanalyysiin

tilastotieteen kertaus

Lohkoasetelmat. Heliövaara 1

2. TILASTOLLINEN TESTAAMINEN...

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollinen testaaminen tai Tilastollinen päättely. Geneettinen analyysi

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Harjoitus 3: Regressiomallit (Matlab)

Hypoteesin testaus Alkeet

2. Teoriaharjoitukset

Estimointi. Vilkkumaa / Kuusinen 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Harjoitus 3: Regressiomallit (Matlab)

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Yleinen lineaarinen malli

5.7 Uskottavuusfunktioon perustuvia testejä II

Testit suhdeasteikollisille muuttujille. Testit suhdeasteikollisille muuttujille. Testit suhdeasteikollisille muuttujille: Esitiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

Transkriptio:

Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17

1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin Regressiomalli Regressio-ongelma Pienimmän neliösumman menetelmä Antti Rasila () TodB 22. marraskuuta 2007 2 / 17

χ 2 -riippumattomuustesti χ 2 -riippumattomuustestillä testataan, ovatko perusjoukon alkion tekijät A ja B riippumattomia. Käytännössä testin suorittaminen muistuttaa χ 2 -homogeenisuustestiä. Yleinen hypoteesi: Oletetaan, että perusjoukosta on poimittu yksinkertainen satunnaisotos ja havaintoyksiköt voidaan luokitella ristiin tekijöiden A ja B suhteen. H 0 : Tekijät A ja B ovat riippumattomia. H 1 : Tekijät A ja B eivät ole riippumattomia. Antti Rasila () TodB 22. marraskuuta 2007 3 / 17

χ 2 -riippumattomuustestin suorittaminen 1/4 Testi suoritetaan seuraavasti: valitaan havainnoille toisensa poissulkevat luokitukset tekijöiden A ja B suhteen. Luokitellaan havainnot tekijöiden A ja B suhteen, ja määrätään havaitut luokkafrekvenssit. Antti Rasila () TodB 22. marraskuuta 2007 4 / 17

χ 2 -riippumattomuustestin suorittaminen 2/4 Kuten χ 2 -homogeenisuustestin tapauksessa, nämä voidaan esittää taulukkona: 1 2... c Σ 1 O 11 O 12... O 1c R 1 2 O 21 O 22... O 2c R 2.................. r O r1 O r2... O rc R r Σ C 1 C 2... C c n Tässä r on A-luokkien lukumäärä, c B-luokkien lukumäärä, O ij havaittu frekvenssi luokassa, jonka määrää A-luokka i ja B-luokka j, R i havaittu frekvenssi A-luokassa i, C j havaittu frekvenssi B-luokassa j ja n havaintojen kokonaislukumäärä. Antti Rasila () TodB 22. marraskuuta 2007 5 / 17

χ 2 -riippumattomuustestin suorittaminen 3/4 Erityisesti pätee, että (i) c j=1 O ij = n i, (ii) r i=1 O ij = C j, ja (iii) r i=1 j=1 c O ij = r c R i = C j = n. i=1 j=1 Määrätään tehdyn riippumattomuusoletuksen mukaiset odotetut luokkafrekvenssit E ij yhtälöillä: E ij = np ij = R ic j, i = 1,..., r, j = 1,..., c. n Kuten edellä, näistä voidaan muodostaa taulukko. Antti Rasila () TodB 22. marraskuuta 2007 6 / 17

χ 2 -riippumattomuustestin suorittaminen 4/4 Verrataan havaittuja ja odotettuja luokkafrekvenssejä toisiinsa χ 2 -testisuureella: r c χ 2 (O ij E ij ) 2 =. E ij i=1 j=1 Jos nollahypoteesi pätee, testisuure noudattaa suurissa otoksissa approksimatiivisesti χ 2 -jakaumaa vapausastein f = (r 1)(c 1), missä r on A-luokkien ja c B-luokkien lukumäärä. Approksimaatio on tavallisesti riittävän hyvä, jos E ij > 1 ja keskimääräiset frekvenssit R j /c > 5 ja C j /r > 5. Testisuureen normaaliarvo eli odotusarvo nollahypoteesin pätiessä on E(χ 2 ) = f. Normaaliarvoa merkitsevästi suuremmat χ 2 -testisuureen arvot viittaavat siihen, että nollahypoteesi ei päde. Antti Rasila () TodB 22. marraskuuta 2007 7 / 17

Esimerkki 1/2 Tehtaassa pyrittiin parantamaan tuotteen laatua. Ennen muutostöitä todettiin tarkastuksessa, että 80 tuotteen joukosta 65 oli täysin virheettömiä ja muutosten jälkeen 110 tuotteen joukosta 98 oli täysin virheettömiä. Paraniko tuotteiden laatu? Valitaan hypoteesiksi H 0 : Muutostöillä ei ollut vaikutusta tuotteen laatuun (eli virheellisyys/virheettömyys on riippumatonta muutostöistä). Vaihtoehtoinen hypoteesi H 1 : Muutostöillä oli vaikutusta. Luokitellaan tekijöiden (A) Muutostyöt ennen/jälkeen (=1/2) ja (B) virheetön/virheellinen (=1/2). Muodostetaan nelikenttä A 1 A 2 Σ B 1 65 98 163 B 2 15 12 27 Σ 80 110 190 Antti Rasila () TodB 22. marraskuuta 2007 8 / 17

Esimerkki 2/2 Odotetut frekvenssit E ij : A 1 A 2 Σ B 1 68.63 94.37 163 B 2 11.37 15.63 27 Σ 80 110 190 χ 2 -testisuure: χ 2 = (65 68.64)2 + 68.64 (98 94.37)2 + 94.37 (15 11.37)2 (12 15.63)2 + 2.335 11.37 15.63 Testataan merkitsevyystasolla α = 0.05. Käytetään χ 2 -jakaumaa vapausasteilla f = (2 1)(2 1) = 1. Hylkäysalueeksi saadaan (3.84, ), joten nollahypoteesi hyväksytään merkitsevyystasoilla 0.05. Muutostöillä ei ollut tilastollisesti merkitsevää vaikutusta tuotteen laatuun. Antti Rasila () TodB 22. marraskuuta 2007 9 / 17

Johdatus regressioanalyysiin Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen vaihtelun avulla. Regressioanalyysissa selitettävän muuttujan tilastolliselle riippuvuudelle selittävistä muuttujista pyritään rakentamaan tilastollinen malli, jota kutsutaan regressiomalliksi. Regressioanalyysin mahdollisia tavoitteita ovat: (i) Selitettävän muuttujan ja selittävien muuttujien tilastollisen riippuvuuden luonteen kuvaaminen. (ii) Selitettävän muuttujan arvojen ennustaminen. Antti Rasila () TodB 22. marraskuuta 2007 10 / 17

Regressiomalli Regressiomallissa y j = f (x j ; β) + ε j, j = 1, 2,..., n on seuraavat osat: y j = Selitettävän muuttujan havaittu arvo havaintoyksikössä j. x j = Selittävän muuttujan havaittu arvo havaintoyksikössä j. β = Tuntematon ei-satunnainen parametri. ε j = Satunnainen virhetermi havaintoyksikössä j. Antti Rasila () TodB 22. marraskuuta 2007 11 / 17

Regressio-ongelma Regressioanalyysissa pyritään valitsemaan regressiomallin parametrin β arvo siten, että kaikista virhetermeistä ε j tulee samanaikaisesti mahdollisimman pieniä. Pyritään siis valitsemaan parametri β siten, että käyrä y = f (x; β) kulkisi mahdollisimman läheltä jokaista havaintopistettä (x j, y j ) R 2, j = 1, 2,..., n. Erään ratkaisun tähän käyränsovitusongelmaan tarjoaa pienimmän neliösumman menetelmä. Antti Rasila () TodB 22. marraskuuta 2007 12 / 17

Pienimmän neliösumman menetelmä Pienimmän neliösumman menetelmässä pyritään minimoimaan regressiomallin y j = f (x j ; β) + ε j, j = 1, 2,..., n virhetermien ε j neliöden summaa muuttamalla parametrin β arvoa eli funktiota n n F (β) = ε 2 j = (y j f (x j ; β)) 2. j=1 Optimaalinen β:n arvo on parametrin β pienimmän neliösumman estimaatti eli PNS-estimaatti. j=1 Antti Rasila () TodB 22. marraskuuta 2007 13 / 17

PNS-menetelmä PNS-suoran sovittaminen: Kuvassa vihreällä parametr(e)ista β riippuva sovitettava funktio f (x; β) jollakin parametrin arvolla, datapisteet (x j, y j ) ja vastaavat virhetermit ε j. Antti Rasila () TodB 22. marraskuuta 2007 14 / 17

Esimerkki 1/3 Eräässä tutkimuksessa selvitettiin tohtorintutkinnon matematiikassa suorittavien ikää väitösvuotena. Tulokset olivat seuraavat: Antti Rasila () TodB 22. marraskuuta 2007 15 / 17

Esimerkki 2/3 Sovitetaan dataan muotoa f (x; β) = β 1 x 2 e β 2x oleva funktio. Tässä tapauksessa sovituksen tekeminen käsin ei ole helppoa. Tietokoneella (MATLAB) se kuitenkin onnistuu. Muodostetaan aluksi mallifunktio: f=inline( beta(1)*x.^2.* exp(-beta(2)*x), x, beta ); Minimoitava funktio F : R 2 R + on F (β) = n ( yj f (x j ; β) ) 2, j=1 eli MATLAB:illa fobj=inline( norm(feval(f,x,beta)-y), beta ); missä x ja y ovat datan sisältävät vektorit. Antti Rasila () TodB 22. marraskuuta 2007 16 / 17

Esimerkki 3/3 Minimointi voidaan suorittaa käskyllä fminsearch, eli beta=fminsearch(fobj,beta0), missä beta0 on minimin hakemisessa käytettävä alkuarvaus. Tulokseksi saadaan sovitus: Antti Rasila () TodB 22. marraskuuta 2007 17 / 17