Menestyminen valintakokeissa ja todennäköisyyslaskussa

Koko: px
Aloita esitys sivulta:

Download "Menestyminen valintakokeissa ja todennäköisyyslaskussa"

Transkriptio

1 Menestyminen valintakokeissa ja todennäköisyyslaskussa Esa Pursiheimo 45761L

2 1 JOHDANTO LÄHTÖTIEDOT JA OTOS PÄÄSYKOETULOKSIEN YHTEISJAKAUMA REGRESSIOANALYYSI MALLI JA MUUTTUJAT PARHAAN MALLIN ETSINTÄ DIAGNOSTIIKKA JOHTOPÄÄTÖKSET JA POHDINNAT YHTEENVETO...2 KIRJALLISUUSVIITTEET...21 LIITE A...22 LIITE B...23 LIITE C

3 1 Johdanto Tämän erikoistyön tarkoituksena on tutkia tilastollisesti, voidaanko Teknillisen Korkeakoulun todennäköisyyslaskun ensimmäisen välikokeen pistemäärän vaihteluita selittää tilastollisesti korkeakoulun pääsykokeen matematiikan ja fysiikan pistemäärien avulla. Lisäksi työssä tutkitaan minkälaisesta yhteisjakaumasta matematiikan ja fysiikan kokeiden pisteet satunnaismuuttujina ovat peräisin. Välikoepisteiden ja pääsykoepisteiden riippuvuutta tutkitaan regressioanalyysilla, kun taas pääsykoepisteiden yhteisjakaumaa tutkitaan lähinnä kaksiulotteisen normaalijakauman näkökulmasta. Yleisesti voidaan päätellä, että välikoetulokset riippuvat pääsykoetuloksista. Jos opiskelija on menestynyt pääsykokeissa, menestynee hän myös korkeakoulun välikokeessa. Kuitenkin voidaan olettaa matematiikan kokeen pisteillä olevan suurempi vaikutus kuin fysiikan pisteillä, koska todennäköisyyslasku edellyttää enemmän matematiikan taitoja kuin fysiikan osaamista. Toisaalta myös fysiikan taitaminen edellyttää matematiikan taitoja. Välikokeessa onnistumiseen kuitenkin vaikuttaa hyvin moni satunnainen tekijä, joita ei voida edes määritellä. Näin ollen voidaan olettaa, että satunnaisvaihtelu tulee olemaan kohtuullisen suurta riippuvuussuhteista huolimatta. Pääsykokeen ja välikokeen välisenä aikana opiskelijat saavat erilaista koulutusta riippuen koulutusohjelmasta, joten tämän vaikutuksen voi ottaa huomioon etsittäessä selitystä välikoepisteille. Esimerkiksi sähkötekniikan opiskelijat suorittavat eri tasoisen matematiikan peruskurssin kuin fysiikan opiskelijat, joten on mahdollista heidän saaneen todennäköisyyslaskun kannalta erilaisen ajattelu- tai laskutavan. Lisäksi on huomattava, että pääsykoepisteet eivät välttämättä ole vuodesta toiseen samasta satunnaisjakaumasta, vaan eri vuosina on eri tasoiset kokeet. Nämä seikat eivät ole yhtä selvästi järkeiltävissä kuin pääsykoepisteiden vaikutus, mutta ne on hyvä tutkia varmuuden vuoksi. Tutkimusta varten suoritettiin satunnaisotanta ensinnäkin matematiikan ja fysiikan kokeiden pisteiden yhteisjakauman tutkimusta varten vuoden 1999 ja 1998 koetuloksista. Molemmat vuodet kannattaa tutkia edellämainittujen seikkojen takia. Toiseksi poimittiin välikokeen tuloksen selittämistä varten kohtuullisen kokoinen otos sisältäen tiedot välikoetuloksista, pääsykoetuloksista, koulutusohjelmasta ja pääsykoevuodesta. Käytännön syistä työssä keskitytään fysiikan, tietotekniikan ja sähkötekniikan opiskelijoihin sekä vuosien 1998 ja 1999 pääsykokeisiin. Käytännössä yhteisjakauman tutkinnan ja regressioanalyysin suorittamiseen tässä työssä käytetään Statistix tilasto-ohjelmistoa, jonka tulostuksia kaikki työssä esitetyt listaukset ovat. Yhteisjakauman analysoinnissa, regressiomallin etsinnässä ja diagnostiikassa käytetty teoria on pääosin peräisin Pertti Lainisen kirjasta Tilastollisen Analyysin Perusteet [Laininen 2]. 2

4 2 Lähtötiedot ja otos Työssä on tarkoituksena siis tutkia mahdollinen yhteys välikokeen pistemäärän ja opiskelijan Teknillisen Korkeakoulun pääsykokeissa saamien pisteiden välillä. Regressioanalyysin selitettävä tekijä on tässä tapauksessa sovelletun todennäköisyyslaskun kurssin (Mat-2.9, Sovellettu todennäköisyyslasku A) ensimmäisen välikokeen (6.11.2) pistemäärä. Välikokeessa on kolme tehtävää pisteytyksellä yhdestä kuuteen, joten kokonaispistemäärä vaihtelee nollan ja kahdeksantoista välillä. Selittäjinä ovat Teknillisen Korkeakoulun pääsykokeen matematiikan ja fysiikan kokeiden pistemäärät. Pääsykokeissa on kuusi tehtävää pisteytyksellä nollasta kuuteen, joten kummankin kokeen yhteispistemäärän maksimi on 36. Sovellettu todennäköisyyslasku A on pääasiassa teknillisen fysiikan, tietotekniikan ja sähkötekniikan opiskelijoille suunnattu, joten otokseen otetaan vain kyseisten koulutusohjelmien opiskelijoiden välikoetuloksia. Syynä on regressiomalliin mukaan otettava koulutusohjelman vaikutus välikoetuloksiin, ja muiden koulutusohjelmien opiskelijoiden kurssista saamat pisteet voivat hyvinkin erota kurssia pakollisena suorittavien pisteistä. Otoksessa pitäisi olla kolmesta koulutusohjelmasta välikoetuloksia samassa suhteessa kuin välikokeeseen on osallistunut kaikkiaan kustakin koulutusohjelmasta. Perusjoukko Perusjoukko % Otos Otos % Tf S Ti Taulukko 1. Koulutusohjelmien osuudet perusjoukossa ja otoksessa. Taulukosta 1 nähdään, että otoksen ja perusjoukon jakauma koulutusohjelmien suhteen on samankaltainen. Syy siihen, että otoksena ei ole kaikkien välikokeeseen osallistuneiden välikoepisteet, löytyy pääsykoepisteiden lähtötiedoista. Käytännön syistä pääsykokeiden pisteitä on etsitty vain vuosien 1998 ja 1999 Otaniemessä pääsykokeen suorittaneiden listoista. Aluksi piti yksinkertaisuuden vuoksi tutkia vain vuoden 1999 pääsykokeita, mutta tällöin otoksesta olisi tullut tilastolliseen tarkasteluun liian suppea, joten pääsykoe vuodelta 1998 lisättiin aineistoon. Näin kuitenkin malliin on lisättävä pääsykokeen vuoden vaikutusta kuvaava tekijä, koska eri vuosina voi olla aivan eri tasoiset matematiikan tai fysiikan kokeet. Otoksessa tietotekniikan ja teknillisen fysiikan opiskelijoiden osuudet ovat pieniä verrattuna sähkötekniikan opiskelijoiden osuuteen, mutta yhteenlaskettuna niiden osuus on kohtuullinen. Tietotekniikan ja fysiikanopiskelijoiden yhdistäminen yhdeksi joukoksi voi tulla ajankohtaiseksi, jos regressioanalyysi ei löydä tilastollisesti merkitsevää eroa niiden välillä. Näin ollen saadaan regressioanalyysia varten otos, jossa jokainen datapiste sisältää selitettävän tekijän eli välikoepistemäärän sekä selittävät tekijät eli matematiikan ja fysiikan pääsykokeen pistemäärän, koulutusohjelman (Tf, Ti tai S) ja pääsykoevuosi (1998 tai 1999). Otoksessa on 129 datapistettä, joka lienee regressioanalyysiin tarpeeksi laaja. Liiteessä A on esitetty otos eli kaikkien datapisteiden selitettävät ja selittävät tekijät. 3

5 3 Pääsykoetuloksien yhteisjakauma Ensimmäisenä tehtävänä tässä erikoistyössä on tutkia tilastollisesti Teknillisen Korkeakoulun pääsykokeiden matematiikan ja fysiikan pistemäärien yhteisjakaumaa. Tätä varten tarvitaan tarpeeksi suuri satunnainen otos pääsykokeiden pistemääristä. Kappaleessa 2 esiteltyä regressioanalyysin otosta ei voida käyttää, koska siinä on vain suhteellisen korkeita pistemääriä. Otokseksi on siten otettu pääsykoetuloslistoista aakkosjärjestyksessä sadan ensimmäisen molemmat kokeet suorittaneen kokelaan pisteet. Aakkosjärjestyksessä koottu otos on varmasti satunnainen. Koska regressioanalyysissa on turvauduttu vuosien 1999 ja 1998 pääsykoetuloksiin, tutkitaan tässä työssä molempien vuosien yhteisjakauma erillisillä otoksilla Fysiikka Matematiikka Fysiikka Matematiikka Kuva 1. Matematiikan ja fysiikan pääsykokeiden pistemäärien otos vuosilta 1998 ja Kuvassa 1 on piirretty fysiikan pisteet matematiikan kokeita vastaan vuosien 1998 ja 1999 otoksista. Yleinen otaksuma on, että hyvä matematiikan osaaja menestyy myös fysiikassa. Tämä käy ilmi kummastakin kuvaajasta, sillä fysiikan pistemäärä näyttäisi korreloivan vahvasti matematiikan pistemäärän kanssa. Vuoden 1998 otoksen pistemäärien näyttäisi jakaantuneen suhteellisen tasaisesti, kun taas vuoden 1999 otoksessa pisteet ovat kasaantuneet hieman alhaisemmalle tasolle. Näin ollen voisi päätellä vuonna 1999 olleen hieman vaikeampi pääsykoe. Pistemääräotokset ovat reaalimaailmasta saatuja, joten voisi yleisesti olettaa niiden jakauman olevan kaksiulotteinen normaalijakauma. Kuvasta 1 päätellen tämä ei ole mikään rohkea oletus, joten hypoteesina on jakauman olevan normaali. Olkoot X ja Y sellaisia satunnaismuuttujia, joilla on seuraavat tunnusluvut: X:n odotusarvo: E[ X ] = µ X 2 X:n varianssi: Var[ X ] = σ X Y:n odotusarvo: E[ Y ] = µ Y 2 Y:n varianssi: Var[ Y ] = σ X:n ja Y:n välinen lineaarinen korrelaatiokerroin: ρ Y 4

6 Jotta satunnaismuuttujien yhteisjakauma olisi kaksiulotteinen normaalijakauma yllä mainituilla parametreilla eli 2 2 (, Y ) ~ N ( µ, µ ; σ, σ ; ρ) X, (3.1) X Y X Y tulee yhteisjakauman täyttää seuraavat ominaisuudet [Laininen 1998]: Yksittäiset satunnaismuuttujat ovat normaalijakautuneita, ehdolliset jakaumat ovat normaalijakautuneita sekä yksittäisten muuttujien korreloimattomuudesta seuraa muuttujien riippumattomuus. Tässä kappaleessa keskitytään tutkimaan yksittäisten muuttujien jakaumien eli rajajakaumien normaaliutta sekä muuttujien välistä korrelaatiota. Periaatteessa pitäisi myös tutkia ehdolliset jakaumat, koska voidaan konstruoida normaalijakautuneista rajajakautumista yhteisjakauma, joka ei ole kaksiulotteinen normaalijakauma. Syitä ehdollisten jakaumien tutkimatta jättämiseen on useita: Reaalimaailman ilmiöissä normaalit rajajakaumat yleisesti indikoivat normaalia yhteisjakaumaa. Lisäksi ehdollisen jakauman tutkimus vaatisi otoksen, jollaista olisi hyvinkin työlästä etsiä pääsykoelistoista. Kuva 2. Otoksen matematiikan ja fysiikan kokeiden pistemäärien histogrammit. Kuvassa 2 on matematiikan ja fysiikan pääsykoepisteiden rajajakaumia kuvaavia histogrammeja otoksesta. Vuoden 1998 matematiikan otos näyttää selvimmin olevan normaalijakautunut, kun taas varsinkin vuoden 1999 jakaumat vaikuttavat olevan hieman vasemmalle painottuneita. Lisäksi jakaumista nähdään selvästi, että vuonna 1999 on pisteitä tullut keskimäärin niukemmin kuin vuonna Histogrammeista ei voida tehdä otoksen pienuuden takia mitään selviä johtopäätöksiä rajajakaumien normaaliudesta, joten on syytä tehdä tarkempaa analyysia. 5

7 DESCRIPTIVE STATISTICS MA98 FY98 MA99 FY99 N LO 95% CI MEAN UP 95% CI SD VARIANCE MINIMUM MEDIAN MAXIMUM SKEW KURTOSIS Listaus 1. Otoksen yksittäisten muuttujien tilastollisia tunnuslukuja. Listauksessa 1 on esitetty muutamia havaintoaineistoa yleisesti kuvaavia tilastollisia tunnuslukuja. Tuloksista selviää, miten vuoden 1998 pääsykokeiden matematiikan pisteiden keskiarvo on vuoden 1999 pisteiden keskiarvoa korkeampi. Kuitenkin mielenkiintoisinta tutkimuksen kannalta ovat vinous (skew) ja huipukkuus (kurtosis), jotka antavat tietoa otoksen rajajakaumien muodosta. Jos vinous on positiivinen, on havaintoaineistolla pitkä häntä oikealla puolella. Listauksessa 1 kaikissa tapauksissa vinous on positiivinen, ja varsinkin 1999 matematiikan pisteiden havaintoaineistolla näyttäisi olevan muita pitempi häntä oikealle, mitä vahvistaa myös kuvan 2 histogrammi. Huipukkuus taas kuvaa jakauman huipun terävyydestä, joten listauksen 1 mukaan kaikissa tapauksissa huipukkuus on negatiivinen eli jakauma on normaalia laakeampi. Kuva 3. Wilk Shapiro / Rankit Plot otoksen rajajakaumille. 6

8 Rajajakaumien normaaliutta voidaan myös testata tilastollisesti käyttämällä Wilk Shapiro / Rankit Plot testiä [Laininen 2], jossa otoksen normaaliutta tarkastellaan vertaamalla sitä normaalijakauman kertymäfunktioon. Normaalijakauman kertymäfunktion arvojoukko [,1] jaetaan tasan n osaan ja lasketaan niitä vastaavat satunnaismuuttujat. Tämän jälkeen suuruusjärjestykseen asetettu otos piirretään normaalijakauman odotettuja satunnaismuuttujia vastaan. Kuvassa 3 on esitetty kaikista rajajakaumista nämä kuvaajat. Jos havainnot asettuvat hyvin suoralle, on kyseessä normaalijakaumasta oleva otos. Kuvassa 3 olevat kuvaajat ovat hieman käyrän muotoisia, joten normaalius ei ole vahvaa. Jakaumien normaaliutta voidaan myös testata tilastollisesti laskemalla Wilk-Shapiro kuvaajien selitysastetta, jonka pitäisi ylittää kriittinen arvo. SHAPIRO-WILK NORMALITY TEST VARIABLE N W P MA FY MA FY Listaus 2. Wilk-Shapiro tunnusluvut ja P-arvot rajajakaumille. Listauksessa 2 on esitetty rajajakaumien otoksien Wilk-Shapiro tunnusluvut eli sovitettujen suorien selitysasteet ja niitä vastaavat P-arvot. Nähdään, että ainoastaan vuoden 1998 matematiikan otoksen voidaan katsoa olevan normaalijakautunut, kun taas muut jakaumat eivät selvästikään ole normaaleja. Koska rajajakaumat eivät ole normaaleja, pitäisi yhteisjakaumaa varten tutkia, ovatko jakaumat joitakin muita kuin normaaleja kuten lognormaaleja. Jakaumien vinous voisi antaa olettaa kyseessä olevan juuri log-normaalijakauma, mutta toisaalta histogrammeissa näkyvät hännät voi selittää alhaisella odotusarvolla ja einegatiivisilla havainnoilla. Vaikka rajajakaumat eivät ole normaaleja, on kuitenkin hyvä regressioanalyysin kannalta tutkia korrelaatiota matematiikan ja fysiikan pisteiden välillä. Kahden muuttujan korrelaation estimaatti lasketaan kaavasta n ( x x)( y i= 1 i i ρˆ = r =. (3.2) n 2 n 2 ( x i= i x) ( y i= i y) 1 1 y) CORRELATIONS (PEARSON) MA98 FY P-VALUE. CASES INCLUDED 1 MISSING CASES CORRELATIONS (PEARSON) MA99 FY P-VALUE. CASES INCLUDED 1 MISSING CASES Listaus 3. Matematiikan ja fysiikan pisteiden korrelaatiot ja niiden P-arvot. 7

9 Listauksesta 3 käy ilmi, että matematiikan ja fysiikan pisteet korreloivat otoksessa varsinkin vuoden 1998 tapauksessa vahvasti. Lisäksi P-arvot paljastavat korrelaation olevan tilastollisesti merkitsevää. Korrelaation estimaattien 95 % luottamusvälien laskemiseen tarvitaan Fisherin muunnos [Laininen 2], jossa korrelaation estimaatti muunnetaan muuttujaksi v, joka on normaalijakautunut satunnaismuuttuja: v = ln 1 r r 1 1+ ~ N ln 2 1 ρ 1, ρ n 3 (3.3) Muuttujalle v lasketaan luottamusväli, jonka jälkeen välin päätepisteet muunnetaan takaisin korrelaatioestimaatiksi Fisherin käänteismuunnoksella. r e e 2v = 2 v (3.4) Näin saadaan listauksen 3 korrelaatiokertoimille 95 % luottamusvälit: % luottamusväli korrelaatiokertoimelle: [.731,.8685] % luottamusväli korrelaatiokertoimelle: [.5453,.7656] Ylläolevien luottamusvälien mukaan korrelaatio on selvää, sillä luottamusväli ei ole lähelläkään nollaa. Koska otoksien korrelaatio on vahvaa, voi regressioanalyysissa tulla ongelmia multikollineaarisuuden takia. Jos selittäjät ovat liiaksi korreloituneita, voidaan niille tehdä muunnos. Eräs järkevä muunnos on laskea yhteen pääsykoeiden pisteet, jolloin saadaan yksi selittäjä kahden pääsykoeselittäjän sijaan. Jos regressioanalyysissa käytetään pääsykokeiden pisteiden summaa, olisi summan hyvä olla normaalijakautunut. Kuvassa 4 on esitetty pisteiden summalle Wilk-Shapiro kuvaajat. Kuva 4. Pääsykokeiden pisteiden summien Wilk-Shapiro kuvaajat. Kuvaajista käy ilmi, etteivät summatkaan ole normaalijakautuneita. Kuvaajissa on selvää käyräviivaisuutta ja selitysasteet eivät ole merkitseviä. Jakaumat eivät siis ole summattuinakaan normaalijakautuneita, mutta toisaalta jakaumien tutkinta ei ole regressioanalyysin kannalta elintärkeää, sillä regressio-otoksessa selittäjät ovat arvojoukon selvästi suuremmasta päästä. 8

10 4 Regressioanalyysi Toisena tehtävänä erikoistyössä on tutkia, miten matematiikan ja fysiikan pääsykokeiden pistemäärät vaikuttavat todennäköisyyslaskun välikokeen pistemäärään. Tähän tutkintaan käytetään usean muuttujan regressioanalyysia, sillä selittäjiä on useita. Usean muuttujan regressioanalyysissa etsitään parasta mahdollista lineaarista regressiomallia y = β K + i + β1x1 i + + β px pi ei (4.1) estimoimalla parametrit pienimmän neliösumman menetelmällä. Tarkoituksena on löytää sellainen malli, jossa riippuvuudet selittäijien ja selitettävän välillä ovat tilastollisesti merkitseviä ja järkeviä reaalimaailman kannalta. Kun sopiva malli löydetään, pitää sen sopivuutta testata erilaisilla regressioanalyysin diagnostiikoilla. 4.1 Malli ja muuttujat Aluksi on määriteltävä muuttujat regressiomalliin (4.1), jotta voidaan aloittaa sopivan mallin etsintä. Matematiikan ja fysiikan pisteet ovat ns. metrisiä muuttujia, joten ne voidaan ottaa malliin muuttujiksi sellaisenaan. Lisäksi selitettävä eli välikokeen pistemäärä otetaan malliin ilman muunnoksia. y : todennäköisyyslaskun välikokeen tulos x m : matematiikan pääsykokeen pistemäärä x : fysiikan pääsykokeen pistemäärä f Pistemäärien lisäksi liitteessä A olevassa otoksessa on havaittu koulutusohjelma sekä pääsykokeen vuosi. Nämä muuttujat ovat ns. kvalitatiivisia eli ne kuvaavat muuttujan laatua. Näin ollen niitä ei voida ottaa regressiomalliin, koska esim. koulutusohjelman sijoittaminen lineaariseen regressioyhtälöön on mahdotonta. Kvalitatiivisia muuttujia varten on luotava dummy-muuttujat, joiden avulla laatumuuttujat saadaan mukaan regressiomalliin. Dummymuuttuja saa arvon 1 tai riippuen laatumuuttujan tasosta. Jos kvalitatiivisessa muuttujassa on kaksi tasoa, tarvitaan yksi dummy-muuttuja. Kolmen tason kvalitatiivista muuttujaa varten taas tarvitaan kaksi dummy-muuttujaa. z 1 : pääsykoevuoden dummy-muuttuja (1: vuosi 1998, : vuosi 1999) z 2 : koulutusohjelman dummy-muuttuja 1 (1: Tf, : muuten) z : koulutusohjelman dummy-muuttuja 2 (1: S, : muuten) 3 Näin ollen selittäviä muuttujia on viisi, mutta tosin regressiomalliin selittäjiä tulee lisää laskettaessa mukaan muuttujien välisiä tulotermejä. Ensimmäiseen regressiomalliin otetaan luonnollisesti kaikki tarpeelliset selittäjät, mutta turhia selittäjiä ei kannata ottaa mukaan monimutkaistamaan analyysia. Liitteen A otoksesta kannattaa tarkistaa kuvaajien avulla, minkälaista riippuvuutta löytyy selittäjien ja selitettävän välillä. Näin voidaan arvioida, 9

11 kannattaako regressiomalliin ottaa epälineaarisia termejä kuten matematiikan tai fysiikan pisteiden toisen kertaluvun muuttujia. Välikoetulos Matematiikka Tf S Ti Välikoetulos Fysiikka Tf S Ti Kuva 5. Otoksen välikoetulosten kuvaajat matematiikan ja fysiikan pisteitä vastaan. Kuvassa 5 on esitetty välikoetulosten ja matematiikan sekä fysiikan väliset riippuvuudet otoksessa. Molemmista kuvaajista käy selvästi ilmi, että välikoetulosten ja pääsykoepisteiden välillä on riippuvuutta. Lisäksi voidaan tulkita riippuvuuden olevan lineaarista, joten toisen asteen termejä ei tarvita. Matematiikan ja fysiikan ristitermiä ei tässä vaiheessa yksinkertaisuuden vuoksi oteta malliin, mutta regressioanalyysin diagnostiikan yhteydessä voidaan tutkia ristitermin tarpeellisuutta. Minkäänlaista reaalimaailman järkeenkäypää selitystä sen malliin ottamiseen ei ole. Dummy-muuttujien sijoittaminen regressiomalliin on monimutkaisempi, eikä siihen löydä helpolla perusteita kuvasta 5. Pääsykoevuosi ei käy selville kuvaajista, joten sen dummymuuttujat kannattaa ottaa mukaan malliin. Koulutusohjelmien välisiä eroja on vaikea kuvan perusteella tunnistaa, varsinkin fysiikan ja tietotekniikan osastojen pisteiden joukko on hyvin yhdenmukainen. Koska kuvaajista on hankalaa hylätä mitään kvalitatiivista muuttujista, on ne parasta sisällyttää ensimmäiseen malliin. Reaalimaailman näkökulmasta dummy-muuttujat tuovat mielenkiintoisen lisän regressiomalliin: vaikuttaako koulutusohjelma tai pääsykokeen vuosi välikokeeseen vakiotermin kautta vai matematiikan ja fysiikan kertoimien kautta. Oikean mallin etsinnässä turhat termit regressiomallissa kuitenkin karsiutuvat merkitsemättöminä, joten ei kannata kuvaajien tai päättelyn vuoksi jättää yhtäkään termiä pois. Näin ollen ensimmäiseen malliin tulee mukaan matematiikan ja fysiikan pisteet, kaikki dummy-muuttujat sekä ensin mainittujen selittäjien ja dummy-muuttujien ristitermit. Kun kaikki kombinaatiot lasketaan yhteen, saadaan 11 selittäjää ja näin ollen 12 estimoitavaa parametria. Regressiomalli (4.1) saa näin seuraavanlaisen muodon: y i = β + β 6 + x β 1 z x mi 1i mi + + β β 7 2 x x mi fi z + 2i + β β z 3 1i 8 x + z β mi 3i z 4 2i + β + 9 x β 5 z z 3i fi 1i + β 1 x fi z 2i + β 11 x z fi 3i + e i (4.2) Ylläolevasta mallista (4.2) lähdetään siis liikkeelle parhaan mahdollisen regressiomallin etsinnässä. Varmastikaan kaikki mallissa esitetyt riippuvuudet eivät tämän otoksen perusteella ole tilastollisesti merkitseviä, joten lopullinen malli on selvästi alkuperäistä suppeampi. 1

12 4.2 Parhaan mallin etsintä Parhaan regressiomallin etsintä aloitetaan estimoimalla malliin (4.2) parametrit ja tutkimalla tuloksien perusteella tilastollisia suureita. Ensimmäisenä on tutkittava selitysasteen merkitsevyys eli pystytäänkö yhdelläkään muuttujalla selittämään välikokeen pisteiden vaihteluita. Näin saadaan hypoteesi selittäjien merkitsevyydestä: H β = β = K = β (4.3) : 1 2 p = UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF VALIKOE PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P VIF CONSTANT FY FYKO FYKO FYVUOSI KO KO MA MAKO MAKO MAVUOSI VUOSI R-SQUARED.485 RESID. MEAN SQUARE (MSE) ADJUSTED R-SQUARED.3529 STANDARD DEVIATION SOURCE DF SS MS F P REGRESSION RESIDUAL TOTAL CASES INCLUDED 129 MISSING CASES Listaus 4. PNS-estimointi mallista, jossa mukana kaikki muuttujat. Listauksesta 4 käy ilmi, että selitysaste on melko alhainen.485, joten sen merkitsevyyttä on tutkittava tilastollisesti. Testisuureena käytetään F-testiä varten selitysasteen F-arvoa SSDR / ν DR /11 F = = = 7.34, (4.4) SSE / ν /117 E jossa SSDR on listauksen 4 Regression-rivin selitetty neliösumma ja SSE Residual-rivin jäännösneliösumma. Näin saadun testisuureen P-arvo on sen verran pieni, että selitysasteen voidaan katsoa olevan merkitsevä. Näin ollen y:n vaihtelua voidaan selittää ainakin yhdellä muuttujista. Kun tarkastellaan parametrien estimaatteja pistää silmään varsinkin dummymuuttujien suuret kertoimet, joista voidaan mm. päätellä teknillisen fysiikan koulutusohjelman vaikuttavan pistemäärään negatiivisesti. Toisaalta näitä parametreja ei kannata paljoa tulkita, sillä vain kaksi estimaattia on tilastollisesti merkitseviä. Pienimmän 11

13 neliösumman menetelmällä saadut estimaatit eivät muutenkaan ole mitenkään hyviä, koska listauksen 4 mukaan selittäjien välillä esiintyy vahvaa korrelaatiota. Tämä multikollineaarisuus aiheuttaa PNS-menetelmässä käytetyn matriisin singulaarisuutta, jolloin tulokset eivät ole luotettavia. Multikollineaarisuus käy ilmi VIF-luvuista, jotka lasketaan selittäjien selitysasteesta regressiolla muuttuja R. Tällä tarkoitetaan sitä selitysastetta, joka saadaan selittämällä 2 j x j muilla selittäjillä [Laininen 2]. VIF j = 1 1 R 2 j (4.5) Listauksessa 4 olevat VIF-luvut ovat todella korkeita, sillä yli kymmenen olevat VIF-luvut indikoivat korkeaa korrelaatiota. Huomattavaa on koulutusohjelman ensimmäiseen dummymuuttujaan z 1 liittyvien termien muita korkeammat VIF-arvot. Tämä voi johtua fysiikan ja tietotekniikan pienistä osuuksista otoksessa tai kyseisten koulutusohjelmien yhdenmukaisuudesta pistemäärien suhteen. Kaiken kaikkiaan listauksesta voidaan päätellä ainakin suurimman osan dummy-muuttujista poistuvan lopullisesta mallista, sillä ainakin matematiikan ja fysiikan pistemäärät vaikuttavat kuvan 5 mukaan selvästi välikoetuloksiin. Koska ainakin yksi parametreista on nollasta eriävä mutta kaikkien muuttujien malli on huono, täytyy muuttujien määrää alkaa karsia, kunnes kaikki mallin parametrit ovat merkitseviä. Aluksi kannatta tutkia ovatko dummy-muuttujat tarpeellisia. Tähän tarvitaan malli, jossa ei ole mukana ollenkaan dummy-muuttujia. UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF VALIKOE PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P VIF CONSTANT MA FY R-SQUARED.3388 RESID. MEAN SQUARE (MSE) ADJUSTED R-SQUARED.3283 STANDARD DEVIATION SOURCE DF SS MS F P REGRESSION RESIDUAL TOTAL CASES INCLUDED 129 MISSING CASES Listaus 5. PNS-estimointi mallista, jossa ei ole dummy-muuttujia. Tarkoituksena on tutkia tilastollisesti, onko regressioyhtälö sama koulutusohjelmasta tai pääsykoevuodesta riippumatta. Tällöin kyseisten dummy-muuttujien ja niiden ristitermien parametrit olisivat nollia. Toisin sanoen hypoteesina on: H : β3 = β4 = K = β11 = (4.6) 12

14 Tämän hypoteesin testausta varten tarvitaan neliösummat regressiomallista (4.2) sekä mallista, jossa on vain matematiikan ja fysiikan kokeiden pistemäärät: y + i = β + β1xmi + β2x fi ei (4.7) Olkoon SSE mallista (4.7) listauksen 5 mukaisesti saatu jäännösneliösumma ja SSE mallista (4.2) saatu jäännösneliösumma. Näiden avulla saadaan hypoteesin (4.6) testausta varten tarvittava selitetty neliösumma SSDR : SSDR = SSE SSE = = (4.8) Kun tiedetään tarvittavat neliösummat ja niitä vastaavat vapausasteet, saadaan testisuure F- testiä varten. Listauksien 4 ja 5 mukaan selitetyn neliösumman SSDR vapausaste on = 9, ja jäännösneliösumman SSE vapausaste on 117. Hypoteesin (4.6) testisuure on siten: F SSDR / ν DR SSE / ν / /117 = = = E (4.9) Testisuureen (4.9) kriittinen arvo.5:n riskitasolla on ylläolevilla vapausasteilla 1.959, jota ei testisuure ylitä. Näin ollen hypoteesin (4.6) voidaan päätellä pitävän paikkansa, joten yhdelläkään dummy-muuttujalla ei ole vaikutusta välikokeen tulokseen. Tämä tulos oli odotettavissa, koska yhdellekään dummy-muuttujalle ei ole tulkittavissa kuvaajista ja reaalimaailman ilmiöistä niin selvää merkitystä kuin pääsykokeiden pisteillä. Vaikka dummy-muuttujien merkitsevyyden testaus antoi hypoteesia (4.6) tukevan tuloksen, kannattaa silti tutkia muilla metodeilla, löytyisikö mahdollisesti parempi malli kuin (4.7). Eräs regressiomallien vertailukeino on paras yhdistelmä menetelmä (Best Subset Regression), jossa tutkitaan kaikki mahdolliset selittäjien yhdistelmät ja annetaan parhaat mallit kutakin parametrien määrää kohti. Eri yhdistelmiä vertaillaan Mallows:n C p kriteerillä, joka lasketaan seuraavasti [Laininen 2]: C SSE p = n + p, (4.1) σˆ2 p 2 2 jossa SSE on mallin jäännösneliösumma, ˆσ varianssin estimaatti ja p estimoitujen parametrien määrä. Hyvällä selittäjien yhdistelmällä C p on pieni ja pienempi kuin estimaattien määrä p. Vaikka malli olisi paras yhdistelmä menetelmässä todettu parhaaksi C p :n avulla, ei se silti tarkoita, että kyseinen malli valittaisiin parhaaksi yleisesti ottaen. Tämä johtuu siitä, että estimaattien arvot eivät mahdollisesti ole merkitseviä, joka johtaisi kyseisen selittäjän tiputtamiseen mallista ja siirtymiseen aivan toiseen regressiomalliin. Myös multikollineaarisuus voi olla korkeaa joidenkin selittäjien kohdalla. Listauksessa 6 on esitetty paras yhdistelmä menetelmän tulokset kolmella parhaalla p:n parametrin mallilla. Tuloksista nähdään ensinnäkin, että selitysaste nousee mallin parametrien määrän kasvaessa. Vapausasteet huomioon ottava selitysaste (Adj R 2 ) kuitenkin on korkeimmillaan kahdeksan parametrin mallissa. Listauksesta 6 käy ilmi, että C p on pienin seitsemän parametrin mallissa ja kuuden parametrin malleista ylöspäin kaikkien C p on pienempi kuin p. Aiempien 13

15 analyysien mukaan valittu malli (4.7) saa suhteellisen suuren C p :n 7.8, joten on hyvä tutkia ne parhaat p:n parametrin mallit, joissa C p on mallin (4.7) pienempi. BEST SUBSET REGRESSION MODELS FOR VALIKOE UNFORCED INDEPENDENT VARIABLES: (A)FY (B)FYKO1 (C)FYKO2 (D)FYVUOSI (E)KO1 (F)KO2 (G)MA (H)MAKO1 (I)MAKO2 (J)MAVUOSI (K)VUOSI 3 "BEST" MODELS FROM EACH SUBSET SIZE LISTED. ADJUSTED P CP R SQUARE R SQUARE RESID SS MODEL VARIABLES INTERCEPT ONLY G A F A G G I F G C G I C F G A D G C D G I C G I J C F G I C D G I K C G I J K C D F G K A C D G I K C D G I J K C D F G I K A C D G I J K C D F G I J K A B C D G I K A C D E G I J K A B C D G I J K A C D G H I J K A C D E F G I J K A B C D F G I J K A C D F G H I J K A C D E F G H I J K A B C D E F G I J K A B C D F G H I J K A B C D E F G H I J K Listaus 6. Paras yhdistelmä menetelmän antamat parhaat mallit. Liitteessä B on esitetty PNS-estimaatit listauksen 6 parhaille malleille, joissa on parametreja neljästä yhdeksään. Yleisesti katsoen mallin suurentuessa selittäjien merkitsevyys pienenee ja VIF-arvot ja siten multikolineaarisuus kasvaa. Jos lähdetään suurimmasta mallista ja aina poistetaan P-arvoltaan suurin selittäjä, on tuloksena seuraavan pienemmän osajoukon paras malli. Näin voidaan edetä alaspäin mallin koossa, kunnes saavutaan neljän parametrin malliin y + i = β + β1xmi + β8xmiz3 + β11x fiz3 ei, (4.11) jossa kaikki selittäjät ovat merkitseviä ja selitysastekin on parempi kuin mallissa (4.7) VIFarvojen kuitenkin ollessa kohtuullisen korkeita. Malli (4.11) on selitettävissä niin, että välikoetulos riippuu matematiikan pisteistä, mutta sähkötekniikan osaston kohdalla matematiikan kohdalla riippuvuus on erilaista ja välikoetulos riippuu myös fysiikan pisteistä. 14

16 STEPWISE REGRESSION OF VALIKOE UNFORCED VARIABLES: FY FYKO1 FYKO2 FYVUOSI KO1 KO2 MA MAKO1 MAKO2 MAVUOSI VUOSI P to ENTER.5 P to EXIT.5 F M Y A F F V M M V V Y Y U A A U U K K O K K K K O O F O O S O O M O O S S STEP R SQ MSE P Y 1 2 I 1 2 A 1 2 I I G A..... G.... RESULTING STEPWISE MODEL VARIABLE COEFFICIENT STD ERROR STUDENT'S T P VIF CONSTANT FY MA CASES INCLUDED 129 R SQUARED.3388 MSE MISSING CASES ADJ R SQ.3283 SD VARIABLES NOT IN THE MODEL CORRELATIONS VARIABLE MULTIPLE PARTIAL T P FYKO FYKO FYVUOSI KO KO MAKO MAKO MAVUOSI VUOSI Listaus 7. Valikoivan askelluksen menetelmällä löydetty paras malli. Toinen tapa löytää paras malli mekaanisesti on valikoivan askelluksen menetelmä (Stepwise Regression), jossa lisätään malliin yksi selittäjä kerrallaan sen mukaan, mikä selittäjistä nostaa eniten selitysastetta. Jos uuden selittäjän tultua malliin joku mallin vanhoista selittäjien P-arvo nousee yli kriittisen rajan, poistetaan kyseinen selittäjä mallista. Selittäjien lisäystä jatketaan, kunnes lisäys ei paranna selitysastetta tilastollisesti merkitsevästi. Valikoivan askelluksen voi myös suorittaa aloittamalla kaikkien selittäjien mallista, jolloin edellä mainitut valinnat tehdään päinvastoin. Listauksessa 7. on esitetty eteenpäin etenevän valikoivan askelluksen menetelmällä löydetty malli, joka on itse asiassa aiemmin saatu malli (4.7). Liitteessä B on esitetty valikoiva askellus taaksepäin menevällä versiolla. Näin saatu malli onkin sitten paras yhdistelmä menetelmästä kokeilemalla saatu malli (4.11). Täten valikoivan askelluksen kulkusuunnasta riippuen saadaan eri malli. Nyt on siis tutkittava molemmat mallit tarkasti, jotta voidaan tehdä johtopäätöksiä, kumpi on parempi. Dummymuutujien merkitsevyyden analyysi antaa mallin (4.7), kun taas paras yhdistelmä menetelmä asettaa mallin (4.11) paremmaksi. Ennen kuin voidaan tehdä minkäänlaisia johtopäätöksiä, on kuitenkin suoritettava diagnostiikka kummallekin mallille. 15

17 4.3 Diagnostiikka Regressioanalyysissa diagnostiikalla tarkoitetaan tutkittavan mallin puutteiden tai otoksen virheiden etsintää erilaisilla kuvaajilla ja datasta saaduilla suureilla. Jos malleissa näyttää diagnostiikan mukaan olevan jonkinlaisia puutteita, täytyy mallia muuntaa joko lisäämällä selittäjiä tai suorittamalla muuttujille muunnoksia. Edellisessä luvussa esitetyt ehdokkaat (4.7) ja (4.11) parhaiksi malleiksi on molemmat tarkistettava mahdollisten puutteiden takia. Kuvaajilla voidaan tutkia mallin puutteita tai virheitä, kun mallin parametrien estimoinnin jälkeen lasketaan tiettyjä suureita mallille. Termi FIT tarkoittaa mallin ennustamaa selitetyn odotusarvoa eri otoksen selittäjien arvoilla, kun taas RES tarkoittaa residuaaleja eli kuinka paljon selitettävän arvo poikkeaa selittäjien avulla lasketusta odotusarvosta FIT. Jos piirretään selitettävän arvot FIT-arvoja vastaan, pitäisi hyvän mallin tapauksessa kuvaajassa näkyä nouseva lineaarinen trendi. Tämä tarkoittaa sitä, että regressiomalli on oikean muotoinen eikä siitä puutu esim. toisen asteen termejä. Kuva 6. Mallin (4.7) selitettävä vs. FIT ja RES vs. FIT kuvaajat. Kuvassa 6 nähdään miten selitettävä ja RES-arvot suhtautuvat FIT-arvoihin. Ensimmäisessä kuvaajassa y on kohtalaisen huonosti suoran ympäristössä, mutta lineaarinen riippuvuus näkyy kuitenkin selvästi. Toisaalta mallin (4.7) alhainen selitysaste näkyy selvästi kuvasta. RES vastaan FIT kuvaajasta ei löydy minkäänlaista trendiä, vaan kuvaaja on ns. tähtitaivas. Näin ollen mallista ei pitäisi puuttua selittäjiä eikä esiintyä heteroskedastisuutta. Kuva 7. Mallin (4.11) selitettävä vs. FIT ja RES vs. FIT kuvaajat. 16

18 Kuvassa 7 taas on samat kuvaajat kuin kuvassa 6, mutta mallille (4.11). Selitettävän ja FITarvon yhteys on nähtävissä lineaariseksi suuresta hajonnasta huolimatta, joskin kuvassa 7 nähdään ehkä hieman enemmän kaarevuutta kuin kuvassa 6. Residuaalit näyttävät olevan tasaisesti jakautuneita, joten mallissa siltä osin ei vaikuttaisi olevan puutteita. Kuva 8. RES vs. selittäjät kuvaajat mallista (4.7). Kuvassa 8 on kuvaajat residuaalien ja selittäjien yhteydestä. Molemmista kuvaajista käy ilmi, että residuaalit ovat jakautuneet ilman minkäänlaista trendiä. Näin ollen selitettävän yhteys selittäjiin on oikeanlainen. Kuvaajien 6 ja 8 mukaan siis mallissa (4.7) ei ole mitään pahoja puutteita tai virheitä. Kuva 9. RES vs. selittäjät kuvaajat mallista (4.11). Kuvassa 9 on taas mallista (4.11) saadut residuaalit kuvattuna selittäjiä vastaan. Ensimmäinen kuvaaja on ns. tähtitaivas, joten yhteys matematiikan pisteisiin on oikea. Toisissa kuvaajissa on mukana kolmas dummy-muuttuja, joten tietotekniikan ja teknillisen fysiikan datapisteiden residuaalit ovat pylväänä nollan kohdalla. Näin ollen tutkittavana on matematiikan ja fysiikan pisteiden ja residuaalien yhteys sähkötekniikan kohdalla. Näistäkään kuvaajista ei pysty löytämään mitään epäilyttävää, joten kuvaajien mukaan malli (4.11) on hyvä, joskin malliin voisi tehdä joitakin muunnoksia kuvan 7 perusteella. Kuvaajien lisäksi regressiomallista saa erilaisia suureita estimoinnin yhteydessä. Tällaisia ovat mm. studentisoidut residuaalit, leverage-arvot, Cooken etäisyys ja outlierit. Liitteessä C on listattuna kyseiset suureet jokaiselle datapisteelle molemmista malleista (4.7) ja (4.11). Studentisoidut residuaalit ovat käytännössä varianssikorjattuja residuaaleja, ja arvoa 3 itseisarvoltaan suuremmat studentisoidut residuaalit ovat epätavallisia. Leverage-arvo mittaa datapisteen etäisyyden kaikkien pisteiden keskiarvosta, ja näin antaa arvion millainen 17

19 vaikutus kyseisellä yksittäisellä pisteellä on regressiomallissa. Cooken etäisyys antaa arvion siitä, miten paljon regressioyhtälö eroaa ilman kyseistä datapistettä estimoidusta regressioyhtälöstä. Jos Cooken etäisyys on datapisteelle suuri eli käytännössä yli 1, on sillä liian suuri vaikutus regressioyhtälöön. Outlieri on t-arvo, jolla voidaan tilastollisesti testata datapisteen vaikutusta. Liitteestä C käy ilmi, että studentisoiduista residuaaleista molemmissa malleissa vain yksi on yli arvoltaan yli 3, mutta 129:n datapisteen otoksessa se ei ole paljon. Myöskään outliereistä vain muutama on itseisarvoltaan yli kriittisen arvon Cooken etäisyydet ovat kummassakin mallissa erittäin pieniä, niin kuin leverage-arvotkin, joten yksittäisten pisteiden vaikutus ei ole suuri. Suuren studentisoidun residuaalin antava datapiste on case 116, jossa korkeilla pääsykoepisteillä on erittäin alhainen välikoetulos. Tämän voi havaita vaikkapa kuvista 6 ja 7. Mallien diagnostiikka ei siis antanut aihetta regresiomallien muuttamiseen tai datapisteiden poistamiseen liian voimakkaasti vaikuttavina. 5 Johtopäätökset ja pohdinnat Regressioanalyysi on antanut kaksi mallia, jotka selittävät tilastollisesti todennäköisyyslaskun välikokeen pisteiden vaihtelua matematiikan ja fysiikan pääsykokeiden pisteillä. Molemmissa malleissa sekä matematiikan että fysiikan pisteillä on vaikutusta, mutta ne vaikuttavat eri tavoilla. Malli (4.7) ei tee eroa koulutusohjelman tai pääsykoevuoden suhteen ja sen mukaan välikokeen pistemäärän odotusarvo on: [ y] = x m x f E + (5.1) Kaavasta (5.1) käy ilmi, että matematiikan pisteiden vaikutus on kaksinkertainen fysiikan pisteisiin verrattuna. Tämä on loogista, sillä todennäköisyyslaskussa tarvitaan enemmänkin matemaattisia kykyjä. Kuitenkin myös fysiikka vaatii matemaattista osaamista, mutta fysiikan pisteiden ei näyttäisi vaikuttavan korrelaation kautta, sillä VIF-arvot ovat alhaisia. Malli ei kuitenkaan ole aivan järkeenkäyvä, minkä huomaa vakiotermistä. Vaikka opiskelija ei olisi saanut pistettäkään pääsykokeissa, hän kaavan (5.1) mukaan saisi lähes 4 pistettä välikokeessa. Tämän voinee selittää sillä, että otoksessa pääsykokeiden pisteet ovat säännöstään asteikon korkeasta päästä. Mallissa (4.11) taas otetaan huomioon myös koulutusohjelma, mutta malli ei tee kuitenkaan tee eroa teknillisen fysiikan ja tietotekniikan koulutusohjelmien välillä. Näin ollen sähkötekniikan opiskelijoille pätee toisenlainen regressioyhtälö. Jos kyseessä on sähkötekniikan koulutusohjelma, on välikokeen pisteiden odotusarvo seuraava: [ y] = x m. 197x f E + (5.2) Jos taas kyseessä on tietotekniikan tai teknillisen fysiikan koulutusohjelma, saadaan välikokeen pisteiden odotusarvo kaavasta: [ y] = xm E + (5.3) 18

20 Näin ollen malli (4.11) antaa ymmärtää, että fysiikan pisteillä on vaikutusta ainoastaan sähkötekniikan koulutusohjelman tapauksessa. Toisaalta tällöin matematiikan pisteiden vaikutus on selvästi pienempi kuin fysiikan tai tietotekniikan koulutusohjelmien tapauksessa. Mielenkiintoista on myös se seikka, että kaavassa (5.2) fysiikan ja matematiikan pisteiden kertoimien summa on lähes sama kuin kaavassa (5.3) matematiikan pisteiden kerroin. Tätä voisi selittää mallissa olevilla VIF-arvoilla, jotka ovat korkeahkoja. Näin ollen voisi olettaa korrelaation sähkötekniikan osalta matematiikan ja fysiikan pisteiden välillä olevan niin korkeaa, että niitä voisi pitää samansuuruisina ja siten yhdistää kertoimet. 18 Sähkötekniikka 18 Sähkötekniikka Välikoe Välikoe Matematiikka Fysiikka 18 Ti ja Tf 18 Ti ja Tf Välikoe Välikoe Matematiikka Fysiikka Kuva 1. Välikoepisteiden riippuvuus matematiikan ja fysiikan pisteistä koulutusohjelman mukaan. Kuvassa 1 on eritelty mallin (4.11) mukaisesti otos sähkötekniikan koulutusohjelman ja muiden välillä. Kuvaajat tukevat kaavojen (5.2) (5.3) tulkintaa erilaisista kertoimista, sillä välikoepisteiden ja matematiikan pisteiden välinen riippuvuus näyttäisi olevan jyrkempää tietotekniikan ja fysiikan tapauksessa. Fysiikan pisteiden vaikutus välikoepisteisiin on sähkötekniikan tapauksessa selvää, kun taas muilla koulutusohjelmilla vaikutusta on vaikea nähdä. Edellä olevat pohdinnat eivät kuitenkaan anna perusteita jommankumman mallin paremmuuteen. Mallia (4.7) voi pitää yleisenä kaavana välikoetuloksille jaottelematta koulutusohjelmia, kun taas malliin (4.11) voi vaikuttaa mm. otoksen sähkötekniikan suuri osuus. Omalta osaltani mallien vertailu käy vuoden 1995 pääsykoepisteitteni (3,36) avulla välikoe-ennusteen laskien. Kaava (5.1) antaa pistemäärän 14, ja kaava (5.3) antaa pistemäärän 15. Tämä ennuste vastaa suhteellisen hyvin omaa tulkintaani välikoemenestyksestäni, vaikka suoritinkin kurssin tentillä. 19

21 6 Yhteenveto Tässä erikoistyössä on tutkittu matematiikan ja fysiikan pääsykoepisteiden yhteisjakaumaa tilastollisesti sekä näiden pisteiden vaikutusta todennäköisyyslaskun 1. välikokeen pistemäärään regressioanalyysilla, jonka otoksena oli välikokeesta 129 havaintoa, joissa on välikokeen, matematiikan ja fysiikan pisteet, koulutusohjelma (Tf, Ti tai S) sekä pääsykoevuosi (1998 tai 1999). Yhteisjakauman tutkimuksen otokseksi poimittiin vuosien 1998 ja 1999 pääsykokeista 1 aakkosjärjestyksessä poimittua matematiikan ja fysiikan pistemäärää. Yhteisjakauman tutkimuksessa käytännössä tehtiin hypoteesi kaksiulotteista normaalijakaumasta, jonka vaatimuksiin kuuluu normaalit rajajakaumat sekä ehdolliset jakaumat sekä muuttujien riippumattomuutta nollakorrelaatiossa. Molempien vuosien rajajakaumista vain vuoden 1998 matematiikan jakauma läpäisi normaalisuustestin. Korrelaatio matematiikan ja fysiikan pisteiden välillä havaittiin olevan suhteellisen korkea. Yhteisjakauma ei näin ollen ole ainakaan kaksiuloitteinen normaalijakauma. Välikokeen pisteiden vaihtelun selittämistä matematiikan ja fysiikan pisteillä tutkittiin rgressioanalyysissa, minkä takia koulutusohjelma ja pääsykoevuosi muutettiin dummymuuttujiksi regressiomalliin. Parasta mallia etsittäessä suoritettiin useita analyyseja, jotka antoivat kaiken lisäksi useita malleja. Dummy-muuttujien merkitsevyyden testi antoi ymmärtää kertoimien olevan nollia eli vain matematiikalla ja fysiikalla olisi merkitystä. Tämän vahvisti myös valikoivan askelluksen menetelmä ylöspäin, mutta sama analyysi alaspäin antoi toisenlaisen mallin, jossa sähkötekniikan koulutusohjelmalle malli on erilainen kuin toisille koulutusohjelmille. Regressiomallien diagnostiikka osoitti, että kummassakaan mallissa ei ole suurempia puutteita tai virheitä, eikä otoksessa ollut yksittäistä tapausta lukuunottamatta liian merkityksellisiä havaintoja. Otosta tutkimalla voidaan sanoa molempien mallien selittävän välikoepisteiden vaihtelun omalla tavallaan hyvin. Toisaalta selitysasteet ovat kummassakin mallissa sen verran pieniä, että suurempia johtopäätöksiä ei voida vetää. 2

22 Kirjallisuusviitteet [Laininen 1998]: Laininen, Pertti, Todennäköisyyslasku ja sen tilastollinen soveltaminen, Otatieto, Helsinki, [Laininen 2]: Laininen, Pertti, Tilastollisen analyysin perusteet, Otatieto, Helsinki, 2. 21

23 Liite A Tf S Ti

24 Liite B UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF VALIKOE PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P VIF CONSTANT FYKO MA MAKO R-SQUARED.3619 RESID. MEAN SQUARE (MSE) ADJUSTED R-SQUARED.3466 STANDARD DEVIATION SOURCE DF SS MS F P REGRESSION RESIDUAL TOTAL CASES INCLUDED 129 MISSING CASES Listaus B1. Malli CGI. UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF VALIKOE PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P VIF CONSTANT FYKO FYVUOSI MA MAKO R-SQUARED.3678 RESID. MEAN SQUARE (MSE) ADJUSTED R-SQUARED.3474 STANDARD DEVIATION SOURCE DF SS MS F P REGRESSION RESIDUAL TOTAL CASES INCLUDED 129 MISSING CASES Listaus B2. Malli CDGI. 23

25 UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF VALIKOE PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P VIF CONSTANT FYKO FYVUOSI MA MAKO VUOSI R-SQUARED.387 RESID. MEAN SQUARE (MSE) ADJUSTED R-SQUARED.3621 STANDARD DEVIATION SOURCE DF SS MS F P REGRESSION RESIDUAL TOTAL CASES INCLUDED 129 MISSING CASES Listaus B3. Malli CDGIK. STATISTIX FOR WINDOWS VKDAT, , 16:2:17 UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF VALIKOE PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P VIF CONSTANT FY FYKO FYVUOSI MA MAKO VUOSI R-SQUARED.4 RESID. MEAN SQUARE (MSE) ADJUSTED R-SQUARED.375 STANDARD DEVIATION SOURCE DF SS MS F P REGRESSION RESIDUAL TOTAL CASES INCLUDED 129 MISSING CASES Listaus B4. Malli ACDGIK. 24

26 UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF VALIKOE PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P VIF CONSTANT FY FYKO FYVUOSI MA MAKO MAVUOSI VUOSI R-SQUARED.455 RESID. MEAN SQUARE (MSE) ADJUSTED R-SQUARED.3711 STANDARD DEVIATION SOURCE DF SS MS F P REGRESSION RESIDUAL TOTAL CASES INCLUDED 129 MISSING CASES Listaus B5. Malli ACDGIJK. UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF VALIKOE PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P VIF CONSTANT FY FYKO FYVUOSI KO MA MAKO MAVUOSI VUOSI R-SQUARED.471 RESID. MEAN SQUARE (MSE) ADJUSTED R-SQUARED.3676 STANDARD DEVIATION SOURCE DF SS MS F P REGRESSION RESIDUAL TOTAL CASES INCLUDED 129 MISSING CASES Listaus B6. Malli ACDEGIJK. 25

27 STEPWISE REGRESSION OF VALIKOE UNFORCED VARIABLES: FY FYKO1 FYKO2 FYVUOSI KO1 KO2 MA MAKO1 MAKO2 MAVUOSI VUOSI VARIABLE(S) DROPPED FROM INITIAL MODEL BECAUSE OF COLLINEARITY: VUOSI P to ENTER.5 P to EXIT.5 F M Y A F F V M M V V Y Y U A A U U K K O K K K K O O F O O S O O M O O S S STEP R SQ MSE P Y 1 2 I 1 2 A 1 2 I I A B C D E F G H I J B C D E F G H I J B C D E F G. I J C D E F G. I J C D. F G. I J C D. F G. I C D.. G. I C... G. I.. RESULTING STEPWISE MODEL VARIABLE COEFFICIENT STD ERROR STUDENT'S T P VIF CONSTANT FYKO MA MAKO CASES INCLUDED 129 R SQUARED.3619 MSE MISSING CASES ADJ R SQ.3466 SD VARIABLES NOT IN THE MODEL CORRELATIONS VARIABLE MULTIPLE PARTIAL T P FY FYKO FYVUOSI KO KO MAKO MAVUOSI VUOSI Listaus B7. Valikoiva askellus menetelmä taaksepäin askelluksella. 26

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat: Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Mallin valinta Painotettu PNS-menetelmä Alaspäin askellus, Askellus, Askeltava valikointi, Diagnostinen grafiikka, Diagnostiset

Lisätiedot

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat Päättely yhden selittäjän lineaarisesta regressiomallista Ennustaminen, Ennuste, Ennusteen luottamusväli, Estimaatti, Estimaattori,

Lisätiedot

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n = 1. Tutkitaan paperin ominaispainon X(kg/dm 3 ) ja puhkaisulujuuden Y (m 2 ) välistä korrelaatiota. Tiettyä laatua olevasta paperierästä on otettu satunnaisesti 10 arkkia ja määritetty jokaisesta arkista

Lisätiedot

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1 Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin

Lisätiedot

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio Tilastollisen analyysin perusteet Luento 9: lineaarinen lineaarinen Sisältö lineaarinen lineaarinen lineaarinen Lineaarinen Oletetaan, että meillä on n kappaletta (x 1, y 1 ), (x 2, y 2 )..., (x n, y n

Lisätiedot

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Regressiodiagnostiikka Cooken etäisyys, Funktionaalinen muoto, Diagnostinen grafiikka, Diagnostiset testit, Heteroskedastisuus,

Lisätiedot

Harjoitus 9: Excel - Tilastollinen analyysi

Harjoitus 9: Excel - Tilastollinen analyysi Harjoitus 9: Excel - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen regressioanalyysiin

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1 Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

Yleistetyistä lineaarisista malleista

Yleistetyistä lineaarisista malleista Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit

Lisätiedot

HAVAITUT JA ODOTETUT FREKVENSSIT

HAVAITUT JA ODOTETUT FREKVENSSIT HAVAITUT JA ODOTETUT FREKVENSSIT F: E: Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies

Lisätiedot

Korrelaatiokertoinen määrittely 165

Korrelaatiokertoinen määrittely 165 kertoinen määrittely 165 Olkoot X ja Y välimatka- tai suhdeasteikollisia satunnaismuuttujia. Havaintoaineistona on n:n suuruisesta otoksesta mitatut muuttuja-arvoparit (x 1, y 1 ), (x 2, y 2 ),..., (x

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.104 Tilastollisen analyysin perusteet, kevät 007 8. luento: Usean selittäjän lineaarinen regressiomalli Kai Virtanen 1 Usean selittäjän lineaarinen regressiomalli Selitettävän muuttujan havaittujen

Lisätiedot

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit. A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät

Lisätiedot

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat Usean selittäjän lineaarinen regressiomalli Estimaatti, Estimaattori, Estimointi, Jäännösneliösumma, Jäännöstermi, Jäännösvarianssi,

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Sisältö Regressioanalyysissä tavoitteena on tutkia yhden tai useamman selittävän muuttujan vaikutusta selitettävään muuttujaan. Sen avulla

Lisätiedot

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman

Lisätiedot

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Yksisuuntainen varianssianalyysi Bartlettin testi, Bonferronin menetelmä, F-testi, Jäännösneliösumma, χ 2 -testi, Kokonaiskeskiarvo,

Lisätiedot

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle - Sisältö - - - Varianssianalyysi Varianssianalyysissä (ANOVA) testataan oletusta normaalijakautuneiden otosten odotusarvojen

Lisätiedot

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 6. luento Pertti Palo 1.11.2012 Käytännön asioita Harjoitustöiden palautus sittenkin sähköpostilla. PalautusDL:n jälkeen tiistaina netistä löytyy

Lisätiedot

Johdatus regressioanalyysiin. Heliövaara 1

Johdatus regressioanalyysiin. Heliövaara 1 Johdatus regressioanalyysiin Heliövaara 1 Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

VARIANSSIANALYYSI ANALYSIS OF VARIANCE VARIANSSIANALYYSI ANALYSIS OF VARIANCE 1 Suomalaisten aikuisten pituusjakauma:.8.7.6.5.4.3.2.1 14 15 16 17 18 19 2 21 Jakauma ei ole normaali, sen olettaminen sellaiseksi johtaa virheellisiin päätelmiin.

Lisätiedot

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös): Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei

Lisätiedot

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden 1.12.2006 1. Satunnaisjakauman tiheysfunktio on Ü µ Üe Ü, kun Ü ja kun Ü. Määritä parametrin estimaattori momenttimenetelmällä ja suurimman uskottavuuden menetelmällä. Ratkaisu: Jotta kyseessä todella

Lisätiedot

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi Diskreetit muuttujat,

Lisätiedot

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin Tilastollisen analyysin perusteet Luento 10: Sisältö Varianssianalyysi Varianssianalyysi on kahden riippumattoman otoksen t testin yleistys. Varianssianalyysissä perusjoukko koostuu kahdesta tai useammasta

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas JAKAUMAN MUOTO Vinous, skew (g 1, γ 1 ) Kertoo jakauman symmetrisyydestä Vertailuarvona on nolla, joka vastaa symmetristä jakaumaa (mm. normaalijakauma)

Lisätiedot

MTTTP1, luento KERTAUSTA

MTTTP1, luento KERTAUSTA 26.9.2017/1 MTTTP1, luento 26.9.2017 KERTAUSTA Varianssi, kaava (2) http://www.sis.uta.fi/tilasto/mtttp1/syksy2017/kaavat.pdf n i i n i i x x n x n x x n s 1 2 2 1 2 2 1 1 ) ( 1 1 Mittaa muuttujan arvojen

Lisätiedot

1. Tilastollinen malli??

1. Tilastollinen malli?? 1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen

Lisätiedot

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾. 24.11.2006 1. Oletetaan, että kaksiulotteinen satunnaismuuttuja µ noudattaa kaksiulotteista normaalijakaumaa. Oletetaan lisäksi, että satunnaismuuttujan regressiofunktio satunnaismuuttujan suhteen on ݵ

Lisätiedot

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO Aki Taanila YHDEN SELITTÄJÄN REGRESSIO 26.4.2011 SISÄLLYS JOHDANTO... 1 LINEAARINEN MALLI... 1 Selityskerroin... 3 Excelin funktioita... 4 EKSPONENTIAALINEN MALLI... 4 MALLIN KÄYTTÄMINEN ENNUSTAMISEEN...

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 15 1 Tilastollisia testejä Z-testi Normaalijakauman odotusarvon testaus, keskihajonta tunnetaan

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu 10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2

Lisätiedot

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina. [MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, kevät 2019 https://coursepages.uta.fi/mtttp1/kevat-2019/ HARJOITUS 3 Joitain ratkaisuja 1. x =(8+9+6+7+10)/5 = 8, s 2 = ((8 8) 2 + (9 8) 2 +(6 8) 2 + (7 8) 2 ) +

Lisätiedot

[MTTTA] TILASTOMENETELMIEN PERUSTEET, KEVÄT 209 https://coursepages.uta.fi/mttta/kevat-209/ HARJOITUS 5 viikko 8 RYHMÄT: ke 2.5 3.45 ls. C6 Leppälä to 08.30 0.00 ls. C6 Korhonen to 2.5 3.45 ls. C6 Korhonen

Lisätiedot

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi, Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi, kesä 2016 Laskuharjoitus 5, Kotitehtävien palautus laskuharjoitusten

Lisätiedot

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina. [MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2017 http://www.uta.fi/sis/mtt/mtttp1/syksy_2017.html HARJOITUS 3 viikko 40 Joitain ratkaisuja 1. Suoritetaan standardointi. Standardoidut arvot ovat z 1 =

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu 5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017

Lisätiedot

Moniulotteisia todennäköisyysjakaumia

Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (007) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi Mat-2.2104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Yhteensopivuuden ja homogeenisuden testaaminen Bowmanin ja Shentonin testi, Hypoteesi, 2 -homogeenisuustesti, 2 -yhteensopivuustesti,

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut

Lisätiedot

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä Sisältö Riippumattomuus Jos P(A B) = P(A)P(B), niin tapahtumat A ja B ovat toisistaan riippumattomia. (Keskustelimme

Lisätiedot

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle] Data-analyysi II [Type the document subtitle] Simo Kolppo 26.3.2014 Sisällysluettelo Johdanto... 1 Tutkimuskysymykset... 1 Aineistojen esikäsittely... 1 Economic Freedom... 1 Nuorisobarometri... 2 Aineistojen

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Tilastollinen testaus Tilastollinen testaus Tilastollisessa testauksessa tutkitaan tutkimuskohteita koskevien oletusten tai väitteiden paikkansapitävyyttä havaintojen avulla. Testattavat oletukset tai

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi

Lisätiedot

MTTTP1, luento KERTAUSTA

MTTTP1, luento KERTAUSTA 25.9.2018/1 MTTTP1, luento 25.9.2018 KERTAUSTA Varianssi, kaava (2) http://www.sis.uta.fi/tilasto/mtttp1/syksy2018/kaavat.pdf n i i n i i x x n x n x x n s 1 2 2 1 2 2 1 1 ) ( 1 1 Mittaa muuttujan arvojen

Lisätiedot

pisteet Frekvenssi frekvenssi Yhteensä

pisteet Frekvenssi frekvenssi Yhteensä 806118P JOHDATUS TILASTOTIETEESEEN Loppukoe 15.3.2018 (Jari Päkkilä) 1. Kevään -17 Johdaus tilastotieteeseen -kurssin opiskelijoiden harjoitusaktiivisuudesta saatujen pisteiden frekvenssijakauma: Harjoitus-

Lisätiedot

Dynaamiset regressiomallit

Dynaamiset regressiomallit MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (006) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

Tilastollinen aineisto Luottamusväli

Tilastollinen aineisto Luottamusväli Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot

Otoskoko 107 kpl. a) 27 b) 2654

Otoskoko 107 kpl. a) 27 b) 2654 1. Tietyllä koneella valmistettavien tiivisterenkaiden halkaisijan keskihajonnan tiedetään olevan 0.04 tuumaa. Kyseisellä koneella valmistettujen 100 renkaan halkaisijoiden keskiarvo oli 0.60 tuumaa. Määrää

Lisätiedot

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo? MTTTP5, kevät 2016 15.2.2016/RL Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen 1. Valitaan 25 alkion satunnaisotos jakaumasta N(µ, 25). Olkoon H 0 : µ = 12. Hylätään H 0, jos otoskeskiarvo

Lisätiedot

tilastotieteen kertaus

tilastotieteen kertaus tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen 1 Jakaumaoletuksien testaamiseen soveltuvat testit χ 2 -yhteensopivuustesti yksi otos otoksen

Lisätiedot

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 9. luento Pertti Palo 22.11.2012 Käytännön asioita Eihän kukaan paikallaolijoista tee 3 op kurssia? 2. seminaarin ilmoittautuminen. 2. harjoitustyön

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Johdatus regressioanalyysiin Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen vaihtelun avulla.

Lisätiedot

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0. 806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy 2012 1. Olkoon (X 1,X 2,...,X 25 ) satunnaisotos normaalijakaumasta N(µ,3 2 ) eli µ

Lisätiedot

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot) R-ohjelman käyttö data-analyysissä Panu Somervuo 2014 Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. 0) käynnistetään R-ohjelma Huom.1 allaolevissa ohjeissa '>' merkki on R:n

Lisätiedot

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET 16..015 1. a Poliisivoimien suuruuden lisäksi piirikuntien rikostilastoihin vaikuttaa monet muutkin tekijät. Esimerkiksi asukkaiden keskimääräinen

Lisätiedot

10. laskuharjoituskierros, vko 14, ratkaisut

10. laskuharjoituskierros, vko 14, ratkaisut 10. laskuharjoituskierros, vko 14, ratkaisut D1. Eräässä kokeessa verrattiin kahta sademäärän mittaukseen käytettävää laitetta. Kummallakin laitteella mitattiin sademäärät 10 sadepäivän aikana. Mittaustulokset

Lisätiedot

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää? Seuraavassa muutamia lisätehtäviä 1. Erään yrityksen satunnaisesti valittujen työntekijöiden poissaolopäivien määrät olivat vuonna 003: 5, 3, 16, 9, 0, 1, 3,, 19, 5, 19, 11,, 0, 4, 6, 1, 15, 4, 0,, 4,

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään, tiedetään, että ainakin

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Todennäköisyyden ominaisuuksia

Todennäköisyyden ominaisuuksia Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5) Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset

Lisätiedot

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1 Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia Heliövaara 1 Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n

Lisätiedot

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI TEORIA USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI Regressiomalleilla kuvataan tilanteita, jossa suureen y arvot riippuvat joukosta ns selittäviä muuttujia x 1, x 2,..., x p oletetun funktiomuotoisen

Lisätiedot

031021P Tilastomatematiikka (5 op) viikko 6

031021P Tilastomatematiikka (5 op) viikko 6 031021P Tilastomatematiikka (5 op) viikko 6 Jukka Kemppainen Mathematics Division Odotusarvojen erotuksen testi, hajonnat σ 1 σ 2 tuntemattomia Oletetaan jälleen, että X ja Y ovat normaalijakautuneita.

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.04 Tilastollisen analyysin perusteet, kevät 007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen Jakaumaoletuksien testaamiseen soveltuvat testit χ -yhteensopivuustesti yksi otos otoksen vertaaminen

Lisätiedot

Johdatus regressioanalyysiin

Johdatus regressioanalyysiin Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Johdatus regressioanalyysiin TKK (c) Ilkka Mellin (2007) 1 Johdatus regressioanalyysiin >> Regressioanalyysin lähtökohdat ja tavoitteet

Lisätiedot

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Kvantitatiiviset tutkimusmenetelmät maantieteessä Kvantitatiiviset tutkimusmenetelmät maantieteessä Harjoitukset: 2 Muuttujan normaaliuden testaaminen, merkitsevyys tasot ja yhden otoksen testit FT Joni Vainikka, Yliopisto-opettaja, GO218, joni.vainikka@oulu.fi

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen

Lisätiedot

Mat Tilastollisen analyysin perusteet

Mat Tilastollisen analyysin perusteet / Mat-2.21 04 Tilastollisen analyysin perusteet Tentti 24.5.2013/Virtanen Kirjoita selvasti jokaiseen koepaperiin alia mainitussa jarjestyksessa: Mat-2.2104 Tap 24.5.2013 opiskelijanumero kirjain TEKSTATEN

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi

Lisätiedot

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Vastepintamenetelmä. Kuusinen/Heliövaara 1 Vastepintamenetelmä Kuusinen/Heliövaara 1 Vastepintamenetelmä Vastepintamenetelmässä pyritään vasteen riippuvuutta siihen vaikuttavista tekijöistä approksimoimaan tekijöiden polynomimuotoisella funktiolla,

Lisätiedot

2. Tietokoneharjoitukset

2. Tietokoneharjoitukset 2. Tietokoneharjoitukset Demotehtävät 2.1 Jatkoa kotitehtävälle. a) Piirrä aineistosta pistediagrammi (KULUTUS, SAIRAST) ja siihen estimoitu regressiosuora. KULUTUS on selitettävä muuttuja. b) Määrää estimoidusta

Lisätiedot

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501 Esim. 2.1.1. Brand lkm keskiarvo keskihajonta A 10 251,28 5,977 B 10 261,06 3,866 C 10 269,95 4,501 y = 260, 76, n = 30 SS 1 = (n 1 1)s 2 1 = (10 1)5, 977 2 321, 52 SS 2 = (n 2 1)s 2 2 = (10 1)3, 8662

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään tiedetään, että ainakin kaksi

Lisätiedot

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat: Mat-.9 Sovellettu todennäköisyyslasku A Mat-.9 Sovellettu todennäköisyyslasku A / Ratkaisut Aiheet: Avainsanat: Moniulotteiset jakaumat Diskreetti jakauma, Ehdollinen jakauma, Ehdollinen odotusarvo, Jatkuva

Lisätiedot

7. laskuharjoituskierros, vko 10, ratkaisut

7. laskuharjoituskierros, vko 10, ratkaisut 7. laskuharjoituskierros, vko 10, ratkaisut D1. a) Oletetaan, että satunnaismuuttujat X ja Y noudattavat kaksiulotteista normaalijakaumaa parametrein E(X) = 0, E(Y ) = 1, Var(X) = 1, Var(Y ) = 4 ja Cov(X,

Lisätiedot

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (005) 1 Moniulotteisia todennäköisyysjakaumia Multinomijakauma Kaksiulotteinen normaalijakauma TKK (c) Ilkka

Lisätiedot

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa: Mat-.03 Koesuunnittelu ja tilastolliset mallit Mat-.03 Koesuunnittelu ja tilastolliset mallit / Ratkaisut Aiheet: Avainsanat: Kaksisuuntainen varianssianalsi Aritmeettinen keskiarvo, Estimointi, F-testi,

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti. 2. VÄLIKOE vuodelta -14 1. Liitteessä 1 on esitetty R-ohjelmalla saatuja tuloksia aineistosta, johon on talletettu kahdenkymmenen satunnaisesti valitun miehen paino (kg), vyötärön ympärysmitta (cm) ja

Lisätiedot

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan 17.11.2006 1. Kahdesta kohteesta (A ja K) kerättiin maanäytteitä ja näistä mitattiin SiO -pitoisuus. Tulokset (otoskoot ja otosten tunnusluvut): A K 10 16 Ü 64.94 57.06 9.0 7.29 Oletetaan mittaustulosten

Lisätiedot

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme? TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia: Mitä

Lisätiedot

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Sisältö Tilastollisia testejä tehdään jatkuvasti lukemattomilla aloilla. Meitä saattaa kiinnostaa esimerkiksi se, että onko miesten ja

Lisätiedot

Ohjeita kvantitatiiviseen tutkimukseen

Ohjeita kvantitatiiviseen tutkimukseen 1 Metropolia ammattikorkeakoulu Liiketalouden yksikkö Pertti Vilpas Ohjeita kvantitatiiviseen tutkimukseen Osa 2 KVANTITATIIVISEN TUTKIMUSAINEISTON ANALYYSI Sisältö: 1. Frekvenssi- ja prosenttijakaumat.2

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4 Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN...6 1.1 INDUKTIO JA DEDUKTIO...7 1.2 SYYT JA VAIKUTUKSET...9

Lisätiedot

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een 031021P Tilastomatematiikka (5 op) kertausta 2. vk:een Jukka Kemppainen Mathematics Division 2. välikokeeseen Toinen välikoe on la 5.4.2014 klo. 9.00-12.00 saleissa L1,L3 Koealue: luentojen luvut 7-11

Lisätiedot