Pasi Väkeväinen. Ohjeita tilastollisen tutkimuksen toteuttamiseksi MATLAB-ohjelmiston avulla

Koko: px
Aloita esitys sivulta:

Download "Pasi Väkeväinen. Ohjeita tilastollisen tutkimuksen toteuttamiseksi MATLAB-ohjelmiston avulla"

Transkriptio

1 Pasi Väkeväinen Ohjeita tilastollisen tutkimuksen toteuttamiseksi MATLAB-ohjelmiston avulla TAMPEREEN YLIOPISTO INFORMAATIOTIETEIDEN YKSIKÖN RAPORTTEJA 63/2018 TAMPERE 2018

2 TAMPEREEN YLIOPISTO INFORMAATIOTIETEIDEN YKSIKÖN RAPORTTEJA 63/2018 SYYSKUU 2018 Pasi Väkeväinen Ohjeita tilastollisen tutkimuksen toteuttamiseksi MATLAB-ohjelmiston avulla ISBN (pdf) ISSN-L ISSN

3 Aluksi Tässä oppaassa on Matlab-toteutukset Raija Leppälän oppaan Ohjeita tilastollisen tutkimuksen toteuttamiseksi IBM SPSS Statistics -ohjelmiston avulla esimerkeistä sekä yleisiä ohjeita ohjelmistoon liittyen. MATLAB on The MathWorks -yhtiön ylläpitämä numeeriseen laskentaan tarkoitettu tietokoneohjelmisto sekä siinä käytettävä ohjelmointikieli. Tampereen yliopiston lisenssisopimuksella yliopiston opiskelijat ja henkilökuntaan kuuluvat voivat ladata ja käyttää Matlabia maksutta myös omilla tietokoneillaan (ohjeet). Siinä missä SPSS on ns. point and click -tyyppinen ohjelma ja R varsin puhtaasti ohjelmointiin perustuva, Matlabissa on piirteitä molemmista. Kuten R:n, myös Matlabin edistyneempien toimintojen käyttö vaatii jonkin verran ohjelmointiosaamista, mutta aiempaa kokemusta ohjelmoinnista tämän oppaan lukijalta ei oleteta. Tässä oppaassa käytössä oleva Matlab-versio on R2017b (9.3). Lukijalta oletetaan perusosaamista tilastotieteestä ja käytettävien menetelmien tuntemista, sillä tämä opas keskittyy toteutukseen Matlab-ohjelmistolla. Aluksi tutustutaan yleisemmin Matlab-ympäristöön ja syntaksiin, sen jälkeen aineiston käsittelyyn ja lopuksi analysointimenetelmiin. Opas on kirjoitettu siten, että parhaan hyödyn siitä saa toistamalla esimerkkejä järjestyksessä alusta alkaen. Tampereella 10. syyskuuta 2018 Pasi Väkeväinen 1

4 Sisällysluettelo Matlab-työtila 3 Muuttuja, sijoitusoperaatio ja tietotyypit... 3 Funktio... 6 Aineiston tuonti... 6 Aineiston ja työtilan tallennus... 7 Aineiston käsittely, jakaumat ja plottaus 7 Muuttujien muunnokset laskutoimituksilla... 7 Ehdollistaminen... 8 Histogrammi... 9 Pylväsdiagrammi... 9 Muuttujan luokittelu Ehdolliset frekvenssihistogrammit Tunnusluvut Ehdolliset tunnusluvut Laatikkojanakuvio Pisteparvi ja korrelaatio Analysointimenetelmiä 19 χ 2 -riippumattomuustesti Riippumattomien otosten t-testi Levenen testi varianssien yhtäsuuruudelle Varianssianalyysi Kaksisuuntainen varianssianalyysi Regressioanalyysi Linkkejä 31 2

5 Matlab-työtila Matlab-työtila Käynnistettäessä Matlab avautuu oheinen näkymä. Ikkunassa keskellä on komentoikkuna (Command Window), oikealla työtila-ikkuna (Workspace) ja vasemmalla tietoa kansioista. Command Window Workspace Variables Current Folder Details Komentoikkuna, komentojen suorittamiseen. Listaus työtilan muuttujista. Ikkuna, jossa näkee muuttujien sisällön ja voi muuttaa yksittäisiä arvoja. Aukeaa kaksoisklikkaamalla muuttujaa Workspace-ikkunassa. Kansio, jossa on tallennettuja työtiloja sekä muita tiedostoja. Klikkaamalla työtila-tiedostoa Current Folder -ikkunassa, tähän avautuu listaus kyseisen tiedoston muuttujista. Muuttuja, sijoitusoperaatio ja tietotyypit Matlabissa tietoa tallennetaan muuttujiin. Ohjelmointiympäristössä muuttuja tarkoittaa nimettyä tietovarastoa, johon tietoa voidaan kirjoittaa ja josta tietoa voidaan hakea. Muuttujassa siis nimen takaa löytyy arvo, joka voi olla esimerkiksi yksittäinen numeerinen arvo, merkkijono tai totuusarvo, vektori tai koko havaintomatriisi. Sijoitusoperaatiolla tarkoitetaan arvon kirjoittamista muuttujaan. Muuttujan voi luoda suoraan sijoitusoperaatiolla: >> Nimi = Arvo 3

6 Komennon alkuun kirjoitetaan muuttujan nimi, joka voi sisältää isoja ja pieniä kirjaimia, numeroita ja alaviivoja. Ensimmäisen merkin on oltava kirjain. Muuttujan nimen jälkeen kirjoitetaan yhtäsuuruusmerkki, joka on Matlabissa sijoitusoperaattori. Tämän jälkeen kirjoitetaan arvo, joka muuttujaan halutaan sijoittaa. Komento suoritetaan painamalla Enteriä. Suoritettaessa sijoitusoperaatiota Matlab tulostaa muuttujan arvon komentoikkunaan, ellei komennon loppuun lisätä puolipistettä. Tässä oppaassa komennon tunnistaa kahdesta >-merkistä rivin alussa. Nämä ovat Matlabin komentoikkunassa valmiina, eikä niitä tarvitse itse kirjoittaa. Yksittäisen numeerisen arvon sijoitus muuttujaan: >> x = 5 x = 5 Desimaalit erotetaan pisteellä: >> x = 3.14 x = 3.14 Kun vanhaan muuttujaan sijoitetaan uusi arvo, vanha arvo katoaa. Kannattaa siis varoa tärkeiden tietojen, kuten havaintomatriisin päälle tallentamista. Vektori, eli järjestetty yksiulotteinen joukko arvoja, muodostetaan ilmoittamalla arvot hakasulkeissa välilyönnillä erotettuna. >> x = [ ] x = Vektorin kertominen skalaarilla: >> y = 2*x y = Vektorin muunnos sarakevektoriksi: >> x' Matriisin voidaan ajatella koostuvan vektoreista: havaintomatriisin jokainen sarakevektori kuvaa tietyn muuttujan havaintoarvoja, ja jokainen rivivektori yhden tilastoyksikön havaintoarvoja eri muuttujista. 4

7 Taulukko (table) on matriisin tapainen rakenne, joka koostuu riveistä ja sarakkeista. Taulukon eri sarakkeet voivat sisältää eri tietotyypin arvoja, minkä vuoksi se on paras vaihtoehto havaintomatriisin tallentamiseen. Sarakevektoreiden yhdistäminen taulukoksi: >> z = table(x', y') z = 5 2 table Var1 Var Mikäli muuttuja sisältää useita arvoja (kuten vektori tai taulukko), yksittäistä arvoa kutsutaan alkioksi. Taulukosta voidaan valita alkioita ilmoittamalla rivi- ja sarakenumerot sulkeissa. Mikäli käytetään kaarisulkeita, saadaan vastaus taulukkomuotoisena, ja aaltosulkeilla vektorimuotoisena. >> z(4,2) table Var2 8 >> z{4,2} 8 Kokonainen rivi tai sarake voidaan valita korvaamalla toinen numeroista kaksoispisteellä. >> z(:,2)... >> z{:,2}... Monet Matlabin ongelmatilanteista johtuvat vääränlaisten sulkeiden käytöstä. Ongelmia selvittäessä kannattaakin varmistaa, että käyttää tilanteeseen sopivia sulkeita. Matlabilla on useita erilaisia tyylejä desimaalilukujen ilmaisemiseen. Tässä oppaassa käytettävän tyylin saa käyttöön suorittamalla komennon >> format shortg 5

8 Funktio Funktio on prosessi, joka suorittaa tietyn toiminnon. Usein funktiolle annetaan syötteenä (input) yksi tai useampi parametri, eli tieto, joita funktio käyttää toimintonsa suorittamiseen. Matlabissa parametrit ilmoitetaan kaarisulkeissa pilkulla erotettuna. Usein funktio myös palauttaa (output) jotakin. Esimerkiksi mean-funktiolle annetaan syötteenä joukko lukuja esimerkiksi vektorina, ja funktio palauttaa lukujen keskiarvon. Vastaavasti funktio var laskee syötelukujen varianssin. >> mean(x) 3 >> var(x) 2.5 Tietoa funktioista ja niiden käytöstä löytyy klikkaamalla Matlabin yläreunassa näkyvää kysymysmerkkiä ja hakemalla hakukentästä funktion nimellä dokumentaatiota. Näin saa selville mm. funktion käyttötarkoituksen, tarvittavat parametrit ja esimerkkejä käytöstä. Lisäksi samasta hakukentästä voi hakea avainsanojen avulla funktiota jollekin toiminnolle. Aineiston tuonti Matlab ei osaa lukea SPSS:n.sav-tiedostoja. Tästä oppaasta löytyy linkit käytettäviin aineistoihin.xls-muotoisina. Tiedosto voidaan lukea Matlab-työtilaan yläpalkin Import Data-toiminnon avulla. Import Data > Valitse tiedosto > Valitse aineistolle tietotyyppi (Output Type) > Varmista, että muuttujien tyypit ovat oikeita (Number / Categorical ) > Valitse koko havaintomatriisi (Muuttujien nimiä ei tarvitse valita) > Rasvaprosentti-aineisto voidaan tuoda Matlabiin seuraavasti: Import Data > rasvaprosentti.xls > Taulukko-tietotyyppi (Table) > Kaikki muuttujat numeerisia (Number) > Valittu alue (Range) A2:O253 > Havaintomatriisin manuaalinen luominen: 1. Luo uusi taulukko komennolla >> HavaintomatriisinNimi = table(); 2. Kaksoisklikkaa taulukkoa Workspace-ikkunassa, jolloin se avautuu Variables-ikkunaan. 3. Syötä havaintoarvot. Muuttujat voi nimetä kaksoisklikkaamalla sarakkeen yläreunassa näkyvää nimeä. 6

9 Aineiston ja työtilan tallennus Aineiston voi tallentaa tekstitiedostoon writetable-funktiolla. Syötteenä annetaan tallennettava taulukko ja tiedostosijainti, johon tallennetaan. Oletuksena funktio käyttää erottimena pilkkua, mutta sitä voi muuttaa Delimeter-parametrin avulla. Rasvaprosentti-aineiston tallennus K-asemalle.txt-tiedostona, jossa havaintoarvot on erotettu välilyönnillä: >> writetable(rasvaprosentti, 'K:/rasvaprosentti.txt', 'Delimiter', ' ') Annettaessa Matlabin funktioille ylimääräisiä parametreja, kuten tässä tapauksessa välimerkkiä, noudatetaan kaavaa >> funktio(..., 'Parametrin nimi', Arvo) Ensin ilmoitetaan parametrin nimi heittomerkeissä ja sen jälkeen arvo. Myös arvo ilmoitetaan heittomerkeissä, mikäli se on merkkijono- tai kategorinen arvo. Numeerisen arvon kanssa ei käytetä heittomerkkejä. Näistä nimi-arvo -pareista löytyy tietoa funktioiden dokumentaatioista. Matlabin työtilan voi tallentaa Save Workspace -painikkeella. Tällöin kaikki Workspaceikkunassa näkyvät muuttujat tallentuvat. Tallennetun työtilan saa otettua käyttöön kaksoisklikkaamalla.mat-tiedostoa Current Folder -ikkunassa. Aineiston käsittely, jakaumat ja plottaus Muuttujien muunnokset laskutoimituksilla Esimerkki 1 Rasvaprosentti-aineistossa pituus on mitattu tuumina ja paino nauloina. Muutetaan nämä metrijärjestelmään ja lasketaan painoindeksi. Luodaan uudet muuttujat laskutoimituksilla: >> painokg = rasvaprosentti{:, 4} * 0.454; >> pituusm = rasvaprosentti{:, 5} * ; >> painoindeksi = painokg./ (pituusm.* pituusm); Matriiseilla, vektoreilla ja taulukoilla laskettaessa käytetään pistettä ennen operaattoria silloin kun halutaan suorittaa laskutoimitukset alkioittain, eikä perinteisiä matriisilaskutoimituksia. Muuttujat voi liittää rasvaprosentti-taulukkoon komennolla >> rasvaprosentti = [rasvaprosentti table(painokg, pituusm, painoindeksi)]; Hakasulkeiden avulla yhdistetään alkuperäinen rasvaprosentti-taulukko ja uusista muuttujista luotava taulukko. Muuttujat voi liittää myös manuaalisesti: 7

10 Kaksoisklikkaa uutta muuttujaa Workspace-ikkunassa, jolloin se aukeaa Variables-ikkunaan. Valitse koko sarake ja kopioi. Siirry rasvaprosentti-taulukkoon, valitse tyhjän sarakkeen ylin solu ja liitä. Nimeä muuttuja halutulla tavalla kaksoisklikkaamalla sarakkeen yläreunassa näkyvää nimeä. Ehdollistaminen Aineistosta voi valita tietyn joukon havaintoja omaan taulukkomuuttujaansa. Tämä tapahtuu komennolla: >> uusiaineisto = vanhaaineisto( ehto, : ); >> nuoret = rasvaprosentti(rasvaprosentti{:,3} < 25, :); Tässä esimerkissä rasvaprosentti{:,3} < 25 vertaa rasvaprosentti-taulukon kolmannen sarakkeen eli ikä-muuttujan alkioita arvoon 25 ja palauttaa vektorin, jossa on totuusarvo (logical) 1 niiden havaintojen kohdalla, joiden ikä on pienempi kuin 25, ja totuusarvo 0, mikäli ikä on 25 tai suurempi. Tällöin uuteen taulukkomuuttujaan saadaan ne havainnot, joiden kohdalla on arvo 1. Koska sarakeindeksien paikalla on kaksoispiste, uuteen taulukkoon otetaan kaikki sarakkeet. Jos halutaan valita vain osa sarakkeista, ne ilmoitetaan hakasulkeissa välilyönnillä erotettuna: >> nuoret = rasvaprosentti(rasvaprosentti{:,3} < 25, [ ]); Taulukon alusta voidaan tulostaa rivejä head-funktiolla: >> head(nuoret, 4) 4 4 table tiheys rasvapro paino vyota Loogiset operaattorit: Operaattori Kuvaus < pienempi kuin <= pienempi tai yhtäsuuri kuin > suurempi kuin >= suurempi tai yhtäsuuri kuin == yhtäsuuri kuin ~= erisuuri kuin ~x ei x x y x tai y x & y x ja y 8

11 Histogrammi Histogrammin piirtäminen histogram-funktiolla yleisessä muodossa: >> histogram( Muuttuja ) Esimerkki 2 Painoindeksin frekvenssihistogrammin piirtäminen. >> histogram(rasvaprosentti{:,18}) Edit > Axes Properties: Akseleiden nimeämiseen ja otsikon lisäämiseen (X Label, Y Label, Title). Pylväsdiagrammi Pylväsdiagrammin piirtäminen numeerisesta muuttujasta yleisessä muodossa: >> frekvenssijakauma = tabulate( Numeerinen muuttuja ) >> bar( frekvenssijakauma( :, 2 ) ) Muuttujan arvot on siis ensin taulukoitava tabulate-funktiolla. Tästä taulukosta saadaan pylväsdiagrammi bar-funktion avulla. Frekvenssijakauman voi nimetä haluamallaan tavalla. Esimerkki 3 Huoneiden lukumäärän pylväsdiagrammi Asunnot2006-aineistossa. Aineiston tuonti: Import Data > Asunnot_2006.xls > Taulukko (Table) > Kategorisia muuttujia SAUNA, POSTI, KAUPUNKI ja Alue > Valittu alue A2:I230 > 9

12 Muodostetaan ensin frekvenssitaulukko: >> frekvenssijakauma = tabulate(asunnot2006{:,3}) frekvenssijakauma = Taulukon ensimmäisessä sarakkeessa on taulukoidun muuttujan arvo, toisessa sarakkeessa kyseisen arvon frekvenssi ja kolmannessa sarakkeessa prosentuaalinen osuus. Muodostetaan pylväsdiagrammi taulukon toisesta sarakkeesta: >> bar(frekvenssijakauma(:,2)) Kategorisella muuttujalla edellinen kaava ei toimi Matlabin funktioiden ja tietotyyppien ominaisuuksien vuoksi. Kategorisesta muuttujasta saadaan pylväsdiagrammi seuraavalla komennolla: >> bar( countcats( Kategorinen muuttuja ) ) countcats-funktio laskee muuttujan arvojen frekvenssit ja palauttaa ne vektorina, joka vastaa tabulate-funktion taulukon toista saraketta. Tästä vektorista voidaan muodostaa pylväsdiagrammi samalla tavalla bar-funktion avulla. Pylväsdiagrammi asuntojen sijainnista: >> bar( countcats(asunnot2006{:,9}) ) X-akselilla näkyviä arvoja voidaan muuttaa: Edit > Axes Properties > X Axis > Ticks > Labels-sarakkeeseen Locations-saraketta vastaavat arvot > OK 10

13 Muuttujan tyypin voi tarkistaa iscategorical-funktiolla. Funktio antaa totuusarvon (logical) 1, mikäli syötemuuttuja on kategorinen ja 0, mikäli muuttuja ei ole kategorinen. >> iscategorical(asunnot2006{:,9}) logical 1 Vastaavasti funktio isnumeric kertoo, onko muuttuja numeerinen: >> isnumeric(asunnot2006{:,9}) logical 0 Muuttujan luokittelu 1. Kopioi luokiteltavan muuttujan arvot uuteen muuttujaan: >> uusimuuttuja = vanhamuuttuja; 2. Muuta uuden muuttujan arvoja: >> uusimuuttuja( ehto1 ) = uusiarvo1; >> uusimuuttuja( ehto2 ) = uusiarvo2; Muuta uusi muuttuja kategoriseksi muuttujaksi, jotta Matlab ei käsittele arvoja numeerisina: 11

14 >> uusimuuttuja = categorical( uusimuuttuja ); 4. Tarkista, että muunnokset onnistuivat halutulla tavalla esimerkiksi tabulate-funktion avulla: >> tabulate( uusimuuttuja ) 5. Liitä uusi muuttuja havaintomatriisiin komennolla: Esimerkki 4 >> Aineisto = [Aineisto table( uusimuuttuja )]; Asunnot2006-aineiston luokittelu huonelukumäärän mukaan yksiöihin, kaksioihin ja kaksioita suurempiin. Kopioidaan ensin vanhan HUONEITA-muuttujan arvot uuteen huoneisto-muuttujaan. >> huoneisto = Asunnot2006{:,3}; Tämän jälkeen tehdään muunnokset arvoihin: valitaan ne havainnot, joiden arvo on suurempi kuin 3 ja sijoitetaan niiden paikalle arvo 3. >> huoneisto(huoneisto > 3) = 3; Muutetaan muuttuja kategoriseksi: >> huoneisto = categorical(huoneisto); Taulukointi tabulate-funktiolla: >> tabulate(huoneisto) Value Count Percent % % % Tämän jälkeen uusi muuttuja voidaan liittää Asunnot2006-aineistoon. >> Asunnot2006 = [Asunnot2006 table(huoneisto)]; Esimerkki 5 Painoindeksin luokittelu lihavuus-muuttujaksi. Kopioidaan luokiteltavan muuttujan arvot uuteen muuttujaan: >> lihavuus = rasvaprosentti{:,18}; Luokitellaan arvoiksi 1 4: >> lihavuus( rasvaprosentti{:,18} < 25 ) = 1; >> lihavuus( rasvaprosentti{:,18} >= 25 & rasvaprosentti{:,18} < 30 ) = 2; >> lihavuus( rasvaprosentti{:,18} >= 30 & rasvaprosentti{:,18} < 35 ) = 3; >> lihavuus( rasvaprosentti{:,18} >= 35 ) = 4; Muutetaan kategoriseksi: >> lihavuus = categorical(lihavuus); 12

15 Taulukoidaan uuden muuttujan arvot: >> tabulate(lihavuus) Value Count Percent % % % % Liitetään uusi muuttuja aineistoon: >> rasvaprosentti = [rasvaprosentti table(lihavuus)]; Esimerkki 6 Kaksioiden neliöhintojen tutkiminen. Neliöhinta-muuttujan luominen vektorilaskutoimituksella: >> neliohinta = Asunnot2006{:,6}./ Asunnot2006{:,5}; Liitetään muuttuja Asunnot2006-aineistoon: >> Asunnot2006 = [Asunnot2006 table(neliohinta)]; Valitaan kaksiot omaan taulukkoonsa: >> kaksiot = Asunnot2006( Asunnot2006{:,3} == 2, : ); Eri alueiden kaksiot omiin taulukoihinsa >> keskustakaksiot = kaksiot( kaksiot{:,9} == '1', : ); >> lansikaksiot = kaksiot( kaksiot{:,9} == '2', : ); >> itakaksiot = kaksiot( kaksiot{:,9} == '3', : ); Koska Alue-muuttuja on kategorinen, sen arvoja verrataan heittomerkkien avulla. Mikäli muuttujaa ei oltaisi aineistoa tuotaessa muutettu kategoriseksi vaan se olisi edelleen numeerinen muuttuja, heittomerkkejä ei tarvittaisi. Ehdolliset frekvenssihistogrammit Samaan kuvaan saa piirrettyä useamman plotin subplot-funktion avulla. Kaksi ensimmäistä parametria kertovan plottausikkunan rivien ja sarakkeiden määrän (kuinka monta plottia päällekkäin ja vierekkäin) ja kolmas parametri kertoo, mihin ruutuun piirretään seuraavaksi. Histogrammifunktion BinWidth-parametrilla valitaan yksittäisen pylvään leveys histogrammissa. >> subplot(3,1,1) >> histogram(keskustakaksiot{:,11}, 'BinWidth', 500/3) >> subplot(3,1,2) >> histogram(lansikaksiot{:,11}, 'BinWidth', 500/3) >> subplot(3,1,3) >> histogram(itakaksiot{:,11}, 'BinWidth', 500/3) Edit > Axes Properties > Valitaan yksi histogrammeista kerrallaan klikkaamalla valkoista aluetta histogrammin sisällä ja asetetaan X Limits -arvoiksi 900 ja 4100, ja vastaavasti 13

16 Y Limits 0 ja 20. Annetaan histogrammeille otsikot (Title) Keskusta, Länsi ja Itä. Lisätään alimpaan histogrammiin X-akselin selitteeksi Neliöhinta ja keskimmäiseen histogrammiin Y-akselin selitteeksi Frekvenssi. Saadaan oheinen lopputulos: Esimerkki 7 Huoneisto-muuttujan jakauma alueittain. Otetaan ensin eri alueiden asunnot omiin muuttujiinsa: >> keskusta = Asunnot2006( Asunnot2006{:,9} == '1', : ); >> lansi = Asunnot2006( Asunnot2006{:,9} == '2', : ); >> ita = Asunnot2006( Asunnot2006{:,9} == '3', : ); Tämän jälkeen voidaan taulukoida tabulate-funktiolla: >> tabulate(keskusta{:,10}) Value Count Percent % % % >> tabulate(lansi{:,10}) Value Count Percent % % % >> tabulate(ita{:,10}) Value Count Percent % % % 14

17 Esimerkki 8 Pylväsdiagrammin piirtäminen huoneistotyyppijakaumasta alueittain. Tallennetaan edellisen esimerkin taulukot muuttujiin: >> tab1 = tabulate(keskusta{:,10}); >> tab2 = tabulate(lansi{:,10}); >> tab3 = tabulate(ita{:,10}); Valitaan näistä prosenttiosuudet. Uuden taulukon voi muodostaa ilmoittamalla hakasulkeissa välilyönneillä erotettuna muodostettavan taulukon sarakkeet. Koska taulukoitu huoneisto-muuttuja on kategorinen, tabulate-funktio muodostaa cell-tyyppisen taulukon. Funktio cell2mat muuttaa tämän numeeriseksi matriisiksi. >> osuudet = cell2mat( [tab1(:,3) tab2(:,3) tab3(:,3)] ) osuudet = Funktio barh vastaa aiemmin käytettyä bar-funktiota, mutta se piirtää diagrammin vaakatasoon. Parametrilla stacked funktio pinoaa syötematriisin jokaisen rivin omaan pylvääseensä. Koska prosenttiosuuksien matriisista halutaan pinota sarakkeet, annetaan barh-funktiolle syötteenä sen transpoosi. Matriisin transpoosissa rivit on muutetu sarakkeiksi ja päinvastoin. Transpoosi saadaan lisäämällä matriisin nimen perään heittomerkki: >> osuudet' >> barh(osuudet', 'stacked') >> legend('yksiö', 'Kaksio', 'Kaksiota suurempi') 15

18 Selitelaatikon siirtäminen kuvion ulkopuolelle: Edit > Figure Properties > klikkaa selitelaatikkoa > Location Alueiden nimeäminen Y-akselilla: Edit > Axes Properties > Y Axis > Ticks > Labels Tunnusluvut Tunnusluvut saadaan omilla funktioillaan: Funktio max mean median min mode std var Kuvaus suurin arvo keskiarvo mediaani pienin arvo useimmin esiintyvä arvo keskihajonta varianssi Esimerkki 9 Esimerkkejä funktioiden käytöstä: >> max(rasvaprosentti{:,18})

19 Funktiot mean, median, std ja var eivär pysty käsittelemään puuttuvia arvoja, ja antavat vastauksen NaN, mikäli syötemuuttujasta puuttuu arvoja. Funktioille on korvaajat nanmean, nanmedian, nanstd ja nanvar, jotka laskevat vastaavat tunnusluvut huomioimatta puuttuvia arvoja. >> nanmean(rasvaprosentti{:,18}) >> std(asunnot2006{:,3}) >> mode(asunnot2006{:,3}) 2 Ehdolliset tunnusluvut Ehdolliset tunnusluvut voidaan laskea grpstats-funktiolla. Yleisessä muodossa: >> grpstats( Numeerinen muuttuja, Kategorinen muuttuja, 'funktio' ) Funktion paikalle annetaan halutun tunnusluvun määrittävä funktio. Mikäli funktiota ei ilmoita, grpstats laskee oletuksena ryhmäkeskiarvot. Esimerkki 10 Neliöhinnan keskiarvot eri alueilla: >> grpstats(asunnot2006{:,11}, Asunnot2006{:,9}) Keskihajonnat: >> grpstats(asunnot2006{:,11}, Asunnot2006{:,9}, 'std') Laatikkojanakuvio Laatikkojanan piirtäminen yleisessä muodossa: >> boxplot( Numeerinen muuttuja, Kategorinen muuttuja ) Neliöhinta eri alueilla: >> boxplot(asunnot2006{:,11}, Asunnot2006{:,9}) 17

20 Pisteparvi ja korrelaatio Pisteparven piirtäminen yleisessä muodossa: >> scatter( X-akselin muuttuja, Y-akselin muuttuja ) Esimerkki 11 Rasvaprosentin ja vyötärönympäryksen pisteparvi: >> scatter(rasvaprosentti{:,2}, rasvaprosentti{:,8}) 18

21 Korrelaatiokertoimen laskeminen corrcoef-funktiolla yleisessä muodossa: >> corrcoef( Numeerinen muuttuja 1, Numeerinen muuttuja 2 ) Rasvaprosentin ja vyötärönympäryksen välinen korrelaatio: >> corrcoef(rasvaprosentti{:,2}, rasvaprosentti{:,8}) Analysointimenetelmiä χ 2 -riippumattomuustesti χ 2 -riippumattomuustesti crosstab-funktiolla yleisessä muodossa: >> [tab chi2 p] = crosstab(kategorinen muuttuja 1, Kategorinen muuttuja 2) Jotta funktio antaa frekvenssitaulukon lisäksi χ 2 -testisuureen ja p-arvon, funktion paluuarvot on sijoitettava kolmeen muuttujaan (hakasulkeissa, välilyönnillä erotettuina). Esimerkki 12 Huoneiston ja Alueen välisen riippuvuuden testaus Asunnot_2006 -aineistossa. H0: Huoneiston tyypin ja alueen välillä ei ole riippuvuutta H1: Huoneiston tyypin ja alueen välillä on riippuvuutta >> [tab chi2 p] = crosstab(asunnot2006{:,10}, Asunnot2006{:,9}) tab = chi2 = p = Muuttujat voi nimetä haluamallaan tavalla, mutta järjestys on oltava sama: ensimmäiseen muuttujaan sijoitetaan frekvenssitaulukko, toiseen testisuure ja kolmanteen p-arvo. Testisuureen arvoksi saadaan 4,6742 ja p-arvo 0,3224. H0 hyväksytään. Esimerkki 13 Opintojakson työläyden ja opiskelijan opintosuunnan välisen riippuvuuden testaus. Arvio-aineiston tuonti: Import Data > arvio.xls > Taulukko (Table) > OPSUUNTA kategoriseksi muuttujaksi > Valittu alue A2:G66 > Opintosuunnan ja opintojakson työläyden välisen riippuvuuden testaus: 19

22 H0: Opintojakson työläyden ja opiskelijan opintosuunnan välillä ei ole riippuvuutta H1: Opintojakson työläyden ja opiskelijan opintosuunnan välillä on riippuvuutta >> [tab chi2 p] = crosstab(arvio{:,1}, arvio{:,7}) tab = chi2 = p = Saadaan testisuureen arvo 7,668 ja p-arvo 0, Nollahypoteesi hylätään 5 % riskitasolla, mutta 2 % tai pienemmällä riskitasolla H0 voidaan hyväksyä. Riippumattomien otosten t-testi T-testi funktiolla ttest2. Funktiolle annetaan syötteenä kaksi vektoria, joissa on yhden numeerisen muuttujan havaintoarvot eri populaatioista. Testaus yleisessä muodossa: >> [h p ci stats] = ttest2( Havaintovektori 1, Havaintovektori 2 ) Funktion arvo sijoitetaan neljään muuttujaan. Ensimmäinen muuttujista kertoo, kumpi hypoteesi valitaan 5 % riskitasolla (h = 0 jos valitaan nollahypoteesi ja h = 1 jos vaihtoehtoinen hypoteesi). Toinen muuttuja kertoo testin p-arvon. Kolmas muuttuja antaa luottamusvälin odotusarvojen erotukselle. Viimeiseen, stats-muuttujaan, sisältyy testisuure, vapausasteet ja keskihajonta. Esimerkki 14 Keskustan ja keskustan ulkopuolisten asuntojen keskineliöhintojen yhtäsuuruuden testaus t-testillä. Muodostetaan ensin havaintovektorit. Keskusta-vektoriin otetaan 11. sarakkeen arvot eli neliöhinnat niiltä havainnoilta, joiden 8. sarakkeen eli KAUPUNKI-muuttujan arvo on 1. Vastaavasti italansi-vektoriin valitaan 11. sarakkeen arvot niiltä, joiden 8. sarakkeen arvo on 0. >> keskusta = Asunnot2006{Asunnot2006{:,8} == '1', 11}; >> italansi = Asunnot2006{Asunnot2006{:,8} == '0', 11}; Suoritetaan testaus ttest2-funktiolla. H0: Neliöhinnan odotusarvot yhtäsuuria keskustassa ja keskustan ulkopuolella H1: Neliöhinnan odotusarvot eivät yhtäsuuria >> [h p ci stats] = ttest2(keskusta, italansi) h = 1 p = e-47 ci = stats = 20

23 struct with fields: tstat: df: 227 sd: Saadaan testisuureelle arvo 18,455 ja p-arvo 4, Nollahypoteesi hylätään. Testi olettaa varianssit yhtäsuuriksi, ellei lisätä parametreja: >> [h p ci stats] = ttest2(keskusta, italansi, 'Vartype', 'unequal') Levenen testi varianssien yhtäsuuruudelle Varianssien yhtäsuuruutta voidaan testata Levenen testillä. Matlabissa tämä testi suoritetaan vartestn-funktiolla: >> [p stats] = vartestn( Numeerinen muuttuja, Kategorinen muuttuja, 'Testtype', 'LeveneAbsolute' ) Levenen testissä ei käytetä samoja havaintovektoreita kuin t-testissä, vaan annetaan koko sarakkeet havaintomatriisista. Funktio palauttaa p-arvon, testisuureen ja vapausasteet sekä avaa uusiin ikkunoihin tiivistelmän testituloksista ja piirretyn laatikkojanakuvion. Neliöhinnan varianssien yhtäsuuruus keskustassa ja keskustan ulkopuolella: H0: Neliöhinnan varianssit yhtäsuuria populaatioissa H1: Neliöhinnan varianssit eivät yhtäsuuria >> [p stats] = vartestn(asunnot2006{:,11}, Asunnot2006{:,8}, 'Testtype', 'LeveneAbsolute') Testisuureeksi saadaan 1,2352, vapausasteita 1 ja 227, p-arvo 0,2676. H0 hyväksytään ja varianssit voidaan olettaa yhtäsuuriksi. Esimerkki 15 Neliömäärien odotusarvojen yhtäsuuruuden testaus keskustan ulkopuolisissa ja keskustan kaksioissa. Testataan ensin varianssien yhtäsuuruutta Levenen testillä: H0: Kaksioiden neliömäärien varianssit yhtäsuuria populaatioissa H1: Kaksioiden neliömäärien varianssit eivät yhtäsuuria >> [p stats] = vartestn(kaksiot{:,5}, kaksiot{:,8}, 'Testtype', 'LeveneAbsolute') 21

24 Saadaan testisuure 0,0256 ja p-arvo 0,8731. Varianssit voidaan olettaa yhtäsuuriksi. Otetaan neliömäärät omiin vektoreihinsa: >> keskustakaksiot = kaksiot{kaksiot{:,8} == '1', 5}; >> italansikaksiot = kaksiot{kaksiot{:,8} == '0', 5}; Testaus ttest2-funktiolla: H0: Neliömäärien odotusarvot yhtäsuuria keskustassa ja keskustan ulkopuolella H1: Neliömäärien odotusarvot eivät yhtäsuuria >> [h p ci stats] = ttest2(italansikaksiot, keskustakaksiot) h = 0 p = ci = stats = struct with fields: tstat: df: 112 sd: Saadaan testisuure 1,4281 ja p-arvo 0, Nollahypoteesi hyväksytään. Varianssianalyysi Yksisuuntainen varianssianalyysi anova1-funktiolla yleisessä muodossa: >> [p tbl stats] = anova1( Numeerinen muuttuja, Kategorinen muuttuja ) Ryhmien väliset vertailut voidaan suorittaa multcompare-funktiolla. Tälle annetaan syötteeksi stats-muuttuja varianssianalyysin tuloksista. >> multcompare( stats ) Funktio laskee oletusarvoisesti p-arvot käyttäen Tukey s Honestly Significant Difference -korjausmenetelmää. Muista vaihtoehdoista löytyy tietoa funktion dokumentoinnista. 22

25 Esimerkki 16 Neliöhinnan ja Alueen välisen riippuvuuden testaus varianssianalyysillä: H0: Neliöhinnan odotusarvot samoja kaikilla alueilla H1: Neliöhinnan odotusarvot eivät samoja kaikilla alueilla >> [p tbl stats] = anova1(asunnot2006{:,11}, Asunnot2006{:,9}) Testisuureen arvoksi saadaan 173,03 ja p-arvo 2, Nollahypoteesi hylätään. Ryhmien väliset vertailut: >> multcompare(stats) e e Tulosteessa kaksi ensimmäistä saraketta kertovat vertailtavat ryhmät, kolmas sarake alarajan odotusarvojen erotuksen luottamusvälille, neljäs sarake keskiarvojen erotuksen, viides sarake luottamusvälin ylärajan ja viimeinen sarake ryhmien välisen p-arvon. Ryhmien välisestä vertailusta nähdään, että keskustan (1) asuntojen neliöhinnan odotusarvo poikkeaa sekä lännen (2) että idän (3) neliöhintojen odotusarvoista, mutta lännen ja idän välillä ei vaikuta olevan eroa. Levenen testi varianssien yhtäsuuruudelle H0: Neliöhinnan varianssit yhtäsuuria kaikilla alueilla H1: Neliöhinnan variansseissa eroa alueiden välillä >> [p stats] = vartestn(asunnot2006{:,11}, Asunnot2006{:,9}, 'Testtype', 'LeveneAbsolute') Varianssit voidaan olettaa yhtäsuuriksi p-arvolla 0,

26 Esimerkki 17 Huoneistotyypin vaikutus keskimääräiseen neliöhintaan keskustan asunnoissa ja keskustan ulkopuolisissa asunnoissa. Otetaan keskustan ja keskustan ulkopuolisten asuntojen huoneisto- ja neliöhinta-muuttujat omiin taulukoihinsa. >> keskusta = Asunnot2006(Asunnot2006{:,8} == '1', [10 11]); >> italansi = Asunnot2006(Asunnot2006{:,8} == '0', [10 11]); Varianssianalyysi keskustan ulkopuolisilla asunnoilla: H0: Neliöhinnan odotusarvot samoja huoneistotyypeittäin H1: Neliöhinnan odotusarvot eivät kaikki yhtä suuria >> [p tbl stats] = anova1(italansi{:,2}, italansi{:,1}) Testisuureen arvoksi saadaan 17,47 ja p-arvo 2, Nollahypoteesi hylätään. Ryhmien väliset vertailut: >> multcompare(stats) e e Kaksioiden ja kaksioita suurempien asuntojen neliöhintojen välillä ei näytä olevan eroa, mutta yksiöiden neliöhinnan odotusarvo poikkeaa molemmista ryhmistä. Levenen testi varianssien yhtäsuuruudelle: >> [p stats] = vartestn(italansi{:,2}, italansi{:,1}, 'Testtype', 'LeveneAbsolute') Varianssit voidaan olettaa yhtäsuuriksi. Samat testit keskustan asunnoille: >> [p tbl stats] = anova1(keskusta{:,2}, keskusta{:,1}) 24

27 >> multcompare(stats) >> [p stats] = vartestn(keskusta{:,2}, keskusta{:,1}, 'Testtype', 'LeveneAbsolute') Esimerkki 18 Kaksisuuntainen varianssianalyysi huoneistotyypin ja sijainnin yhdysvaikutuksesta keskimääräiseen neliöhintaan. Tarkastellaan ensin ryhmäkeskiarvoja graafisesti. Muodostetaan uusi taulukko, johon valitaan Asunnot2006-aineistosta kaupunki-, huoneisto- ja neliöhinta-muuttujat. >> asunnot = Asunnot2006(:, [ ]); Ryhmäkeskiarvot saadaan grpstats-funktiolla. Kun funktiolle annetaan syötteenä koko aineisto ja luokittelevien muuttujien (KAUPUNKI ja huoneisto) indeksit, se laskee ehdolliset tunnusluvut kaikille muille muuttujille (neliohinta). >> tab = grpstats(asunnot, [1 2]) tab = 6 4 table KAUPUNKI huoneisto GroupCount mean_neliohinta 0_ _ _ _ _ _ Ryhmäkeskiarvojen tarkastelu graafisesti. Jaetaan ryhmäkeskiarvotaulukko KAUPUNKImuuttujan mukaan kahteen taulukkoon, johon otetaan toisen luokittelevan muuttujan (huoneisto) ja keskineliöhinnan arvot. >> keskusta = tab(tab{:,1} == '1', [2 4]); >> italansi = tab(tab{:,1} == '0', [2 4]); Plot-funktio piirtää xy-koordinaatistoon viivoja. Kun syötteenä on enemmän kuin 2 muuttujaa, viivoja piirretään syötemuuttujille pareittain. >> plot(italansi{:,1}, italansi{:,2}, keskusta{:,1}, keskusta{:,2}) >> legend('ei keskustassa', 'Keskustassa') 25

28 Kaksisuuntainen varianssianalyysi Kaksisuuntainen varianssianalyysi anovan-funktiolla yleisessä muodossa: >> anovan( Numeerinen muuttuja, { Kategorinen muuttuja 1, Kategorinen muuttuja 2 } ) Neliöhinnan odotusarvon riippuvuus sijainnista keskustassa ja huoneistotyypistä. Lisäämällä anovan-funktioon parametri interaction, saadaan mukaan myös yhdysvaikutus. H0: Yhdysvaikutusta ei ole H1: Yhdysvaikutusta on >> anovan(asunnot2006{:,11}, {Asunnot2006{:,8}, Asunnot2006{:,10}}, 'interaction') Yhdysvaikutuksen testisuure on tulosteessa 0. Tämä on kuitenkin vain pyöristetty arvo. Testin p-arvo on 0,9954. H0 hyväksytään. 26

29 Esimerkki 19 Rakennusajankohdan ja keskustasijainnin yhdysvaikutus neliöhintaan. Aloitetaan VUOSImuuttujan luokittelulla rakennusajankohta-muuttujaksi. Kopioidaan luokiteltava VUOSImuuttuja: >> rakennusajankohta = Asunnot2006{:,2}; Luokitellaan arvoiksi 1 4 >> rakennusajankohta(asunnot2006{:,2} < 1964) = 1; >> rakennusajankohta(asunnot2006{:,2} >= 1964 & Asunnot2006{:,2} < 1972) = 2; >> rakennusajankohta(asunnot2006{:,2} >= 1972 & Asunnot2006{:,2} < 1977) = 3; >> rakennusajankohta(asunnot2006{:,2} >= 1977) = 4; Muutetaan muuttuja kategoriseksi >> rakennusajankohta = categorical(rakennusajankohta); Tarkistetaan luokittelu taulukoimalla >> tabulate(rakennusajankohta) Value Count Percent % % % % Liitetään uusi muuttuja aineistoon: >> Asunnot2006 = [Asunnot2006 table(rakennusajankohta)]; Luodaan uusi asunnot-taulukko kolmesta muuttujasta: >> asunnot = Asunnot2006(:, [ ]); Ehdolliset keskiarvot. Luokitellaan 1. ja 3. sarakkeen, eli KAUPUNKI- ja rakennusajankohta-muuttujien mukaan. >> tab = grpstats(asunnot, [1 3]) tab = 8 4 table KAUPUNKI rakennusajankohta GroupCount mean_neliohinta 0_ _ _ _ _ _ _ _ Jaetaan taulukko jälleen kaupunki-muuttujan mukaan kahteen osaan. Sarakkeista valitaan rakennusajankohta ja keskineliöhinta, joita kuvataan graafisesti: >> keskusta = tab(tab{:,1} == '1', [2 4]); >> italansi = tab(tab{:,1} == '0', [2 4]); 27

30 Graafinen tarkastelu: >> plot(italansi{:,1}, italansi{:,2}, keskusta{:,1}, keskusta{:,2}) >> legend('ei keskustassa', 'Keskustassa') Tutkitaan yhdysvaikutusta kaksisuuntaisella varianssianalyysillä: H0: Yhdysvaikutusta ei ole H1: Yhdysvaikutusta on >> anovan(asunnot2006{:,11}, {Asunnot2006{:,8}, Asunnot2006{:,12}}, 'interaction') Yhdysvaikutuksen testisuure 7,04 ja p-arvo 0,0002. H0 hylätään. Esimerkki 20 Korrelaation testaus. Kun corrcoef-funktiosta otetaan arvo kahteen muuttujaan, saadaan myös p-arvo korrelaatiokertoimelle. Rasvaprosentin ja vyötärön ympäryksen välisen korrelaation testaus: 28

31 H0: Populaatiossa muuttujien välinen korrelaatiokerroin on nolla H1: Populaatiossa muuttujien välinen korrelaatiokerroin ei ole nolla. >> [R P] = corrcoef(rasvaprosentti{:,2}, rasvaprosentti{:,8}) R = P = e e-61 1 H0 hylätään p-arvolla 9, Regressioanalyysi Regressiomallin muodostamisessa luodaan ensin uusi taulukko. Taulukon viimeinen sarake on selitettävä muuttuja, ja sitä edeltävät muuttujat selittäjiä. >> tbl = aineisto( :, [ sarakkeet ] ); Lineaarinen malli sovitetaan fitlm-funktiolla. Syötteeksi annetaan edellä muodostettu taulukko. >> fitlm(tbl) Esimerkki 21 Rasvaprosentin selittäminen vyötärön ympärysmitan avulla. Valitaan ensin rasvaprosentti-aineistosta vyota- ja rasvapro-muuttujat. Selitettävä muuttuja viimeiseen sarakkeeseen: >> tbl = rasvaprosentti(:, [8 2]); Sovitetaan lineaarinen regressiomalli ja testataan hypoteeseja: H0: β i = 0 H1: β i 0 >> fitlm(tbl) Linear regression model: rasvapro ~ 1 + vyota Estimated Coefficients Estimate SE tstat pvalue (Intercept) e-36 vyota e-61 Number of observations: 252, Error degrees of freedom: 250 Root Mean Squared Error: 4.88 R-squared: 0.662, Adjusted R-Squared 0.66 F-statistic vs. constant model: 489, p-value = 9.09e-61 29

32 Vakiotermin testisuureeksi saadaan 14,765 ja p-arvo 6, Nollahypoteesi hylätään. Vastaavasti vyötärönympäryksen testisuure on 22,112 ja p-arvo 9, Myös tämä nollahypoteesi hylätään. Saadaan regressiomalli Rasvaprosentti Selitysasteeksi saadaan R 2 = 0,662. Esimerkki 22 = 39,28 + 0,6313 Vyötärön ympärys (cm) Rasvaprosentti kahdella selittävällä muuttujalla. Muodostetaan taulukko vyötärön ympäryksestä, painosta kilogrammoina ja rasvaprosentista. Selitettävä muuttuja eli rasvaprosentti sijoitetaan viimeiseen sarakkeeseen. >> tbl = rasvaprosentti(:, [8 16 2]); Muodostetaan lineaarinen regressiomalli ja testataan hypoteeseja: H0: β i = 0 H1: β i 0 >> fitlm(tbl) Linear regression model: rasvapro ~ 1 + vyota + painokg Estimated Coefficients Estimate SE tstat pvalue (Intercept) e-46 vyota e-45 painokg e-11 Number of observations: 252, Error degrees of freedom: 249 Root Mean Squared Error: 4.46 R-squared: 0.719, Adjusted R-Squared F-statistic vs. constant model: 318, p-value = 2.53e-69 Vakiotermin testisuureeksi saadaan 17,64 ja p-arvo 9, Nollahypoteesi hylätään. Vyötärönympäryksen testisuure on nyt 17,447 ja p-arvo 4, Myös tämä nollahypoteesi hylätään. Painon testisuure on 7,1123 ja p-arvo 1, Tämäkin nollahypoteesi hylätään. Saadaan regressiomalli Rasvaprosentti = 45, ,9895 Vyötärön ympärys (cm) 0,326 Paino (kg) Selitysaste on R 2 = 0,719. Yhteistestauksessa hypoteesille H0: β 1 = β 2 = 0 H1: ainakin jokin β i 0 saadaan F-testisuure 318 ja p-arvo 2, Nollahypoteesi hylätään. 30

33 Linkkejä Ohjeita tilastollisen tutkimuksen toteuttamiseksi IBM SPSS Statistics -ohjelmiston avulla, Raija Leppälä, Ohjeet Matlabin asennukseen Tampereen yliopiston opiskelijoille ja henkilökunnalle Rasvaprosentti-aineisto Asunnot_2006-aineisto Arvio-aineisto 31

Pasi Väkeväinen. Ohjeita tilastollisen tutkimuksen toteuttamiseksi R-ohjelmiston avulla

Pasi Väkeväinen. Ohjeita tilastollisen tutkimuksen toteuttamiseksi R-ohjelmiston avulla Pasi Väkeväinen Ohjeita tilastollisen tutkimuksen toteuttamiseksi R-ohjelmiston avulla TAMPEREEN YLIOPISTO INFORMAATIOTIETEIDEN YKSIKÖN RAPORTTEJA 64/2018 TAMPERE 2018 TAMPEREEN YLIOPISTO INFORMAATIOTIETEIDEN

Lisätiedot

MTTTP1, luento KERTAUSTA

MTTTP1, luento KERTAUSTA 26.9.2017/1 MTTTP1, luento 26.9.2017 KERTAUSTA Varianssi, kaava (2) http://www.sis.uta.fi/tilasto/mtttp1/syksy2017/kaavat.pdf n i i n i i x x n x n x x n s 1 2 2 1 2 2 1 1 ) ( 1 1 Mittaa muuttujan arvojen

Lisätiedot

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot) R-ohjelman käyttö data-analyysissä Panu Somervuo 2014 Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. 0) käynnistetään R-ohjelma Huom.1 allaolevissa ohjeissa '>' merkki on R:n

Lisätiedot

SPSS-perusteet. Sisältö

SPSS-perusteet. Sisältö SPSS-perusteet Sisältö Ikkunat 3 Päävalikot 5 Valikot 6 Aineiston käsittely 6 Muuttujamuunnokset 7 Aineistojen kuvailu analyysit 8 Havaintomatriisin luominen ja käsittely 10 Muulla sovelluksella tehdyn

Lisätiedot

Raija Leppälä. Ohjeita tilastollisen tutkimuksen toteuttamiseksi IBM SPSS Statistics -ohjelmiston avulla

Raija Leppälä. Ohjeita tilastollisen tutkimuksen toteuttamiseksi IBM SPSS Statistics -ohjelmiston avulla Raija Leppälä Ohjeita tilastollisen tutkimuksen toteuttamiseksi IBM SPSS Statistics -ohjelmiston avulla TAMPEREEN YLIOPISTO INFORMAATIOTIETEIDEN YKSIKÖN RAPORTTEJA 55/2017 TAMPERE 2017 TAMPEREEN YLIOPISTO

Lisätiedot

Kandidaatintutkielman aineistonhankinta ja analyysi

Kandidaatintutkielman aineistonhankinta ja analyysi Kandidaatintutkielman aineistonhankinta ja analyysi Anna-Kaisa Ylitalo M 315, anna-kaisa.ylitalo@jyu.fi Musiikin, taiteen ja kulttuurin tutkimuksen laitos Jyväskylän yliopisto 2018 2 Havaintomatriisi Havaintomatriisi

Lisätiedot

MTTTP1, luento KERTAUSTA

MTTTP1, luento KERTAUSTA 25.9.2018/1 MTTTP1, luento 25.9.2018 KERTAUSTA Varianssi, kaava (2) http://www.sis.uta.fi/tilasto/mtttp1/syksy2018/kaavat.pdf n i i n i i x x n x n x x n s 1 2 2 1 2 2 1 1 ) ( 1 1 Mittaa muuttujan arvojen

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu 10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu 5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. 5.10.2017/1 MTTTP1, luento 5.10.2017 KERTAUSTA Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. Muodostetaan väli, joka peittää parametrin etukäteen valitulla todennäköisyydellä,

Lisätiedot

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. 6.10.2015/1 MTTTP1, luento 6.10.2015 KERTAUSTA JA TÄYDENNYSTÄ Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. Muodostetaan väli, joka peittää parametrin etukäteen valitulla

Lisätiedot

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo? MTTTP5, kevät 2016 15.2.2016/RL Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen 1. Valitaan 25 alkion satunnaisotos jakaumasta N(µ, 25). Olkoon H 0 : µ = 12. Hylätään H 0, jos otoskeskiarvo

Lisätiedot

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. 6.10.2016/1 MTTTP1, luento 6.10.2016 KERTAUSTA JA TÄYDENNYSTÄ Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. Muodostetaan väli, joka peittää parametrin etukäteen valitulla

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1 Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään

Lisätiedot

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4 Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN...6 1.1 INDUKTIO JA DEDUKTIO...7 1.2 SYYT JA VAIKUTUKSET...9

Lisätiedot

MTTTP1, luento KERTAUSTA

MTTTP1, luento KERTAUSTA 19.3.2019/1 MTTTP1, luento 19.3.2019 KERTAUSTA Varianssi, kaava (2) http://www.sis.uta.fi/tilasto/mtttp1/syksy2018/kaavat.pdf n i i n i i x x n x n x x n s 1 2 2 1 2 2 1 1 ) ( 1 1 Mittaa muuttujan arvojen

Lisätiedot

Tilastolliset ohjelmistot 805340A. Pinja Pikkuhookana

Tilastolliset ohjelmistot 805340A. Pinja Pikkuhookana Tilastolliset ohjelmistot 805340A Pinja Pikkuhookana Sisältö 1 SPSS 1.1 Yleistä 1.2 Aineiston syöttäminen 1.3 Aineistoon tutustuminen 1.4 Kuvien piirtäminen 1.5 Kuvien muokkaaminen 1.6 Aineistojen muokkaaminen

Lisätiedot

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös): Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei

Lisätiedot

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 2. TODENNÄKÖISYYS...

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 2. TODENNÄKÖISYYS... Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 1.1 INDUKTIO JA DEDUKTIO... 9 1.2 SYYT JA VAIKUTUKSET... 11 TEHTÄVIÄ... 13

Lisätiedot

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet VAASAN YLIOPISTO/AVOIN YLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia 1 KURSSIKYSELYAINEISTO: 1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka

Lisätiedot

Muuttujien määrittely

Muuttujien määrittely Tarja Heikkilä Muuttujien määrittely Määrittele muuttujat SPSS-ohjelmaan lomakkeen kysymyksistä. Harjoitusta varten lomakkeeseen on muokattu kysymyksiä kahdesta opiskelijoiden tekemästä Joupiskan rinneravintolaa

Lisätiedot

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset. Mat-.04 Tilastollisen analyysin perusteet Mat-.04 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Testit suhdeasteikollisille muuttujille Hypoteesi, Kahden riippumattoman otoksen t-testit,

Lisätiedot

[MTTTA] TILASTOMENETELMIEN PERUSTEET, KEVÄT 209 https://coursepages.uta.fi/mttta/kevat-209/ HARJOITUS 5 viikko 8 RYHMÄT: ke 2.5 3.45 ls. C6 Leppälä to 08.30 0.00 ls. C6 Korhonen to 2.5 3.45 ls. C6 Korhonen

Lisätiedot

TUTKIMUSOPAS. SPSS-opas

TUTKIMUSOPAS. SPSS-opas TUTKIMUSOPAS SPSS-opas Johdanto Tässä oppaassa esitetään SPSS-tilasto-ohjelman alkeita, kuten Excel-tiedoston avaaminen, tunnuslukujen laskeminen ja uusien muuttujien muodostaminen. Lisäksi esitetään esimerkkien

Lisätiedot

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti. 2. VÄLIKOE vuodelta -14 1. Liitteessä 1 on esitetty R-ohjelmalla saatuja tuloksia aineistosta, johon on talletettu kahdenkymmenen satunnaisesti valitun miehen paino (kg), vyötärön ympärysmitta (cm) ja

Lisätiedot

Harjoitus 1: Matlab. Harjoitus 1: Matlab. Mat Sovelletun matematiikan tietokonetyöt 1. Syksy 2006

Harjoitus 1: Matlab. Harjoitus 1: Matlab. Mat Sovelletun matematiikan tietokonetyöt 1. Syksy 2006 Harjoitus 1: Matlab Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen Matlab-ohjelmistoon Laskutoimitusten

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle - Sisältö - - - Varianssianalyysi Varianssianalyysissä (ANOVA) testataan oletusta normaalijakautuneiden otosten odotusarvojen

Lisätiedot

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n = 1. Tutkitaan paperin ominaispainon X(kg/dm 3 ) ja puhkaisulujuuden Y (m 2 ) välistä korrelaatiota. Tiettyä laatua olevasta paperierästä on otettu satunnaisesti 10 arkkia ja määritetty jokaisesta arkista

Lisätiedot

SPSS ohje. Metropolia Business School/ Pepe Vilpas

SPSS ohje. Metropolia Business School/ Pepe Vilpas 1 SPSS ohje Page 1. Perusteita 2 2. Frekvenssijakaumat 3 3. Muuttujan luokittelu 4 4. Kaaviot 5 5. Tunnusluvut 6 6. Tunnuslukujen vertailu ryhmissä 7 9. Ristiintaulukointi ja Chi-testi 8 10. Hajontakaavio

Lisätiedot

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi. 9.10.2018/1 MTTTP1, luento 9.10.2018 KERTAUSTA TESTAUKSESTA, p-arvo Asetetaan H 0 H 1 Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi. Lasketaan otoksesta testisuureelle arvo. 9.10.2018/2

Lisätiedot

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia A KURSSIKYSELYAINEISTO: 1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka

Lisätiedot

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan 17.11.2006 1. Kahdesta kohteesta (A ja K) kerättiin maanäytteitä ja näistä mitattiin SiO -pitoisuus. Tulokset (otoskoot ja otosten tunnusluvut): A K 10 16 Ü 64.94 57.06 9.0 7.29 Oletetaan mittaustulosten

Lisätiedot

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1 Johdatus varianssianalyysiin Vilkkumaa / Kuusinen 1 Motivointi Luento 4: kahden riippumattoman otoksen odotusarvoja voidaan vertailla t-testillä H 0 : μ 1 = μ 2, T = ˉX 1 ˉX 2 s 2 1 + s2 2 n 1 n 2 a t(min[(n

Lisätiedot

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina. [MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, kevät 2019 https://coursepages.uta.fi/mtttp1/kevat-2019/ HARJOITUS 3 Joitain ratkaisuja 1. x =(8+9+6+7+10)/5 = 8, s 2 = ((8 8) 2 + (9 8) 2 +(6 8) 2 + (7 8) 2 ) +

Lisätiedot

https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017

https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017 11.1.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 11.1.2018 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017 11.1.2018/2

Lisätiedot

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina. [MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2017 http://www.uta.fi/sis/mtt/mtttp1/syksy_2017.html HARJOITUS 3 viikko 40 Joitain ratkaisuja 1. Suoritetaan standardointi. Standardoidut arvot ovat z 1 =

Lisätiedot

SPSS OPAS. Metropolia Liiketalous

SPSS OPAS. Metropolia Liiketalous 1 Metropolia Liiketalous SPSS OPAS Aihe sivu 1. Ohjelman periaate 2 2. Aineistoikkuna 3 3. Frekvenssit 4 4. Muuttujien arvojen luokittelu 5 5. Tunnusluvut 6 6. Ristiintaulukointi 7 7. Hajontakaavio 8 8.Korrelaatio

Lisätiedot

voidaan hylätä, pienempi vai suurempi kuin 1 %?

voidaan hylätä, pienempi vai suurempi kuin 1 %? [TILTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2011 http://www.uta.fi/~strale/tiltp1/index.html 30.9.2011 klo 13:07:54 HARJOITUS 5 viikko 41 Ryhmät ke 08.30 10.00 ls. C8 Leppälä to 12.15 13.45 ls. A2a Laine

Lisätiedot

4.1 Frekvenssijakauman muodostaminen tietokoneohjelmilla

4.1 Frekvenssijakauman muodostaminen tietokoneohjelmilla 4 Aineiston kuvaaminen numeerisesti 1 4.1 Frekvenssijakauman muodostaminen tietokoneohjelmilla Tarkastellaan lasten syntymäpainon frekvenssijakauman (kuva 1, oikea sarake) muodostamista Excel- ja SPSS-ohjelmalla.

Lisätiedot

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Yksisuuntainen varianssianalyysi Bartlettin testi, Bonferronin menetelmä, F-testi, Jäännösneliösumma, χ 2 -testi, Kokonaiskeskiarvo,

Lisätiedot

voidaan hylätä, pienempi vai suurempi kuin 1 %?

voidaan hylätä, pienempi vai suurempi kuin 1 %? [MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2017 http://www.uta.fi/sis/mtt/mtttp1/syksy_2017.html HARJOITUS 5 viikko 42 6.10.2017 klo 10:42:20 Ryhmät: ke 08.30 10.00 LS C6 Paajanen ke 10.15 11.45 LS

Lisätiedot

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 9. luento Pertti Palo 22.11.2012 Käytännön asioita Eihän kukaan paikallaolijoista tee 3 op kurssia? 2. seminaarin ilmoittautuminen. 2. harjoitustyön

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

Määrällisen aineiston esittämistapoja. Aki Taanila

Määrällisen aineiston esittämistapoja. Aki Taanila Määrällisen aineiston esittämistapoja Aki Taanila 24.4.2017 1 Kategoriset muuttujat Lukumääriä Prosentteja (muista n-arvot) Pylväitä 2 Yhteenvetotaulukko (frekvenssitaulukko) TAULUKKO 1. Asunnon tyyppi

Lisätiedot

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin Tilastollisen analyysin perusteet Luento 10: Sisältö Varianssianalyysi Varianssianalyysi on kahden riippumattoman otoksen t testin yleistys. Varianssianalyysissä perusjoukko koostuu kahdesta tai useammasta

Lisätiedot

MTTTP5, luento Luottamusväli, määritelmä

MTTTP5, luento Luottamusväli, määritelmä 23.11.2017/1 MTTTP5, luento 23.11.2017 Luottamusväli, määritelmä Olkoot A ja B satunnaisotoksen perusteella määriteltyjä satunnaismuuttujia. Väli (A, B) on parametrin 100(1 - ) %:n luottamusväli, jos P(A

Lisätiedot

Valitse ruudun yläosassa oleva painike Download Scilab.

Valitse ruudun yläosassa oleva painike Download Scilab. Luku 1 Ohjeita ohjelmiston Scilab käyttöön 1.1 Ohjelmiston lataaminen Ohjeet ohjelmiston lataamiseen Windows-koneelle. Mene verkko-osoitteeseen www.scilab.org. Valitse ruudun yläosassa oleva painike Download

Lisätiedot

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit. A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät

Lisätiedot

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1 Kaksisuuntainen varianssianalyysi Vilkkumaa / Kuusinen 1 Motivointi Luennot 6 ja 7: yksisuuntaisella varianssianalyysilla testataan ryhmäkohtaisten odotusarvojen yhtäsuuruutta, kun perusjoukko on jaettu

Lisätiedot

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä! VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia A KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun

Lisätiedot

Tarkista vielä ennen analysoinnin aloittamista seuraavat seikat:

Tarkista vielä ennen analysoinnin aloittamista seuraavat seikat: Yleistä Tilastoapu on Excelin sisällä toimiva apuohjelma, jonka avulla voit analysoida tilastoaineistoja. Tilastoapu toimii Excelin Windows-versioissa Excel 2007, Excel 2010 ja Excel 2013. Kun avaat Tilastoavun,

Lisätiedot

4 Riippuvuus 1. Esimerkki 4. Korrelaation laskeminen SPSS-ohjelmalla rajatusta aineistosta

4 Riippuvuus 1. Esimerkki 4. Korrelaation laskeminen SPSS-ohjelmalla rajatusta aineistosta 4 Riippuvuus 1 Esimerkki 4. Korrelaation laskeminen SPSS-ohjelmalla rajatusta aineistosta x 2 = sisaruksien luku- Tarkastellaan äidin ja lapsen pituuden välistä riippuvuutta havaintomatriisilla, joka on

Lisätiedot

Tilastolliset toiminnot

Tilastolliset toiminnot -59- Tilastolliset toiminnot 6.1 Aineiston esittäminen graafisesti Tilastollisen aineiston tallentamisvälineiksi TI-84 Plus tarjoaa erityiset listamuuttujat L1,, L6, jotka löytyvät 2nd -toimintoina vastaavilta

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas NORMAALIJAKATUNEISUUDEN TESTAUS H 0 : Muuttuja on perusjoukossa normaalisti jakautunut. H 1 : Muuttuja ei ole perusjoukossa normaalisti

Lisätiedot

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45. Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 8.8% 8.9%.%.% 9.7%.7% Etelä Länsi Itä Oulu Lappi Ahvenanmaa Länsi Etelä Itä Oulu Lappi Ahvenanmaa Läänien

Lisätiedot

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko Tilastollisten menetelmien perusteet II TILTP3 Luentorunko Raija Leppälä 29. helmikuuta 2012 Sisältö 1 Johdanto 2 1.1 Jatkuvista jakaumista 2 1.1.1 Normaalijakauma 2 1.1.2 Studentin t-jakauma 3 1.2 Satunnaisotos,

Lisätiedot

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4 18.9.2018/1 MTTTP1, luento 18.9.2018 KERTAUSTA Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4 pyöristetyt todelliset luokka- frekvenssi luokkarajat luokkarajat keskus 42 52 41,5

Lisätiedot

HARJOITUSKERTA 1: SPSS-OHJELMAN PERUSKÄYTTÖ JA MUUTTUJAMUUNNOKSET

HARJOITUSKERTA 1: SPSS-OHJELMAN PERUSKÄYTTÖ JA MUUTTUJAMUUNNOKSET HARJOITUSKERTA 1: SPSS-OHJELMAN PERUSKÄYTTÖ JA MUUTTUJAMUUNNOKSET OHJELMAN KÄYNNISTÄMINEN Käynnistääksesi ohjelman valitse All Programs > > IBM SPSS Statistics 2x, tai käynnistä ohjelma työpöydän kuvakkeesta.

Lisätiedot

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1 Estimointi - tehdään päätelmiä perusjoukon ominaisuuksista (keskiarvo, riskisuhde jne.) otoksen perusteella - mitä suurempi otos, sitä tarkemmat estimaatit Otokseen perustuen määritellään otantajakaumalta

Lisätiedot

Matlabperusteita, osa 1. Heikki Apiola Matlab-perusteita, osa 1. Heikki Apiola. 12. maaliskuuta 2012

Matlabperusteita, osa 1. Heikki Apiola Matlab-perusteita, osa 1. Heikki Apiola. 12. maaliskuuta 2012 Matlab-perusteita, 12. maaliskuuta 2012 Matlab-perusteita, Ohjelmahahmotelma 1. viikko: Matlab 2. viikko: Maple (+ annettujen Matlab tehtävien ratkaisuja) 3. viikko: Maple ja Matlab (lopputyöt) Matlab-perusteita,

Lisätiedot

IBM SPSS Statistics 21 (= SPSS 21)

IBM SPSS Statistics 21 (= SPSS 21) Tarja Heikkilä IBM SPSS Statistics 21 (= SPSS 21) SPSS = Statistical Package for Social Sciences Ohjelman käynnistys Aloitusikkuna Päävalikot Työkalut Muuttujat (Variables) Tapaukset (Cases) Tyhjä datataulukko

Lisätiedot

Matriisit ovat matlabin perustietotyyppejä. Yksinkertaisimmillaan voimme esitellä ja tallentaa 1x1 vektorin seuraavasti: >> a = 9.81 a = 9.

Matriisit ovat matlabin perustietotyyppejä. Yksinkertaisimmillaan voimme esitellä ja tallentaa 1x1 vektorin seuraavasti: >> a = 9.81 a = 9. Python linkit: Python tutoriaali: http://docs.python.org/2/tutorial/ Numpy&Scipy ohjeet: http://docs.scipy.org/doc/ Matlabin alkeet (Pääasiassa Deni Seitzin tekstiä) Matriisit ovat matlabin perustietotyyppejä.

Lisätiedot

StatCrunch -laskentasovellus

StatCrunch -laskentasovellus StatCrunch -laskentasovellus Yleistä sovelluksesta StatCrunch on Integrated Analytics LLC:n valmistama sovellus tilastotieteellisten analyysien tuottamista varten. Se on verkon yli käytettävä analyysisovellus,

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään tiedetään, että ainakin kaksi

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

10. laskuharjoituskierros, vko 14, ratkaisut

10. laskuharjoituskierros, vko 14, ratkaisut 10. laskuharjoituskierros, vko 14, ratkaisut D1. Eräässä kokeessa verrattiin kahta sademäärän mittaukseen käytettävää laitetta. Kummallakin laitteella mitattiin sademäärät 10 sadepäivän aikana. Mittaustulokset

Lisätiedot

Esimerkki 1: auringonkukan kasvun kuvailu

Esimerkki 1: auringonkukan kasvun kuvailu GeoGebran LASKENTATAULUKKO Esimerkki 1: auringonkukan kasvun kuvailu Auringonkukka (Helianthus annuus) on yksivuotinen kasvi, jonka varren pituus voi aurinkoisina kesinä hyvissä kasvuolosuhteissa Suomessakin

Lisätiedot

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501 Esim. 2.1.1. Brand lkm keskiarvo keskihajonta A 10 251,28 5,977 B 10 261,06 3,866 C 10 269,95 4,501 y = 260, 76, n = 30 SS 1 = (n 1 1)s 2 1 = (10 1)5, 977 2 321, 52 SS 2 = (n 2 1)s 2 2 = (10 1)3, 8662

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen

Lisätiedot

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Kaksisuuntainen varianssianalyysi. Heliövaara 1 Kaksisuuntainen varianssianalyysi Heliövaara 1 Kaksi- tai useampisuuntainen varianssianalyysi Kaksi- tai useampisuuntaisessa varianssianalyysissa perusjoukko on jaettu ryhmiin kahden tai useamman tekijän

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas Keskivirheyksiköllä ilmaistuna voidaan erottaa otantajakaumalta kriittisiä kohtia: Keskimmäinen 95 % otoskeskiarvoista välillä [-1.96,+1.96] Keskimmäinen

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään, tiedetään, että ainakin

Lisätiedot

Moottorin kierrosnopeus Tämän harjoituksen jälkeen:

Moottorin kierrosnopeus Tämän harjoituksen jälkeen: Moottorin kierrosnopeus Tämän harjoituksen jälkeen: osaat määrittää moottorin kierrosnopeuden pulssianturin ja Counter-sisääntulon avulla, osaat siirtää manuaalisesti mittaustiedoston LabVIEW:sta MATLABiin,

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

OKLV120 Demo 7. Marika Peltonen

OKLV120 Demo 7. Marika Peltonen OKLV120 Demo 7 Marika Peltonen 0504432380 marika.p.peltonen@jyu.fi Tekstin sanat allekkain Kirjoita teksti Wordiin tai kopioi teksti, laitetaan teksti joka sana eri riville Valitse Muokkaa > Etsi ja korvaa

Lisätiedot

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3 OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 3 Tutkimussuunnitelman rakenne-ehdotus Otsikko 1. Motivaatio/tausta 2. Tutkimusaihe/ -tavoitteet ja kysymykset

Lisätiedot

Muistitikun liittäminen tietokoneeseen

Muistitikun liittäminen tietokoneeseen Muistitikun käyttäminen 1 Muistitikun liittäminen tietokoneeseen Muistitikku liitetään tietokoneen USB-porttiin. Koneessa voi olla useita USB-portteja ja tikun voi liittää mihin tahansa niistä. USB-portti

Lisätiedot

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi Esimerkit laskettu JMP:llä Antti Hyttinen Tampereen teknillinen yliopisto 29.12.2003 ii Ohjelmien

Lisätiedot

ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6

ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 Sisällysluettelo ALKUSANAT 4 ALKUSANAT E-KIRJA VERSIOON 5 SISÄLLYSLUETTELO 6 1 PERUSASIOITA JA AINEISTON SYÖTTÖ 8 11 PERUSNÄKYMÄ 8 12 AINEISTON SYÖTTÖ VERSIOSSA 9 8 Muuttujan määrittely versiossa 9 11

Lisätiedot

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Sisältö Tilastollisia testejä tehdään jatkuvasti lukemattomilla aloilla. Meitä saattaa kiinnostaa esimerkiksi se, että onko miesten ja

Lisätiedot

Ohjeita tilastollisen tutkimuksen toteuttamiseksi SPSS for Windows -ohjelmiston avulla

Ohjeita tilastollisen tutkimuksen toteuttamiseksi SPSS for Windows -ohjelmiston avulla 1 Ohjeita tilastollisen tutkimuksen toteuttamiseksi SPSS for Windows -ohjelmiston avulla Raija Leppälä Opetusmoniste B 53 3. uudistettu painos Matematiikan, tilastotieteen ja filosofian laitos Toukokuu

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit s t ja t kahden Sisältö t ja t t ja t kahden kahden t ja t kahden t ja t Tällä luennolla käsitellään epäparametrisia eli

Lisätiedot

Laskuharjoitus 9, tehtävä 6

Laskuharjoitus 9, tehtävä 6 Aalto-yliopiston perustieteiden korkeakoulu Jouni Pousi Systeemianalyysin laboratorio Mat-2.4129 Systeemien identifiointi Laskuharjoitus 9, tehtävä 6 Tämä ohje sisältää vaihtoehtoisen tavan laskuharjoituksen

Lisätiedot

ATH-koulutus: R ja survey-kirjasto THL 16.2.2011. 16. 2. 2011 ATH-koulutus / Tommi Härkänen 1

ATH-koulutus: R ja survey-kirjasto THL 16.2.2011. 16. 2. 2011 ATH-koulutus / Tommi Härkänen 1 ATH-koulutus: R ja survey-kirjasto THL 16.2.2011 16. 2. 2011 ATH-koulutus / Tommi Härkänen 1 Sisältö Otanta-asetelman kuvaaminen R:llä ja survey-kirjastolla Perustunnusluvut Regressioanalyysit 16. 2. 2011

Lisätiedot

Yleistetyistä lineaarisista malleista

Yleistetyistä lineaarisista malleista Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit

Lisätiedot

Matriiseista. Emmi Koljonen

Matriiseista. Emmi Koljonen Matriiseista Emmi Koljonen 3. lokakuuta 22 Usein meillä on monta systeemiä kuvaavaa muuttujaa ja voimme kirjoittaa niiden välille riippuvaisuuksia, esim. piirin silmukoihin voidaan soveltaa silmukkavirtayhtälöitä.

Lisätiedot

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt TKK (c) Ilkka Mellin (005) Koesuunnittelu TKK (c) Ilkka Mellin (005) : Mitä opimme? Tarkastelemme tässä luvussa seuraavaa kysymystä: Miten varianssianalyysissa tutkitaan yhden tekijän vaikutusta vastemuuttujaan,

Lisätiedot

SPSS* - tilastoanalyyttinen ohjelma, vrs 9.0

SPSS* - tilastoanalyyttinen ohjelma, vrs 9.0 SPSS* - tilastoanalyyttinen ohjelma, vrs 9.0 = monipuolinen ohjelma, jolla voi tilastollisesti analysoida tieteellistä aineistoa ja se tuottaa myös graafisia tulosteita. SPSS:n oma avustus (help) SPSS:ssä

Lisätiedot

, Määrälliset tutkimusmenetelmät 2 4 op

, Määrälliset tutkimusmenetelmät 2 4 op 6206209, Määrälliset tutkimusmenetelmät 2 4 op Jyrki Reunamo, Helsingin yliopisto, Opettajankoulutuslaitos 19.2.2015 1 Varianssianalyysi (Pallant 2007, Tähtinen & Isoaho 2001) Verrataan ryhmien keskiarvoja.

Lisätiedot

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi Mat-2.2104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Yhteensopivuuden ja homogeenisuden testaaminen Bowmanin ja Shentonin testi, Hypoteesi, 2 -homogeenisuustesti, 2 -yhteensopivuustesti,

Lisätiedot

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat TAMPEREEN YLIOPISTO Tilastollisen mallintamisen harjoitustyö Teemu Kivioja ja Mika Helminen Epätasapainoisen koeasetelman analyysi Worksheet 5 Matematiikan, tilastotieteen ja filosofian laitos Tilastotiede

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

Pedanet oppilaan ohje Aleksanteri Kenan koulu Eija Arvola

Pedanet oppilaan ohje Aleksanteri Kenan koulu Eija Arvola Pedanet oppilaan ohje Aleksanteri Kenan koulu Eija Arvola 26.8.2016 SISÄLLYSLUETTELO 1. Omat asetukset kuntoon (kaikkien tehtävä aluksi) sivut 3-5 2. Tärkeiden sivujen tilaaminen omiin linkkeihin sivut

Lisätiedot

3. Muuttujat ja operaatiot 3.1

3. Muuttujat ja operaatiot 3.1 3. Muuttujat ja operaatiot 3.1 Sisällys Imperatiivinen laskenta. Muuttujat. Nimi ja arvo. Muuttujan nimeäminen. Muuttujan tyyppi. Operaattorit. Operandit. Arvon sijoitus muuttujaan. Aritmeettiset operaattorit.

Lisätiedot

HAVAITUT JA ODOTETUT FREKVENSSIT

HAVAITUT JA ODOTETUT FREKVENSSIT HAVAITUT JA ODOTETUT FREKVENSSIT F: E: Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies

Lisätiedot