2.10.2002 Analysis Lab tilastoohjelmiston toimintojen esittely ja arvioita ohjelmiston soveltuvuudesta TILTP1 kurssin käyttöön Raportin tekijä Jorma Jokisalo
SISÄLLYS 1. JOHDANTO 3 2. YLEISTÄ ANALYSIS LAB-OHJELMISTOSTA 4 3. ANALYSIS LAB-OHJELMISTON KÄYTTÖ 4 3.1 HAVAINTOAINEISTON TALLENTAMINEN ANALYSOINTIA VARTEN 4 3.1.1 VALMIIN HAVAINTOAINEISTON KÄYTTÖ 5 3.1.2 OMAN HAVAINTOAINEISTON TALLENTAMINEN 5 3.1.3 OMAN HAVAINTOAINEISTON TALLENTAMISESSA HUOMIOITAVAA 6 3.2 ANALYSOITAVIEN MUUTTUJIEN VALINTA 7 4. TILASTOLLISTEN ANALYYSIEN TEKEMINEN ANALYSIS LAB-OHJELMISTOLLA 8 4.1 "DESCRIPTIVE" 9 4.2 "BOX-PLOT" 10 4.3 "HISTOGRAM" 11 4.4 "CORRELATION/REGRESSION" 12 4.5 ANALYSIS LAB- OHJELMISTON TARJOAMAT TESTAUSTYÖKALUT 13 2
1. Johdanto Tämä raportti on laadittu tutustumalla Tampereen Yliopiston Matemaattisten tieteiden laitoksen syksyllä 2002 järjestämän Tilastotieteen johdantokurssin (TILTP1:n) kotisivulla osoitteessa http://www.uta.fi/%7estrale/tiltp1/index.html olevassa linkkikokoelmassa mainittuun Analysis Lab nimiseen tilasto-ohjelmistoon. Raportin tarkoituksena on esitellä Analysis Lab-ohjelmisto ja sen tarjoamat analyysityökalut lukijalle. Esityksen perusteella lukijalle on tarkoitus antaa selkeä kuva siitä, miten Analysis Lab ohjelmistoa voi hyödyntää (jos voi) TILTP1-kurssin aikana käsiteltyjen asioiden käsittelemiseen. Raportin on myös tarkoitus toimia lyhyenä ohjelmiston käyttöön opastavana käyttöohjeena. Esityksessä lähdetään liikkeelle yleisistä Analysis Lab-ohjelmiston ominaisuuksista edeten pienen havaintomatriisin talletuksen kuvaamisesta varsinaisten ohjelmiston tarjoamien analyysityökalujen käytön esittelyyn. Saman aikaisesti ohjelmiston käytön kuvauksen kanssa on tarkastelussa pyritty jatkuvasti ottamaan kantaa ohjelmistossa oleviin puutteisiin ja huomioimaan sen tarjoamien työkalujen mahdollinen soveltumattomuus TILP1 kurssilla käsiteltävien asioiden kannalta tarkasteltuna. 3
2. Yleistä Analysis Lab-ohjelmistosta Tilastollisten analyysien tekemiseen soveltuva Analysis Lab-ohjelmisto on kaikkien halukkaiden käytettävissä ilman maksua ja se löytyy Internetistä seuraavan näköiseltä sivulta, joka löytyy osoitteesta: http://www.ruf.rice.edu/%7elane/stat_analysis/index.html. Vaatimuksena Analysis Lab- ohjelmiston käytölle on se, että käytetty verkkoselain on JAVA 1.1 yhteensopiva. Mikäli verkkoselain ei tue standardia näkyy Analysis Lab- ohjelmiston verkkosivun vasemmassa ylänurkassa olevan "ANALYZE" -painikkeen tilalla virheilmoitus "Your browser either does not support JAVA or has JAVA disabled.". Tällöin Analysis Labohjelmiston käyttö ei onnistu ilman JAVA-tuen asentamista. Lisätietoja asiasta löytyy linkistä: http://www.ruf.rice.edu/~lane/stat_sim/java1.1.html. 3. Analysis Lab-ohjelmiston käyttö 3.1 Havaintoaineiston tallentaminen analysointia varten Ohjelmiston käyttö aloitetaan painamalla verkkosivun vasemmassa ylänurkassa olevaa "ANALYZE" -painiketta, jolloin Analysis Lab-ohjelmiston varsinainen käyttövalikko ilmestyy ruudulle seuraavanlaisena popup-ikkunana. Tämän jälkeen ohjelmisto on valmis ottamaan vastaan halutun havaintoaineiston analysoitavaksi. 4
3.1.1 Valmiin havaintoaineiston käyttö Analysis Lab-ohjelmistolla on, ainakin vielä tällä hetkellä JAVA-appleteihin sisältyvien tietoturvariskien johdosta, mahdollisuus käyttää valitettavasti ainoastaan Rice University:n palvelimella olevia valmiita havaintoaineistoja. Valmiiksi talletetun havaintoaineiston avaaminen analysointia varten tapahtuu valitsemalla halutusta "Data Library" -tietokannasta "Dataset"- kohtaan tarkasteltava havaintoaineisto. Suoritetun valinnan jälkeen analysoitavaksi valitun havaintoaineiston kuvaus ilmestyy ikkunan oikeassa reunassa olevaan näyttöruutuun. 3.1.2 Oman havaintoaineiston tallentaminen Oma havaintoaineisto on hyvä olla valmiiksi muokattuun havaintomatriisimuotoon tallennettuna ennen sen tallentamista Analysis Lab-ohjelmistolla analysoitavaksi. Analysis Lab-ohjelmistosta ei nimittäin löydy työkaluja muuttujien käsittelyyn tai muunnosten tekemiseen. Nämä toimenpiteet on näin ollen suoritettava etukäteen, jotain toista sovellusta tai ohjelmistoa hyväksikäyttäen. Oman havaintoaineiston tallentaminen ohjelmistoon tapahtuu painamalla "Data Library" -tietokannassa olevan valmiin havaintoaineiston valitsemisen sijasta ruudun oikeassa reunassa olevaa "Enter/Edit User Data" -painiketta, jonka painamisen seurauksena avautuvaan "Enter data" -nimiseen ikkunaan oma havaintoaineisto voidaan tallentaa. 5
Havaintoaineiston sisältämä data voidaan näppäillä kokonaisuudessaan ikkunaan, mutta huomattavasti helpompaa ja erittäin suositeltavaa on käyttää "copy-paste" menetelmää, mikäli tähän on mahdollisuus. Omaa havaintoaineistoa tallennettaessa ensimmäinen rivi on varattu muuttujien nimien määrittelyä varten. Muuttujien nimien määrittämiseen on mahdollista käyttää useita kirjaimia. Analysoitavan havaintoaineiston muuttujien havaintoarvot syötetään numeerisessa muodossa muuttujien nimien määrittelyä seuraaville riveille. Muuttujien nimet (ja niiden saamat havaintoarvot) on erotettava toisistaan joko välilyöntinäppäimen tai vaihtoehtoisesti tabulaattorin avulla. Desimaalilukuja sisältävän datan syötössä on huomioitavaa, että Analysis Lab-ohjelmisto ei osaa lukea desimaalipilkkuja "," joten ne on korvattava pisteellä ".". Muussa tapauksessa desimaalidataa sisältävän havaintomatriisin tallentaminen ohjelmaan ei onnistu. 3.1.3 Oman havaintoaineiston tallentamisessa huomioitavaa Analysis Lab -ohjelmistolla voidaan analysoida ainoastaan numeerisessa muodossa ilmaistuja muuttujia, eli se on tarkoitettu lähinnä kvantitatiivisen tilastodatan käsittelyyn. Kategoriset muuttujat voidaan tosin koodata ts. ilmaista numeeristen muuttujien avulla. Tällöin ongelmana on kuitenkin se, ettei numeroarvoilla ei ole määrällistä tulkintaa - ne ovat vain luokkien nimiä tai kertovat mahdollisesti luokkien järjestyksen. Analysis Lab -ohjelmistolla käsiteltävän luokitteluasteikollisen muuttujan saamissa havainnoissa tulee lisäksi olla edustettuna kaikki 6
kyseiselle muuttujalle mahdolliset luokat. Kvalitatiivisen muuttujan arvot on lisäksi ilmaistava kokonaisluvuin alkaen ykkösestä. Eräs myöskin nopeasti havaittavista Analysis Lab -ohjelmiston puutteista on sen kykenemättömyys käsitellä puuttuvaa dataa. Tämän johdosta kaikille havaintoaineiston muuttujien havaintoarvojen on saatava jokin numeerinen arvo. Lisäksi ohjelmistolla pystytään analysoimaan ainoastaan yhtä ohjelmistoon väliaikaisesti tallentuvaa havaintoaineistoa kerrallaan. Havaintoaineisto on siis syytä tallentaa esimerkiksi.txt-muotoisena, mikäli sitä mahdollisesti halutaan käsitellä joskus myöhempänä ajankohtana. Sen jälkeen, kun havaintoaineisto on syötetty kokonaan se tallennetaan painamalla syöttöikkunassa olevaa "Accept data" -painiketta, jonka jälkeen data on valmista ohjelmiston tarjoamien analysointimenetelmien käyttöä varten. Mikäli syötettyä dataa halutaan editoida tai vaihtaa se onnistuu painamalla "Enter/Edit User Data" -painiketta, jolloin saadaan aikaisemmin tallennettu data näkyviin. 3.2 Analysoitavien muuttujien valinta Sen jälkeen, kun havaintoaineisto on syötetty kokonaan voidaan aloittaa analysoitavien muuttujien valinta ohjelmiston tarjoamien analysointimenetelmien käyttöä varten. 7
Analysoitavien muuttujien valinta aloitetaan valitsemalla "Dependent Variable (Y)"- pudotusvalikosta muuttuja, jonka saamia arvoja halutaan analyysin avulla selittää, toisin sanoen selitettävä eli riippuva muuttuja. Selittävän eli riippumattoman muuttujan valinta tapahtuu vastaavalla tavalla "Predictor Variable (X)" kohdalla olevasta pudotusvalikosta. Ohjelmistolla voidaan selittää riippuvaa muuttujaa ainoastaan yhden selittävän muuttujan avulla, joten sen käyttäminen esimerkiksi usean muuttujan regressioanalyysin tekemiseen voidaan näin ollen sulkea pois. Luokittelu- tai järjestyasteikollisten muuttujien valinnassa on huomioitava, mitä niiden käytöstä aikaisemmassa kohdassa "havaintoaineiston tallentamisessa huomioitavaa" todettiin. Luokittelutai järjestysasteikollisten muuttujien valinta tapahtuu pudotusvalikosta "Grouping Variable". 4. Tilastollisten analyysien tekeminen Analysis Lab-ohjelmistolla Analysoitavien muuttujien valinnan suorittamisen jälkeen ikkunoissa "Descriptive", "Box-plot", "t-tests and confidence intervals", "Histogram", "Stem and Leaf Displays", "ANOVA", "Assumptions: t", "Assumptions: ANOVA" ja "Correlation/Regression" on tarjolla vaihtoehtoja erilaisten tilastollisten analyysien tekemiseen valittujen muuttujien saamista havaintoarvoista. Tarjolla olevat menetelmät ovat yksinkertaisia ja niitä on loppujen lopuksi hyvin vähän; itse asiassa vain muutamia. Analysis Lab- ohjelmiston avulla ei juurikaan pysty tuottamaan graafisia analyyseja ja ohjelmistosta puuttuvat esimerkiksi yleisesti kvalitatiivisten muuttujien kuvaamiseen käytetyt piirakkakuviot ja pylväsdiagrammit. Lisäksi mahdollisuutta saatujen 8
tutkimustulosten muokkaamiseen visuaalisessa tai tilastollisessa mielessä "kauniimmaksi" on Analysis Lab -ohjelmistolta turha odottaa. Positiivisessa mielessä tämä tietysti tarkoittaa sitä, että käyttäjän ei tarvitse miettiä erilaisia esitystapoja havaintoaineiston sisältämän tiedon tiivistämiseen ja havainnollistamiseen, vaan hän voi tyytyä Analysis Lab-ohjelmiston valitsemaan esitystapaan. Seuraavassa esitellään kuitenkin lyhyesti lähinnä kuvien avulla eräitä ohjelmiston avulla tuotettuja analyyseja käyttäen TILTP1 luentomonisteen Esim. 3.2:een perustuvaa havaintoaineistoa. 4.1 "Descriptive" Analysis Lab -ohjelmiston valinnalla "Descriptive" saadaan tuotettua tarkasteltavaksi yksinkertaisia tunnuslukuja valitun muuttujan saamista havaintoarvoista: Mukana ovat lähes siis kaikki yksiuloitteisen jakauman kuvaamiseen tarkoitetut perustunnusluvut, kuten keskiarvo, keskihajonta, vinous, kurtositeetti sekä kvartiilit eli mediaani, alakvartiili (lower quartile) ja yläkvartiili jne. Otettaessa luokitteluasteikollinen muuttuja mukaan tarkasteluun saadaan tulokseksi samat tunnusluvut erikseen kunkin luokan perusteella ilmoitettuna. 9
4.2 "Box-plot" Valinnan "Box-plot" avulla voidaan tuottaa laatikko-janakuvioita havainnollistamaan valitun muuttujan jakaumaa. Tässä tapauksessa boxplot-kuvio kuvaa Price-muuttujan jakaumaa ehdollistettuna Bathroom-muuttujalla. 10
4.3 "Histogram" Valinnalla "Histogram" saadaan nimensä mukaisesti tuotettua seuraavanlainen jatkuvan muuttujan kuvaamiseen tarkoitettu histogrammi. Ohjelmisto ei juurikaan anna käyttäjälleen mahdollisuuksia tuottamansa histogrammikuvion muokkaamiseen, esimerkiksi luokkakeskusten määrittämiseksi analyysin kannalta sopivimmiksi. 11
4.4 "Correlation/Regression" "Correlation/Regression"- painikkeen takana olevien analyysityökalujen avulla on mahdollista tarkastella kahta muuttujaa samanaikaisesti tuottaa kaksiuloittesta jakaumaa kuvaavia tunnuslukuja ja graafisia esityksiä (tai esitys). Ohessa Analysis Lab-ohjelmistolla tuotettu pisteparvi eli korrelaatiodiagrammi, jossa pyritään selittämään Price-muuttujan vaihtelua Sizemuuttujan avulla: Ohjelmiston "Correlation/Regression"-toimintoa on mahdollista käyttää myös varianssianalyysin tekemiseen. Tällöin mukaan tarkasteluun tulee sisällyttää luokitteluasteikollinen muuttuja. Analyysityökalu tarjoaa myös erilaisia muuttujien riippuvuutta kuvaavia tunnuslukuja kuten esimerkiksi korrelatiokertoimen, joka mittaa miten tiiviisti pisteparvi on keskittynyt pisteparveen ajatellun suoran ympärille. 12
4.5 Analysis Lab- ohjelmiston tarjoamat testaustyökalut Tilastotieteen johdantokurssilla muuttujien välisiä riippuvuuksien tutkimiseen keskitytään lähinnä ehdollisten tunnuslukujen, pisteparvien ja ristiintaulukoiden avulla. Opintojakson asiat liittyvät siis lähinnä kuvailevaan analyysiin ja riippuvuustarkastelujen tekemiseen ilman testauksia, joihin tutustutaan seuraavilla perusopintojaksoilla. Analysis Lab -ohjelmisto tarjoaa t-testien ("t-tests and confidence intervals" & "Assumptions: t") ja yksi(ja kaksikin-)suuntaisen varianssianalyysin tekemiseen ("ANOVA" &"Assumptions: ANOVA"), mutta jätettäköön nämä vielä tässä vaiheessa maininnan asteelle. 13