STATLETS -TILASTO-OHJELMISTON KÄYTETTÄVYYS TILASTOTIETEEN OPISKELUSSA Tilastotieteen Johdantokurssi Syksy 2002 Veli-Matti Ek Tampereen yliopisto
STATLETS -TILASTO-OHJELMISTON KÄYTETTÄVYYS TILASTOTIETEEN OPISKELUSSA Sisällysluettelo 1. Johdanto 2 2. Statlets - Ohjelmisto... 2 3. Mikroharjoitukset.. 3 3.1. Mikroharjoitus 1 : Havaintomatriisin tallennus, muunnosten teko muuttujille, muuttujien uudelleenkoodaus, frekvenssitaulukon teko 3.1.1. Havaintomatriisin tallennus 3 3.1.2. Muunnosten teko muuttujille ja muuttujien uudelleenkoodaus sekä frekvenssitaulukoiden tekeminen 3 3.2. Mikroharjoitus 2 : Frekvenssijakaumat graafisesti, tunnusluvut, ehdollistaminen, ehdolliset tunnusluvut, laatikko-jana kuviot 3.2.1. Frekvenssitaulukot graafisesti, tunnusluvut ja laatikko-jana kuviot 4 3.2.2. Ehdollistaminen ja ehdolliset tunnusluvut. 4 3.3. Mikroharjoitus 3 : Riippuvuustarkasteluja : Pisteparvi, korrelaatiokerroin ja ristiintaulukko.. 4 4. Johtopäätökset 5 5. Lähteet 5
1. Johdanto Tietokoneille suunniteltujen tilasto-ohjelmistojen kirjo on moninainen. Suurin osa ohjelmistoista on kaupallisia sovellutuksia, joiden käyttöönsaaminen vaatii kallista lisenssiä. Ohjelmistojen hinnat ovat yleensä opiskelijoiden maksukyvyn ulottumattomissa, joten herää kysymys, millaisia ohjelmistoja voi saada käyttöönsä maksutta ja miten niiden toiminnot soveltuvat yliopistotason tilastotieteen opintoihin. Tampereen yliopistolla on käytössä SPSS for Windows ohjelmisto, joka on raskaan sarjan tilastointityökalu, joten erityisen houkuttelevia vapaasti levitettävät tilastointiohjelmistot ovat lähinnä kotonaan työskenteleville opiskelijoille. Olen valinnut tutkimuksen kohteeksi Statlets nimisen kokoelman ohjelmia, jonka saa käyttöönsä maksutta seuraavasta osoitteesta: http://www.statlets.com/free/webstat.html. Ohjelmistoon löytyy linkki myös tilastotieteen johdantokurssin linkkejä osastolta. Käytännön tutkimus koostuu kurssin mikroharjoitustehtävien tekemisestä kyseisellä ohjelmalla ja prosessin aikana saatujen kokemusten kirjaamisesta. Samalla hahmottelen eräänlaista käyttäjän opasta kenellä tahansa ohjelmiston käyttöä halajaville. Tilastotieteen termistöön tullaan viittaamaan niiltä osin kuin se selvyyden kannalta on välttämätöntä, joten minään erityisenä tilastotieteen oppikirjana käyttöohjetta tuskin voi käyttää. Pyrin käsittelemään ohjelmiston käytön tiedon syöttämisestä valmiin raportin tulkitsemiseen, joten koko toimintojen kirjo tulee käytyä lävitse. Pyrin myös tuomaan esille havaintojani ohjelman käytettävyydestä yleisemmin. Mihin ongelmiin ensikertaa ohjelmaa käyttävä voi törmätä ja kuinka niistä selviää. 2. STATLETS - Ohjelmisto Statlets on tilastoaineiston käsittelyyn tarkoitettu, kaupallinen javapohjainen ohjelmisto, joka koostuu n. 50 erillisestä ohjelmasta. Kaupallinen versio on täysikasvuinen tilasto-ohjelmisto, jolla suurien havaintoaineistojen käsittely on vaivatonta. Ohjelmasta on saatavilla useita erilaisia versioita ja se on internetin kautta vapaasti käytettävissä, ladattavissa kotikoneelle tai ostettavissa kaupallisena sovelluksena. Eri versiot vaihtelevat sen mukaan, mitä toimintoja ohjelmassa on käytettävissä sekä käsiteltävän aineistomateriaalin määrän mukaan. Ohjelmisto kattaa seuraavat tilastollisen analyysin alueet: Kuvaileva analyysi (numeerinen ja graafinen) Estimaatio ja hypoteesien testaaminen (ml. ei-parametrinen) Näytteen koon määrittäminen Regressioanalyysi Varianssianalyysi Tilastollinen tuotannon ja laadunvalvonta Aikasarja-analyysi ja ennustaminen On selvää, että ohjelmiston toiminnot riittävät varsin pitkälle tilastotieteen opinnoissa, mutta alkuun pääseminen uuden ohjelmiston kanssa voi olla varsin hankalaa. Puhtaasti internetissä käytössä oleva ohjelmisto ei sisällä tietojen tallennusta eikä graafisten esitysen tulostusmahdollisuutta. Lisenssi kattaa ainoastaan raportin tuottamisen kertaluonteisesti, joten puhtaasti internet-sovelluksena Statlets ei riitä vakavasti otettavaksi vaihtoehdoksi SPSS:lle. Esimerkiksi, mikäli opiskelija haluaa tulostaa graafit myöhempää käyttöä varten, tarvitaan kuvankaappausohjelmaa, jonka tuotoksia on vaikeaa ellei mahdotonta liittää osaksi varsinaista
kirjallista raporttia. Samalla käytettävän havaintoaineiston määrä on rajattu 50 riviin ja 8 sarakkeeseen. Esimerkiksi kurssin harjoituksia silmällä pitäen 50 riviä on varsin vähän. Olenkin käyttänyt mahdollisuutta käyttää ohjelmistoa kotikoneellani akateemisella lisenssillä. Tälloin mukaan tulevat oman koneeni resurssit ja tallentaminen sekä tulostaminen onnistuvat suoraan ohjelmasta. Kyseinen akateeminen lisenssi mahdollistaa vain 50 rivin käytön, mikä on suuri ongelma tilastollisten harjoitusten tekemisessä, ja harjoitustyön 50-100 havaintoa täytyy kutistaa minimiin. Mutta tietojen syöttäminen ja tiedostojen myöhempi käyttö helpottuu huomattavasti, kun analyysiä ei tarvitse tehdä yhden istunnon aikana ilman tallennusmahdollisuutta. 3. Mikroharjoitukset Paras tapa tutustua ohjelmiston tarjoamiin mahdollisuuksiin on tehdä kurssiin liittyvät mikroharjoitustehtävät käyttämällä Statlets-ohjelmaa. 3.1. Mikroharjoitus 1 : Havaintomatriisin tallennus, muunnosten teko muuttujille, muuttujien uudelleenkoodaus, frekvenssitaulukon teko Mikroharjoitus 1:n tehtävät ovat suunitellut tehtäväksi SPSS for windows ohjelmistoa käyttäen. 3.1.1. Havaintomatriisin tallennus Statletsin akateemisen lisenssin versiossa tietojen syöttämiseen on monta erilaista tapaa. Tiedot voi syöttää näppäimistöltä havainto kerrallaan, ne voi kopioida toisesta ohjelmasta käyttäen tietokoneen työpöytää, tuoda sisään tekstitiedostosta tai käyttää JCDB:a. Toiminnot ovat samat kuin muissakin alan ohjelmistoissa. Käyttäjän huoleksi jää aineiston järjestäminen tiedostossa siten, että eri arvojen erottimena on jokin tietty merkki tai esimerkiksi välilyönti. Lisäksi tiedoston ensimmäiselle riville tai sarakkeeseen voidaan syöttäää kunkin muuttujan nimi tai muu tunniste. Statlets tallentaa syötetyt havainnot ASCII-muodossa, joten havaintomatriisi on suoraan siirrettävissä muihin ohjelmistoihin. Muuttujien nimitiedot tallennetaan 1. riville ja havainnot erotetaan toisistaan käyttäjän valitsemalla tavalla. Mikroharjoitus 1:n aineistot ovat jo niin suuria, että STATLETS-ohjelmiston ilmaisten versioiden rajat tulevat vastaan. 50 riviä ja 10 saraketta eivät riitä kuin aineiston esimerkinomaiseen analyysiin. 3.1.2. Muunnosten teko muuttujille ja muuttujien uudelleenkoodaus sekä frekvenssitaulukoiden tekeminen Havaintomatriisi on syytä tehdä valmiiksi esimerkiksi Excel-taulukkolaskentaohjelmalla, koska Statletsin oma editori on toiminnoiltaan sangen puutteellinen. Laskutoimitusten tekeminen syötetyllä matriisilla ei onnistu suoraan Statletsissa. Editorin alkukantaisuus mahdollistaa editorin käytön internetin välityksellä, mutta laskentapohjana sitä ei voi käyttää. Opiskelijan kannalta tämä on kiusallista, sillä Statletsin tehokas käyttö ainoana sovelluksena opinnoissa on mahdotonta. Paras tapa on käyttää esimerkiksi Exceliä tilastoaineiston muokkaamiseen ja tuoda tiedot statletsin leikepöydän kautta taulukkoon. Valmiiden muutujien osalta Statlets antaa kattavan raportin aineiston tunnusluvuista. Keskiarvot, frekvenssit, muuttujien vaihteluväli, sekä lukumäärät selviävät hyvin ohjelman perustoiminnolla SUMMARIZE. Valikon toiminnoilla voidaan tuottaa perustiedot STATISTICS, taulukointi TABULATION sekä ristiintaulukointi CROSS-TABULATION. Kun opiskelijan tarvitsema
materiaali on halutussa muodossa, sitä voi käsitellä Statletsissa usealla eri tavalla. Frekvenssitaulukon saa näkyviin TABLE-toiminnolla ja lisäksi tarjolla on kaksi vaihtoehtoista esitystä aineiston pohjalta, ympyrä- ja pylväsdiagrammiesitykset. Taulukon ja diagrammien muuttujat valitaan valmiista listasta, joka muodostuu syöttöruudun ylärivillä annetuista nimistä. PLOT-valikon toiminnoilla tilastoaineistosta saa erilaisia kuvaajia, yhden tai useamman muuttujan muuttujan kuvaajat syntyvät helposti. Kuitenkin tuloksissa on huomattavaa, että ohjelmassa on hieman vikaa, joka johtuu joko tilastoaineiston muodosta tai solujen tulkinnasta. Tuloksena on usein kuvaajia ilman ainoatakaan pistettä tai jokin muuttujista näytetään tyhjänä kenttänä. Yhden muuttujan kuvaajat toimivat yleensä ilman ongelmia, ja esimerkiksi Ctesti-aineiston tulokset piirtyvät kauniisti. PLOT-valikosta löytyy myös mahdollisuus kuvantaa erilaisia jakaumia, kuten normaalijakauma, etc. Tämä on erittäin hyödyllinen havaintoväline, mutta palvelee selkeästi TILTP2:n opiskelua. 3.2 Mikroharjoitus 2 : Frekvenssijakaumat graafisesti, tunnusluvut, ehdollistaminen, ehdolliset tunnusluvut, laatikko-jana -kuviot Toisessa mikroharjotuksessa pääpaino siirtyy jo huomattavasti vaativampiin analyyseihin, joista varsinkin erilaiset graafiset esitykset ovat Statletsin kompastuskivi. Ohjelma tuottaa vain kahdenlaisia esityksiä, riippuen siitä, mitä analysoidaan, esim. frekvensssitaulukoista saa pylväs- ja ympyrädiagrammeja, mutta ei muita. Käyttäjän valinnanvara on hyvin suppea. Esitysten muodon rajoitukset ovat ongelma, joka vaikuttaa suoraan kuvion ilmaisuvoimaan ja luettavuuteen. Koska ulosantia ei juurikan pysty muokkaamaan, käyttäjän on vaikea sovittaa esityksiä loogisiksi osiksi raporttia. Koska käyttäjän on turvauduttava kuvankaappausohjelmaan, raportissa pääosan ottavat windowsin omat valikot. 3.2.1 Frekvenssitaulukot graafisesti, tunnusluvut ja laatikko-jana -kuviot Frekvenssitaulukoiden tekeminen Statletsilla on yksinkertaista, kunhan aineisto on käsitelty ennen ohjelman käyttöönottoa. Yhden muuttujan frekvenssijakauma syntyy SUMMARIZE valikon TABULATION toiminnolla, jonka valikosta löytyvät myös graafiset esitykset. STATISTICStoiminnolla voidaan tutkia kahden tai useamman muuttujan kohdalta tunnusluvut, keskinäinen riippuvuus sekä tuottaa pisteparvi. Kattavamman paketin tietoa tuottaa ANALYZE valikko, josta yhden muuttujan analyysin valitsemalla pääsee analysoimaan aineiston tunnuslukuja muuttujakohtaisesti, kvarttiileja, laatikko-jana kuvioita, sekä histogrammia. Ohjelman laskemat tunnusluvut ovat havaintojen määrä, keskiarvo, mediaani, keskihajonta, minimiarvo, maksimiarvo, sekä keskimääräiset huipukkuus(kurtosis) ja vinous(skewness). 3.2.2. Ehdollistaminen ja ehdolliset tunnusluvut STATLETS-ohjelmiston puutteet kohdistuvat valitettavasti tuotettujen analyysien mukauttamiseen käyttäjän tarpeisiin. Ohjelma tuottaa tunnusluvut ja kuviot vain valmiista aineistosta, joten ehdollistaminen tulee suorittaa jo ennen muuttujien sisäänkirjausta, eli käyttäjän on valikoitava ainestosta sopivat arvot. Arvojen valikoinnin vaikeus pakottaa käyttäjän siirtämään aineistoa laskentapohjasta toiseen, mikä on työlästä ja voi johtaa aineiston muuttumiseen tai häviämiseen. 3.3. Mikroharjoitus 3 : Riippuvuustarkasteluja : Pisteparvi, korrelaatiokerroin ja ristiintaulukko
Kolmannen mikroharjoituksen teemana on kahden muuttujan cälisen suhteen analysointi, johon STATLETS tarjoaa riittävät työkalut. PLOT-valikosta pääsee analysoimaan yksittäisten muuttujien lisäksi kahta muuttujaa toisiaan vasten ja kolmannen muuttujan riippuvuutta kahdesta edellisestä. Perustoimintona on tällöin pisteparvi kahdelle muuttujalle, sekä useampi erilainen pisteparvi kolmelle muuttujalle. Laajempi analyysi valmistuu SUMMARIZE-valikon STATISTICS-toiminnolla. Tällöin käyttäjä valitsee valikosta ne sarjat, joiden välistä riippuvuutta halutaan tarkastella. Ohjelma ilmoittaa ensin yksittäisten muuttujien erilliset tunnusluvut omina taulukkoinaan. Tämän jälkeen tulee pisteparvi, sekä kahdenlaiset korrelaatiokertoimet matriisimuodossa (1. Pearsonin tulomomenttikorrelaatio ja 2. Spearmanin järjestyskorrelaatio). Ulosanti on selkeää, tosin kaikkien CTESTI-aineiston muuttujille ohjelma ei suostunut korrelaatioita laskemaan. Kyseinen ongelma liittyy aineiston ulkoasuun ja desimaalien merkintämuotoon, suoraan siirretty Excel-aineisto tulkitaan desimaalilukujen osalta tyhjäksi. Ohjelmassa on siis selkeä bugi. Ohjelman toimintojen kattavuudesta kertoo, että mukaan on saatu myös aineiston ristiintaulukointi. Ristiintaulukointi löytyy SUMMARIZE-valikosta, kohdasta CROSS TABULATION. Ensin käyttäjä valitsee rivillä ja sarakkeessa esitettävät muuttujat muuttujan nimen mukaan järjestetystä valikosta. Tämän jälkeen ohjelma taulukoi arvot matriisiin, josta selviävät eri yhdistelmien frekvenssit sekä havaintojen absoluuttiset määrät. Ohjelma laskee ristiintaulukolle tunnusluvut, joista Pearsonin ja Kendallin järjestyskorrelaatiokertoimet kertovat monotonisen riippuvuuden ja kontingenssikerroin (contingency coefficient) riippuvuuden voimakkuuden. Huonoiten ristiintaulukointitoiminnoista toimivat kuvaajat, jotka aineistosta riippumatta näyttävät samoilta. Lisäksi mitta-asteikot ja esitystavat ovat niin ennaltamäärätyt, että informatiivisen esityksen aikaansaaminan on mahdotonta. 4. Johtopäätökset Statlets -ohjelmisto soveltuu vain auttavasti tilastotieteen opiskelijan työkaluksi, mikä käy ilmi jo tehtäessä yksinkertaisempia mikroharjoituksia johdantokurssin aineistoilla. Suurimmat puutteet ovat tulosten vaikea ja osin mahdotonkin integraatio osaksi kirjallista raporttia, taulukkolaskentatoimintojen täydellinen puuttuminen, käsiteltävän aineiston koon rajoitukset sekä kaatuileva koodi. Ohjelman edut ovat edullinen hinta (akateeminen lisenssi ilmainen), saatavuus sekä monipuoliset toiminnot, jotka riittävät vaativaankin analyysiin. Näistä toiminnot ja saatavuus ovat oikeita etuja, mutta ilmaisella ohjelmistolla hintansa. Koska tulosten käytettävyys ja aineiston muokkamisen ja määrän rajoitteet ovat niin raskaita miinuksia, että opiskelija tarvitsee erillisen ohjelman toteuttaakseen tutkimusta lähes millä tahansa vähänkin laajemmalla aineistolla. Ohjelmisto ei siis tältä osin täytä kurssin tarpeita. Mikäli kuitenkin kärsivällisyyttä riittää, STATLETS-ohjelmisto sopii hyvin harjoitustyökaluksi, jolla nakee, millaista ulosantia erilaisten analyysien tulisi tuottaa. Kuitenkaan perustyökaluksi siitä ei ole. Ohjelmassa on selkeästi painotettu numeerisempaa analyysiä, todennäköisyysjakaumia ja erilaisia mallinnoksia, joten sen toiminnot hyödyttävät pidemmälle ehtinyttä opiskelijaa. 5. Lähteet Leppälä, Raija : TILTP1 Johdatus tilastotieteeseen kurssin luentorunko, harjoitukset ja mikroharjoitukset sekä kurssin harjoituksia varten suunnitellut tilastot.