ja arvioita ohjelmiston soveltuvuudesta TILTP1 kurssin käyttöön

Samankaltaiset tiedostot
2. Aineiston kuvailua

Teema 3: Tilastollisia kuvia ja tunnuslukuja

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

StatCrunch -laskentasovellus

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Ohjeita tilastollisen tutkimuksen toteuttamiseksi opintojaksolla. TILTP1 ( SPSS for Windows -ohjelmiston avulla

MTTTP1, luento KERTAUSTA JA TÄYDENNYSTÄ. Tunnusluvut. 1) Sijainnin tunnuslukuja. Keskilukuja moodi (Mo) mediaani (Md) keskiarvo, kaava (1)

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Tilastolliset ohjelmistot A. Pinja Pikkuhookana

Kandidaatintutkielman aineistonhankinta ja analyysi

Muuttujien määrittely

SPSS* - tilastoanalyyttinen ohjelma, vrs 9.0

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Harjoitus 7: NCSS - Tilastollinen analyysi

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N

MTTTP1 Tilastotieteen johdantokurssi Luento JOHDANTO

Tarkista vielä ennen analysoinnin aloittamista seuraavat seikat:

MTTTP1, luento KERTAUSTA

4.1 Frekvenssijakauman muodostaminen tietokoneohjelmilla

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

MTTTP1, luento KERTAUSTA

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

TTS kannattavuuslaskentaohjelma

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Tilastolliset toiminnot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

MTTTP1, luento KERTAUSTA

Kuvien siirto-ohjelman käyttöohje Huom! Tämä ohjelmisto on käytössä vain yrityksillä, joilla ei ole käytössä Java Runtime 1.4 -sovellusta.

Perusnäkymä yksisuuntaiseen ANOVAaan

Harjoittele tulkintoja

Office 365 palvelujen käyttöohje Sisällys

SPSS* - tilastoanalyyttinen ohjelma

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Tilastotieteen johdantokurssin harjoitustyö. 1 Johdanto Aineiston kuvaus Riippuvuustarkastelut...4

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

SPSS OPAS. Metropolia Liiketalous

Til.yks. x y z

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Visma Nova. Visma Nova ASP käyttö ja ohjeet

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Kennelliiton Omakoira-jäsenpalvelu Ohje yhdistyksille, näyttelyn anominen

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSOPAS. SPSS-opas

Ksenos Prime Käyttäjän opas

Esimerkki 1: auringonkukan kasvun kuvailu

ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

VIIKON VINKKI: Kannattaa tutustua ensin koko tehtävänantoon ja tehdä tehtävä vasta sitten.

MONISTE 2 Kirjoittanut Elina Katainen

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Tulorekisteri: Vakuuttamisen poikkeustilanteet Visma Fivaldi

Sähköpostitilin käyttöönotto. Versio 2.0

MTTTP5, luento Luottamusväli, määritelmä

Matematiikan kotitehtävä 2, MAA 10 Todennäköisyys ja tilastot

Nuorten hyvinvointi tilastotietokannan käyttöohjeet Tieke

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

,QWHUQHWVHODLPHQNl\WWlPLQHQ±,QWHUQHW([SORUHU

Text Mining. Käyttöopas

Ponnahdusikkunoiden ja karttatekstien hallitseminen ArcGIS Online kartoissa

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Muita kuvankäsittelyohjelmia on mm. Paint Shop Pro, Photoshop Elements, Microsoft Office Picture Manager

Kennelliiton Omakoira-jäsenpalvelu Ohje yhdistyksille, toimintailmoituksen antaminen

ARVO - verkkomateriaalien arviointiin

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

NÄIN TEET VIDEO-MAILIN (v-mail)

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tentti erilaiset kysymystyypit

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Lohtu-projekti. Testaussuunnitelma


Matematiikan kotitehtävä 2, MAA 10 Todennäköisyys ja tilastot

JÄRJESTELMÄN TEKNINEN KÄYTTÖOHJE

Sisällys Clerica Web-sovellusten käytön aloittaminen 2

Kustannuslaskenta. Käyttöohje tarjouslaskelma

Sovellettu todennäköisyyslaskenta B

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Ohjeet asiakirjan lisäämiseen arkistoon


KÄYTTÖOHJE. Servia. S solutions

TAMPEREEN TEKNILLINEN YLIOPISTO KÄYTTÖOHJE TIETOVARASTON KUUTIOT

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

GIS-ANALYYSI PAIKKATIETOIKKUNASSA. Matias Järvinen 2019

Laskuharjoitus 9, tehtävä 6

Henkilö- ja koulutusrekisterin asennusohje

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Tiedonsiirto helposti navetta-automaation ja tuotosseurannan välillä

GEOS 1. Ilmastodiagrammi Libre Office Calc ohjelmalla

5. HelloWorld-ohjelma 5.1

Valitse aineisto otsikoineen maalaamalla se hiirella ja kopioimalla (Esim. ctrl-c). Vaihtoehtoisesti, Lataa CSV-tiedosto

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

Lajittelumenetelmät ilmakehän kaukokartoituksen laadun tarkkailussa (valmiin työn esittely)

Datan analysointi ja visualisointi Teollisen internetin työpaja

Transkriptio:

2.10.2002 Analysis Lab tilastoohjelmiston toimintojen esittely ja arvioita ohjelmiston soveltuvuudesta TILTP1 kurssin käyttöön Raportin tekijä Jorma Jokisalo

SISÄLLYS 1. JOHDANTO 3 2. YLEISTÄ ANALYSIS LAB-OHJELMISTOSTA 4 3. ANALYSIS LAB-OHJELMISTON KÄYTTÖ 4 3.1 HAVAINTOAINEISTON TALLENTAMINEN ANALYSOINTIA VARTEN 4 3.1.1 VALMIIN HAVAINTOAINEISTON KÄYTTÖ 5 3.1.2 OMAN HAVAINTOAINEISTON TALLENTAMINEN 5 3.1.3 OMAN HAVAINTOAINEISTON TALLENTAMISESSA HUOMIOITAVAA 6 3.2 ANALYSOITAVIEN MUUTTUJIEN VALINTA 7 4. TILASTOLLISTEN ANALYYSIEN TEKEMINEN ANALYSIS LAB-OHJELMISTOLLA 8 4.1 "DESCRIPTIVE" 9 4.2 "BOX-PLOT" 10 4.3 "HISTOGRAM" 11 4.4 "CORRELATION/REGRESSION" 12 4.5 ANALYSIS LAB- OHJELMISTON TARJOAMAT TESTAUSTYÖKALUT 13 2

1. Johdanto Tämä raportti on laadittu tutustumalla Tampereen Yliopiston Matemaattisten tieteiden laitoksen syksyllä 2002 järjestämän Tilastotieteen johdantokurssin (TILTP1:n) kotisivulla osoitteessa http://www.uta.fi/%7estrale/tiltp1/index.html olevassa linkkikokoelmassa mainittuun Analysis Lab nimiseen tilasto-ohjelmistoon. Raportin tarkoituksena on esitellä Analysis Lab-ohjelmisto ja sen tarjoamat analyysityökalut lukijalle. Esityksen perusteella lukijalle on tarkoitus antaa selkeä kuva siitä, miten Analysis Lab ohjelmistoa voi hyödyntää (jos voi) TILTP1-kurssin aikana käsiteltyjen asioiden käsittelemiseen. Raportin on myös tarkoitus toimia lyhyenä ohjelmiston käyttöön opastavana käyttöohjeena. Esityksessä lähdetään liikkeelle yleisistä Analysis Lab-ohjelmiston ominaisuuksista edeten pienen havaintomatriisin talletuksen kuvaamisesta varsinaisten ohjelmiston tarjoamien analyysityökalujen käytön esittelyyn. Saman aikaisesti ohjelmiston käytön kuvauksen kanssa on tarkastelussa pyritty jatkuvasti ottamaan kantaa ohjelmistossa oleviin puutteisiin ja huomioimaan sen tarjoamien työkalujen mahdollinen soveltumattomuus TILP1 kurssilla käsiteltävien asioiden kannalta tarkasteltuna. 3

2. Yleistä Analysis Lab-ohjelmistosta Tilastollisten analyysien tekemiseen soveltuva Analysis Lab-ohjelmisto on kaikkien halukkaiden käytettävissä ilman maksua ja se löytyy Internetistä seuraavan näköiseltä sivulta, joka löytyy osoitteesta: http://www.ruf.rice.edu/%7elane/stat_analysis/index.html. Vaatimuksena Analysis Lab- ohjelmiston käytölle on se, että käytetty verkkoselain on JAVA 1.1 yhteensopiva. Mikäli verkkoselain ei tue standardia näkyy Analysis Lab- ohjelmiston verkkosivun vasemmassa ylänurkassa olevan "ANALYZE" -painikkeen tilalla virheilmoitus "Your browser either does not support JAVA or has JAVA disabled.". Tällöin Analysis Labohjelmiston käyttö ei onnistu ilman JAVA-tuen asentamista. Lisätietoja asiasta löytyy linkistä: http://www.ruf.rice.edu/~lane/stat_sim/java1.1.html. 3. Analysis Lab-ohjelmiston käyttö 3.1 Havaintoaineiston tallentaminen analysointia varten Ohjelmiston käyttö aloitetaan painamalla verkkosivun vasemmassa ylänurkassa olevaa "ANALYZE" -painiketta, jolloin Analysis Lab-ohjelmiston varsinainen käyttövalikko ilmestyy ruudulle seuraavanlaisena popup-ikkunana. Tämän jälkeen ohjelmisto on valmis ottamaan vastaan halutun havaintoaineiston analysoitavaksi. 4

3.1.1 Valmiin havaintoaineiston käyttö Analysis Lab-ohjelmistolla on, ainakin vielä tällä hetkellä JAVA-appleteihin sisältyvien tietoturvariskien johdosta, mahdollisuus käyttää valitettavasti ainoastaan Rice University:n palvelimella olevia valmiita havaintoaineistoja. Valmiiksi talletetun havaintoaineiston avaaminen analysointia varten tapahtuu valitsemalla halutusta "Data Library" -tietokannasta "Dataset"- kohtaan tarkasteltava havaintoaineisto. Suoritetun valinnan jälkeen analysoitavaksi valitun havaintoaineiston kuvaus ilmestyy ikkunan oikeassa reunassa olevaan näyttöruutuun. 3.1.2 Oman havaintoaineiston tallentaminen Oma havaintoaineisto on hyvä olla valmiiksi muokattuun havaintomatriisimuotoon tallennettuna ennen sen tallentamista Analysis Lab-ohjelmistolla analysoitavaksi. Analysis Lab-ohjelmistosta ei nimittäin löydy työkaluja muuttujien käsittelyyn tai muunnosten tekemiseen. Nämä toimenpiteet on näin ollen suoritettava etukäteen, jotain toista sovellusta tai ohjelmistoa hyväksikäyttäen. Oman havaintoaineiston tallentaminen ohjelmistoon tapahtuu painamalla "Data Library" -tietokannassa olevan valmiin havaintoaineiston valitsemisen sijasta ruudun oikeassa reunassa olevaa "Enter/Edit User Data" -painiketta, jonka painamisen seurauksena avautuvaan "Enter data" -nimiseen ikkunaan oma havaintoaineisto voidaan tallentaa. 5

Havaintoaineiston sisältämä data voidaan näppäillä kokonaisuudessaan ikkunaan, mutta huomattavasti helpompaa ja erittäin suositeltavaa on käyttää "copy-paste" menetelmää, mikäli tähän on mahdollisuus. Omaa havaintoaineistoa tallennettaessa ensimmäinen rivi on varattu muuttujien nimien määrittelyä varten. Muuttujien nimien määrittämiseen on mahdollista käyttää useita kirjaimia. Analysoitavan havaintoaineiston muuttujien havaintoarvot syötetään numeerisessa muodossa muuttujien nimien määrittelyä seuraaville riveille. Muuttujien nimet (ja niiden saamat havaintoarvot) on erotettava toisistaan joko välilyöntinäppäimen tai vaihtoehtoisesti tabulaattorin avulla. Desimaalilukuja sisältävän datan syötössä on huomioitavaa, että Analysis Lab-ohjelmisto ei osaa lukea desimaalipilkkuja "," joten ne on korvattava pisteellä ".". Muussa tapauksessa desimaalidataa sisältävän havaintomatriisin tallentaminen ohjelmaan ei onnistu. 3.1.3 Oman havaintoaineiston tallentamisessa huomioitavaa Analysis Lab -ohjelmistolla voidaan analysoida ainoastaan numeerisessa muodossa ilmaistuja muuttujia, eli se on tarkoitettu lähinnä kvantitatiivisen tilastodatan käsittelyyn. Kategoriset muuttujat voidaan tosin koodata ts. ilmaista numeeristen muuttujien avulla. Tällöin ongelmana on kuitenkin se, ettei numeroarvoilla ei ole määrällistä tulkintaa - ne ovat vain luokkien nimiä tai kertovat mahdollisesti luokkien järjestyksen. Analysis Lab -ohjelmistolla käsiteltävän luokitteluasteikollisen muuttujan saamissa havainnoissa tulee lisäksi olla edustettuna kaikki 6

kyseiselle muuttujalle mahdolliset luokat. Kvalitatiivisen muuttujan arvot on lisäksi ilmaistava kokonaisluvuin alkaen ykkösestä. Eräs myöskin nopeasti havaittavista Analysis Lab -ohjelmiston puutteista on sen kykenemättömyys käsitellä puuttuvaa dataa. Tämän johdosta kaikille havaintoaineiston muuttujien havaintoarvojen on saatava jokin numeerinen arvo. Lisäksi ohjelmistolla pystytään analysoimaan ainoastaan yhtä ohjelmistoon väliaikaisesti tallentuvaa havaintoaineistoa kerrallaan. Havaintoaineisto on siis syytä tallentaa esimerkiksi.txt-muotoisena, mikäli sitä mahdollisesti halutaan käsitellä joskus myöhempänä ajankohtana. Sen jälkeen, kun havaintoaineisto on syötetty kokonaan se tallennetaan painamalla syöttöikkunassa olevaa "Accept data" -painiketta, jonka jälkeen data on valmista ohjelmiston tarjoamien analysointimenetelmien käyttöä varten. Mikäli syötettyä dataa halutaan editoida tai vaihtaa se onnistuu painamalla "Enter/Edit User Data" -painiketta, jolloin saadaan aikaisemmin tallennettu data näkyviin. 3.2 Analysoitavien muuttujien valinta Sen jälkeen, kun havaintoaineisto on syötetty kokonaan voidaan aloittaa analysoitavien muuttujien valinta ohjelmiston tarjoamien analysointimenetelmien käyttöä varten. 7

Analysoitavien muuttujien valinta aloitetaan valitsemalla "Dependent Variable (Y)"- pudotusvalikosta muuttuja, jonka saamia arvoja halutaan analyysin avulla selittää, toisin sanoen selitettävä eli riippuva muuttuja. Selittävän eli riippumattoman muuttujan valinta tapahtuu vastaavalla tavalla "Predictor Variable (X)" kohdalla olevasta pudotusvalikosta. Ohjelmistolla voidaan selittää riippuvaa muuttujaa ainoastaan yhden selittävän muuttujan avulla, joten sen käyttäminen esimerkiksi usean muuttujan regressioanalyysin tekemiseen voidaan näin ollen sulkea pois. Luokittelu- tai järjestyasteikollisten muuttujien valinnassa on huomioitava, mitä niiden käytöstä aikaisemmassa kohdassa "havaintoaineiston tallentamisessa huomioitavaa" todettiin. Luokittelutai järjestysasteikollisten muuttujien valinta tapahtuu pudotusvalikosta "Grouping Variable". 4. Tilastollisten analyysien tekeminen Analysis Lab-ohjelmistolla Analysoitavien muuttujien valinnan suorittamisen jälkeen ikkunoissa "Descriptive", "Box-plot", "t-tests and confidence intervals", "Histogram", "Stem and Leaf Displays", "ANOVA", "Assumptions: t", "Assumptions: ANOVA" ja "Correlation/Regression" on tarjolla vaihtoehtoja erilaisten tilastollisten analyysien tekemiseen valittujen muuttujien saamista havaintoarvoista. Tarjolla olevat menetelmät ovat yksinkertaisia ja niitä on loppujen lopuksi hyvin vähän; itse asiassa vain muutamia. Analysis Lab- ohjelmiston avulla ei juurikaan pysty tuottamaan graafisia analyyseja ja ohjelmistosta puuttuvat esimerkiksi yleisesti kvalitatiivisten muuttujien kuvaamiseen käytetyt piirakkakuviot ja pylväsdiagrammit. Lisäksi mahdollisuutta saatujen 8

tutkimustulosten muokkaamiseen visuaalisessa tai tilastollisessa mielessä "kauniimmaksi" on Analysis Lab -ohjelmistolta turha odottaa. Positiivisessa mielessä tämä tietysti tarkoittaa sitä, että käyttäjän ei tarvitse miettiä erilaisia esitystapoja havaintoaineiston sisältämän tiedon tiivistämiseen ja havainnollistamiseen, vaan hän voi tyytyä Analysis Lab-ohjelmiston valitsemaan esitystapaan. Seuraavassa esitellään kuitenkin lyhyesti lähinnä kuvien avulla eräitä ohjelmiston avulla tuotettuja analyyseja käyttäen TILTP1 luentomonisteen Esim. 3.2:een perustuvaa havaintoaineistoa. 4.1 "Descriptive" Analysis Lab -ohjelmiston valinnalla "Descriptive" saadaan tuotettua tarkasteltavaksi yksinkertaisia tunnuslukuja valitun muuttujan saamista havaintoarvoista: Mukana ovat lähes siis kaikki yksiuloitteisen jakauman kuvaamiseen tarkoitetut perustunnusluvut, kuten keskiarvo, keskihajonta, vinous, kurtositeetti sekä kvartiilit eli mediaani, alakvartiili (lower quartile) ja yläkvartiili jne. Otettaessa luokitteluasteikollinen muuttuja mukaan tarkasteluun saadaan tulokseksi samat tunnusluvut erikseen kunkin luokan perusteella ilmoitettuna. 9

4.2 "Box-plot" Valinnan "Box-plot" avulla voidaan tuottaa laatikko-janakuvioita havainnollistamaan valitun muuttujan jakaumaa. Tässä tapauksessa boxplot-kuvio kuvaa Price-muuttujan jakaumaa ehdollistettuna Bathroom-muuttujalla. 10

4.3 "Histogram" Valinnalla "Histogram" saadaan nimensä mukaisesti tuotettua seuraavanlainen jatkuvan muuttujan kuvaamiseen tarkoitettu histogrammi. Ohjelmisto ei juurikaan anna käyttäjälleen mahdollisuuksia tuottamansa histogrammikuvion muokkaamiseen, esimerkiksi luokkakeskusten määrittämiseksi analyysin kannalta sopivimmiksi. 11

4.4 "Correlation/Regression" "Correlation/Regression"- painikkeen takana olevien analyysityökalujen avulla on mahdollista tarkastella kahta muuttujaa samanaikaisesti tuottaa kaksiuloittesta jakaumaa kuvaavia tunnuslukuja ja graafisia esityksiä (tai esitys). Ohessa Analysis Lab-ohjelmistolla tuotettu pisteparvi eli korrelaatiodiagrammi, jossa pyritään selittämään Price-muuttujan vaihtelua Sizemuuttujan avulla: Ohjelmiston "Correlation/Regression"-toimintoa on mahdollista käyttää myös varianssianalyysin tekemiseen. Tällöin mukaan tarkasteluun tulee sisällyttää luokitteluasteikollinen muuttuja. Analyysityökalu tarjoaa myös erilaisia muuttujien riippuvuutta kuvaavia tunnuslukuja kuten esimerkiksi korrelatiokertoimen, joka mittaa miten tiiviisti pisteparvi on keskittynyt pisteparveen ajatellun suoran ympärille. 12

4.5 Analysis Lab- ohjelmiston tarjoamat testaustyökalut Tilastotieteen johdantokurssilla muuttujien välisiä riippuvuuksien tutkimiseen keskitytään lähinnä ehdollisten tunnuslukujen, pisteparvien ja ristiintaulukoiden avulla. Opintojakson asiat liittyvät siis lähinnä kuvailevaan analyysiin ja riippuvuustarkastelujen tekemiseen ilman testauksia, joihin tutustutaan seuraavilla perusopintojaksoilla. Analysis Lab -ohjelmisto tarjoaa t-testien ("t-tests and confidence intervals" & "Assumptions: t") ja yksi(ja kaksikin-)suuntaisen varianssianalyysin tekemiseen ("ANOVA" &"Assumptions: ANOVA"), mutta jätettäköön nämä vielä tässä vaiheessa maininnan asteelle. 13