Data-analyysi: johdanto
|
|
- Siiri Ketonen
- 8 vuotta sitten
- Katselukertoja:
Transkriptio
1 Data-analyysi: johdanto Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Data-analyysi: johdanto 1/81 Kevät 2003
2 Lähteet Data-analyysin osuus kurssilla perustuu lähinnä teokseen P. Cohen: Empirical Methods for Artificial Intelligence Eksploratiivinen data-analyysi, luku 2 Hypoteesin testaus ja parametrien estimointi, luvut 4-5 Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Data-analyysi: johdanto 2/81 Kevät 2003
3 Johdantoa ja kertausta tutkimustieto empiiristä = havainnosta (observation) tai kokeesta (experiment) peräisin olevaa siis ennen data-analyysiä datan kerääminen usein datan keräämiseen liittyy mittauksia havaitsemalla/mittaamalla saatu tieto sisältää (melkein) aina epätarkkuutta ilmiöiden ymmärtämisessä ja ennustamisessa tarvitaan satunnaisuuden, satunnaisvaihtelun hallitsemista tilastolliset menetelmät Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Data-analyysi: johdanto 3/81 Kevät 2003
4 Mittausten virhetyyppejä systemaattiset virheet esim. mittarin virheellinen kalibrointi mittarilla saadut tulokset voivat silti olla vertailukelpoisia keskenään satunnaiset virheet (kohina (noise)) esim. pyöristysvirheet virhe mittaria luettaessa suuressa aineistossa keskimäärin yhtä paljon liian pieniä ja suuria arvoja hallittavissa hyvin tilastollisilla menetelmillä Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Data-analyysi: johdanto 4/81 Kevät 2003
5 Poikkeavat arvot (outliers) huomattavasti muista poikkeavat arvot ovat ongelmallisia esim. seuraava otos: suhtautuminen poikkeaviin arvoihin on yksi data-analyysin keskeisiä kysymyksiä voi olla vaikea erottaa, milloin kyse on virheellisestä havainnosta, milloin taas ei Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Data-analyysi: johdanto 5/81 Kevät 2003
6 Poikkeavat arvot (2) poikkeava arvo vaikuttaa helposti analyysiin tuloksiin paljon jos arvo poistetaan, mutta se olikin oikea :-( jos arvoa ei poisteta, mutta se olikin virheellinen :-( käsityksemme outlier-arvojen määrästä täytyy vaikuttaa käyttämiimme analyysimenetelmiin, sillä jotkut tunnusluvut ja menetelmät vähemmän sensitiivisiä poikkeaville arvoille kuin toiset toiset turmeltuvat käyttökelvottomiksi helposti (esim. keskiarvo) aiheeseen palataan tunnuslukujen käsittelyn yhteydessä Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Data-analyysi: johdanto 6/81 Kevät 2003
7 Lukujen esitystarkkuus laskennalliselta kannalta mahdollinen virhelähde on myös lukujen rajallinen esitystarkkuus tietokoneessa voi joissakin tilanteissa aiheuttaa pahojakin vääristymiä ei yleensä... lähinnä pyöristysvirheiden kumuloituminen iteroitaessa joudutaan tällä kurssilla ohittamaan tällä maininnalla Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Data-analyysi: johdanto 7/81 Kevät 2003
8 Empiirinen tutkimus 1. eksploratiivinen vaihe (exploratory data-analysis) 2. evaluoiva, tarkentava vaihe (confirmatory data-analysis) Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Data-analyysi: johdanto 8/81 Kevät 2003
9 Eksploratiivinen data-analyysi dataan tutustumista yleiskuva, relevanttien kysymysten löytäminen konkreettisesti: graafiset esitykset ja tiivistäminen tunnuslukujen avulla on hyvä jos tiedossa on täsmällisiä tutkimusongelmia silti eksploratiivinen analyysi hyvä tehdä liian tiukka kysymystenasettelu voi estää näkemästä muita seikkoja annetaan datasta esille nousevien piirteiden vaikuttaa kysymyksiin Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Data-analyysi: johdanto 9/81 Kevät 2003
10 Eksploratiivinen data-analyysi (2) tutkimuksessa aina subjektiivinen puoli miksi valittiin tämä aihepiiri ja tämä data? miksi käytettiin näitä menetelmiä eikä joitakin muita? miksi valittiin tämä nollahypoteesi? miksi valittiin tämä malli? miksi tuloksia tulkittiin näin? subjektiivisuutta ei pidä kieltää, mutta se pitää tiedostaa ja sitä pitää kontrolloida Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Data-analyysi: johdanto 10/81 Kevät 2003
11 Eksploratiivinen data-analyysi (3) konkreettisia asioita jotka liittyvät eksploratiiviseen vaiheeseen datan esikäsittely arvoalueet, rajat, järkevyys virheellisten arvojen poistaminen puuttuvat arvot; onko niitä ja miten suhtaudutaan? säännönmukaisuuksien, toistuvien ilmiöiden etsiminen muuttujien välinen riippuvuus, esim. korrelaatio hypoteesien etsiminen (?) Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Data-analyysi: johdanto 11/81 Kevät 2003
12 Evaluoiva, tarkentava vaihe tutkimusongelmien tarkempi määrittäminen hypoteesien testaaminen ilmiön yksityiskohtaisempi ja kompleksisempi mallintaminen mallin parametrien estimointi ilmiön ennustaminen ja/tai ymmärtäminen Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Data-analyysi: johdanto 12/81 Kevät 2003
13 Tulkinta data-analyysiin liittyy myös tulosten tulkinta ovatko esim. löydetyt riippuvuudet tutkimusalueen kannalta oleellisia onko niistä löydettävissä syy-seuraus -suhteita auttavatko ne ennustamaan ilmiön käyttäytymistä olisiko toisenlainen malli ollut hyödyllisempi mahdolliset uudet kokeet ja uuden datan keruu Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Data-analyysi: johdanto 13/81 Kevät 2003
14 Työkaluja data-analyysiin, osa I (Awk) Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa I (Awk) 14/81 Kevät 2003
15 Sorvin ääreen data-analyysi vaatii sopivat työkalut raakadatan esikäsittely tietokannat tilastollinen analyysi visualisointi jatkossa opitaan alkeita eräiden työkalujen käytössä Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa I (Awk) 15/81 Kevät 2003
16 Sorvin ääressä usein tutkimusdata ei ole tietokannassa eikä sitä aina sellaiseen kannata viedäkään tiedostoissa olevan datan kääntely ja pyörittely taulukkomuotoisessa datassa sarakkeiden ja rivien poistaminen annetun ehdon täyttävien rivien valitseminen yksinkertaiset laskuoperaatiot Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa I (Awk) 16/81 Kevät 2003
17 Awk awk on yksinkertainen ja vanha UNIX-työkalu ohjelmointikieli, jolla helppo käsitellä rivi+sarake-muodossa olevia tekstitiedostoja awk-ohjelma annetaan joko komentorivillä tai tiedostosta tulkittava kieli (ei kääntämistä) awk-kielen syntaksi muistuttaa monessa kohdin C-kieltä tässä yhteydessä vain hyvin lyhyt esittely tavoite: oman datan käsittely siten, että jokainen osaa tehdä pikkuoperaatioita datalleen ilman laajempia ohjelmointikieliä Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa I (Awk) 17/81 Kevät 2003
18 Awk (2) awk-ohjelma käy läpi kaikki syötetiedoston rivit ja suorittaa kullekin riville ohjelmassa annetut käskyt syötetiedostoja voi olla myös useampia awk-ohjelmassa ei tarvitse määritellä muuttujia tyyppimuunnokset ovat automaattisia ohjelmassa voi viitata syötetiedoston rivin i:nteen kenttään merkinnällä $i merkintää $0 käytetään viittaamaan koko riviin Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa I (Awk) 18/81 Kevät 2003
19 Awk, yksinkertaisia esimerkkejä awk {print $1,$3} input.txt tulostaa tiedoston input.txt kunkin rivin ensimmäisen ja kolmannen sarakkeen arvon awk {print $0} input.txt tulostaa tiedoston input.txt jokaisen rivin sellaisenaan (eli koko tiedoston sellaisenaan) awk-ohjelman sisäinen muuttuja NF sisältää tiedon käsiteltävän rivin sarakkeiden lukumäärästä awk {print $NF,$(NF-1)} input.txt tulostaa viimeisen ja viimeistä edellisen kentän arvot Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa I (Awk) 19/81 Kevät 2003
20 Awk, kontrollikäskyt awk-ohjelmissa ovat käytettävissä mm. seuraavat kontrollikäskyt: if (condition) statement [ else statement ] while (condition) statement do statement while (condition) for (expr1; expr2; expr3) statement Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa I (Awk) 20/81 Kevät 2003
21 Awk, lisää esimerkkejä awk {if ($1==1) print $1,$3; else print $2,$4} input.txt jos ensimmäisen sarakkeen arvo 1, tulostetaan ensimmäinen ja kolmas, muuten toinen ja neljäs sarake awk-ohjelmalle voi antaa parametreja komentoriviltä optiolla -v awk -v field=3 {print $(field)} input.txt tulostaa annetun sarakkeen (parametri field) arvot jos parametreja useita, optio -v tarvitaan jokaisen parametrin edessä Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa I (Awk) 21/81 Kevät 2003
22 Awk-ohjelman osat edellä awk-ohjelmissa on ollut vain yksi osa: varsinainen suoritusosa, joka on pakollinen osa yleisesti awk-ohjelma voi sisältää kolme osaa: 1. alustusosa (alkaa sanalla BEGIN) 2. varsinainen suoritusosa 3. lopetusosa (alkaa sanalla END) Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa I (Awk) 22/81 Kevät 2003
23 Awk-ohjelman osat alustusosan käskyt suoritetaan ennen syötetiedoston lukemista esim. muuttujien alustaminen voidaan näin suorittaa varsinaisen suoritusosan käskyt suoritetaan siis kerran jokaiselle syötetiedoston riville lopetusosan käskyt suoritetaan syötetiedon lukemisen jälkeen tyypillisesti tulostetaan lopuksi joidenkin muuttujien arvoja Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa I (Awk) 23/81 Kevät 2003
24 Awk-ohjelma, esimerkki olkoon seuraava ohjelma tiedostossa esimerkki.awk BEGIN{} { sum=sum+$1; count++ } END{print sum, sum/count} komento awk -f esimerkki.awk input.txt tulostaa tiedoston input.txt rivien ensimmäisten sarakkeiden arvojen summan ja keskiarvon Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa I (Awk) 24/81 Kevät 2003
25 Awk-ohjelma, taulukot 1-ulotteisen taulukon (t) i:nteen alkioon viitataan t[i] 2-ulotteisen taulukon (t) alkioon (i,j) viitataan t[i,j] taulukon indeksin ei tarvitse olla kokonaisluku vaan se voi olla mikä tahansa merkkijono seuraava ohjelma laskee ensimmäisen sarakkeen arvojen jakauman ja tulostaa sen {sum[$1]++} END{for (i in sum) print i,sum[i]} Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa I (Awk) 25/81 Kevät 2003
26 Awk, taulukot lopetusosassa käytetään taulukoihin liittyvää kontrollikäskyä, joka käy läpi kaikki taulukon indeksit: for (val in array) statement hyödyllinen kun taulukon indeksit ovat merkkijonoja kun indeksit ovat lukuja, tulostus ei (yleensä) tapahdu numerojärjestyksessä enemmän awk:ista: Unix Manual Pages (KDE Help Center tai komentoriviltä man awk) Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa I (Awk) 26/81 Kevät 2003
27 Eksploratiivinen data-analyysi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi 27/81 Kevät 2003
28 Visualisointi datajoukon eri piirteiden esittäminen graafisesti eksploratiivisen data-analyysin keskeinen osa tutkija myös esittää saamansa tulokset paljolti graafisin esityksin! laadukas visualisointi ei ole helppoa: erilaiset aineistot vaativat erilaisia graafisia esityksiä Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi 28/81 Kevät 2003
29 Visualisointi, työkaluja tilasto-ohjelmistot (esim. SAS, Splot, SPSS, Survo) sisältävät monipuoliset mahdollisuudet graafisiin esityksiin tällä kurssilla opitaan alkeita visualisoinnista käyttäen Gnuplot-ohjelmistoa kurssin lopulla tieteellinen visualisointi (CSC:n tutkijan luento) Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi 29/81 Kevät 2003
30 Aineiston tiivistäminen aineiston ominaisuuksien tiivistäminen tunnuslukujen (statistic) laskeminen yleisesti tunnusluku on mikä tahansa aineiston funktio t = f(y 1,..., y n ), jonka määräämiseksi on tunnettava kaikki havainnot y i, 1 i n esimerkiksi havaintojen minimi- ja maksimiarvo ovat tunnuslukuja tunnusluku voi olla myös vektori Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi 30/81 Kevät 2003
31 Tunnusluvuista käytännössä tunnusluvuilla pyritään ilmaisemaan tiettyjä havaintojen ominaisuuksia, kuten arvojen keskittymistä (moodi, keskiarvo, mediaani) arvojen leveyttä, laajuutta, hajoamista (keskihajonta, varianssi, kvartiiliväli, minimi, maksimi) arvojen jakauman tasaisuutta (vinous, huipukkuus) useampien muuttujien riippuvuuksia (korrelaatio, kovarianssi, χ 2 (khiin neliö)) Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi 31/81 Kevät 2003
32 Yksittäisen muuttujan tarkastelu eksploratiivisen data-analyysin käsitteleminen aloitetaan seuraavassa yksittäisten muuttujien tarkastelemisesta muuttujien (attribuuttien) eri tyypit yksittäisen muuttujan arvojen jakaumien tunnusluvut arvojen jakaumien esittäminen graafisesti Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi 32/81 Kevät 2003
33 Datan arvotyypit ja asteikot aineiston muuttujilla (attribuuteilla) voi olla erityyppisiä arvoja muuttujan tyyppi vaikuttaa siihen mitä tunnuslukuja voidaan laskea mitä visualisointimenetelmiä kannattaa käyttää mitä analyysimenetelmiä voidaan soveltaa Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi 33/81 Kevät 2003
34 Kategoria-asteikko joukko erillisiä (=diskreettejä) arvoja, joilla on vain nimet, mutta ei järjestystä (esim. sukupuoli, silmien väri, lintulaji) tunnuslukuja: moodi (l. tyyppiarvo) = aineiston yleisin arvo visualisointi: histogrammi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi 34/81 Kevät 2003
35 Kategoria-asteikko, esimerkki attribuutin laji moodi on ruokokerttunen Kerttusten esiintymisrunsaus Suomessa (luvut vedetty piposta) Yksilöä Ruokokerttunen Rastaskerttunen Luhtakerttunen Viitakerttunen Rytikerttunen 0 Laji Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi 35/81 Kevät 2003
36 Ordinaaliasteikko arvot diskreettejä ja niille on määritelty järjestys tunnuslukuja (moodin lisäksi): minimi - ja maksimiarvot mediaani = aineiston keskimmäinen arvo m(y 1,..., y n ) = y ( n ) kun n pariton, y ( n 2 ), tai y ( n 2 +1) kun n parillinen Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi 36/81 Kevät 2003
37 Ordinaaliasteikko, esimerkki muuttuja: tälle kurssille ilmoittautuneiden sukunimien ensimmäinen kirjain aineistossa moodi on L ja mediaani M 10 Tutiha k2003 kurssin sukunimen alkukirjainten jakauma 8 Osallistujaa A B C D E F G H I J K L M N O P Q R S T U V W X Y Z Å Ä Ö Alkukirjain Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi 37/81 Kevät 2003
38 Numeeriset asteikot seuraavilla kolmella asteikolla arvot numeerisia arvoilla voi mielekkäästi laskea arvot voivat olla diskreettejä tai jatkuvia Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi 38/81 Kevät 2003
39 Numeeriset asteikot (2) intervalliasteikko arvojen erotuksilla mielekäs tulkinta esim. lämpötilan mittaukset Celsius-asteina suhdeasteikko arvojen suhteilla mielekäs tulkinta asteikko voidaan vapaasti valita esim. lämpotilat Kelvin-asteina absoluuttinen asteikko kuten edellinen, mutta myös mitta-asteikko on absoluuttinen esim. osuudet maapallon väestöstä Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi 39/81 Kevät 2003
40 Esimerkki, absoluuttinen asteikko jatkoa esimerkille nimien alkukirjaimesta nyt muuttujana sukunimen pituus Tutiha k2003 kurssin sukunimen pituuksien jakauma 16 keskiarvo 7.59, hajonta Osallistujaa Alkukirjain Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi 40/81 Kevät 2003
41 Esimerkki, absoluuttinen asteikko etunimien pituuksien jakauma Tutiha k2003 kurssin etunimen pituuksien jakauma 25 keskiarvo 5.02, hajonta Osallistujaa Alkukirjain Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi 41/81 Kevät 2003
42 Arvojen keskittyminen seuraavat tunnusluvut ovat tavallisimpia otoksen yksittäisen muuttujan keskittymisen kuvaajia (aritmeettinen) keskiarvo n i=1 ȳ = y i n heikkous: yksikin huomattavasti poikkeava arvo (outlier) vaikuttaa paljon ei sovi käytettäväksi, jos paljon kohinaa myös hyvin vinot jakaumat ongelmallisia keskiarvo voi siirtyä kauaksi sieltä missä suurin osa havainnoista on Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi 42/81 Kevät 2003
43 Arvojen keskittyminen (2) mediaani ei yhtä herkkä yksittäisille virhearvoille kuin keskiarvo intervalli-, suhde- ja absoluuttinen asteikko: mediaani voidaan määrittää yksikäsitteisesti myös silloin kun n on parillinen n parillinen keskimmäisten arvojen keskiarvo m(y 1,..., y n ) = (y ( n 2 ) + y ( n 2 +1) )/2, kun n parillinen Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi 43/81 Kevät 2003
44 Esimerkki: keskiarvo ja mediaani hyvin vino jakauma mediaani lähempänä havaintojen valtaosaa 140 mediaani keskiarvo Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi 44/81 Kevät 2003
45 Arvojen keskittyminen (3) kohinaisille aineistoille aritmeettista keskiarvoa sopivampi on usein tasoitettu keskiarvo (trimmed mean) arvojen ääripäistä jätetään osa huomioimatta keskiarvoa laskettaessa Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi 45/81 Kevät 2003
46 Arvojen vaihtelevuus tavallisimpia arvojen vaihtelevuutta kuvaavia tunnuslukuja (otos)keskihajonta (standard deviation, SD) σ x = n i=1 (x i x) 2 n 1 otosvarianssi on keskihajonnan neliö keskihajonnan intuitiivinen merkitys: havainnon keskimääräinen etäisyys keskiarvosta ) Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi 46/81 Kevät 2003
47 Keskihajonta ja otoskeskihajonta jos keskihajonta on keskiarvo, miksi nimittäjässä ei esiinny havaintojen lukumäärä n vaan n 1? oletus: havainnot otos jostakin (tuntemattomasta) jakaumasta otoskeskihajonnan odotusarvo (= keskiarvo kaikkien mahdollisten aineistojen joukossa) on tuon jakauman keskihajonta kun (otoksen perusteella) arvioidaan taustalla olevaa jakaumaa n 1:llä jakaminen toimii tässä mielessä paremmin kuin n:llä suurten otosten kyseessä ollessa tällä erolla ei ole merkitystä Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi 47/81 Kevät 2003
48 Fraktiilit ja fraktiilivälit otoksen p-fraktiili on se otoksen arvo, jota pienempiä tai yhtä suuria on 100 x p % otoksen arvoista yhtä suuria tai suurempia on 100 x (1-p) % otoksen arvoista mediaani on p-fraktiili, jossa p = 0.5 kvartiili on p-fraktiili, jossa p = 0.25 kvartiiliväli on (2-ulotteinen) tunnusluku (0.25-fraktiili, 0.75-fraktiili), vastaavasti muut fraktiilivälit hypoteesin testauksen yhteydessä tarkastellaan usein 0.95-, ja fraktiilivälejä Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi 48/81 Kevät 2003
49 Työkaluja data-analyysiin, osa II (Gnuplot) Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa II (Gnuplot) 49/81 Kevät 2003
50 Visualisointi (yksi muuttuja) Gnuplot-ohjelmisto (alkujaan UNIX, Linux) käynnistyy komennolla gnuplot ohjelmasta poistuminen gnuplot>quit apua saa käskyllä help tai lisäksi tarkentamalla käskyn tai osan siitä gnuplot>help gnuplot>help set gnuplot>help set xrange ks. myös pikaohjeet verkossa ja Gnuplot Central Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa II (Gnuplot) 50/81 Kevät 2003
51 Gnuplot (2) ohjelman asetusten tallentaminen seuraavia työskentelykertoja varten gnuplot>save set tiedosto.set komentojen antaminen tiedoston kautta gnuplot>load tiedosto.set kuvien tulostaminen tiedostoon (PostScript) gnuplot>set term postscript gnuplot>set output kuvatiedosto.ps gnuplot>replot Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa II (Gnuplot) 51/81 Kevät 2003
52 Gnuplot (3) kukin syötetiedoston rivi vastaa yhtä pistettä (esitystyypit: pisteet, viivat) yhtä pylvästä (histogrammit) käyttäjä määrittää mitä syötteen sarakkeita käytetään graafisessa esityksessä erilaiset esitystyypit vaativat eri määrän sarakkeita seuraavassa esimerkissä etu- ja sukunimien lukumäärät sisältävä datatiedosto histogrammin piirtämistä varten (1. sarake: nimen pituus, 2. sarake: etunimien lukumäärä, 3. sarake: sukunimien lukumäärä) Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa II (Gnuplot) 52/81 Kevät 2003
53 Datatiedosto, esimerkki Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa II (Gnuplot) 53/81 Kevät 2003
54 Histogrammit ja Gnuplot gnuplot asettaa oletusarvoisesti x-akselin ja y-akselin skaalan automaattisesti (autoscale) toimii huonosti histogrammien tapauksessa aseta manuaalisesti: set xrange, set yrange, set boxwidth y-akselilla korkein arvo ei saa saavuttaa asteikon ylälaitaa (matalin arvo nolla!) gnuplot> set data style boxes gnuplot> set xrange[0:15] gnuplot> set yrange[0:30] gnuplot> set boxwidth 1 gnuplot> plot nimi.data using 1:2 Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa II (Gnuplot) 54/81 Kevät 2003
55 Plot-komento plot-komennon yhteydessä voi lisämääreillä muuttaa viivojen ja pisteiden tyylejä ja leveyksiä/kokoa title-määreellä kerrotaan mitä kuvassa halutaan lukevan (ei koko kuvan otsikko, se asetetaan komennolla set title) oletusarvoinen viivan leveys on yleensä liian pieni gnuplot> plot nimi.data using 1:2 title etunimet linewidth 3 komentoja voi lyhentää gnuplot> plot nimi.data u 1:2 t etunimet lw 3 Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa II (Gnuplot) 55/81 Kevät 2003
56 Histogrammit kuvaan, jonka histogrammi antaa aineistosta vaikuttavat alaraja luokkavälin pituus (=pylvään paksuus) 40 Gene start points in human chromosome Gene start points in human chromosome Nr of start points Nr of start points Millions of base pairs Millions of base pairs pylvään leveyden valinta voi vaikuttaa oleellisesti Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa II (Gnuplot) 56/81 Kevät 2003
57 Histogrammit valintaan vaikuttavia asioita: havaintojen lukumäärä muuttujan arvojen vaihteluväli mahdolliset luonnolliset luokkarajat vierekkäisten luokkien frekvenssien vaihtelun määrä perussääntö: kaikkea aineistossa esiintyvää vaihtelua ei saisi luokkajaossa kadottaa käytännössä: kannattaa kokeilla erilaisia arvoja aloita mieluummin tiheämmästä ja harvenna siitä! Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa II (Gnuplot) 57/81 Kevät 2003
58 Histogrammien vertailu jos haluaa verrata useita histogrammeja, on syytä käyttää samaa asteikkoa Tutiha k2003 kurssin etunimen pituuksien jakauma Tutiha k2003 kurssin sukunimen pituuksien jakauma 25 keskiarvo 5.02, hajonta keskiarvo 7.59, hajonta Osallistujaa 15 Osallistujaa Alkukirjain Alkukirjain Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa II (Gnuplot) 58/81 Kevät 2003
59 Replot-komento pelkkä replot-komento toistaa edellisen plot-käskyn gnuplot> replot hyödyllistä kun muuttaa jotakin asetusta ja haluaa sitten plotata samat arvot uudelleen replot-komentoa voi myös käyttää, jos haluaa useiden muuttujien arvoja samaan kuvaan lisätään seuraavaksi sukunimien pituudet kuvaavaan histogrammiin keskiarvo pisteenä x-akselilla Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa II (Gnuplot) 59/81 Kevät 2003
60 Pisteiden piirtäminen olkoon tiedostossa avg.data yksi rivi sarake keskiarvo, 2. sarake otoskeskihajonta käytetään 1. saraketta (ja kolmatta) gnuplot> set data style points gnuplot> replot avg.data using 1:3 title keskiarvo Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa II (Gnuplot) 60/81 Kevät 2003
61 Pisteiden piirtäminen (2) parhaat pistetyypit (henk.koht. mielipide) pistetyypit 6 ja 7 (avoin ja väritetty pyöreä piste) pistetyypit 4 ja 5 (avoin ja väritetty neliö) pistetyyppi 8 (kolmio) gnuplot> replot avg.data using 1:2 title keskiarvo pointtype 7 pointsize 2 Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa II (Gnuplot) 61/81 Kevät 2003
62 Etunimet Tutiha k2003 kurssin etunimen pituuksien jakauma 25 keskiarvo 5.02, hajonta Osallistujaa Alkukirjain Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa II (Gnuplot) 62/81 Kevät 2003
63 Hajontapylväät (errorbars) hajonnan ja luottamusvälien esittäminen pisteen ympärillä jos halutaan kuvata y-akselin suuntaista variaatiota valitaan datatyyli errorbars (= yerrorbars) jos halutaan kuvata x-akselin suuntaista variaatiota valitaan datatyyli xerrorbars palataan etunimien pituuksia kuvaavaan histogrammiin tilanne ennen keskiarvoa kuvaavan pisteen piirtämistä kuvataan nyt pelkän keskiarvopisteen lisäksi myös keskihajonnan suuruinen hajontapylväs Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa II (Gnuplot) 63/81 Kevät 2003
64 Hajontapylväät (2) datarivillä tarvitaan nyt kolmea saraketta: 1. x-koordinaatti 2. y-koordinaatti 3. hajonnan leveys x-akselin (tai y-akselin) suunnassa pisteen (x,y) ympärillä gnuplot> set data style xerrorbars gnuplot> replot avg.data using 1:3:2 title keskihajonta Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa II (Gnuplot) 64/81 Kevät 2003
65 Hajontapylväät (3) oletusarvojen käytön sijasta myös hajontapylvään viivaja pistetyypit ja -koot voi antaa eksplisiittisesti gnuplot> plot avg.data using 1:3:2 title keskiarvo linetype 2 linewidth 2 pointtype 6 pointsize 1.5 tai lyhentäen gnuplot> plot avg.data u 1:3:2 t keskiarvo ja -hajonta lt 2 lw 4 pt 7 ps 3 Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Työkaluja data-analyysiin, osa II (Gnuplot) 65/81 Kevät 2003
66 Eksploratiivinen data-analyysi, kahden muuttujan tarkastelu Hannu Toivonen, Marko Salmenkivi, Inkeri VerkamoTutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi, kahden muuttujan tarkastelu 66/81Kevät 2003
67 Kahden muuttujan riippuvuus kahden (satunnais)muuttujan X ja Y riippuvuus toisistaan funktionaalinen riippuvuus = X:n arvo määrää yksikäsitteisesti Y :n arvon, tai päinvastoin tilastollinen (stokastinen) riippuvuus = X:n arvo vaikuttaa Y :n arvon jakaumaan, tai päinvastoin funktionaalinen riippuvuus on luonnollisesti tilastollisen riippuvuuden erikoistapaus Hannu Toivonen, Marko Salmenkivi, Inkeri VerkamoTutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi, kahden muuttujan tarkastelu 67/81Kevät 2003
68 Kahden muuttujan riippuvuus (2) tilastollista riippuvuutta arvioitaessa on tarkasteltava muuttujien X ja Y yhteisjakaumaa visualisointi: vähintään intervalliasteikon muuttujien kyseessä ollessa voi piirtää havaintojen sirontakuvion (scatter plot) jokaista havaintoa kohti yksi piste (x i, y i ) Hannu Toivonen, Marko Salmenkivi, Inkeri VerkamoTutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi, kahden muuttujan tarkastelu 68/81Kevät 2003
69 Sirontakuvio (scatter plot) jokaista kurssin osallistujaa kohti yksi piste x-akseli: sukunimen pituus, y-akseli: etunimen pituus Etu- ja sukunimen pituus (Tutiha k2003) etunimen pituus sukunimen pituus Hannu Toivonen, Marko Salmenkivi, Inkeri VerkamoTutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi, kahden muuttujan tarkastelu 69/81Kevät 2003
70 Kahden muuttujan riippuvuus (3) kolmas muuttuja (kategoria-asteikko) voidaan erotella erilaisin kuvioin/värein) esimerkki, eri yritysten murot: Sugars (g) Hannu Toivonen, Marko Salmenkivi, Inkeri VerkamoTutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi, kahden muuttujan tarkastelu 70/81Kevät Calories General Mills Kelloggs Nabisco
71 Kovarianssi otoskovarianssi on tunnusluku, joka kuvaa vähintään intervalliasteikon muuttujien välisen assosiaation suuruutta n i=1 cov(x, y) = (x i x)(y i ȳ) n 1 keskistys mittaa lineaarista riippuvuutta huono puoli: otoskovarianssin arvot voivat olla mielivaltaisen suuria tai pieniä, riippuen muuttujien hajonnasta Hannu Toivonen, Marko Salmenkivi, Inkeri VerkamoTutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi, kahden muuttujan tarkastelu 71/81Kevät 2003
72 Korrelaatiokerroin (Pearsonin) korrelaatiokerroin ρ saadaan otoskovarianssista standardoimalla se muuttujien keskihajontojen tulolla ρ(x, y) = cov(x, y) σ x σ y 1 ρ(x, y) 1 ρ = 1, kun pisteet (x i, y i ) ovat samalla nousevalla suoralla ρ = 1, kun pisteet (x i, y i ) ovat samalla laskevalla suoralla Hannu Toivonen, Marko Salmenkivi, Inkeri VerkamoTutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi, kahden muuttujan tarkastelu 72/81Kevät 2003
73 Keskistys ja standardointi keskistys = siirretään mitta-asteikon nollakohta havaintojen keskiarvojen kohdalle keskistys tehdään vähentämällä jokaisesta havainnosta havaintojen keskiarvo standardointi = muunnetaan mitta-asteikkoa siten, että keskihajonnan suuruisesta poikkeamasta tulee suuruudeltaan 1 standardointi tehdään jakamalla jokainen keskistetty havainto havaintojen keskihajonnalla x i = (x i x) σ x, y i = (y i ȳ) σ y Hannu Toivonen, Marko Salmenkivi, Inkeri VerkamoTutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi, kahden muuttujan tarkastelu 73/81Kevät 2003
74 Keskistys ja standardointi (2) kurssilaisten etunimille x = 5.02, σ x = 1.74 sukunimille ȳ = 7.59, σ y = 1.99 x 1 = 6, y 1 = 5 x 1 = , y 1 = Hannu Toivonen, Marko Salmenkivi, Inkeri VerkamoTutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi, kahden muuttujan tarkastelu 74/81Kevät 2003
75 Keskistys ja standardointi (3) Etu- ja sukunimen pituus (Tutiha k2003) 3 2 etunimen pituus sukunimen pituus ρ(sukunimi, etunimi) 0.07 ei (lineaarista) riippuvuutta Hannu Toivonen, Marko Salmenkivi, Inkeri VerkamoTutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi, kahden muuttujan tarkastelu 75/81Kevät 2003
76 Korrelaatiokerroin poikkeavan havainnon vaikutus yksi poikkeava havainto riittää pudottamaan korrelaation arvoon 0.47 Hannu Toivonen, Marko Salmenkivi, Inkeri VerkamoTutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi, kahden muuttujan tarkastelu 76/81Kevät 2003
77 Mitä korrelaatio ei kerro? muuttujat voivat olla epälineaarisesti riippuvia, vaikka niiden välinen korrelaatio on on pieni (siis lähellä nollaa) korrelaatio ja kovarianssi eivät myöskään kerro mitään siitä, onko muuttujien välillä syy-seuraus -suhdetta (eli kausaalista riippuvuutta) Hannu Toivonen, Marko Salmenkivi, Inkeri VerkamoTutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi, kahden muuttujan tarkastelu 77/81Kevät 2003
78 Aikasarja mittausarvot ajan funktiona aika (h) Hannu Toivonen, Marko Salmenkivi, Inkeri VerkamoTutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi, kahden muuttujan tarkastelu 78/81Kevät 2003
79 Aikasarja (2) esimerkin arvot geenien aktiivisuutta ja passiivisuutta indikoivien aineiden pitoisuuksien suhteita arvo 0.5 kertoo, että ainetta A on kaksi kertaa enemmän kuin ainetta B arvo 2 kertoo, että ainetta B on kaksi kertaa enemmän kuin ainetta A mm. tällaisissa tilanteissa on luontevaa esittää arvot käyttäen logaritmistä asteikkoa gnuplotissa asetetaan log-asteikko/palautetaan tasavälinen asteikko komennoilla gnuplot>set logscale y 2 gnuplot> set nologscale y Hannu Toivonen, Marko Salmenkivi, Inkeri VerkamoTutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi, kahden muuttujan tarkastelu 79/81Kevät 2003
80 Gnuplot, viivadiagrammit pisteet, jotka yhdistetty viivalla (pisteet ja viivat niiden välille piirretään) gnuplot> set data style linespoints gnuplot> plot aikasarja u 1:2 gnuplot> plot aikasarja u 1:2 notitle lt 3 lw 2 pt 7 ps 0.8 pisteet, jotka yhdistetty viivalla (vain viivat piirretään) gnuplot> set data style lines gnuplot> plot aikasarja u 1:2 gnuplot> plot aikasarja u 1:2 notitle lt 3 lw 2 Hannu Toivonen, Marko Salmenkivi, Inkeri VerkamoTutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi, kahden muuttujan tarkastelu 80/81Kevät 2003
81 Yhteenveto eksploratiivinen data-analyysi dataan tutustumista visualisointi, tiivistäminen tunnusluvuin yhden muuttujan tarkastelu histogrammit keskiarvo, mediaani, otoskeskihajonta, kvartiiliväli kahden muuttujan tarkastelu sirontakuviot aikasarjat korrelaatiokerroin Hannu Toivonen, Marko Salmenkivi, Inkeri VerkamoTutkimustiedonhallinnan peruskurssi Eksploratiivinen data-analyysi, kahden muuttujan tarkastelu 81/81Kevät 2003
Tutkimustiedonhallinnan peruskurssi
Tutkimustiedonhallinnan peruskurssi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo hannu.toivonen, marko.salmenkivi, inkeri.verkamo@cs.helsinki.fi Helsingin yliopisto Hannu Toivonen, Marko Salmenkivi,
Sovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 11. lokakuuta 2007 Antti Rasila () TodB 11. lokakuuta 2007 1 / 15 1 Johdantoa tilastotieteeseen Peruskäsitteitä Tilastollisen kuvailun ja päättelyn menetelmiä
Tutkimustiedonhallinnan peruskurssi
Tutkimustiedonhallinnan peruskurssi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo hannu.toivonen, marko.salmenkivi, inkeri.verkamo@cs.helsinki.fi Helsingin yliopisto Hannu Toivonen, Marko Salmenkivi,
TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas
TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas TEOREETTISISTA JAKAUMISTA Usein johtopäätösten teko helpottuu huomattavasti, jos tarkasteltavan muuttujan perusjoukon jakauma noudattaa
Tilastollisia peruskäsitteitä ja Monte Carlo
Tilastollisia peruskäsitteitä ja Monte Carlo Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Tilastollisia peruskäsitteitä ja Monte Carlo 1/13 Kevät 2003 Tilastollisia
MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016
MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016
TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas
TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas JAKAUMAN MUOTO Vinous, skew (g 1, γ 1 ) Kertoo jakauman symmetrisyydestä Vertailuarvona on nolla, joka vastaa symmetristä jakaumaa (mm. normaalijakauma)
Kandidaatintutkielman aineistonhankinta ja analyysi
Kandidaatintutkielman aineistonhankinta ja analyysi Anna-Kaisa Ylitalo M 315, anna-kaisa.ylitalo@jyu.fi Musiikin, taiteen ja kulttuurin tutkimuksen laitos Jyväskylän yliopisto 2018 2 Havaintomatriisi Havaintomatriisi
Tilastotieteen kertaus. Kuusinen/Heliövaara 1
Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa
Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1
Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin
Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta
Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman
Parametrin estimointi ja bootstrap-otanta
Parametrin estimointi ja bootstrap-otanta Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 1/27 Kevät 2003 Käytännön asioista
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,
tilastotieteen kertaus
tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla
Tilastollinen aineisto Luottamusväli
Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden
Til.yks. x y z
Tehtävien ratkaisuja. a) Tilastoyksiköitä ovat työntekijät: Vatanen, Virtanen, Virtanen ja Voutilainen; muuttujina: ikä, asema, palkka, lasten lkm (ja nimikin voidaan tulkita muuttujaksi, jos niin halutaan)
FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo
FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 6. luento Pertti Palo 1.11.2012 Käytännön asioita Harjoitustöiden palautus sittenkin sähköpostilla. PalautusDL:n jälkeen tiistaina netistä löytyy
Sovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut
Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta
Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman
Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012
Korrelaatiokerroin Hanna Heikkinen 23. toukokuuta 2012 Matemaattisten tieteiden laitos Esimerkki 1: opiskelijoiden ja heidän äitiensä pituuksien sirontakuvio, n = 61 tyttären pituus (cm) 155 160 165 170
3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?
Seuraavassa muutamia lisätehtäviä 1. Erään yrityksen satunnaisesti valittujen työntekijöiden poissaolopäivien määrät olivat vuonna 003: 5, 3, 16, 9, 0, 1, 3,, 19, 5, 19, 11,, 0, 4, 6, 1, 15, 4, 0,, 4,
Harjoitus 2: Matlab - Statistical Toolbox
Harjoitus 2: Matlab - Statistical Toolbox Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen tavoitteet Satunnaismuuttujat ja todennäköisyysjakaumat
Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.
[MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, kevät 2019 https://coursepages.uta.fi/mtttp1/kevat-2019/ HARJOITUS 3 Joitain ratkaisuja 1. x =(8+9+6+7+10)/5 = 8, s 2 = ((8 8) 2 + (9 8) 2 +(6 8) 2 + (7 8) 2 ) +
Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4
18.9.2018/1 MTTTP1, luento 18.9.2018 KERTAUSTA Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4 pyöristetyt todelliset luokka- frekvenssi luokkarajat luokkarajat keskus 42 52 41,5
Kvantitatiiviset menetelmät
Kvantitatiiviset menetelmät HUOM! Tentti pidetään tiistaina.. klo 6-8 Vuorikadulla V0 ls Muuttujien muunnokset Usein empiirisen analyysin yhteydessä tulee tarve muuttaa aineiston muuttujia Esim. syntymävuoden
Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja
1 Luento 23.9.2014 KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja 2 Ristiintaulukko Esim. Toyota Avensis farmariautoja, nelikenttä (2x2-taulukko) 3 Esim. 5.2.6. Markkinointisuunnitelma
pisteet Frekvenssi frekvenssi Yhteensä
806118P JOHDATUS TILASTOTIETEESEEN Loppukoe 15.3.2018 (Jari Päkkilä) 1. Kevään -17 Johdaus tilastotieteeseen -kurssin opiskelijoiden harjoitusaktiivisuudesta saatujen pisteiden frekvenssijakauma: Harjoitus-
Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164
86118P JOHDATUS TILASTOTIETEESEEN Harjoituksen 3 ratkaisut, viikko 5, kevät 19 1. a) Havaintomatriisissa on viisi riviä (eli tilastoyksikköä) ja neljä saraketta (eli muuttujaa). Hannu mies LTK 18 Johanna
Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen. TKK (c) Ilkka Mellin (2005) 1
Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen TKK (c) Ilkka Mellin (2005) 1 Tilastollisten aineistojen kuvaaminen Havaintoarvojen jakauma Tunnusluvut Suhdeasteikollisten muuttujien tunnusluvut
Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi
Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi Diskreetit muuttujat,
Tutkimustiedonhallinnan peruskurssi
Tutkimustiedonhallinnan peruskurssi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo hannu.toivonen, marko.salmenkivi, inkeri.verkamo@cs.helsinki.fi Helsingin yliopisto Hannu Toivonen, Marko Salmenkivi,
Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N
11.9.2018/1 MTTTP1, luento 11.9.2018 KERTAUSTA Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N Populaation yksikkö tilastoyksikkö, havaintoyksikkö Otos populaation
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,
Esimerkki 1: auringonkukan kasvun kuvailu
GeoGebran LASKENTATAULUKKO Esimerkki 1: auringonkukan kasvun kuvailu Auringonkukka (Helianthus annuus) on yksivuotinen kasvi, jonka varren pituus voi aurinkoisina kesinä hyvissä kasvuolosuhteissa Suomessakin
Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.
[MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2017 http://www.uta.fi/sis/mtt/mtttp1/syksy_2017.html HARJOITUS 3 viikko 40 Joitain ratkaisuja 1. Suoritetaan standardointi. Standardoidut arvot ovat z 1 =
7. laskuharjoituskierros, vko 10, ratkaisut
7. laskuharjoituskierros, vko 10, ratkaisut D1. a) Oletetaan, että satunnaismuuttujat X ja Y noudattavat kaksiulotteista normaalijakaumaa parametrein E(X) = 0, E(Y ) = 1, Var(X) = 1, Var(Y ) = 4 ja Cov(X,
Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1
Todennäköisyyslaskun kertaus Vilkkumaa / Kuusinen 1 Satunnaismuuttujat ja todennäköisyysjakaumat Vilkkumaa / Kuusinen 2 Motivointi Kokeellisessa tutkimuksessa tutkittaviin ilmiöihin liittyvien havaintojen
HAVAITUT JA ODOTETUT FREKVENSSIT
HAVAITUT JA ODOTETUT FREKVENSSIT F: E: Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies
FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.
FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa Luentokuulustelujen esimerkkivastauksia Pertti Palo 30. marraskuuta 2012 Saatteeksi Näiden vastausten ei ole tarkoitus olla malleja vaan esimerkkejä.
GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus
GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus Mitä jäi mieleen viime viikosta? Mitä mieltä olet tehtävistä, joissa GeoGebralla työskentely yhdistetään paperilla jaettaviin ohjeisiin
Regressioanalyysi. Vilkkumaa / Kuusinen 1
Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen
MTTTP1, luento KERTAUSTA
25.9.2018/1 MTTTP1, luento 25.9.2018 KERTAUSTA Varianssi, kaava (2) http://www.sis.uta.fi/tilasto/mtttp1/syksy2018/kaavat.pdf n i i n i i x x n x n x x n s 1 2 2 1 2 2 1 1 ) ( 1 1 Mittaa muuttujan arvojen
TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas
TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen
Tilastolliset toiminnot
-59- Tilastolliset toiminnot 6.1 Aineiston esittäminen graafisesti Tilastollisen aineiston tallentamisvälineiksi TI-84 Plus tarjoaa erityiset listamuuttujat L1,, L6, jotka löytyvät 2nd -toimintoina vastaavilta
Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 2. AINEISTO...
Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA...9 1.2 AIHEESEEN PEREHTYMINEN...9 1.3
MTTTP1, luento KERTAUSTA
26.9.2017/1 MTTTP1, luento 26.9.2017 KERTAUSTA Varianssi, kaava (2) http://www.sis.uta.fi/tilasto/mtttp1/syksy2017/kaavat.pdf n i i n i i x x n x n x x n s 1 2 2 1 2 2 1 1 ) ( 1 1 Mittaa muuttujan arvojen
Testejä suhdeasteikollisille muuttujille
Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman
1. Tilastollinen malli??
1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen
Opiskelijanumero Yleisarvio Työläys Hyödyllisyys 12345A K K B U 3 3 3
Luku 6 Datajoukkojen jakaumat, tunnusluvut ja kuvaajat Lasse Leskelä Aalto-yliopisto. lokakuuta 207 6. Datajoukko ja datakehikko Tässä monisteessa datajoukko tarkoittaa järjestettyä listaa keskenään samantyyppisiä
Harjoitus 7: NCSS - Tilastollinen analyysi
Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen
Tilastollisten aineistojen kuvaaminen
Ilkka Mellin Tilastolliset menetelmät Osa 1: Johdanto Tilastollisten aineistojen kuvaaminen TKK (c) Ilkka Mellin (2007) 1 Tilastollisten aineistojen kuvaaminen >> Havaintoarvojen jakauma Tunnusluvut Suhdeasteikollisten
806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.
806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy 2012 1. Olkoon (X 1,X 2,...,X 25 ) satunnaisotos normaalijakaumasta N(µ,3 2 ) eli µ
TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas
TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas f 332 = 3 Kvartiilit(302, 365, 413) Kvartiilit: missä sijaitsee keskimmäinen 50 % aineistosta? Kvartiilit(302, 365, 413) Keskiarvo (362.2) Keskiarvo
MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu
5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017
Kvantitatiiviset tutkimusmenetelmät maantieteessä
Kvantitatiiviset tutkimusmenetelmät maantieteessä Harjoitukset: 2 Muuttujan normaaliuden testaaminen, merkitsevyys tasot ja yhden otoksen testit FT Joni Vainikka, Yliopisto-opettaja, GO218, joni.vainikka@oulu.fi
Estimointi. Vilkkumaa / Kuusinen 1
Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman
Havaitsevan tähtitieteen peruskurssi I. Datan käsittely. Jyri Lehtinen. kevät Helsingin yliopisto, Fysiikan laitos
Datan käsittely Helsingin yliopisto, Fysiikan laitos kevät 2013 3. Datan käsittely Luennon sisältö: Havaintovirheet tähtitieteessä Korrelaatio Funktion sovitus Aikasarja-analyysi 3.1 Havaintovirheet Satunnaiset
1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet
VAASAN YLIOPISTO/AVOIN YLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia 1 KURSSIKYSELYAINEISTO: 1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka
Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1
Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden
Regressioanalyysi. Kuusinen/Heliövaara 1
Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin
FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo
FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 9. luento Pertti Palo 22.11.2012 Käytännön asioita Eihän kukaan paikallaolijoista tee 3 op kurssia? 2. seminaarin ilmoittautuminen. 2. harjoitustyön
Diskreetin satunnaismuuttujan odotusarvo, keskihajonta ja varianssi
TOD.NÄK JA TILASTOT, MAA0 Diskreetin satunnaismuuttujan odotusarvo, keskihajonta ja varianssi Kuten tilastojakaumia voitiin esittää tunnuslukujen (keskiarvo, moodi, mediaani, jne.) avulla, niin vastaavasti
2. Aineiston kuvailua
2. Aineiston kuvailua Avaa (File/Open/Data ) aineistoikkunaan tiedosto tilp150.sav. Aineisto on koottu Tilastomenetelmien peruskurssilla olleilta. Tiedot osallistumisesta demoihin, tenttipisteet, tenttien
Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit
Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Sisältö Tilastollisia testejä tehdään jatkuvasti lukemattomilla aloilla. Meitä saattaa kiinnostaa esimerkiksi se, että onko miesten ja
Johdatus tn-laskentaan perjantai 17.2.2012
Johdatus tn-laskentaan perjantai 17.2.2012 Kahden diskreetin muuttujan yhteisjakauma On olemassa myös monen muuttujan yhteisjakauma, ja jatkuvien muuttujien yhteisjakauma (jota ei käsitellä tällä kurssilla;
TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas
TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas Itse arvioidun terveydentilan ja sukupuolen välinen riippuvuustarkastelu. Jyväskyläläiset 75-vuotiaat miehet ja naiset vuonna 1989.
MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu
10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2
r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.
A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät
pitkittäisaineistoissa
Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon
TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas
TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas MUITA HAJONNAN TUNNUSLUKUJA Varianssi, variance (s 2, σ 2 ) Keskihajonnan neliö Käyttöä enemmän osana erilaisia menetelmiä (mm. varianssianalyysi),
TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas
TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi
Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4
Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 6 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA... 7 1.2 AIHEESEEN PEREHTYMINEN...
Kuvioita, taulukoita ja tunnuslukuja. Aki Taanila 2.2.2011
Kuvioita, taulukoita ja tunnuslukuja Aki Taanila 2.2.2011 1 Tilastokuviot Pylväs Piirakka Viiva Hajonta 2 Kuviossa huomioitavia asioita 1 Kuviolla tulee olla tarkoitus ja tehtävä (minkä tiedon haluat välittää
TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas
TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen
Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?
21.3.2019/1 MTTTP1, luento 21.3.2019 7 TILASTOLLISEN PÄÄTTELYN PERUSTEITA Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä
Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä
Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),
VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170
VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE 4.6.2013 Ratkaisut ja arvostelu 1.1 Satunnaismuuttuja X noudattaa normaalijakaumaa a) b) c) d) N(170, 10 2 ). Tällöin P (165 < X < 175) on likimain
Hieman linkkejä: http://cs.stadia.fi/~kuivanen/linux/kom.php, lyhyt ohje komentoriviohjelmointiin.
Linux-harjoitus 9 Linuxin mukana tulevat komentotulkit (mm. bash, tcsh, ksh, jne ) sisältävät ohjelmointikielen, joka on varsin tehokas ja ilmaisuvoimainen. Tähän yhdistettynä unix-maailmasta tutut tehokkaat
Mat Tilastollisen analyysin perusteet, kevät 2007
Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen 1 Jakaumaoletuksien testaamiseen soveltuvat testit χ 2 -yhteensopivuustesti yksi otos otoksen
T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1
T-61.281 Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti 10.2.2004, 8:30-10:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:
Matemaatikot ja tilastotieteilijät
Matemaatikot ja tilastotieteilijät Matematiikka/tilastotiede ammattina Tilastotiede on matematiikan osa-alue, lähinnä todennäköisyyslaskentaa, mutta se on myös itsenäinen tieteenala. Tilastotieteen tutkijat
1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet
VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia A KURSSIKYSELYAINEISTO: 1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka
Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.
5.10.2017/1 MTTTP1, luento 5.10.2017 KERTAUSTA Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. Muodostetaan väli, joka peittää parametrin etukäteen valitulla todennäköisyydellä,
Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden
1 KERTAUSTA JA TÄYDENNYSTÄ Luento 30.9.2014 Olkoon satunnaisotos X 1, X 2,, X n normaalijakaumasta N(µ, σ 2 ), tällöin ~ N(µ, σ 2 /n), kaava (6). Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma
Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.
1/11 4 MITTAAMINEN Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku. Mittausvirhettä johtuen mittarin tarkkuudesta tai häiriötekijöistä Mittarin
Til.yks. x y z 1 2 1 20.3 2 2 1 23.5 9 2 1 4.7 10 2 2 6.2 11 2 2 15.6 17 2 2 23.4 18 1 1 12.5 19 1 1 7.8 24 1 1 9.4 25 1 2 28.1 26 1 2-6.2 33 1 2 33.
Tehtävien ratkaisuja. a) Tilastoyksiköitä ovat työntekijät: Vatanen, Virtanen, Virtanen ja Voutilainen; muuttujina: ikä, asema, palkka, lasten lkm (ja nimikin voidaan tulkita muuttujaksi, jos niin halutaan)
Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?
TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman
StatCrunch -laskentasovellus
StatCrunch -laskentasovellus Yleistä sovelluksesta StatCrunch on Integrated Analytics LLC:n valmistama sovellus tilastotieteellisten analyysien tuottamista varten. Se on verkon yli käytettävä analyysisovellus,
Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1
Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus TKK (c) Ilkka Mellin (2007) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset
Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1
Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2004) 1 Testit laatueroasteikollisille muuttujille Laatueroasteikollisten muuttujien testit Testi suhteelliselle
Mat Tilastollisen analyysin perusteet, kevät 2007
Mat-.04 Tilastollisen analyysin perusteet, kevät 007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen Jakaumaoletuksien testaamiseen soveltuvat testit χ -yhteensopivuustesti yksi otos otoksen vertaaminen
Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.
6.10.2016/1 MTTTP1, luento 6.10.2016 KERTAUSTA JA TÄYDENNYSTÄ Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. Muodostetaan väli, joka peittää parametrin etukäteen valitulla
Määrällisen aineiston esittämistapoja. Aki Taanila
Määrällisen aineiston esittämistapoja Aki Taanila 7.11.2011 1 Muuttujat Aineiston esittämisen kannalta muuttujat voidaan jaotella kolmeen tyyppiin: Kategoriset (esimerkiksi sukupuoli, koulutus) Asteikolla
Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.
6.10.2015/1 MTTTP1, luento 6.10.2015 KERTAUSTA JA TÄYDENNYSTÄ Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. Muodostetaan väli, joka peittää parametrin etukäteen valitulla
Mat Tilastollisen analyysin perusteet, kevät 2007
Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1 Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään
KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!
VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia A KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun
Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1
Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään tiedetään, että ainakin kaksi
Sovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi