((12345A, 5, 1, 5), (98759K, 1, 5, 2), (33312K, 4, 4, 3), (23453B, 4, 4, 3), (21453U, 3, 3, 3)),

Samankaltaiset tiedostot
Tilastolliset luottamusvälit

1. Valitaan tilanteeseen sopiva stokastinen malli. 2. Sovitetaan malli havaittuun dataan (estimoidaan mallin parametrit).

Opiskelijanumero Yleisarvio Työläys Hyödyllisyys 12345A K K B U 3 3 3

Luku 7. Parametrien estimointi. 7.1 Parametriset jakaumat. Lasse Leskelä Aalto-yliopisto 29. marraskuuta 2017

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017

Osa 2: Otokset, otosjakaumat ja estimointi

Johdatus tilastotieteeseen Otos ja otosjakaumat. TKK (c) Ilkka Mellin (2004) 1

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

8. laskuharjoituskierros, vko 11, ratkaisut

HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 2018 Harjoitus 3 Ratkaisuehdotuksia.

4. Todennäköisyyslaskennan kertausta

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Otos ja otosjakaumat. TKK (c) Ilkka Mellin (2005) 1

EX1 EX 2 EX =

Osa 2: Otokset, otosjakaumat ja estimointi

6.1 Riippumattomat satunnaismuuttujat

Johda jakauman momenttiemäfunktio ja sen avulla jakauman odotusarvo ja varianssi.

Johdatus tilastotieteeseen Estimointimenetelmät. TKK (c) Ilkka Mellin (2005) 1

Mat Sovellettu todennäköisyyslasku A. Otos- ja otosjakaumat Estimointi Estimointimenetelmät Väliestimointi. Avainsanat:

Tilastollinen päättely II, kevät 2017 Harjoitus 3B

Normaalijakaumasta johdettuja jakaumia. Normaalijakaumasta johdettuja jakaumia. Normaalijakaumasta johdettuja jakaumia: Mitä opimme?

Kaksiulotteinen normaalijakauma Mitta-asteikot Havaintoaineiston kuvaaminen ja otostunnusluvut

Tunnuslukuja 27 III TUNNUSLUKUJA

Keskihajonta ja korrelaatio

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Luennot, osa II

Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Konvergenssikäsitteet ja raja arvolauseet

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. (Jatkoa Harjoitus 5A tehtävään 4). Monisteen esimerkin mukaan momenttimenetelmän. n ne(y i Y (n) ) = 2E(Y 1 Y (n) ).

S Laskennallinen systeemibiologia

Satunnaismuuttujan odotusarvo ja laskusäännöt

Estimaattori, Estimointi, Mediaani, Moodi, Odotusarvo, Parametri, Posteriorijakauma, Tunnusluku

( ) k 1 = a b. b 1) Binomikertoimen määritelmän mukaan yhtälön vasen puoli kertoo kuinka monta erilaista b-osajoukkoa on a-joukolla.

Todennäköisyyslaskenta I, kesä 2017 Helsingin yliopisto/avoin yliopisto Harjoitus 3, ratkaisuehdotuksia

Otantajakauma. Otantajakauman käyttö päättelyssä. Otantajakauman käyttö päättelyssä

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Todennäköisyys, että yhden minuutin aikana saapuu 2 4 autoa.

Algebra I Matematiikan ja tilastotieteen laitos Ratkaisuehdotuksia harjoituksiin 5 (6 sivua)

Estimaattori, Estimointi, Mediaani, Moodi, Odotusarvo, Parametri, Posteriorijakauma, Tunnusluku

Satunnaismuuttujien summa ja keskiarvo

Liite B. Suomi englanti-sanasto

Johdatus todennäköisyyslaskentaan Konvergenssikäsitteet ja raja-arvolauseet. TKK (c) Ilkka Mellin (2004) 1

Bayesläiset tilastolliset mallit

Mat Sovellettu todennäköisyyslasku 9. harjoitukset/ratkaisut. Luottamusvälit

T Datasta tietoon, syksy 2005 Laskuharjoitus 8.12., ratkaisuja Jouni Seppänen

Tilastollinen todennäköisyys

Mat Sovellettu todennäköisyyslasku A

Sisältö. Kvantitatiivinen metodologia verkossa. Monitasomallintaminen. Monitasomallit. Regressiomalli dummy-muuttujilla.

Tilastollinen päättömyys, kevät 2017 Harjoitus 6A

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 2

Matematiikan tukikurssi

Tilastollisten aineistojen kuvaaminen. Tilastollisten aineistojen kuvaaminen. Tilastollisten aineistojen kuvaaminen: Mitä opimme?

Yhden selittäjän lineaarinen regressiomalli

TILASTOT: johdantoa ja käsitteitä

Satunnaismuuttujan odotusarvo ja laskusäännöt

6. Kombinaatio-oppi, todennäköisyys ja tilastot

MATP153 Approbatur 1B Harjoitus 1, ratkaisut Maanantai

Tilastollinen päättömyys, kevät 2017 Harjoitus 5b

Satunnaismuuttujien muunnokset ja niiden jakaumat. Satunnaismuuttujien muunnokset ja niiden jakaumat

****************************************************************** ****************************************************************** 7 Esim.

Mat Sovellettu todennäköisyyslasku A. Diskreetit jakaumat Jatkuvat jakaumat. Avainsanat:

pq n s n Kyllä Ei N Jäsenyys 5,4% 94.6 % 1500 Adressi 21,6% 78.4 % 1495 Lahjoitus 23,7% 76.3 % 1495 Mielenosoitus 1,1% 98.9 % 1489

Mat Sovellettu todennäköisyyslaskenta B 9. harjoitukset / Ratkaisut Aiheet: Estimointi Estimointimenetelmät Väliestimointi Avainsanat:

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Markov-ketjun hetkittäinen käyttäytyminen

Otantajakauman käyttö päättelyssä

LIITTEET Liite A Stirlingin kaavan tarkkuudesta...2. Liite B Lagrangen kertoimet...3

Matematiikan tukikurssi. Kertausta 1. välikokeeseen. Tehtävät

Matematiikan tukikurssi

11.1 Nollahypoteesi, vastahypoteesi ja p-arvo

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastolliset menetelmät: Tilastolliset testit

2-suuntainen vaihtoehtoinen hypoteesi

Todennäköisyyslaskenta: Todennäköisyysjakaumia

Matematiikan tukikurssi

= true C = true) θ i2. = true C = false) Näiden arvot löydetään kuten edellä Kun verkko on opetettu, niin havainto [x 1

Satunnaismuuttujien summa ja keskiarvo

Kurssin alkuosan sisältö. Tilastotieteen jatkokurssi. Kurssin loppuosan sisältö. 1. Todennäköisyyslaskenta. Heikki Hyhkö. 1. Todennäköisyyslaskenta

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

4.3 Signaalin autokorrelaatio

30A02000 Tilastotieteen perusteet

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Testit järjestysasteikollisille muuttujille. Testit järjestysasteikollisille muuttujille. Testit järjestysasteikollisille muuttujille: Esitiedot

Harjoitukset 1 : Tilastokertaus

n = 100 x = %:n luottamusväli µ:lle Vastaus:

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. osa, ks. Solmu 2/ Kahden positiivisen luvun harmoninen, geometrinen, aritmeettinen ja + 1 u v 2 1

11.1 Nollahypoteesi, vastahypoteesi ja poikkeavat havainnot

Testit suhdeasteikollisille muuttujille. Testit suhdeasteikollisille muuttujille. Testit suhdeasteikollisille muuttujille: Esitiedot

Stokastiikan perusteet Harjoitukset 1 (Todennäköisyysavaruus, -mitta ja -funktio)

Vastaus: Kertymäfunktio on F( x) = x, kun 0 x 20. Todennäköisyydet ovat molemmat 1. Frekvenssi f

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Markov-ketjun hetkittäinen käyttäytyminen

Ehdollinen todennäköisyys

2-suuntainen vaihtoehtoinen hypoteesi

Tilastolliset menetelmät

Johdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1

Ilkka Mellin (2008) 1/5

Transkriptio:

Luku 6 Datajoukkoje jakaumat, tuusluvut ja kuvaajat Lasse Leskelä Aalto-yliopisto 28. marraskuuta 207 6. Datajoukko ja datakehikko Tässä moisteessa datajoukko tarkoittaa järjestettyä listaa keskeää samatyyppisiä alkioita, esimerkiksi lukuja, merkkijooja tai äistä muodostettuja listoja. Moiulotteie datajoukko o datajoukko, joka alkiot ovat järjestettyjä listoja. Moiulotteie datajoukko esitetää yleesä datakehikkoa (egl. data frame) eli taulukkoa, joka jokaie rivi vastaa yhtä moiulotteise datajouko alkiota, ja joka sarakkeita kutsutaa datajouko muuttujiksi. Esimerkki 6.. Allaoleva datakehikko kuvastaa fiktiivise kurssi kurssipalautteesta koostettua eliulotteista datajoukkoa ((2345A, 5,, 5), (98759K,, 5, 2), (3332K, 4, 4, 3), (23453B, 4, 4, 3), (2453U, 3, 3, 3)), jossa o yksi merkkijooarvoie muuttuja (opiskelijaumero) ja kolme lukuarvoista muuttujaa (yleisarvio, työläys, hyödyllisyys). Opiskelijaumero Yleisarvio Työläys Hyödyllisyys 2345A 5 5 98759K 5 2 3332K 4 4 3 23453B 4 4 3 2453U 3 3 3 Tämä datajoukko voidaa myös tulkita eljä yksiulotteise datajouko listaa, esimerkiksi muuttujaa Yleisarvio vastaa datajoukko (5,, 4, 4, 3). Datajoukko ei ole tarkassa matemaattisessa mielessä joukko, sillä datajoukossa sama alkio voi esiityä mota kertaa. 76

6.2 Empiirie jakauma Suuresta datajoukosta (x,..., x ) o hakala muodostaa mielikuvaa pelkästää tarkastelemalla sitä vastaavaa datakehikkoa. Silloi kaattaa tutkia eri arvoje esiityvyyksiä. Arvo x esiityvyys eli frekvessi (x) = #{i : x i = x} o datajoukossa arvoltaa x olevie alkioide lukumäärä. Yksiulotteiselle datajoukolle eri arvoje esiityvyydet o tapaa raportoida esiityvyystaulukkoa tai vaakasuutaisea palkkikaavioa. Esimerki 6. datakehiko muuttujaa Yleisarvio vastaava datajouko (5,, 4, 4, 3) esiityvyystaulukko o esitetty alla. 5 x 2 3 4 5 (x) 0 2 4 3 2 0 2 0 2 3 Taulukko 6.: Datajouko (5,, 4, 4, 3) esiityvyydet. Ku halutaa vertailla arvoje esiityvyyksiä moessa erikokoisissa datajoukoissa, o absoluuttiste lukumäärie sijaa suositeltavaa vertailla suhteellisia esiityvyyksiä. Arvo x suhteellie esiityvyys f(x) = (x) (6.) kertoo, mikä osuus datajouko alkioista o arvoltaa x. Suhteelliset esiityvyydet o tapaa raportoida taulukkoa tai pylväskaavioa. Taulukossa 6. esitety datajouko suhteelliset esiityvyydet o esitetty alla. 0.5 0.4 x 2 3 4 5 f(x) 5 0 5 2 5 5 0.3 0.2 0. 0.0 2 3 4 5 Taulukko 6.2: Datajouko (5,, 4, 4, 3) suhteelliset esiityvyydet. Ylläoleva tauluko suhteelliset esiityvyydet ovat ei-egatiivisia ja summautuvat ykköseksi. Tästä seuraa, että kaava (6.) määrittämä fuktio f(x) o joki diskreeti jakauma tiheysfuktio. Kyseie diskreetti jakauma o 77

datajouko (x,..., x ) empiirie jakauma, ja fuktio f(x) sitä vastaava empiirie tiheysfuktio. Seuraava tulos ataa ituitiivise tulkia datajouko empiiriselle jakaumalle. Se mukaa empiirie jakauma voidaa tulkita todeäköisyysjakaumaa satuaismuuttujalle, joka saadaa valitsemalla datajoukosta yksi alkio tasaise satuaisesti. Datajouko empiirie tiheysfuktio f(x) kertoo siis todeäköisyyde, jolla datajoukosta tasaise satuaisesti valittu alkio o arvoltaa x. Fakta 6.2. Datajoukosta (x,..., x ) satuaisotaalla valitu alkio arvo X oudattaa datajouko empiiristä jakaumaa tiheysfuktioa f(x). Lisäksi pätee E[X] = x i (6.2) ja yleisemmi E[g(X)] = i= g(x i ). (6.3) Todistus. Datajoukosta tasaise satuaisesti poimittu alkio voidaa kirjoittaa satuaismuuttujaa X = x I, missä satuaismuuttuja I oudattaa ideksijouko {,..., } tasajakaumaa. Satuaismuuttuja X saa arvo x täsmällee silloi, ku satuaismuuttuja I kuuluu joukkoo A = {i : x i = x}, joka koko o #A = (x). Koska I oudattaa lukujouko {,..., } tasajakaumaa, pätee i= P(X = x) = P(I A) = #A = (x) = f(x). Perustellaa seuraavaksi kaava (6.3). Todetaa esiksi, että g(x i ) = x i= g(x)(x), sillä (x) kertoo lukumäärä, kuika mota kertaa arvo x esiityy yllä vasemma puole summassa. Odotusarvo yleistä laskukaavaa (3.2) ja empiirise tiheysfuktio määritelmää (6.) soveltamalla ähdää, että mielivaltaiselle fuktiolle g pätee E[g(X)] = x g(x)f(x) = x g(x) (x) = g(x)(x) = x g(x i ). i= Kaava (6.2) saadaa erikoistapauksea kaavasta (6.3), ku valitaa g(x) = x. 78

6.3 Ristitaulukko ja empiirie yhteisjakauma Kahde muuttuja datajoukko o järjestetty lista pareja ((x, y ),..., (x, y )). Arvopari (x, y) esiityvyys (x, y) = #{i : x i = x ja y i = y} o datajoukossa arvoltaa (x, y) olevie alkioide lukumäärä. Esimerki 6. muuttujat Yleisarvio ja Hyödyllisyys voidaa koostaa datajoukoksi ((5,5), (,2), (4,3), (4,3), (3,3)). Se arvoparie esiityvyydet voidaa taulukoida muodossa y x 2 3 4 5 Yht 0 0 0 0 2 0 0 0 0 0 0 3 0 0 0 0 4 0 0 2 0 0 2 5 0 0 0 0 Yht 0 3 0 Ylläoleva esitys o muuttujie x ja y esiityvyyksie ristitaulukko (egl. cotigecy table) ja tällaista esitysmeetelmää kutsutaa ristiitaulukoimiseksi (egl. cross tabulatio). Ristitauluko rivisummista saadaa muuttuja x esiityvyydet (vrt. taulukko 6.) ja sarakesummista muuttuja y esiityvyydet. Arvopari (x, y) suhteellie esiityvyys määritellää kaavalla. f(x, y) = (x, y). (6.4) Datajouko ((5,5), (,2), (4,3), (4,3), (3,3)) suhteelliset esiityvyydet voidaa taulukoida muodossa y x 2 3 4 5 Yht 0 0 0 0 5 5 2 0 0 0 0 0 0 3 0 0 0 0 5 5 2 2 4 0 0 0 0 5 5 5 0 0 0 0 5 5 Yht 0 5 3 5 0 Aiva kui yksiulotteisilleki datajoukoille, myös kaksiulotteise datajouko suhteelliset esiityvyydet f(x, y) ovat ei-egatiivisia ja summautuvat ykköseksi. Näi olle ylläoleva taulukko vastaa erää diskreeti yhteisjakauma tiheysfuktiota. Kyseie diskreetti jakauma o datajouko ((x, y ),..., (x, y )) empiirie yhteisjakauma, ja kaava (6.4) määrittämä fuktio f(x, y) sitä vastaava tiheysfuktio. Empiirise yhteisjakauma rivisummista saadaa datajouko (x,..., x ) empiirie jakauma (vrt. taulukko 6.2) ja sarakesummista datajouko (y,..., y ) empiirie jakauma. 79 5

Seuraava tulos tarjoaa todeäköisyystulkia empiiriselle yhteisjakaumalle. Se mukaa empiirie jakauma voidaa tulkita datajoukosta satuaisotaalla valitu pari yhteisjakaumaa, jolloi empiirie tiheysfuktio f(x, y) kertoo todeäköisyyde, jolla datajoukosta satuaisesti valitu pari arvot ovat x ja y. Tulokse todistus o raketeeltaa sama kui fakta 6.2 todistus. Fakta 6.3. Datajoukosta ((x, y ),..., (x, y )) satuaisotaalla valitu pari (X, Y ) yhteisjakauma o datajouko empiirie yhteisjakauma tiheysfuktioa f(x, y). Lisäksi pätee E[X] = x i, E[Y ] = y i, (6.5) ja yleisemmi i= E[g(X, Y )] = i= g(x i, y i ). (6.6) Todistus. Tarkastelu kohteea oleva datajoukko voidaa tulkita yksiulotteisea datajoukkoa (z,..., z ), joka alkiot koostuvat lukupareista z i = (x i, y i ). Satuaisesti valittu lukupari puolestaa voidaa esittää satuaismuuttujaa Z = (X, Y ). Tällöi fakta 6.2 mukaa P(Z = z) = i= ˆf(z), missä ˆf(z) o arvo z suhteellie esiityvyys datajoukossa (z,..., z ). Koska lukupari z = (x, y) suhteelliselle esiityvyydelle pätee ˆf(z) = f(x, y), havaitaa tästä että P(X = x, Y = y) = P(Z = z) = ˆf(z) = f(x, y). Satuaise lukupari (X, Y ) jakauma o siis datajouko empiirie yhteisjakauma. Kaava (6.6) perustelemiseksi tulkitaa g(x, y) yhde muuttuja fuktioa g(z) = g(x, y), joka syötteeä ovat lukuparit z = (x, y). Soveltamalla kaavaa (6.3) datajoukosta (z,..., z ) satuaisesti poimittuu alkioo Z havaitaa, että E[g(X, Y )] = E[ g(z)] = g(z i ) = g(x i, y i ). Näi olle kaava (6.6) o tosi. Kaavat (6.5) seuraavat erikoistapauksia sijoittamalla kaavaa (6.6) g(x, y) = x ja g(x, y) = y. 6.4 Datajouko keskiarvo ja keskihajota Yksiulotteise datajouko empiirie jakauma f(x) ataa hyvä kuva datajouko eri arvoje esiityvyyksistä. Kokoaise fuktio sijaa halutaa kuiteki usei raportoida yksittäisiä lukuja, jotka kuvaavat datajoukkoa. Tällaisia lukuja kutsutaa tuusluvuiksi. Lukuarvoise datajouko x = (x,..., x ) 80 i= i=

sijaitia kuvaavista tuusluvuista yleisi o keskiarvo m(x) = x i. i= Fakta 6.2 mukaa voidaa keskiarvo m(x) tulkita odotusarvoa E(X) datajoukosta satuaisotaalla poimitulle alkiolle X. Datajouko moodi o arvo, joka esiityvyys o suuri mahdollie. Toisi kui keskiarvo, moodi ei välttämättä ole yksikäsitteie. Datajouko hajotaa kuvaavia tuuslukuja ovat empiirie keskihajota sd e (x) = ( ) /2 (x i m(x)) 2, (6.7) i= ja otoskeskihajota sd s (x) = ( ) /2 (x i m(x)) 2. (6.8) i= Empiirie keskihajota o luoteva tapa mitata datajouko (x,..., x ) ormitettua eliöllistä vaihtelua, joka fakta 6.2 mukaa voidaa myös tulkita keskihajotaa SD(X) datajoukosta satuaisotaalla poimitulle alkiolle X. Otoskeskihajotaa puolestaa käytetää usei tilateissa, joissa tutemattoma datalähtee satuaisvaihtelu voimakkuutta pyritää estimoimaa siitä saadu rajallise havaio perusteella (tästä lisää luvussa 7). Empiirie keskihajota ja otoskeskihajota saadaa muuettua toisiksee kaava sd s (x) = ( ) /2 sd e (x) avulla, josta ähdää että sd s (x) sd e (x) suurille datajoukoille. Datajouko empiirie variassi ja otosvariassi määritellää kaavoilla var e (x) = sd e (x) 2 ja var s (x) = sd s (x) 2. (Yhteeveto tuusluvuista o kappaleessa 6.8.) 6.5 Kvatiilit Lukuarvoise datajouko kvatiili tasolla p (0, ) o tuusluku Q(p), joka avulla pilkotaa datajoukko kahtia ii, että alkioista suuri piirtei osuus p sijaitsee luvu Q(p) alapuolella ja loput alkioista luvu Q(p) yläpuolella. Tasoje 0.25, 0.5 ja 0.75 kvatiileja kutsutaa kvartiileiksi ja e tuetaa imillä alakvartiili, mediaai ja yläkvartiili. Tasoje 0.0, 0.02,... kvatiileja puolestaa kutsutaa prosetiileiksi. Yleisesti ottae kvatiilit määritellää järjestämällä datajouko (x,..., x ) alkiot suuruusjärjestyksee muodossa x () x (2) x (). 8

Luku x (k) o datajouko k:es järjestystuusluku. Taso p (0, ) kvatiili määritellää R-ohjelmistossa oletusarvoisesti peräkkäiste järjestystuuslukuje paiotettua keskiarvoa Q(p) = ( γ)x (j) + γx (j+), missä 2 j = p + ( p) ja γ = p + ( p) j. Ylläoleva kuvaus tulkittua p: fuktioksi o datajouko kvatiilifuktio 3. Kvatiilifuktio voi tulkita helpoite piirtämällä se kuvaaja seuraavasti: Jaetaa vaaka-akseli yksikköväli tasapituisee välii päätepisteiä luvut p k = (k )/( ), k =,...,. Piirretää tasoo pisteet (p k, x (k) ) ja yhdistetää e viivoilla. Esimerkki 6.4. Pieessä yrityksessä työsketelee eljä hekilöä, joide bruttopalkat ovat 2500, 3500, 2500, 9500 (eur/kk). Laske bruttopalkkoje järjestystuusluvut, piirrä kvatiilifuktio, ja määritä kvatiilifuktio avulla palkkajakauma alakvartiili, mediaai ja yläkvartiili. Datajouko (2500, 3500, 2500, 9500) järjestystuusluvut ovat x () = 2500, x (2) = 2500, x (3) = 3500 ja x (4) = 9500. Jaetaa vaaka-akseli yksikköväli kolmee yhtäpitkää osavälii päätepisteiä p = 0, p 2 = 3, p 3 = 2 3 ja p 4 =. Kvatiilifuktio kuvaaja saadaa piirtämällä tasoo pisteet (p, x () ),... (p 4, x (4) ) ja yhdistämällä e viivoilla. 0000 8000 6000 4000 2000 0 0.00 0.25 0.50 0.75.00 Kvatiilifuktio kuvaajasta luetaa: alakvartiili Q(0.25) = 2500, mediaai Q(0.5) = 3000 ja yläkvartiili Q(0.75) = 5000. Tässä datajoukossa mediaai 3000 o reilusti pieempi kui keskiarvo 4500. 2 x o luku x pyöristettyä alaspäi kokoaisluvuksi. 3 Kvatiilifuktio määritellää eri yhteyksissä hiema eri tavoi, esim. R-ohjelmisto tarjoaa kahdeksa vaihtoehtoista tapaa kvatiilifuktio laskemisee. 82

6.6 Kaksiulotteise datajouko tuusluvut Kahde muuttuja datajouko ((x, y ),..., (x, y )) yhteisvaihtelu suutaa ja voimakkuutta mitataa yleesä laskemalla empiirie kovariassi cov e (x, y) = (x i m(x))(y i m(y)) tai otoskovariassi cov s (x, y) = i= (x i m(x))(y i m(y)). i= Empiirie kovariassi ja otoskovariassi saadaa muuettua toisiksee kaava ( ) cov s (x) = cov e (x) avulla, josta ähdää että cov s (x) cov e (x) suurille datajoukoille. Kahde muuttuja datajouko korrelaatio määritellää ormittamalla empiirie kovariassi datajoukkoje x ja y empiirisillä keskihajooilla cor(x, y) = cov e(x, y) sd e (x) sd e (y). (6.9) Fakta 6.3 perusteella havaitaa, että empiirie kovariassi voidaa tulkita kovariassia Cov(X, Y ) satuaismuuttujie parille (X, Y ), joka saadaa poimimalla datajoukosta satuaie lukupari. Koska lisäksi pätee sd e (x) = SD(X) ja sd e (y) = SD(Y ), saadaa datajouko korrelaatiolle todeäköisyystulkita cor(x, y) = Cor(X, Y ). Soveltamalla faktaa (4.2) havaitaa, että mielivaltaise datajouko korrelaatio toteuttaa cor(x, y) +. Kaksiulotteie datajoukko voidaa visualisoida hajotakuvioa piirtämällä datajouko lukuparit (x, y)-tasoo. Alla o esitetty hajotakaaviot kolmelle kaksiulotteiselle sada alkio datajoukolle sekä iide korrelaatiot. 20 20 20 0 0 0 0 0 0 0 0 0 20 20 20 20 0 0 0 20 20 0 0 0 20 20 0 0 0 20 cor(x, y) = 0.645 cor(x, y) = 0.44 cor(x, y) = 0.75 83

Koska määritelmässä (6.9) muotoa / olevat termit osoittajassa ja imittäjässä kumoavat toisesa, voidaa datajouko korrelaatio laskea myös muodossa i= cor(x, y) = (x i m(x))(y i m(y)) ( i= (x i m(x)) 2 ) /2 ( i= (y i m(y)) 2 ) /2 tai otoskovariassi ja otoskeskihajotoje avulla muodossa cor(x, y) = cov s(x, y) sd s (x) sd s (y). Datajouko korrelaatiota kutsutaa myös imellä Pearsoi korrelaatiokerroi erotuksea muista, järjestyslukuihi perustuvista korrelaatiokertoimista. 6.7 Histogrammi Silloi ku datajoukko sisältää suure määrä arvoja, saattaa tarkka esiityvyystaulukko tai empiirie jakauma olla liia yksityiskohtaie, jotta se voisi selkeästi hahmottaa. Tällöi o tapaa karkeistaa dataa osittamalla arvojoukko pieempää määrää lukuvälejä. Näi saadaa datajouko luokiteltu esiityvyystaulukko. Luokitellu esiityvyystauluko suhteellisia osuuksia esittävä kuvaaja o datajouko histogrammi. Histogrammi piirretää yleesä äi: Yksi pylväs per luokka Pylvää leveys = luokkaväli leveys (yksikköä vuosi) Pylvää korkeus = datapisteide suhteellie osuus jaettua palki leveydellä (yksikköä % per vuosi) Seuraava esimerkki valaisee asiaa. Esimerkki 6.5 (Suomalaiste ikärakee). Suomalaiste ikärakee 3.2.205 sisältää = 5 487 308 miljooaa datapistettä 4. Ei ole järkeä piirtää jokaista pistettä kuvaajaa, vaa jaetaa datapisteet luokkii. Esim: Suomalaiset Ikä (v) Lukumäärä 0 4 896 023 5 24 640 387 25 44 363 55 45 64 464 640 65 74 642 428 75 480 675 4 Lähde: Tilastokeskus 84

. pylväs käsittää suomalaiset, joide ikä o 0 4 vuotta. pylvää leveys = 5 v Datapisteide lkm luokassa o 896023 ja suhteellie osuus 896023/5487308 6.3% Pylvää korkeus = 6.3/5.09 (yksikköä % per vuosi). prosettia per v 0 0.2 0.4 0.6 0.8.2.4.6 6.3%.7% 24.8% 26.7%.7% 8.8% 0 5 25 45 65 75 0 v 6.8 Yhteeveto Alla o lista datajoukkoje ja satuaismuuttujie tuuslukuihi liittyvistä merkiöistä sekä iitä vastaavat R- ja Excel-komeot. Merkitä Selitys R Excel m(x) Datajouko (x,..., x ) keskiarvo mea(x) AVERAGE sd s(x) Datajouko (x,..., x ) otoskeskihajota sd(x) STDEV.S sd e(x) Datajouko (x,..., x ) empiirie keskihajota - STDEV.P var s(x) Datajouko (x,..., x ) otosvariassi var(x) VAR.S var e(x) Datajouko (x,..., x ) empiirie variassi - VAR.P cov s(x, y) Datajouko ((x, y ),..., (x, y )) otoskovariassi cov(x,y) COVARIANCE.S cov e(x, y) Datajouko ((x, y ),..., (x, y )) empiirie kovariassi - COVARIANCE.P cor(x, y) Datajouko ((x, y ),..., (x, y )) korrelaatio cor(x,y) CORREL E(X) Satuaismuuttuja X jakauma odotusarvo - - SD(X) Satuaismuuttuja X jakauma keskihajota - - Var(X) Satuaismuuttuja X jakauma variassi - - Cov(X, Y ) Satuaismuuttujie X ja Y jakauma kovariassi - - Cor(X, Y ) Satuaismuuttujie X ja Y jakauma korrelaatio - - 85

6.9 Saastoa Alla tässä luvussa esiityyttä saastoa eglaiksi kääettyä. Moet tähä aihepiirii liittyvät termit eivät kuitekaa ole täysi vakiitueita kummassakaa kielessä. suomi alakvartiili datajoukko datakehikko empiirie jakauma empiirie keskihajota empiirie kovariassi empiirie tiheysfuktio empiirie yhteisjakauma esiityvyys esiityvyystaulukko histogrammi järjestystuusluku keskiarvo keskihajota korrelaatio kovariassi kvatiili kvartiili mediaai moodi muuttuja otoskeskiarvo otoskeskihajota otoskorrelaatio otoskovariassi prosetiili ristiitaulukoiti ristitaulukko suhteellie esiityvyys taulukko tuusluku yläkvartiili eglati lower quartile data set data frame empirical distributio empirical/populatio stadard deviatio empirical/populatio covariace empirical desity fuctio empirical joit distributio frequecy cotigecy table histogram order statistic mea, average stadard deviatio correlatio covariace quatile quartile media mode variable sample mea/average sample stadard deviatio sample correlatio sample covariace percetile cross tabulatio cotigecy table relative frequecy table statistic upper quartile 86

Hakemisto alakvartiili, 8 Bayesi kaava, 7, 06 Beroulli-jakauma, 63, 88 betajakauma, 0 biomijakauma, 63 biomikerroi, 20 bitti, 47 Chebyshevi epäyhtälö, 54 datajoukko, 76 datakehikko, 76 ekspoettijakauma, 28 empiirie kovariassi, 82 etropia, 47 ergodie, 50 erotus, esiityvyysharha, 7 estimaattori, 97 harhato estimaattori, 97 hylkäysalue, 29 hyperparametri, 2 idikaattorifuktio, 29 järjestystuusluku, 8 jakauma, 24 diskreetti, 26 empiirie, 77, 79 jatkuva, 26 kertoma, 20 kertymäfuktio, 25 keskiarvo, 80 keskihajota jakauma, 52 satuaismuuttuja, 52 keskieliövirhe, 94 kombiatoriikka, 8 komplemetti, korrelaatio yhteisjakauma, 56 kovariassi yhteisjakauma, 55 kvatiilifuktio, 8 kvartiili, 8 leikkaus, lukumäärä listat, 9 osajoukot, 20 lukumäärä, järjestykset, 20 mediaai, 8 merkitsevyystaso, 26 mitallie fuktio, 37 joukko, 2 mometti, 46 moodi, 80 multiomijakauma, 35 muuttuja, 76 ollahypoteesi, 23 ormaalijakauma ormitettu, 69 osajoukko, 0 ositus, 0 osituskaava, 6 otoskovariassi, 82 p-arvo, 24 perusjoukko, 9 pieimmä eliösumma meetelmä, 94 pistemassafuktio, 26 38

pistetodeäköisyysfuktio, 26 Poisso-jakauma, 27, 74 posteriorijakauma, 06 priorijakauma, 06 prosetiili, 8 reuajakauma diskreetti, 32 jatkuva, 32 reuatiheysfuktio diskreetti, 32 jatkuva, 32 riippumattomat satuaismuuttujat, 33 tapahtumat, 4 satuaismuuttuja, 23 diskreetti, 26 sigma-algebra, 2 suppeemie stokastie, 4 suurimma uskottavuude estimaatti, 89 suurte lukuje laki, 4 vahva, 50 toteuma, 9 tulojoukko, tyhjä joukko, uskottavuusfuktio, 89, 06 logaritmie, 90 variassi jakauma, 52 satuaismuuttuja, 52 vastahypoteesi, 23 yhdiste, yhteisjakauma, 28 diskreetti, 30 jatkuva, 30 tiheysfuktio, 30 yläkvartiili, 8 tapahtuma, 9 poissulkevat, 0 tasajakauma diskreetti, 27 jatkuva, 27 tiheysfuktio, 26 empiirie, 77 tilastollie merkitsevyys, 24 tilastollie testi, 23 todeäköisyys aksiooma, 2 ehdollie, 4 frekvessitulkita, 43 jakauma, 2 mitta, 2 mootoisuus, 2 summasäätö, 2 tulosäätö, 4 todeäköisyysfuktio, 26 todeäköisyysväli, 20 39

Kirjallisuutta [JP04] Jea Jacod ad Philip Protter. Probability Essetials. Spriger, secod editio, 2004. [Kal02] Olav Kalleberg. Foudatios of Moder Probability. Spriger, secod editio, 2002. [Wil9] David Williams. Probability with Martigales. Cambridge Uiversity Press, 99. 40