Harjoitus 2: Matlab - Statistical Toolbox Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1
Harjoituksen tavoitteet Satunnaismuuttujat ja todennäköisyysjakaumat Pistetodennäköisyysfunktio, tiheysfunktio, kertymäfunktio Odotusarvo, varianssi ja keskihajonta Tilastollisten jakaumien estimointi Mat-2.2107 Sovelletun matematiikan tietokonetyöt 2
Mittaaminen Tilastollisen tutkimuksen kohdetta kuvaavat numeeriset ja kvantitatiiviset tiedot saadaan mittaamalla. Mitta-asteikot: - Nominaali- eli laatueroasteikko. Omena vai appelsiini? - Ordinaali- eli järjestysasteikko. Monesko? - Intervalli- eli välimatka-asteikko. Kuinka suuri ero? - Suhdeasteikko. Kuinka monta kertaa enemmän tai vähemmän? Kvalitatiivisia ominaisuuksia kuvataan laatueroasteikollisilla muuttujilla ja kvantitatiivisia puolestaan välimatka- tai suhdeasteikollisilla muuttujilla. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 3
Käsitteitä Satunnaismuuttuja on satunnaisilmiön tulosvaihtoehtoihin liitetty reaaliarvoinen funktio. Satunnaismuuttuja on funktiona täysin määrätty, mutta sattuma määrää mikä alkeistapahtumista realisoituu ja sitä kautta myös minkä arvon satunnaismuuttuja saa. Todennäköisyysjakauma kuvaa otosavaruuden todennäköisyysmassan (= 1) jakautumista otosavaruudessa määritellyn satunnaismuuttujan arvoalueelle. Tilastollinen malli on satunnaismuuttujan ja sen jakauman yhdistelmä. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 4
Satunnaismuuttujien tyyppejä Diskreetit satunnaismuuttujat - Satunnaismuuttuja on diskreetti, jos sen arvoalue on diskreetti joukko eli sen arvoalue muodostuu erillisistä reaaliakselin pisteistä. - Diskreetin muuttujan jakauma määrittelee alkeistapahtumien todennäköisyydet. Jatkuvat satunnaismuuttujat - Satunnaismuuttuja on jatkuva, jos sen arvoalue on jokin reaaliakselin osaväli. - Jatkuvan muuttujan jakauma määrittelee muuttujan arvoalueeseen kuuluvien reaaliakselin välien todennäköisyydet. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 5
Diskreettejä satunnaismuuttujia Kone tekee tuotetta n kpl päivässä. Satunnaisesti valittu tuote on viallinen todennäköisyydellä p. Viallisten tuotteiden lukumäärä päivän aikana tehtyjen tuotteiden joukossa on satunnaismuuttuja, joka noudattaa binomijakaumaa. Pyydystetään järvestä joukko kaloja, merkitään ne ja päästetään takaisin järveen. Pyydystetään myöhemmin uusi joukko kaloja. Merkittyjen kalojen määrä uudessa saaliissa on satunnaismuuttuja, joka noudattaa hypergeometrista jakaumaa. Palvelujonoon tulee keskimäärin k asiakasta aikayksikköä kohden. Jonakin aikavälinä saapuvien asiakkaiden lukumäärä on satunnaismuuttuja joka noudattaa Poisson-jakaumaa. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 6
Pistetodennäköisyysfunktio 1/2 Merkitään satunnaismuuttujan ξ arvojen joukkoa kirjaimella T: T = {x 1, x 2,...,x n }, jos S on äärellinen T = {x 1, x 2,... }, jos S on numeroituvasti ääretön Todennäköisyyttä Pr(ξ = x i ) = p i sanotaan pistetodennäköisyydeksi. Reaaliarvoinen funktio f määrittelee pistetodennäköisyysfunktion ξ:lle, jos 1. f(x i ) = Pr(ξ = x i ) x i T 2. f(x i ) 0 x i T 3. T f(x i) = 1 Pistetodennäköisyysfunktion vakiot eli parametrit määräävät pistetodennäköisyysfunktion muodon ts. jakauman muodon. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 7
Pistetodennäköisyysfunktio 2/2 Esim. Binomijakauman pistetodennäköisyysfunktio on muotoa: f(x n, p) = n! x!(n x)! px (1 p) (n x) 0.25 Binomijakauman pistetodennäköisyysfunktio, n=10; p=0.5 0.2 0.15 0.1 0.05 0 0 2 4 6 8 10 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 8
Jatkuvia satunnaismuuttujia Vapaasti pyörivän onnenpyörä osoittimen kulman muutos osoitinta pyöräytettäessä on tasajakautunut eli tasaisesti jakautunut jatkuva satunnaismuuttuja. Palvelujonoon tulee keskimäärin k asiakasta aikayksikköä kohden. Aika, joka kuluu kunnes seuraava asiakas saapuu jonoon on jatkuva satunnaismuuuttuja, joka noudattaa eksponenttijakaumaa. Viisivuotiaden tyttöjen pituus on jatkuva satunnaismuuttuja, jonka voidaan sanoa noudattavan approksimatiivisesti normaalijakaumaa. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 9
Tiheysfunktio Reaaliarvoinen funktio f määrittelee (todennäköisyys-) tiheysfunktion jatkuvalle satunnaismuuttujalle ξ, jos 1. f(x) on x:n jatkuva funktio 2. f(x) 0 x R 3. + f(x)dx = 1 4. Pr(a ξ b) = b a f(x)dx Tiheysfunktion vakioita sanotaan jakauman parametreiksi ja ne määräävät tiheysfunktion muodon ts. jakauman muodon. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 10
Jatkuvan jakauman todennäköisyydet Edellisten lisäksi on hyvä huomata: Pr(ξ = b) = lim a b Pr(a ξ b) = lim a b b a f(x)dx = 0 Tiheysfunktio voidaan määritellä myös paloittain. Esim. olkoon x + b, kun 0 x 1 f(x) = 0, muulloin Tällöin 1 0 f(x)dx = 1 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 11
Diskreetti vs. jatkuva Diskreettiä satunnaisfunktiota ξ vastaavan pistetodennäköisyysfunktion f arvo pisteessä x i on todennäköisyys: f(x i ) = Pr(ξ = x i ) Näin ollen 0 f(x i ) 1 Jatkuvaa satunnaismuuttujaa ξ vastaavan tiheysfunktion f arvo pisteessä x ei ole todennäköisyys, joten on mahdollista, että f(x) > 1 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 12
Kertymäfunktio Satunnaismuuttujan ξ kertymäfunktio F(x) = Pr(ξ x) kuvaa todennäköisyysmassan kertymistä argumentin x kasvaessa. Pr(ξ > x) = 1 F(x) Pr(a ξ b) = F(b) F(a) Diskreetissä tapauksessa kertymäfunktio saadaan kaavalla F(x) = Pr(ξ x) = i x i x Jatkuvassa tapauksessa kertymäfunktio saadaan kaavalla F(x) = Pr(ξ x) = x p i f(x)dx Mat-2.2107 Sovelletun matematiikan tietokonetyöt 13
Tiheys- ja kertymäfunktio >> x = -5:0.1:5; >> pdf = normpdf(x); % Normaalijakauman tiheysfunktio >> plot(x,pdf) >> cdf = normcdf(x); % Normaalijakauman kertymäfunktio >> plot(x,cdf) 0.4 Normaalijakauman tiheysfunktio 1 Normaalijakauman kertymäfunktio 0.35 0.3 0.8 0.25 0.6 0.2 0.15 0.4 0.1 0.05 0.2 0 5 0 5 0 5 0 5 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 14
Frekvenssit ja havaintoarvojen jakauma Diskreetti muuttuja: Havaittujen arvojen jakaumaa kuvataan frekvessijakaumalla ja sitä vastaavalla graafisella esityksellä, joka on pylväsdiagrammi. Jatkuva muuttuja: Havaittujen arvojen jakaumaa kuvataan luokitellulla frekvessijakaumalla ja sitä vastaavalla graafisella esityksellä, joka on histogrammi. Histogrammissa pinta-ala vastaa frekvenssiä ja pylväsdiagrammissa korkeus. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 15
Pylväsdiagrammi 250 Pylväsdiagrammi binomijakaumasta generoiduista satunnaisluvuista Frekvenssi eli havaintojen lukumäärä 200 150 100 50 0 0 2 4 6 8 10 Satunnaismuuttujan arvo Mat-2.2107 Sovelletun matematiikan tietokonetyöt 16
Histogrammi >> % Generoidaan 1000 satunnaislukua normaalijakaumasta >> y=normrnd(0,1,1000,1); >> % Muodostetaan histogrammi >> hist(y) 300 Histogrammi normaalijakaumasta generoiduista satunnaisluvuista Frekvenssi eli havaintojen lukumäärä 250 200 150 100 50 0 4 3 2 1 0 1 2 3 4 Satunnaismuuttujan arvo Mat-2.2107 Sovelletun matematiikan tietokonetyöt 17
Tunnuslukuja suhdeasteikolliselle aineistolle 1/2 Aritmeettinen keskiarvo: x = 1 n n i=1 x i Otosvarianssi: s 2 = 1 n 1 n i=1 (x i x) 2 = 1 n 1 ( n ) x 2 i n x 2 i=1 Otoskeskihajonta: s = s 2 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 18
Tunnuslukuja suhdeasteikolliselle aineistolle 2/2 Standardoitujen havaintoarvojen z i = x i x, i = 1, 2,..., n s x aritmeettinen keskiarvo ja otosvarianssi ovat z = 1 n n i=1 z i = 0 s 2 z = 1 n 1 n (z i z) 2 = 1 i=1 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 19
Odotusarvo Satunnaismuuttujan X odotusarvo on jakauman painopiste. Samalla se on piste, jonka ympärillä satunnaismuuttujan arvot vaihtelevat koetoistosta toiseen. Diskreetille jakaumalle odotusarvo määritellään seuraavasti: E(X) = µ X = i x i p i = i x i f(x i ) Vastaavasti jatkuvalle jakaumalle odotusarvo määritellään näin: E(X) = µ X = + xf(x)dx Mat-2.2107 Sovelletun matematiikan tietokonetyöt 20
Varianssi ja keskihajonta Satunnaismuuttujan X varianssi on satunnaismuuttujan odotusarvosta lasketun poikkeaman neliön odotusarvo. Ts. varianssi kuvaa vaihtelun neliötä. Diskreetin satunnaismuuttujan varianssi: D 2 (X) = Var(X) = σ 2 X = i (x i µ x ) 2 p i = i (x i µ x ) 2 f(x i ) Jatkuvan satunnaismuuttujan varianssi: D 2 (X) = Var(X) = σ 2 X = + (x µ x ) 2 f(x)dx Standardipoikkeama eli keskihajonta saadaan varianssin neliöjuurena: D(X) = D 2 (X) = Var(X) Mat-2.2107 Sovelletun matematiikan tietokonetyöt 21
Estimointi Tilastollisen tutkimuksen tärkeimpiä osatehtäviä on estimoida eli arvioida tutkimuksen kohteena olevaa ilmiötä koskevat havainnot generoineen prosessin mallina käytettävän todennäköisyysjakauman tuntemattomat parametrit ilmiötä koskevien havaintojen perusteella. Havaintojen funktiota, joka tuottaa estimaatteja parametrin todelliselle arvolle, kutsutaan parametrin estimaattoriksi. Piste-estimointi: Todennäköisyysjakauman parametrin arvon estimointi. Väliestimointi: Parametrin estimaattiin liittyvän luottamusvälin määrääminen. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 22
Kysymyksiä 1. Mitä asteikkoa (nominaali/ordinaali/intervalli/suhde) käyttäisit lämpötilan kuvaamiseen? Entä ajan? 2. Jos pankkiin tulee asiakkaita eksponentiaalijakautuneesti, mitä jakaumaa tietyllä aikavälillä tulevien asiakkaiden määrä noudattaa? 3. Mitä eroa on diskreetillä ja jatkuvalla satunnaismuuttujalla? 4. Laske eksponentiaalijakauman (f(x) = λe λx, λ > 0) kertymäfunktio. 5. Miten histogrammi muodostetaan? 6. Mitä on piste-estimointi? Mat-2.2107 Sovelletun matematiikan tietokonetyöt 23