Tilastolliset jakaumat, niiden esittäminen ja tunnusluvut

Samankaltaiset tiedostot
Tilaston esittäminen frekvenssitaulukossa ja graafisesti. Keskiluvut luokittelemattomalle ja luokitellulle aineistolle: moodi, mediaani, keskiarvo.

Jatkuvat satunnaismuuttujat

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

Harjoitus 2: Matlab - Statistical Toolbox

Sovellettu todennäköisyyslaskenta B

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

3.7 Todennäköisyysjakaumia

Diskreetin satunnaismuuttujan odotusarvo, keskihajonta ja varianssi

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Sovellettu todennäköisyyslaskenta B

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

30A02000 Tilastotieteen perusteet

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen

Osa 2: Otokset, otosjakaumat ja estimointi

ABHELSINKI UNIVERSITY OF TECHNOLOGY

(b) Tarkista integroimalla, että kyseessä on todella tiheysfunktio.

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

Estimointi. Vilkkumaa / Kuusinen 1

Tutkimustiedonhallinnan peruskurssi

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Suotuisien tapahtumien lukumäärä Kaikki alkeistapahtumien lukumäärä

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

dx=5&uilang=fi&lang=fi&lvv=2014

tilastotieteen kertaus

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

14 Jatkuva jakauma. Käsitellään kuitenkin ennen täsmällisiä määritelmiä johdatteleva

Luottamusvälit. Normaalijakauma johnkin kohtaan

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

2. Jatkoa HT 4.5:teen ja edelliseen tehtavään: Määrää X:n kertymäfunktio F (x) ja laske sen avulla todennäköisyydet

Teema 7: Todennäköisyyksien laskentaa

Normaalijakaumasta johdettuja jakaumia

3. laskuharjoituskierros, vko 6, ratkaisut

Sovellettu todennäköisyyslaskenta B

Todennäköisyys (englanniksi probability)

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen aineisto Luottamusväli

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

2 exp( 2u), kun u > 0 f U (u) = v = 3 + u 3v + uv = u. f V (v) dv = f U (u) du du f V (v) = f U (u) dv = f U (h(v)) h (v) = f U 1 v (1 v) 2

805306A Johdatus monimuuttujamenetelmiin, 5 op

riippumattomia ja noudattavat samaa jakaumaa.

(b) Onko hyvä idea laske pinta-alan odotusarvo lähetmällä oletuksesta, että keppi katkeaa katkaisukohdan odotusarvon kohdalla?

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

6. laskuharjoitusten vastaukset (viikot 10 11)

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

031021P Tilastomatematiikka (5 op) viikko 3

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Matematiikan kotitehtävä 2, MAA 10 Todennäköisyys ja tilastot

TODENNÄKÖISYYS JA TILASTOT MAA6 KERTAUS

Mat Sovellettu todennäköisyyslasku A

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1

b) Jos Ville kaataisikin karkit samaan pussiin ja valitsisi sieltä sattumanvaraisen karkin, niin millä todennäköisyydellä hän saisi merkkarin?

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

ikä (vuosia) on jo muuttanut 7 % 46 % 87 % 96 % 98 % 100 %

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mat Sovellettu todennäköisyyslasku A

5/11 6/11 Vaihe 1. 6/10 4/10 6/10 4/10 Vaihe 2. 5/11 6/11 4/11 7/11 6/11 5/11 5/11 6/11 Vaihe 3

Tehtävät. 1. Ratkaistava epäyhtälöt. a) 2(4 x) < 12, b) 5(x 2 4x + 3) < 0, c) 3 2x 4 > 6. 1/10. Sukunimi (painokirjaimin)

,ܾ jaü on annettu niin voidaan hakea funktion

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Kertymäfunktio. TKK (c) Ilkka Mellin (2007) 1

7. laskuharjoituskierros, vko 10, ratkaisut

A-osio: Ilman laskinta, MAOL:in taulukkokirja saa olla käytössä. Maksimissaan tunti aikaa.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Talousmatematiikan perusteet: Luento 17. Integraalin sovelluksia kassavirta-analyysissa Integraalin sovelluksia todennäköisyyslaskennassa

Sovellettu todennäköisyyslaskenta B

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tehtäväsarja I Tehtävät 1-5 perustuvat monisteen kappaleisiin ja tehtävä 6 kappaleeseen 2.8.

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

Johdatus todennäköisyyslaskentaan Kertymäfunktio. TKK (c) Ilkka Mellin (2005) 1

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

4. laskuharjoituskierros, vko 7, ratkaisut

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Muista merkitä vastauspaperiin oma nimesi ja tee etusivulle pisteytysruudukko. Kaikkiin tehtävien ratkaisuihin välivaiheet näkyviin!

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

Satunnaismuuttujien muunnokset ja niiden jakaumat

Opiskelijanumero Yleisarvio Työläys Hyödyllisyys 12345A K K B U 3 3 3

Otosavaruus ja todennäköisyys Otosavaruus Ë on joukko, jonka alkiot ovat kokeen tulokset Tapahtuma on otosavaruuden osajoukko

1. a) Aineistot -osiosta löytyy kuntasektorin kuukausipalkat ammateittain vuonna 2016 (tehtava1a.ods).

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Esimerkki 1: auringonkukan kasvun kuvailu

Satunnaismuuttujan odotusarvo ja laskusäännöt

Sovellettu todennäköisyyslaskenta B

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Todennäköisyyslaskenta - tehtävät

Todennäköisyyslaskun kertaus. Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Inversio-ongelmien laskennallinen peruskurssi Luento 7

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Transkriptio:

TILASTO-OPPIA

Tilastolliset jakaumat, niiden esittäminen ja tunnusluvut Diskreetit jakaumat ja niiden esittäminen frekvenssitauluna ja kaaviona Jakauma on diskreetti jos tilastomuuttuja voi saada vain äärellisen määrän arvoja. Esim. Erääseen kokeeseen osallistui 28 opiskelijaa. Maksimipistemäärä oli 20 Kokeen arvosanat jakautuivat seuraavasti: Arvosanat Frekvenssitaulu Pylväskaavio (muodostetaan frekvenssitaulusta)

Diskreetit jakaumat / tunnusluvut Tunnuslukuja ovat : keskiarvo, keskihajonta, prosenttipisteet (joista tärkeimpinä mediaanit ja kvartiilit). Helpointa tunnusluvut on laskea alkuperäisestä aineistosta. Arvosanat Excelin A-sarakkeessa Tavallisimmat tunnusluvut ja vastaavat Excel-kaavat Keskiarvon kaava: Keskihajonnan kaava: ns. populaatiokeskihajonta P90- arvo eli 90% prosenttipiste on sellainen arvo, jota pienempiä on 90% havaintoarvoista ja suurempia 10% niistä. Tarkka arvo P90 määritetään interpoloimalla. Listassa esiintyvä mediaani on 50% prosenttipiste, alaneljännes ja yläneljännes ovat 25% ja 75% prosenttipisteet. Näihin ei tarvitsisi omaa funktiota, vaan voitaisiin käyttää percentile funktiota.

Luokitellun diskreetin aineiston tunnusluvut: Mikäli alkuperäistä dataa ei ole enää käytössä, voidaan tunnuslukuja määrittää myös frekvenssitaulukosta. Alla kaava keskiarvon ja keskihajonnan laskemisesta frekvenssitaulukon avulla Keskiarvon kaava: μ = f ix i n Keskihajonnan kaava: = 1 5 + 3 7 + + 2 19 28 = 12.3 σ = f i(x i μ) 2 n = 1 5 12.3 2 + + 2 19 12.3 2 28 = 3.8 Keskihajonta kuvaa sitä, kuinka laajalle muuttujan arvot ovat jakautuneet keskiarvon ympärille. Keskihajonta = muuttujan arvojen ja keskiarvon etäisyyksien neliöiden keskiarvon neliöjuuri. Yht 28

Jatkuvat jakaumat ja niiden esittäminen Jakauma on jatkuva jos tilastomuuttuja voi saada mitä tahansa arvoja tietyltä väliltä (periaatteessa mahdollisia arvoja voi olla ääretön määrä, käytännössä ei ääretön, mutta hyvin suuri määrä, koska mittaustarkkuus on rajallinen). Frekvenssitaulu laaditaan siten, että muuttujien arvojen alue jaetaan osaväleihin eli luokkiin, ja lasketaan luokkien frekvenssit Grafiikaksi sopii pylväsgrafiikka tai histogrammi

Jatkuvat jakaumat / tunnusluvut Helpointa tunnusluvut on laskea alkuperäisestä aineistosta. (funktiot: average, stdev.p, median, quartile, percentile) Tunnusluvut: Keskihajontoja on Excelissä kaksi, kuten laskimissakin: Populaatiokeskihajontaa stdev.p käytetään, kun on tutkittu koko populaatio Otoskeskihajontaa stdev.s, kun on tutkittu vain otos populaatiosta Ero tuloksissa on mitättömän pieni, jos havaintojen määrä n on suuri. σ = (x μ)2 n s = (x μ)2 n 1 populaatiokeskihajonta otoskeskihajonta σ n laskimissa σ n-1

Jatkuvat jakaumat / tunnusluvut Helpointa tunnusluvut on laskea alkuperäisestä aineistosta. Muutoin: MIKÄLI AINEISTOSTA ON JÄLJELLÄ VAIN LUOKAT JA FREKVENSSIT VOIDAAN TUNNUSLUKUJEN LIKIARVOJA LASKEA KÄYTTÄMÄLLÄ KOKO LUOKAN MUUTTUJAN ARVONA X i LUOKKAKESKUKSIA: (usein kyselytutkimuksessa tilanne on juuri tämä, koska kysymyksen asettelussa on jo luokittelu mukana: esim. valitse ikäryhmä... ) Keskiarvon kaava: μ = f ix i n = 5 650 + 7 750 + + 8 1050 30 870 8 Keskihajonnan kaava: σ = f i(x i μ) 2 n = 5 650 870 2 + + 8 1050 870 2 30 146 vrt. edellisen kalvon ka = 861 ja kh =153 kun kaikki alkuperäiset x arvot olivat käyttävissä. Ero ei ole suuri.

- Todennäköisyys - Todennäköisyysjakaumat Odotusarvo Keskihajonta

Todennäköisyyden määritelmä KLASSINEN TODENNÄKÖISYYS E = tapahtuma-avaruus eli otosavaruus, joka koostuu alkeistapauksista, joiden tiedetään olevan yhtä todennäköisiä A = tapahtuma, joka on E:n osajoukko, jonka todennäköisyys halutaan laskea. Tapahtuman A todennäköisyys P(A) = k n n = kaikkien mahdollisten alkeistapausten lukumäärä k = tapahtuman A kannalta suotuisten alkeistapausten lukumäärä Esim. Laatikossa on 8 palloa, joista 4 sinistä, 3 punaista ja 1 keltainen. Laatikosta otetaan umpimähkään yksi pallo. Millä todennäköisyydellä se on punainen? P(punainen) = 3 8

TILASTOLLINEN TODENNÄKÖISYYS Tilastollista todennäköisyyttä hyödyntävät mm. vakuutusyhtiöt määrittäessään vakuutusmaksun suuruutta sekä autonvalmistajat määrittäessään takuuaikaa. on tapahtuman A suhteellisen frekvenssin raja-arvo, n jota se lähestyy kun satunnaista koetta toistetaan äärettömän monta kertaa. Tapahtuman A tilastollinen todennäköisyys P(A) = n(a) Esim1. Kolikkoa heitettäessä kruunan tilastollinen todennäköisyys on 0.5 (Mitä enemmän heittokertoja on, sitä lähemmäs 50% arvoa päästään). Esim2. Vakuutusyhtiö voi laskea esim. lappilaiselle 28 65 vuotiaalle kuljettajalle tilastollisen todennäköisyyden joutua porokolariin seuraavan vuoden aikana.

Diskreetti todennäköisyysjakauma Esimerkki: Heitetään yhtäaikaa 4 kolikkoa. Määritä eri kruunien määrän todennäköisyydet Symmetristen alkeistapausten joukossa on 16 tapausta: (0 = klaava, 1 = kruuna) Kaikkien tapausten todennäköisyyksien summa = 1 p i = 1 DISKREETISTI JAKAUTUNEEN MUUTTUJAN ODOTUSARVO LASKETAAN KAAVALLA μ = p i x i µ = 1 16 0 + 4 16 1 + 6 16 2 + 4 16 3 + 1 16 4 = 2 Odotusarvo 2 kruunaa tarkoittaa, että jos 4 kolikkoa heitettäisiin jatkuvasti, tilastollinen kruunien määrän keskiarvo lähestyisi 2 kruunaa. DISKREETISTI JAKAUTUNEEN MUUTTUJAN KESKIHAJONTA LASKETAAN KAAVALLA σ = p i (x i μ) 2 Σ= ( 1 16 0 2 2 + 4 16 1 2 2 + + 1 16 4 2 2 ) = 1

Esim1 odotusarvon laskemisesta. Erään ulkoilmatapahtuman tuotto riippuu sääolosuhteista seuraavalla tavalla. Sää Todennäköisyys P Tuotto x Aurinkoinen 40% 40000 Eur Pilvipouta, tuulinen 35% 10000 Eur Sateinen 25% - 20000 Eur Laske tuoton odotusarvo ( = keskimääräinen voitto jos tapahtumaa toistettaisiin äärettömän monta kertaa) μ = p i x i μ = 0.4*40000 + 0.35*10000 + 0.25*(-20000) = 14 500 Eur Tuoton odotusarvo on positiivinen, joten tapahtuman järjestämistä voi pitää kannattavana liiketoimena.

Jatkuvat todennäköisyysjakaumat Jatkuvassa jakaumassa satunnaismuuttuja x voi saada mitä tahansa arvoja tietyltä väliltä. x:n arvoja ja niiden todennäköisyyksiä kuvaavan taulukon tilalle tulee tiheysfunktio f(x) (engl. probability density function) Tiheysfunktio f(x) tai pdf(x) f(x):n arvo kuvaa muuttujan arvon x todennäköisyyttä f(x) f(x) 0 (saa vain positiivisia arvoja) Pinta-ala käyrän f(x) ja x akselin välissä = 1 muuttuja x cumulative density function Kertymäfunktio ϕ(x)= cdf(x) Pinta-ala edustaa arvoa ϕ(x) Kertymäfunktion arvo ϕ(x 0 ) = P(x x 0 ) ts. Kertymäfunktion arvo tietyssä kohdassa x 0 antaa todennäköisyyden sille, että muuttujan x arvo x 0 Keskiarvo ja -hajonta määritellään integraaleina μ = න xf x dx σ = න x μ 2 f x dx

Gaussin normaalijakauma Tärkein jatkuva jakauma on Gaussin normaalijakauma, jonka tiheyden ja kertymäfunktion määräävät kaksi parametria: keskiarvo μ ja keskihajonta σ f(x) f(x) = ϕ(x) = ϕ(x) =pintaala Laskuissa tarvitaan vain kertymäfunktiota ϕ(x). Kaavaa ei tarvitse käyttää, sillä funktiosta on MaOL:n taulukoissa taulukko ja Excelissä funktio NORMAL.DIST. Harjoituksissa käytetään Exceliä. Normaalijakaumaa noudattavan tilastomuuttujan x odotusarvo (keskiarvo) = μ ja keskihajonta σ Merkintä: Jos muuttuja x noudattaa normaalijakaumaa, jossa keskiarvo on μ ja keskihajonta σ, merkitään tätä yleisesti x ~ N(μ, σ) tai pitemmässä muodossa x ~ normal(μ, σ) Sanotaan myös: x on normaalijakautunut parametrein μ ja σ

Kertymäfunktion ja sen käänteisfunktion käyttö: PERUSTAPAUKSET 1. Lasketaan todennäköisyys sille, että muuttujan x arvo a P(x a) = ϕ(a) Excel: NORM.DIST 2. Lasketaan todennäköisyys sille, että muuttujan x arvo a P(x a) = 1 - ϕ(a) 3. Lasketaan TN sille, että a x b P(a x b) = ϕ(b) -ϕ(a) 4. Lasketaan annettua todennäköisyyttä P vastaava prosenttipiste x ϕ(x) = P => x = ϕ -1 (P) Excel: NORM.INV

Esim2. Suomen miespuolisen väestön keskipituus on 180.7 cm ja keskihajonta 7.4 cm. Oletetaan, että pituus noudattaa normaalijakaumaa. a) Mikä on todennäköisyys sille, että pituus 213 cm ( Lauri Markkanen) b) Mikä on pituuden P90 prosenttiarvo? c) Millä todennäköisyydellä pituus on välillä 190 cm 200 cm? a) P(x 213) = 1 - ϕ(213) = 1-0,99999364= 0,00000636 (ts. 6.4 miljoonasta b) P90 arvo saadaan ratkaisemalla x yhtälöstä ϕ(x) = 0.90 Tässä tarvitaan kertymäfunktion käänteisfunktiota ϕ -1 : x = ϕ -1 (0.9) = 190.2 cm => Siten pituuden 190.2 cm ylittäviä on 10% c) P(190 x 200) = ϕ(200)-ϕ(190) =0.996 0.899 = 0.097 = 9.7% Excelillä laskettu ϕ(213): =NORM.DIST(213;180,7;7;4;1) (argumentit: x, keskiarvo, keskihajonta, cumulative=1) antaa 0,99999517 Excelissä ϕ -1 on NORM.INV: =NORM.INV(90%;180,7;7;4) (argumentit: prosenttiluku, keskiarvo, keskihajonta) antaa 190,2 cm Excelissä ϕ -1 on NORM.INV: =NORM.DIST(200;180,7;7;4;1)- NORM.DIST(190;180,7;7;4;1)

Esim.3 Useiden sisäilman haitallisten yhdisteiden viitearvoina THL:n dokumenteissa ovat ns. P90 arvoja (ts. arvoja, joita suurempia tavataan vain 10% mittauksissa). Seuraavassa on 144 mitattua sisäilman formaldehydipitoisuutta eri puolilta Suomea. Yksikkönä on 1 μg/m 3 Mikä olisi niiden perusteella formaldehydin P90 arvo pyöristettynä kokonaisluvuksi? Arvot eivät noudata normaalijakaumaa, joten älä käytä normaalijakaumaan liittyviä funktioita. 1 A Tehtävä ratkeaa helposti käyttäen Excelin PERCENTILE funktiota: =PERCENTILE(A1:N14;90%) antaa arvon 14 (yksikkö on μg/m 3 )

Esim.4 Eräs sepelimurske on kelvollista käyttötarkoitukseensa, jos enintään 2.5% sen kivistä ylittää maksimiläpimitaltaan arvon 30 mm. Alla olevassa taulukossa on satunnaisesti valittujen 80 kivenkappaleen maksimiläpimitat työntömitalla mitattuna. Täyttääkö murske laatukriteerin? Oletetaan, että kyseisen murskeen kivien läpimitat noudattavat normaalijakaumaa. 1 A Lasketaan jakaumaparametrit: Keskiarvo μ = 20.1 (=average(a1:h10)) Keskihajonta σ = 6.8 (=stdev.s(a1:h10)) Lasketaan kuinka monta prosenttia kivistä on läpimitaltaan alle kriteerinä olevan 30 mm yläraja: = NORM.DIST(30;20,1;6,8;1) antaa 0,927 eli prosentteina 92,7% Johtopäätös: Sepelimurskeesta 92,7% alittaa kooltaan 30 mm rajan => 7,3% ylittää sen. Murske ei ole siten kelvollista. Toinen mahdollinen tapa olisi laskea suoraan 97.5% :ia vastaava läpimitta. =NORM.INV(97,5%; 20,1 ; 6,8) antaa 33,4 mm, joka selvästi ylittää 30 mm rajan.